Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: duplicitni bloky textu  (Přečteno 1283 krát)

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
duplicitni bloky textu
« kdy: 12 Ledna 2011, 14:00:39 »
Hoj chtel jsem si stahnout texty z webu jednoho serialu. Jelikoz je prave ta cast dynamicky generovana zvolil jsem hrubou silu a pomici wget-u jsem postahoval cca 200 kopii. Sedem jsem pak vypreparoval bloky textu o ktere ma zajem.
Potreboval bych sak odstranit duplicitni bloky a stim si nevim rady.

Kdyby nekdo mel (jak, ze asi ma nejake) elegantnejsi reseni, budu rad. Jedna se o sekci "Hlášky" na adrese http://fringe.sff.cz/

Soubor s daty prikladam.

Dekuji za pomoc.

[attachment deleted by admin]
"Pouze text v MS Wordu je opravdu čistý, příteli."

pacholik

  • Závislák
  • ***
  • Příspěvků: 2072
Re: duplicitni bloky textu
« Odpověď #1 kdy: 12 Ledna 2011, 20:02:35 »
nejdřív sem v geditu smazal všechny znaky nových řádků, pak sem zaměnil "<br /><br />  " za "<br /><br />\n", pak odstranil ty nadpisy Hlášky a Poslední diskuze (to ti určitě nevadí) a pak už jenom
Kód: [Vybrat]
sort -uo fringe2.htm fringe.htmhttp://www.abclinuxu.cz/clanky/navody/unixove-nastroje-7-tr-cut-sort-a-uniq#sort

[attachment deleted by admin]

 

Provoz zaštiťuje spolek OpenAlt.