Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Software => Příkazový řádek a programování pro GNU/Linux => Téma založeno: Uran 12 Ledna 2011, 14:00:39
-
Hoj chtel jsem si stahnout texty z webu jednoho serialu. Jelikoz je prave ta cast dynamicky generovana zvolil jsem hrubou silu a pomici wget-u jsem postahoval cca 200 kopii. Sedem jsem pak vypreparoval bloky textu o ktere ma zajem.
Potreboval bych sak odstranit duplicitni bloky a stim si nevim rady.
Kdyby nekdo mel (jak, ze asi ma nejake) elegantnejsi reseni, budu rad. Jedna se o sekci "Hlášky" na adrese http://fringe.sff.cz/ (http://fringe.sff.cz/)
Soubor s daty prikladam.
Dekuji za pomoc.
[attachment deleted by admin]
-
nejdřív sem v geditu smazal všechny znaky nových řádků, pak sem zaměnil "<br /><br /> " za "<br /><br />\n", pak odstranil ty nadpisy Hlášky a Poslední diskuze (to ti určitě nevadí) a pak už jenom
sort -uo fringe2.htm fringe.htm
http://www.abclinuxu.cz/clanky/navody/unixove-nastroje-7-tr-cut-sort-a-uniq#sort
[attachment deleted by admin]