Fórum Ubuntu CZ/SK

Ubuntu pro osobní počítače => Software => Příkazový řádek a programování pro GNU/Linux => Téma založeno: Uran 04 Ledna 2012, 12:00:44

Název: wget rekurze mimo nadrazeny adresar
Přispěvatel: Uran 04 Ledna 2012, 12:00:44
Potreboval bych stahnout stranku http://www.abclinuxu.cz/serialy/unixove-nastroje a s ni i stranky na ktere odkazuje.

Zkousel jsem pomoci wget -r -l 2. Odkazy vsak vedou neḱam jinam nez o uroven vise takze to nefunguje.

Napadlo me ze zdrojoveho kodu vysekat ty spravne url, ale nez se do toho pustim tak by me zajimalo zdali to neumoznuje primo wget abych zase neobjevoval ameriku? :)
Název: Re:wget rekurze mimo nadrazeny adresar
Přispěvatel: Avogadrus 04 Ledna 2012, 12:50:36
Esli to chápu dobře tak chceš převést vzájemné odkazy na lokální. Parametr
Kód: [Vybrat]
-k
Název: Re:wget rekurze mimo nadrazeny adresar
Přispěvatel: Uran 04 Ledna 2012, 13:28:52
Esli to chápu dobře tak chceš převést vzájemné odkazy na lokální. Parametr
Kód: [Vybrat]
-k

No ja potrebuji komplet ziskat ty stranky na, ktere dana stranka odkazuje. Takze tohle nefunguje

Kód: [Vybrat]
wget -k http://www.abclinuxu.cz/serialy/unixove-nastroje
Nejak jsem to vysekal ze zdrojoveho kodu stranky, ale je to strasna prasarna:

Kód: [Vybrat]
cat zdrojovy_kod |  grep -o "<a href=\"\/clanky\/navody\/unixove-nastroje.*\">" | grep -v diskuse | sed 's#<a href=\"#www.abclinuxu.cz#g' | sed 's#\">##g' | tr '\n' ' '
Jinak jeste jsem narazil na komplikaci pokud bych chtel odkazy vypreparovat ze souboru stazeneho pomoci wget tak narazim na to, ze asi v ramci komprese wget vsechno zkomprimuje na jednu radku a pak se to tezko pracuje s grep-em.

Edit: da se pomoci grep-u vysekat z jednoho radku vic tech samych retezcu? Tj: fsdf aaa fsfsf bbb aaaa .... vygrepovat aaa i aaaa zaroven.
Název: Re:wget rekurze mimo nadrazeny adresar
Přispěvatel: starenka 04 Ledna 2012, 22:29:00
obcas nez laborovat s grepem a wgetem bejva snazsi pouzit (web)httrack