Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: wget rekurze mimo nadrazeny adresar  (Přečteno 1473 krát)

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
wget rekurze mimo nadrazeny adresar
« kdy: 04 Ledna 2012, 12:00:44 »
Potreboval bych stahnout stranku http://www.abclinuxu.cz/serialy/unixove-nastroje a s ni i stranky na ktere odkazuje.

Zkousel jsem pomoci wget -r -l 2. Odkazy vsak vedou neḱam jinam nez o uroven vise takze to nefunguje.

Napadlo me ze zdrojoveho kodu vysekat ty spravne url, ale nez se do toho pustim tak by me zajimalo zdali to neumoznuje primo wget abych zase neobjevoval ameriku? :)
"Pouze text v MS Wordu je opravdu čistý, příteli."

Avogadrus

  • Návštěvník
  • Příspěvků: 77
Re:wget rekurze mimo nadrazeny adresar
« Odpověď #1 kdy: 04 Ledna 2012, 12:50:36 »
Esli to chápu dobře tak chceš převést vzájemné odkazy na lokální. Parametr
Kód: [Vybrat]
-k
U12.04; jádro neznámé; XFCE 4.10

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
Re:wget rekurze mimo nadrazeny adresar
« Odpověď #2 kdy: 04 Ledna 2012, 13:28:52 »
Esli to chápu dobře tak chceš převést vzájemné odkazy na lokální. Parametr
Kód: [Vybrat]
-k

No ja potrebuji komplet ziskat ty stranky na, ktere dana stranka odkazuje. Takze tohle nefunguje

Kód: [Vybrat]
wget -k http://www.abclinuxu.cz/serialy/unixove-nastroje
Nejak jsem to vysekal ze zdrojoveho kodu stranky, ale je to strasna prasarna:

Kód: [Vybrat]
cat zdrojovy_kod |  grep -o "<a href=\"\/clanky\/navody\/unixove-nastroje.*\">" | grep -v diskuse | sed 's#<a href=\"#www.abclinuxu.cz#g' | sed 's#\">##g' | tr '\n' ' '
Jinak jeste jsem narazil na komplikaci pokud bych chtel odkazy vypreparovat ze souboru stazeneho pomoci wget tak narazim na to, ze asi v ramci komprese wget vsechno zkomprimuje na jednu radku a pak se to tezko pracuje s grep-em.

Edit: da se pomoci grep-u vysekat z jednoho radku vic tech samych retezcu? Tj: fsdf aaa fsfsf bbb aaaa .... vygrepovat aaa i aaaa zaroven.
« Poslední změna: 04 Ledna 2012, 13:33:58 od Uran »
"Pouze text v MS Wordu je opravdu čistý, příteli."

starenka

  • Stálý člen
  • **
  • Příspěvků: 1276
  • Karma: plynová [zapalovač] [hasičák]
    • /home/starenka
Re:wget rekurze mimo nadrazeny adresar
« Odpověď #3 kdy: 04 Ledna 2012, 22:29:00 »
obcas nez laborovat s grepem a wgetem bejva snazsi pouzit (web)httrack
mojenka | blozinek v2 | starej blozinek | krotim hady za penize | UJ! Kalužátor

Debian testing vrní v Thinkpadu X200/bedně/EEE 900a, MasoX Tiger v lampe

 

Provoz zaštiťuje spolek OpenAlt.