Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: wget rekurzivne s : nefunguje  (Přečteno 2232 krát)

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
wget rekurzivne s : nefunguje
« kdy: 05 Března 2009, 10:38:14 »
Tak jsem si chtel stahnout stranky (cast stranek)
Kód: [Vybrat]
http://wooledge.org:8000/BashFAQ a narazil jsem na problem. Nasledujici prikaz vzdy stahne jen aktualni stranku a nepracuje rekurzivne. Najinych typech struktur, kde neni ta : to funguje normalne.

Kód: [Vybrat]
wget -r -l 1 -k http://wooledge.org:8000/BashFAQ
"Pouze text v MS Wordu je opravdu čistý, příteli."

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
Re: wget rekurzivne s : nefunguje
« Odpověď #1 kdy: 05 Března 2009, 12:36:59 »
Jakehosi castecneho uspechu jsem dosahnul timto:

Kód: [Vybrat]
seq -f 'http://wooledge.org:8000/BashFAQ/%03g' 63 98 | wget -c -i -
, ale porad nerozumim tomu proc u wget-u nefunguje to rekurzivní stahovani?
"Pouze text v MS Wordu je opravdu čistý, příteli."

nettezzaumana

  • Host
Re: wget rekurzivne s : nefunguje
« Odpověď #2 kdy: 05 Března 2009, 13:58:39 »
Kód: [Vybrat]
wget -r -l 1 -k http://wooledge.org:8000/BashFAQ
.. ale hochu ;) ..

# wget --help | sed '/^\s*-\(r\|l\)/!d'
  -r,  --recursive          specify recursive download.
  -l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).

.. copak myslis ze asi udela kombinace `-r -l 1` ??

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
Re: wget rekurzivne s : nefunguje
« Odpověď #3 kdy: 05 Března 2009, 14:24:26 »
No s bashem teprve zacina, ale i pri navoleni hloubky rekurze treba 3 je vysledek stejny jako s 1,2,......


Kód: [Vybrat]
bash-3.2$ wget -r -l 3 -k http://wooledge.org:8000/BashFAQ
--2009-03-05 14:21:57--  http://wooledge.org:8000/BashFAQ
Překládám wooledge.org… 209.142.155.49
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: neudáno [text/html]
Ukládám do: „wooledge.org:8000/BashFAQ“.

    [                              <=>                                                   ] 133 364     20,0K/s   za 11s

2009-03-05 14:22:08 (12,3 KB/s) – „wooledge.org:8000/BashFAQ“ uložen [133364]

KONEC --2009-03-05 14:22:08--
Staženo: 1 souborů, 130K za 11s (12,3 KB/s)
Převádí se wooledge.org:8000/BashFAQ… 105-258
1 souborů převedeno za 0,006 sekund.
"Pouze text v MS Wordu je opravdu čistý, příteli."

MacHala

  • Stálý člen
  • **
  • Příspěvků: 1104
  • Big Bro iz watching joo!
    • ZlejT
Re: wget rekurzivne s : nefunguje
« Odpověď #4 kdy: 07 Března 2009, 22:40:03 »
jestli ono to nebude spis http://wooledge.org:8000/robots.txt ... viz http://wget.addictivecode.org/FrequentlyAskedQuestions#robots
Kód: [Vybrat]
wget -erobots=off --wait 1 -r -l 1 -k http://wooledge.org:8000/BashFAQ
--2009-03-07 22:33:02--  http://wooledge.org:8000/BashFAQ
Překládám wooledge.org… 209.142.155.49
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: neudáno [text/html]
Ukládám do: „wooledge.org:8000/BashFAQ“.

    [                                    <=>                                               ] 133 490     17,0K/s   za 13s     

2009-03-07 22:33:17 (9,75 KB/s) – „wooledge.org:8000/BashFAQ“ uložen [133490]

--2009-03-07 22:33:18--  http://wooledge.org:8000/moin_static182/common/js/common.js
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 12616 (12K) [application/x-javascript]
Ukládám do: „wooledge.org:8000/moin_static182/common/js/common.js“.

100%[=====================================================================================>] 12 616      15,9K/s   za 0,8s   

2009-03-07 22:33:19 (15,9 KB/s) – „wooledge.org:8000/moin_static182/common/js/common.js“ uloženo [12616/12616]

--2009-03-07 22:33:20--  http://wooledge.org:8000/moin_static182/modern/css/common.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 10957 (11K) [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/common.css“.

100%[=====================================================================================>] 10 957      10,9K/s   za 1,0s   

2009-03-07 22:33:21 (10,9 KB/s) – „wooledge.org:8000/moin_static182/modern/css/common.css“ uloženo [10957/10957]

--2009-03-07 22:33:22--  http://wooledge.org:8000/moin_static182/modern/css/screen.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 8090 (7,9K) [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/screen.css“.

100%[=====================================================================================>] 8 090       17,3K/s   za 0,5s   

2009-03-07 22:33:26 (17,3 KB/s) – „wooledge.org:8000/moin_static182/modern/css/screen.css“ uloženo [8090/8090]

--2009-03-07 22:33:27--  http://wooledge.org:8000/moin_static182/modern/css/print.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 775 [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/print.css“.

100%[=====================================================================================>] 775         --.-K/s   za 0s     

2009-03-07 22:33:28 (9,95 MB/s) – „wooledge.org:8000/moin_static182/modern/css/print.css“ uloženo [775/775]

--2009-03-07 22:33:29--  http://wooledge.org:8000/moin_static182/modern/css/projection.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 587 [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/projection.css“.

100%[=====================================================================================>] 587         --.-K/s   za 0s     

2009-03-07 22:33:29 (16,1 MB/s) – „wooledge.org:8000/moin_static182/modern/css/projection.css“ uloženo [587/587]

--2009-03-07 22:33:30--  http://wooledge.org:8000/EnglishFrontPage
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: neudáno [text/html]
Ukládám do: „wooledge.org:8000/EnglishFrontPage“.

atd...
« Poslední změna: 07 Března 2009, 23:05:01 od MacHala »
Prislusnik ligy, za kreativni pouzivani interpunkcnich znamenek, carek, predevsim.
=======================================
Tweetuju jako http://twitter.com/zl8

arrange

  • Závislák
  • ***
  • Příspěvků: 4031
  • "jdu s hlavou vztyčenou..."
Re: wget rekurzivne s : nefunguje
« Odpověď #5 kdy: 08 Března 2009, 14:54:16 »
Díky, MacHala

to bylo poučné. Nevěděl jsem, že wget respektuje robots.txt a nofollow. Taky možnost erobots v man wget není.

V tomto konkrétním případě je to problém spíš toho nofollow než robots.txt, viz
Kód: [Vybrat]
arrange@arrange-desktop:/tmp$ wget --debug -r -l 3 -k http://wooledge.org:8000/BashFAQ &> dbg
arrange@arrange-desktop:/tmp$ grep follow dbg
no-follow in wooledge.org:8000/BashFAQ: 1

Robots zmiňuje jen linky s 'action'
Citace: http://wooledge.org:8000/robots.txt
Disallow: /action/
což dává smysl. Umí wget respektovat robots.txt a ignorovat nofollow?
http://www.openstreetmap.org - mapy celého světa "wiki style"

Uran

  • Aktivní člen
  • *
  • Příspěvků: 341
Re: wget rekurzivne s : nefunguje
« Odpověď #6 kdy: 16 Března 2009, 15:51:00 »
Tak toto castecne vyradi robots.txt

Kód: [Vybrat]
wget -r -l inf -np -e robots=off http://wooledge.org:8000/BashFAQ
"Pouze text v MS Wordu je opravdu čistý, příteli."

 

Provoz zaštiťuje spolek OpenAlt.