Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Software => Příkazový řádek a programování pro GNU/Linux => Téma založeno: Uran 05 Března 2009, 10:38:14
-
Tak jsem si chtel stahnout stranky (cast stranek)
http://wooledge.org:8000/BashFAQ
a narazil jsem na problem. Nasledujici prikaz vzdy stahne jen aktualni stranku a nepracuje rekurzivne. Najinych typech struktur, kde neni ta : to funguje normalne.
wget -r -l 1 -k http://wooledge.org:8000/BashFAQ
-
Jakehosi castecneho uspechu jsem dosahnul timto:
seq -f 'http://wooledge.org:8000/BashFAQ/%03g' 63 98 | wget -c -i -
, ale porad nerozumim tomu proc u wget-u nefunguje to rekurzivní stahovani?
-
wget -r -l 1 -k http://wooledge.org:8000/BashFAQ
.. ale hochu ;) ..
# wget --help | sed '/^\s*-\(r\|l\)/!d'
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
.. copak myslis ze asi udela kombinace `-r -l 1` ??
-
No s bashem teprve zacina, ale i pri navoleni hloubky rekurze treba 3 je vysledek stejny jako s 1,2,......
bash-3.2$ wget -r -l 3 -k http://wooledge.org:8000/BashFAQ
--2009-03-05 14:21:57-- http://wooledge.org:8000/BashFAQ
Překládám wooledge.org… 209.142.155.49
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: neudáno [text/html]
Ukládám do: „wooledge.org:8000/BashFAQ“.
[ <=> ] 133 364 20,0K/s za 11s
2009-03-05 14:22:08 (12,3 KB/s) – „wooledge.org:8000/BashFAQ“ uložen [133364]
KONEC --2009-03-05 14:22:08--
Staženo: 1 souborů, 130K za 11s (12,3 KB/s)
Převádí se wooledge.org:8000/BashFAQ… 105-258
1 souborů převedeno za 0,006 sekund.
-
jestli ono to nebude spis http://wooledge.org:8000/robots.txt ... viz http://wget.addictivecode.org/FrequentlyAskedQuestions#robots
wget -erobots=off --wait 1 -r -l 1 -k http://wooledge.org:8000/BashFAQ
--2009-03-07 22:33:02-- http://wooledge.org:8000/BashFAQ
Překládám wooledge.org… 209.142.155.49
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: neudáno [text/html]
Ukládám do: „wooledge.org:8000/BashFAQ“.
[ <=> ] 133 490 17,0K/s za 13s
2009-03-07 22:33:17 (9,75 KB/s) – „wooledge.org:8000/BashFAQ“ uložen [133490]
--2009-03-07 22:33:18-- http://wooledge.org:8000/moin_static182/common/js/common.js
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 12616 (12K) [application/x-javascript]
Ukládám do: „wooledge.org:8000/moin_static182/common/js/common.js“.
100%[=====================================================================================>] 12 616 15,9K/s za 0,8s
2009-03-07 22:33:19 (15,9 KB/s) – „wooledge.org:8000/moin_static182/common/js/common.js“ uloženo [12616/12616]
--2009-03-07 22:33:20-- http://wooledge.org:8000/moin_static182/modern/css/common.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 10957 (11K) [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/common.css“.
100%[=====================================================================================>] 10 957 10,9K/s za 1,0s
2009-03-07 22:33:21 (10,9 KB/s) – „wooledge.org:8000/moin_static182/modern/css/common.css“ uloženo [10957/10957]
--2009-03-07 22:33:22-- http://wooledge.org:8000/moin_static182/modern/css/screen.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 8090 (7,9K) [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/screen.css“.
100%[=====================================================================================>] 8 090 17,3K/s za 0,5s
2009-03-07 22:33:26 (17,3 KB/s) – „wooledge.org:8000/moin_static182/modern/css/screen.css“ uloženo [8090/8090]
--2009-03-07 22:33:27-- http://wooledge.org:8000/moin_static182/modern/css/print.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 775 [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/print.css“.
100%[=====================================================================================>] 775 --.-K/s za 0s
2009-03-07 22:33:28 (9,95 MB/s) – „wooledge.org:8000/moin_static182/modern/css/print.css“ uloženo [775/775]
--2009-03-07 22:33:29-- http://wooledge.org:8000/moin_static182/modern/css/projection.css
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: 587 [text/css]
Ukládám do: „wooledge.org:8000/moin_static182/modern/css/projection.css“.
100%[=====================================================================================>] 587 --.-K/s za 0s
2009-03-07 22:33:29 (16,1 MB/s) – „wooledge.org:8000/moin_static182/modern/css/projection.css“ uloženo [587/587]
--2009-03-07 22:33:30-- http://wooledge.org:8000/EnglishFrontPage
Navazuje se spojení s wooledge.org|209.142.155.49|:8000… spojeno.
HTTP požadavek odeslán, program čeká na odpověď… 200 OK
Délka: neudáno [text/html]
Ukládám do: „wooledge.org:8000/EnglishFrontPage“.
atd...
-
Díky, MacHala
to bylo poučné. Nevěděl jsem, že wget respektuje robots.txt a nofollow. Taky možnost erobots v man wget není.
V tomto konkrétním případě je to problém spíš toho nofollow než robots.txt, viz arrange@arrange-desktop:/tmp$ wget --debug -r -l 3 -k http://wooledge.org:8000/BashFAQ &> dbg
arrange@arrange-desktop:/tmp$ grep follow dbg
no-follow in wooledge.org:8000/BashFAQ: 1
Robots zmiňuje jen linky s 'action'Disallow: /action/
což dává smysl. Umí wget respektovat robots.txt a ignorovat nofollow?
-
Tak toto castecne vyradi robots.txt
wget -r -l inf -np -e robots=off http://wooledge.org:8000/BashFAQ