Fórum Ubuntu CZ/SK

Ubuntu pro osobní počítače => Software => Příkazový řádek a programování pro GNU/Linux => Téma založeno: zaoral 10 Dubna 2013, 12:00:45

Název: vyhledávání změny webu
Přispěvatel: zaoral 10 Dubna 2013, 12:00:45
Zdravím všechny,
existuje způsob, jak zjistit jakoukoliv změnu webu za určitý čas? Update scanner není úplně to pravé, tam je nutné zadat _konkrétní_ podstránku. Potřeboval bych například: Ráno sednu k PC a  chci vědět, co je nového na doméně www.uohs.cz - jde o jakoukoliv změnu kterékoliv části toho webu.
Díky moc za pomoc:-)
Název: Re:vyhledávání změny webu
Přispěvatel: ntz_reloaded 10 Dubna 2013, 12:03:57
omg .. pokud ten web nevlastnis (a neni pod Tvou spravou), tak se to samozrejme neda udelat jinak, nez porovnanim stare kopie obsahu s aktualni .. co to je za hloupou otazku ?

Pavel Hrnčíř: Otázka jako každá jiná...
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 12:52:55
Rekurzivní wget a diff jsou tví přátelé...
Název: Re:vyhledávání změny webu
Přispěvatel: ntz_reloaded 10 Dubna 2013, 13:19:09
Rekurzivní wget a diff jsou tví přátelé...
v podstate nejsou, protoze stahovat rekurzivne obsah portalu a jeho diffovani je naprosto nesmyslna aktivita ..
Název: Re:vyhledávání změny webu
Přispěvatel: beer 10 Dubna 2013, 14:01:00
http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735 (http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735)

Udělej si svoje upozornění dle libosti na http://www.google.com/alerts/ (http://www.google.com/alerts/).
Název: Re:vyhledávání změny webu
Přispěvatel: ntz_reloaded 10 Dubna 2013, 14:02:32
http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735 (http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735)

Udělej si svoje upozornění dle libosti na http://www.google.com/alerts/ (http://www.google.com/alerts/).
fair (kdybych mel rad gugl) .. ale jinak dobrej hint .. beer++
Název: Re:vyhledávání změny webu
Přispěvatel: beer 10 Dubna 2013, 14:06:11
http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735 (http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735)

Udělej si svoje upozornění dle libosti na http://www.google.com/alerts/ (http://www.google.com/alerts/).
fair (kdybych mel rad gugl) .. ale jinak dobrej hint .. beer++

Díky :)
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 14:20:37
Rekurzivní wget a diff jsou tví přátelé...
v podstate nejsou, protoze stahovat rekurzivne obsah portalu a jeho diffovani je naprosto nesmyslna aktivita ..
"Jakéholi změny na webu" (viz zadání) jinak nepostihneš. Google nezaindexuje všechno (díkybohu), a kde nemá index, tam ani alert nealertuje ;)
Název: Re:vyhledávání změny webu
Přispěvatel: beer 10 Dubna 2013, 14:58:12
Rekurzivní wget a diff jsou tví přátelé...
v podstate nejsou, protoze stahovat rekurzivne obsah portalu a jeho diffovani je naprosto nesmyslna aktivita ..
"Jakéholi změny na webu" (viz zadání) jinak nepostihneš. Google nezaindexuje všechno (díkybohu), a kde nemá index, tam ani alert nealertuje ;)

To je pravda. Záleží na nastavení v souboru robots.txt.

Viz například:

http://www.uohs.cz/robots.txt (http://www.uohs.cz/robots.txt)
Kód: [Vybrat]
User-agent: *
Disallow: /img/
Disallow: /download/chranena-zona/

Z toho vyplívá, že změny v http://www.uohs.cz/download/chranena-zona/ se nezaindexují a změny v www.uohs.cz/img/ také ne. Jestli tomu souboru správně rozumím :).

Pak ještě na sitemap a jestli vůbec je web indexovaný, jestli má zpětné odkazy, atd.
Název: Re:vyhledávání změny webu
Přispěvatel: zaoral 10 Dubna 2013, 16:13:54
omg .. pokud ten web nevlastnis (a neni pod Tvou spravou), tak se to samozrejme neda udelat jinak, nez porovnanim stare kopie obsahu s aktualni ..
OK, naběhl jsem si, zasloužím si to.
Já samozřejmě VÍM, že to nejde jinak než porovnat staré s novým. Netušil jsem, že mě hned pane kolego budete považovat za dementa:-)
Ten Update Scanner je v podstatě směr mých myšlenek. Jde mi o to najít nebo vytvořit něco podobného, co ale zkoumá zadaný web celý, nejen podstránku.
Ocenil bych jinou techniku než pravidelný download webu a srovnávání s předešlou kopií. Na to se ptám - existuje takový způsob?
Co já vím třeba robot co ten web proleze a udělá hashe souborů.
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 16:20:49
Já samozřejmě VÍM, že to nejde jinak než porovnat staré s novým. Netušil jsem, že mě hned pane kolego budete považovat za dementa:-)
...
Na to se ptám - existuje takový způsob?
Co já vím třeba robot co ten web proleze a udělá hashe souborů.
Odpovídáš si sám...
Hmm zajímavá úvaha - a jak robot ty hashe získá? Inu stáhne si soubor a porovná s předchozím hashem...
Název: Re:vyhledávání změny webu
Přispěvatel: ntz_reloaded 10 Dubna 2013, 16:25:13
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco
Název: Re:vyhledávání změny webu
Přispěvatel: zaoral 10 Dubna 2013, 17:08:14
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!
myslim že tak radikální bych nebyl.
1) určitý workaround je třeba uohs site:uohs.cz a nastavení minulosti. (pro ten konkrétní příklad)
2) prohlížeč dokáže v index.of zobrazit data modifikace a určitě ty soubory nestahuje
to mě vede k doufání:-) že by to mohlo jít

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco 100 pro souhlas
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 18:33:34
Wow...
1) budeš dělat požadavky na všechny stránky jestli se během posledních 10 minut nezměnily (status 303 myslim) -> admin tě do tejdne zabanuje za kopec požadavků (nehledě na to že web server stránku generuje pořád znova takže se pořád znova mění)
2) budeš jednou denně (jak sám říkáš ráno) stahovat wgetem všechny stránky pro porovnání -> admin tě do tejne zabanuje za datovej tok

jiný cesty nejsou, smiř se s tím

Název: Re:vyhledávání změny webu
Přispěvatel: zaoral 10 Dubna 2013, 21:31:04
jiný cesty nejsou, smiř se s tím
Tak jo, vzdávám to. Ale pociťuju nespravedlnost světa a frustraci
:-))
Název: Re:vyhledávání změny webu
Přispěvatel: starenka 10 Dubna 2013, 22:09:17
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco
ano, pokud to delas hloupe. dej do user agenta (http hlavicka) GoogleBot a neblokne te nikdo ;)
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 22:22:55
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco
ano, pokud to delas hloupe. dej do user agenta (http hlavicka) GoogleBot a neblokne te nikdo ;)
Až mi bude GoogleBot ignorovat robots.txt/nofollow linky, tak si piš že to řešit budu... Ale ve státní správě bych se toho nebál, takže dobrý nápad...
Název: Re:vyhledávání změny webu
Přispěvatel: starenka 10 Dubna 2013, 22:28:12
jasne, toho si vsimnout muzes, ale a jak to budes resit? docela by me to zajimalo...
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 22:33:48
Ban na IP? Whitelist GoogleBotu (chodi porat ze stejnych rozsahu)? Forwarding *bot ze "zakazane zony" na mainpage? Nikdy jsem to dělat nemusel ale tohle jsou asi první tři cesty ktere bych zkusil...
Název: Re:vyhledávání změny webu
Přispěvatel: starenka 10 Dubna 2013, 22:35:10
1. nikdy nebudes vedet ktera, nemusim (ja) chodit z jedny
2. pochybuju
3. ok..
Název: Re:vyhledávání změny webu
Přispěvatel: Martin Šácha 10 Dubna 2013, 22:39:40
1) než by to postahoval přes tor, tak má druhej den ráno... takže bude chodit z několika málo adres
2) no tech officialnich rozsahu zas tolik nebude (jeden, dva /16 a nejake /24), nepochybuju ze se to da
Název: Re:vyhledávání změny webu
Přispěvatel: MacHala 11 Dubna 2013, 02:15:18
jen k tem adresam GoogleBota - http://support.google.com/webmasters/bin/answer.py?hl=cs&answer=80553

jinak si ale fakt nedokazu predstavit pripad, kdy by bylo potreba kontrolovat celou domenu - vzdycky staci vytipovat jen par konkretnich stranek, kde se ty zmeny promitnou a z nich pripadne sledovat zmeny hloubejc
Název: Re:vyhledávání změny webu
Přispěvatel: compaq 11 Dubna 2013, 09:29:37
www.woko.cz