Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: vyhledávání změny webu  (Přečteno 3622 krát)

zaoral

  • Návštěvník
  • Příspěvků: 38
vyhledávání změny webu
« kdy: 10 Dubna 2013, 12:00:45 »
Zdravím všechny,
existuje způsob, jak zjistit jakoukoliv změnu webu za určitý čas? Update scanner není úplně to pravé, tam je nutné zadat _konkrétní_ podstránku. Potřeboval bych například: Ráno sednu k PC a  chci vědět, co je nového na doméně www.uohs.cz - jde o jakoukoliv změnu kterékoliv části toho webu.
Díky moc za pomoc:-)

ntz_reloaded

  • Lokaj
  • Závislák
  • ***
  • Příspěvků: 3735
  • skill :: ur home erly
Re:vyhledávání změny webu
« Odpověď #1 kdy: 10 Dubna 2013, 12:03:57 »
omg .. pokud ten web nevlastnis (a neni pod Tvou spravou), tak se to samozrejme neda udelat jinak, nez porovnanim stare kopie obsahu s aktualni .. co to je za hloupou otazku ?

Pavel Hrnčíř: Otázka jako každá jiná...
« Poslední změna: 10 Dubna 2013, 12:43:33 od Pavel Hrnčíř »
tikejte mi, taky Vam tikam ...
song of the day - openSUSE, openindiana, DuckDuckGo
The noise ain't noise anymore, who's to blame, WHO'S TO BLAME ??

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #2 kdy: 10 Dubna 2013, 12:52:55 »
Rekurzivní wget a diff jsou tví přátelé...
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

ntz_reloaded

  • Lokaj
  • Závislák
  • ***
  • Příspěvků: 3735
  • skill :: ur home erly
Re:vyhledávání změny webu
« Odpověď #3 kdy: 10 Dubna 2013, 13:19:09 »
Rekurzivní wget a diff jsou tví přátelé...
v podstate nejsou, protoze stahovat rekurzivne obsah portalu a jeho diffovani je naprosto nesmyslna aktivita ..
tikejte mi, taky Vam tikam ...
song of the day - openSUSE, openindiana, DuckDuckGo
The noise ain't noise anymore, who's to blame, WHO'S TO BLAME ??

beer

  • Host
Re:vyhledávání změny webu
« Odpověď #4 kdy: 10 Dubna 2013, 14:01:00 »

ntz_reloaded

  • Lokaj
  • Závislák
  • ***
  • Příspěvků: 3735
  • skill :: ur home erly
Re:vyhledávání změny webu
« Odpověď #5 kdy: 10 Dubna 2013, 14:02:32 »
http://www.google.com/alerts/feeds/11634531760494108306/15545797126149503735

Udělej si svoje upozornění dle libosti na http://www.google.com/alerts/.
fair (kdybych mel rad gugl) .. ale jinak dobrej hint .. beer++
tikejte mi, taky Vam tikam ...
song of the day - openSUSE, openindiana, DuckDuckGo
The noise ain't noise anymore, who's to blame, WHO'S TO BLAME ??

beer

  • Host
Re:vyhledávání změny webu
« Odpověď #6 kdy: 10 Dubna 2013, 14:06:11 »

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #7 kdy: 10 Dubna 2013, 14:20:37 »
Rekurzivní wget a diff jsou tví přátelé...
v podstate nejsou, protoze stahovat rekurzivne obsah portalu a jeho diffovani je naprosto nesmyslna aktivita ..
"Jakéholi změny na webu" (viz zadání) jinak nepostihneš. Google nezaindexuje všechno (díkybohu), a kde nemá index, tam ani alert nealertuje ;)
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

beer

  • Host
Re:vyhledávání změny webu
« Odpověď #8 kdy: 10 Dubna 2013, 14:58:12 »
Rekurzivní wget a diff jsou tví přátelé...
v podstate nejsou, protoze stahovat rekurzivne obsah portalu a jeho diffovani je naprosto nesmyslna aktivita ..
"Jakéholi změny na webu" (viz zadání) jinak nepostihneš. Google nezaindexuje všechno (díkybohu), a kde nemá index, tam ani alert nealertuje ;)

To je pravda. Záleží na nastavení v souboru robots.txt.

Viz například:

http://www.uohs.cz/robots.txt
Kód: [Vybrat]
User-agent: *
Disallow: /img/
Disallow: /download/chranena-zona/

Z toho vyplívá, že změny v http://www.uohs.cz/download/chranena-zona/ se nezaindexují a změny v www.uohs.cz/img/ také ne. Jestli tomu souboru správně rozumím :).

Pak ještě na sitemap a jestli vůbec je web indexovaný, jestli má zpětné odkazy, atd.
« Poslední změna: 10 Dubna 2013, 15:02:23 od beer »

zaoral

  • Návštěvník
  • Příspěvků: 38
Re:vyhledávání změny webu
« Odpověď #9 kdy: 10 Dubna 2013, 16:13:54 »
omg .. pokud ten web nevlastnis (a neni pod Tvou spravou), tak se to samozrejme neda udelat jinak, nez porovnanim stare kopie obsahu s aktualni ..
OK, naběhl jsem si, zasloužím si to.
Já samozřejmě VÍM, že to nejde jinak než porovnat staré s novým. Netušil jsem, že mě hned pane kolego budete považovat za dementa:-)
Ten Update Scanner je v podstatě směr mých myšlenek. Jde mi o to najít nebo vytvořit něco podobného, co ale zkoumá zadaný web celý, nejen podstránku.
Ocenil bych jinou techniku než pravidelný download webu a srovnávání s předešlou kopií. Na to se ptám - existuje takový způsob?
Co já vím třeba robot co ten web proleze a udělá hashe souborů.

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #10 kdy: 10 Dubna 2013, 16:20:49 »
Já samozřejmě VÍM, že to nejde jinak než porovnat staré s novým. Netušil jsem, že mě hned pane kolego budete považovat za dementa:-)
...
Na to se ptám - existuje takový způsob?
Co já vím třeba robot co ten web proleze a udělá hashe souborů.
Odpovídáš si sám...
Hmm zajímavá úvaha - a jak robot ty hashe získá? Inu stáhne si soubor a porovná s předchozím hashem...
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

ntz_reloaded

  • Lokaj
  • Závislák
  • ***
  • Příspěvků: 3735
  • skill :: ur home erly
Re:vyhledávání změny webu
« Odpověď #11 kdy: 10 Dubna 2013, 16:25:13 »
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco
tikejte mi, taky Vam tikam ...
song of the day - openSUSE, openindiana, DuckDuckGo
The noise ain't noise anymore, who's to blame, WHO'S TO BLAME ??

zaoral

  • Návštěvník
  • Příspěvků: 38
Re:vyhledávání změny webu
« Odpověď #12 kdy: 10 Dubna 2013, 17:08:14 »
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!
myslim že tak radikální bych nebyl.
1) určitý workaround je třeba uohs site:uohs.cz a nastavení minulosti. (pro ten konkrétní příklad)
2) prohlížeč dokáže v index.of zobrazit data modifikace a určitě ty soubory nestahuje
to mě vede k doufání:-) že by to mohlo jít

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco 100 pro souhlas

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #13 kdy: 10 Dubna 2013, 18:33:34 »
Wow...
1) budeš dělat požadavky na všechny stránky jestli se během posledních 10 minut nezměnily (status 303 myslim) -> admin tě do tejdne zabanuje za kopec požadavků (nehledě na to že web server stránku generuje pořád znova takže se pořád znova mění)
2) budeš jednou denně (jak sám říkáš ráno) stahovat wgetem všechny stránky pro porovnání -> admin tě do tejne zabanuje za datovej tok

jiný cesty nejsou, smiř se s tím

Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

zaoral

  • Návštěvník
  • Příspěvků: 38
Re:vyhledávání změny webu
« Odpověď #14 kdy: 10 Dubna 2013, 21:31:04 »
jiný cesty nejsou, smiř se s tím
Tak jo, vzdávám to. Ale pociťuju nespravedlnost světa a frustraci
:-))

starenka

  • Stálý člen
  • **
  • Příspěvků: 1276
  • Karma: plynová [zapalovač] [hasičák]
    • /home/starenka
Re:vyhledávání změny webu
« Odpověď #15 kdy: 10 Dubna 2013, 22:09:17 »
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco
ano, pokud to delas hloupe. dej do user agenta (http hlavicka) GoogleBot a neblokne te nikdo ;)
mojenka | blozinek v2 | starej blozinek | krotim hady za penize | UJ! Kalužátor

Debian testing vrní v Thinkpadu X200/bedně/EEE 900a, MasoX Tiger v lampe

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #16 kdy: 10 Dubna 2013, 22:22:55 »
opakuji znova: pokud provozovatel daneho webu nepodporuje podobne pozadavky napriklad pomoci RSS tak se to nejakou smyslupnou metodou neda udelat ze Tve pozice !!

rekurzivni stahovani celeho webu a srovnavani obsahu je naprosto nesmyslne a nejspise skonci tim, ze te admini daneho webu daji na blacklist jakozto potencionalniho nevimco
ano, pokud to delas hloupe. dej do user agenta (http hlavicka) GoogleBot a neblokne te nikdo ;)
Až mi bude GoogleBot ignorovat robots.txt/nofollow linky, tak si piš že to řešit budu... Ale ve státní správě bych se toho nebál, takže dobrý nápad...
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

starenka

  • Stálý člen
  • **
  • Příspěvků: 1276
  • Karma: plynová [zapalovač] [hasičák]
    • /home/starenka
Re:vyhledávání změny webu
« Odpověď #17 kdy: 10 Dubna 2013, 22:28:12 »
jasne, toho si vsimnout muzes, ale a jak to budes resit? docela by me to zajimalo...
mojenka | blozinek v2 | starej blozinek | krotim hady za penize | UJ! Kalužátor

Debian testing vrní v Thinkpadu X200/bedně/EEE 900a, MasoX Tiger v lampe

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #18 kdy: 10 Dubna 2013, 22:33:48 »
Ban na IP? Whitelist GoogleBotu (chodi porat ze stejnych rozsahu)? Forwarding *bot ze "zakazane zony" na mainpage? Nikdy jsem to dělat nemusel ale tohle jsou asi první tři cesty ktere bych zkusil...
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

starenka

  • Stálý člen
  • **
  • Příspěvků: 1276
  • Karma: plynová [zapalovač] [hasičák]
    • /home/starenka
Re:vyhledávání změny webu
« Odpověď #19 kdy: 10 Dubna 2013, 22:35:10 »
1. nikdy nebudes vedet ktera, nemusim (ja) chodit z jedny
2. pochybuju
3. ok..
mojenka | blozinek v2 | starej blozinek | krotim hady za penize | UJ! Kalužátor

Debian testing vrní v Thinkpadu X200/bedně/EEE 900a, MasoX Tiger v lampe

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:vyhledávání změny webu
« Odpověď #20 kdy: 10 Dubna 2013, 22:39:40 »
1) než by to postahoval přes tor, tak má druhej den ráno... takže bude chodit z několika málo adres
2) no tech officialnich rozsahu zas tolik nebude (jeden, dva /16 a nejake /24), nepochybuju ze se to da
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

MacHala

  • Stálý člen
  • **
  • Příspěvků: 1104
  • Big Bro iz watching joo!
    • ZlejT
Re:vyhledávání změny webu
« Odpověď #21 kdy: 11 Dubna 2013, 02:15:18 »
jen k tem adresam GoogleBota - http://support.google.com/webmasters/bin/answer.py?hl=cs&answer=80553

jinak si ale fakt nedokazu predstavit pripad, kdy by bylo potreba kontrolovat celou domenu - vzdycky staci vytipovat jen par konkretnich stranek, kde se ty zmeny promitnou a z nich pripadne sledovat zmeny hloubejc
Prislusnik ligy, za kreativni pouzivani interpunkcnich znamenek, carek, predevsim.
=======================================
Tweetuju jako http://twitter.com/zl8

compaq

  • Závislák
  • ***
  • Příspěvků: 2445
  • Díky všem za rady a tipy.
Re:vyhledávání změny webu
« Odpověď #22 kdy: 11 Dubna 2013, 09:29:37 »
Pokud vám vaše holka či manželka funguje jak má, neměňte jí za mladší, zaděláte si na problém. Stejně to dělejte i s Ubuntu.

 

Provoz zaštiťuje spolek OpenAlt.