Fórum Ubuntu CZ/SK

Ubuntu pro osobní počítače => Software => Příkazový řádek a programování pro GNU/Linux => Téma založeno: martin.nohejl 30 Dubna 2015, 19:06:47

Název: Zobrazení zdrojového kódu www stránky v terminálu
Přispěvatel: martin.nohejl 30 Dubna 2015, 19:06:47
Chci se zeptat, jestli je nějak možné pomocí nějakého jednoduchécho příkazu BASHe zobrazit v terminálu zdrojový kód www stránky, abych mohl následně v něm prohledat jestli se tam vyskytuje nějaké slovo nebo sousloví a pokud to slovo tam existuje, tak zapsat adresu www.stránky do souboru.

Pokud bych měl seznam stránek mého zájmu (např. www.linuxexpress.cz, www.root.cz, ...), terminál by mi postupně prošel zdrojové kódy těchto stránek a zkontroloval by, jestli se v nich nachází mnou zadané slovo (Ubuntu). Pokud se toto slovo ve zdrojovém kódu www stránky nachází, uložil by terminál adresu stránky do souboru.

Vím, že www stránka lze otevřít přes terminál ve firefoxu pomocí:
firefox "http://www.linuxexpres.cz/"
ale nevím, jak by se následně pomocí příkazu terminálu provedlo prohledání zdrojového kódu. Proto bych potřeboval zobrazit zdrojový kód přímo do terminálu a potom si myslím, že bych už to nějak s tama vydoloval.

Děkuji
Název: Re:Zobrazení zdrojového kódu www stránky v terminálu
Přispěvatel: Jakub Vaněk 30 Dubna 2015, 19:13:47
Nejdříve stáhněte html soubor:
Kód: [Vybrat]
wget http://nejakaadresa.cz/nejaka/cesta/k/souboru.html -O stranka.htmlPak bych to udělal takhle:
Kód: [Vybrat]
grep -i "Ubuntu" stranka.htmlPokud je výstup výše prázdný, stránka slovo neobsahuje, jinak jej obsahuje. Z této podmínky se dá udělat logika a do ní dáte připsání řádku s adresou stránky.
PS: asi je i lepší řešení, ale tohle je první, co mě napadlo.
Název: Re:Zobrazení zdrojového kódu www stránky v terminálu
Přispěvatel: martin.nohejl 30 Dubna 2015, 19:39:07
A pokud je v adrese diakritika a další netypické znaky?
Např.:
http://slovnik.juls.savba.sk/?w=aáäbcč&s=exact&c=Y9d4&d=sssj2&ie=utf-8&oe=utf-8#

Název: Re:Zobrazení zdrojového kódu www stránky v terminálu
Přispěvatel: Jakub Vaněk 30 Dubna 2015, 19:46:40
Na to jsem nemyslel, tak to tedy dejte adresu do jednoduchých uvozovek ('):
Kód: [Vybrat]
wget 'http://nejakaadresa.cz/nejaka/cesta/k/souboru.html' -O stranka.htmlEDIT: kdyby jsi byl zmatený typem uvozovek: http://cs.wikibooks.org/wiki/Bash#Uvozovky
Jednoduché uvozovky jsou jistější než dvojité.
Název: Re:Zobrazení zdrojového kódu www stránky v terminálu
Přispěvatel: martin.nohejl 30 Dubna 2015, 21:53:18
Nefunguje mi to podle mých představ:
1) po zadání:
wget 'http://lex.juls.savba.sk/?w=aáäbcčdď&s=exact&c=h34f&d=sssj3&ie=utf-8&oe=utf-8#' -O stranka.html
se mi uloží stránka viz wget_jednoduche.png (vyhledává mi to napříč všemi třemi slovníky a ikdyž je zaškrtnuté "presne" tak to něco najde, ikdyž takové slovo ve slovníku není)

2) po zadání:
wget "http://lex.juls.savba.sk/?w=aáäbcčdď&s=exact&c=h34f&d=sssj3&ie=utf-8&oe=utf-8#" -O stranka.html
se mi uloží stránka viz wget_dvojite.png (již to vyhledává správné slovo, ale vyhledává mi to napříč všemi třemi slovníky)

3) po zadání:
firefox "http://lex.juls.savba.sk/?w=aáäbcčdď&s=exact&c=h34f&d=sssj3&ie=utf-8&oe=utf-8#"
se mi vefirefoxu zobrazí správná stránka viz firefox.png (již to vyhledává správné slovo a pouze ve slovníku SSSJ-MN)

Přes firefox ale neumím stránku pomocí příkazu v terminálu uložit.