Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.

Autor Téma: Zobrazení zdrojového kódu www stránky v terminálu  (Přečteno 2075 krát)

martin.nohejl

  • Člen
  • **
  • Příspěvků: 173
    • Zobrazit profil
Zobrazení zdrojového kódu www stránky v terminálu
« kdy: 30 Duben 2015, 19:06:47 »
Chci se zeptat, jestli je nějak možné pomocí nějakého jednoduchécho příkazu BASHe zobrazit v terminálu zdrojový kód www stránky, abych mohl následně v něm prohledat jestli se tam vyskytuje nějaké slovo nebo sousloví a pokud to slovo tam existuje, tak zapsat adresu www.stránky do souboru.

Pokud bych měl seznam stránek mého zájmu (např. www.linuxexpress.cz, www.root.cz, ...), terminál by mi postupně prošel zdrojové kódy těchto stránek a zkontroloval by, jestli se v nich nachází mnou zadané slovo (Ubuntu). Pokud se toto slovo ve zdrojovém kódu www stránky nachází, uložil by terminál adresu stránky do souboru.

Vím, že www stránka lze otevřít přes terminál ve firefoxu pomocí:
firefox "http://www.linuxexpres.cz/"
ale nevím, jak by se následně pomocí příkazu terminálu provedlo prohledání zdrojového kódu. Proto bych potřeboval zobrazit zdrojový kód přímo do terminálu a potom si myslím, že bych už to nějak s tama vydoloval.

Děkuji
Hlavní PC: Intel Core i5 2500 3,30GHz Sandy Bridge, MB Gigabyte H61M, DIMM DDR3 8GB 1333MHz, 1TB SATA (2 oddíly / 200GB, /home 800GB), Ubuntu 14.04CZ 32bit
Záložní PC: AMD Athlon(TM)XP 1700+, 512 MB RAM, NVIDIA GeForce4 MX 4000, disk 72GB IDE, Ubuntu 10.10CZ 32 bit

Jakub Vaněk

  • Stálý člen
  • ***
  • Příspěvků: 752
    • Zobrazit profil
    • Web programátora a studenta Jakuba Vaňka
Re:Zobrazení zdrojového kódu www stránky v terminálu
« Odpověď #1 kdy: 30 Duben 2015, 19:13:47 »
Nejdříve stáhněte html soubor:
Kód: [Vybrat]
wget http://nejakaadresa.cz/nejaka/cesta/k/souboru.html -O stranka.htmlPak bych to udělal takhle:
Kód: [Vybrat]
grep -i "Ubuntu" stranka.htmlPokud je výstup výše prázdný, stránka slovo neobsahuje, jinak jej obsahuje. Z této podmínky se dá udělat logika a do ní dáte připsání řádku s adresou stránky.
PS: asi je i lepší řešení, ale tohle je první, co mě napadlo.
« Poslední změna: 30 Duben 2015, 19:16:31 od Jakub Vaněk »
Notebook: Lenovo Thinkpad X200, Xubuntu 16.04

martin.nohejl

  • Člen
  • **
  • Příspěvků: 173
    • Zobrazit profil
Re:Zobrazení zdrojového kódu www stránky v terminálu
« Odpověď #2 kdy: 30 Duben 2015, 19:39:07 »
A pokud je v adrese diakritika a další netypické znaky?
Např.:
http://slovnik.juls.savba.sk/?w=aáäbcč&s=exact&c=Y9d4&d=sssj2&ie=utf-8&oe=utf-8#

Hlavní PC: Intel Core i5 2500 3,30GHz Sandy Bridge, MB Gigabyte H61M, DIMM DDR3 8GB 1333MHz, 1TB SATA (2 oddíly / 200GB, /home 800GB), Ubuntu 14.04CZ 32bit
Záložní PC: AMD Athlon(TM)XP 1700+, 512 MB RAM, NVIDIA GeForce4 MX 4000, disk 72GB IDE, Ubuntu 10.10CZ 32 bit

Jakub Vaněk

  • Stálý člen
  • ***
  • Příspěvků: 752
    • Zobrazit profil
    • Web programátora a studenta Jakuba Vaňka
Re:Zobrazení zdrojového kódu www stránky v terminálu
« Odpověď #3 kdy: 30 Duben 2015, 19:46:40 »
Na to jsem nemyslel, tak to tedy dejte adresu do jednoduchých uvozovek ('):
Kód: [Vybrat]
wget 'http://nejakaadresa.cz/nejaka/cesta/k/souboru.html' -O stranka.htmlEDIT: kdyby jsi byl zmatený typem uvozovek: http://cs.wikibooks.org/wiki/Bash#Uvozovky
Jednoduché uvozovky jsou jistější než dvojité.
« Poslední změna: 30 Duben 2015, 20:01:15 od Jakub Vaněk »
Notebook: Lenovo Thinkpad X200, Xubuntu 16.04

martin.nohejl

  • Člen
  • **
  • Příspěvků: 173
    • Zobrazit profil
Re:Zobrazení zdrojového kódu www stránky v terminálu
« Odpověď #4 kdy: 30 Duben 2015, 21:53:18 »
Nefunguje mi to podle mých představ:
1) po zadání:
wget 'http://lex.juls.savba.sk/?w=aáäbcčdď&s=exact&c=h34f&d=sssj3&ie=utf-8&oe=utf-8#' -O stranka.html
se mi uloží stránka viz wget_jednoduche.png (vyhledává mi to napříč všemi třemi slovníky a ikdyž je zaškrtnuté "presne" tak to něco najde, ikdyž takové slovo ve slovníku není)

2) po zadání:
wget "http://lex.juls.savba.sk/?w=aáäbcčdď&s=exact&c=h34f&d=sssj3&ie=utf-8&oe=utf-8#" -O stranka.html
se mi uloží stránka viz wget_dvojite.png (již to vyhledává správné slovo, ale vyhledává mi to napříč všemi třemi slovníky)

3) po zadání:
firefox "http://lex.juls.savba.sk/?w=aáäbcčdď&s=exact&c=h34f&d=sssj3&ie=utf-8&oe=utf-8#"
se mi vefirefoxu zobrazí správná stránka viz firefox.png (již to vyhledává správné slovo a pouze ve slovníku SSSJ-MN)

Přes firefox ale neumím stránku pomocí příkazu v terminálu uložit.

« Poslední změna: 30 Duben 2015, 22:33:04 od martin.nohejl »
Hlavní PC: Intel Core i5 2500 3,30GHz Sandy Bridge, MB Gigabyte H61M, DIMM DDR3 8GB 1333MHz, 1TB SATA (2 oddíly / 200GB, /home 800GB), Ubuntu 14.04CZ 32bit
Záložní PC: AMD Athlon(TM)XP 1700+, 512 MB RAM, NVIDIA GeForce4 MX 4000, disk 72GB IDE, Ubuntu 10.10CZ 32 bit