Fórum Ubuntu CZ/SK

Ostatní => Otevřená diskuze kolem Linuxu a OSS => Téma založeno: Prefin 08 Dubna 2013, 14:34:23

Název: Extrakce emailů[vyřešeno?]
Přispěvatel: Prefin 08 Dubna 2013, 14:34:23
Ahojda všichni.
Nevíte někdo jestli existuje pro Linux ekvivalent nějakého programu na extrakci emailů z webu?
Díky
Název: Re:Extrakce emailů
Přispěvatel: Martin Šácha 08 Dubna 2013, 15:09:05
Existuje
Název: Re:Extrakce emailů
Přispěvatel: Prefin 09 Dubna 2013, 10:38:37
Díky
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: beer 09 Dubna 2013, 11:01:42
To by se mi občas hodilo, když zasílám pozvánky a mám e-mailové adresy na nějaké stránce - například nějakého úřadu. Většinou to kopíruji ručně.

Které programy na to používáte?
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: Prefin 09 Dubna 2013, 15:18:49
Používám Wokňáckej Advanced Email Extractor ale rád bych něco na linuxu ať na Wonka vůbec nemusím.
Tenhle je ale fakt dobrej. Jenom to chce zapnout prohledání pouze zadaného webu jinak bude prolejzat celej net do nekonečna.
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: Martin Šácha 09 Dubna 2013, 15:23:55
Rekurzivní wget se sedem to zvládnou taky
Kód: [Vybrat]
man wget
man sed
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: beer 09 Dubna 2013, 16:21:44
Rekurzivní wget se sedem to zvládnou taky
Kód: [Vybrat]
man wget
man sed

To by někaej programátor pomocí toho asi zvládnul, ale pochybuji, že běžný uživatel. A co jsem koukal, tak nějaké ty wokňácké extractory umí například vycucnout i jméno, ne jen e-mail, udělaj z toho tabulku, nebo to daj třeba do databáze. Sedem bych to nezvládnul a měl bych problém mu nastavit pravidla, aby vůbec rozpoznal samotný e-mail. :(
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: Martin Šácha 09 Dubna 2013, 16:57:20
Rekurzivní wget se sedem to zvládnou taky
Kód: [Vybrat]
man wget
man sed

To by někaej programátor pomocí toho asi zvládnul, ale pochybuji, že běžný uživatel. A co jsem koukal, tak nějaké ty wokňácké extractory umí například vycucnout i jméno, ne jen e-mail, udělaj z toho tabulku, nebo to daj třeba do databáze. Sedem bych to nezvládnul a měl bych problém mu nastavit pravidla, aby vůbec rozpoznal samotný e-mail. :(

Vlastních stránek to scriptovat nepotřebuje a script kiddie si to nezaslouží.
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: beer 10 Dubna 2013, 08:42:15
Myslím, že ty účel může být regulerní. Naznačuješ, že jsem jakožto téměř třicátník a rodič script kiddie? Lol.
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: Martin Šácha 10 Dubna 2013, 08:52:56
Myslím, že ty účel může být regulerní. Naznačuješ, že jsem jakožto téměř třicátník a rodič script kiddie? Lol.
Aha, takže po dosažení "téměř třiceti let" a vyrobení potomka se člověk stává respektovaným h4x0r3m? :D

Znáš nějaký regulérní účel dumpování emailů z cizích webů?
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: Tadeáš Pařík 10 Dubna 2013, 08:55:04
Myslím, že ty účel může být regulerní. Naznačuješ, že jsem jakožto téměř třicátník a rodič script kiddie? Lol.
Aha, takže po dosažení "téměř třiceti let" a vyrobení potomka se člověk stává respektovaným h4x0r3m? :D

No a ne?  ;D
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: beer 10 Dubna 2013, 09:56:13
Myslím, že ty účel může být regulerní. Naznačuješ, že jsem jakožto téměř třicátník a rodič script kiddie? Lol.
Aha, takže po dosažení "téměř třiceti let" a vyrobení potomka se člověk stává respektovaným h4x0r3m? :D

Znáš nějaký regulérní účel dumpování emailů z cizích webů?

Nevím, co je h4x0r3m :). Znám účel, ano, když chci poslat pozvánky na výstavu třeba lidem z městského úřadu a nechci na nikoho zapomenout. Zpravidla musím vykopírovat e-maily ze stránek toho úřadu a pak posílám pozvánky jednotlivě, každého oslovím jeho jménem, nebo je možné použít nějakou tu hromadnou korespondenci. Jednorázové odeslání pozvánky nepovažuji za spamování, obzvláště, pokud se například daný úřad na realizaci výstavy podílí. Beru to jako rozumnou věc, aby se i nižší úředníci byli pozváni na výstavu a nepřišli jen zástupci odborů kultury a starostové či jejich zástupci.
Název: Re:Extrakce emailů[vyřešeno?]
Přispěvatel: beer 12 Dubna 2013, 12:32:33
http://my.opera.com/zomg/blog/2007/07/17/collecting-email-addresses-from-websites (http://my.opera.com/zomg/blog/2007/07/17/collecting-email-addresses-from-websites)

Kód: [Vybrat]
wget -nv -nH -r -A html --ignore-tags=img,link www.example.compak
Kód: [Vybrat]
grep -Eiorh '([[:alnum:]_.]+@[[:alnum:]_]+?\.[[:alpha:].]{2,6})' ./ > emails.txt
nebo
http://stackoverflow.com/questions/13858344/extract-email-addresses-from-a-website-using-scripts (http://stackoverflow.com/questions/13858344/extract-email-addresses-from-a-website-using-scripts)

Kód: [Vybrat]
wget -q -r -l 5 -O - http://somesite.com/ | grep -E -o "\b[a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+\.[a-zA-Z0-9.-]+\b
Ještě že máme ten google. A obejdeme se i bez sedu...

Ještě jsem nezkoušel funkčnost...