Autor Téma: Jak vytvořit PDF s funkcí vyhledávání v textu? (Přečteno 7004 krát)

Ladka · « **kdy:** 13 Listopadu 2011, 18:31:16 »

Zdravím,
nevíte prosím někdo, zda existuje pro Linux nějaký neplacený program, který by uměl skenovat a ukládat dokumenty jako pdf v nichž se dá vyhledávat pomocí search? Nainstalovala jsem gscan2pdf, ale pokud tam ta funkce je, tak nevím jak ji nastavit.
Neměl byste někdo nějaký tip?
Budu vděčná za Vaše rady....
Pdf s vyhledáváním vážně moc potřebuju.

Cendas · « **Odpověď #1 kdy:** 13 Listopadu 2011, 19:48:00 »

V prohlížeči dokumentů to jde klávesami ctrl+F

Ladka · « **Odpověď #2 kdy:** 13 Listopadu 2011, 20:22:23 »

No vyhledávat umím, jde mi o to aby program pomocí něhož skenuji uměl naskenovaný obrázek uložit jako pdf s podporou vyhledávání. Aby se zkrátka v pdfku dalo pak Ctrl+F použít .... gscan2pdf mi sice obrázek naskenuje, ale nenabízí mi možnost "skenovat jako ocr" nebo "uložit jako ocr" ... vlastně ani nic podobného. Nevíte, který program by takto "rovnou ukládat" uměl? Popř. co v gscan nastavit a jak?

jmp · « **Odpověď #3 kdy:** 13 Listopadu 2011, 20:30:11 »

problematiku neznam, ale obecne to co pozadujete je: udelat obrazek, z obrazku text a z textu pdf

nevim o nicem, co by toto resilo jednorazove

obrazek asi po naskenovani mate
ten musite prohnat skrze nejake OCR, aby z toho byl text (tim ale nejspis prijdete o formatovani a o obrazky v textu)
OCR nejak neni stoprocentne spolehlive, takze zde prijde na radu korektura, zpetne nasazeni obrazku a nove zalomeni
no a pak uz z toho vyrobit pdf...

Liber · « **Odpověď #4 kdy:** 13 Listopadu 2011, 20:49:18 »

Osobně se mi jako nejlepší nástroj na rozpoznávání textu osvědčila tato stránka: http://newocr.com/

Rover623 · « **Odpověď #5 kdy:** 13 Listopadu 2011, 21:00:28 »

Nešlo by to prostě exportovat do LibreOffice a potom to jako PDF uložit.

Filip Dominec · « **Odpověď #6 kdy:** 13 Listopadu 2011, 22:28:18 »

Citace: Ladka 13 Listopadu 2011, 18:31:16

Zdravím,
nevíte prosím někdo, zda existuje pro Linux nějaký neplacený program, který by uměl skenovat a ukládat dokumenty jako pdf v nichž se dá vyhledávat pomocí search?

Tématem jsem se trochu zabýval, ale v současné době takový program asi nebude; možná zkusit nějakou shareware/trial verzi komerčního software ve wine.

Bylo by v mých silách takový program napsat, komponenty jako OCR a sestavováni PDF jsou k mání, ale naprosto nestíhám.

Rover623 · « **Odpověď #7 kdy:** 13 Listopadu 2011, 22:33:35 »

Já bych se toho ujal, ale čas budu mít až po vánocích, teď jsem na tom stejně jako pan Dominec, absolutně nezvládám

Ladka · « **Odpověď #8 kdy:** 14 Listopadu 2011, 00:18:08 »

No já jsem na win XP takový program měla - uměl to jakýsi program dodávaný ke skeneru CanoScan LiDE 200 ... už nevím, jak se jmenoval, ale stačilo v něm nastavit v možnostech skenování "ocr" a následně při ukládání "uložit jako pdf" ... výsledek bylo pdf v němž se dalo vyhledávat podtrhávat apod ....
Hrozně moc by se mi něco podobného hodilo i pro linux ( když mi xp odešly do křemíkového nebe) ... Přes ocr všechny ty texty "číst" by zabralo hrozně času (jedná se obvykle o publikace o několika stech stranách, které navíc obsahují i jiné typy písma - hebrejština, řečtina) ... obávám se, že najít nějaké OCR, které by tohle bez problému zvládlo, bude asi problém....

Citace: Rover623 13 Listopadu 2011, 22:33:35

Já bych se toho ujal, ale čas budu mít až po vánocích, teď jsem na tom stejně jako pan Dominec, absolutně nezvládám

... kdybyste někdo něco podobného vytvořili, bylo by to úžasné

Klidně si za to i zaplatím, hlavně, aby to fungovalo

Rover623 · « **Odpověď #9 kdy:** 14 Listopadu 2011, 00:56:46 »

Já si hlavně nejsem jist jak by to vlastně mělo fungovat.

Máte text který naskenujete, výsledek je obvykle obrázek (png,jpg) z toho následně nějakým nástrojem s podporou ocr vyextrahujete text, ten text poté máte v tom programu, tedy něco takového http://www.root.cz/clanky/softwarova-sklizen-6-4-2011/ (poslední program) a pak už by asi neměl být takový problém dostat to do PDF

jAster_BA · « **Odpověď #10 kdy:** 14 Listopadu 2011, 02:28:08 »

Tak chyby tam budú vždy a kontrola bude nevyhnutná, nakolko ani najlepšie OCRko nepodá taký výsledok, aký je po ňom požadovaný, t.j. bezchybný text.

petus · « **Odpověď #11 kdy:** 14 Listopadu 2011, 07:25:46 »

http://www.onlineocr.net/default.aspx

s tímhle mám výborné zkušenosti. Vyzkoušejte :-)

compaq · « **Odpověď #12 kdy:** 14 Listopadu 2011, 08:29:39 »

Stačí gscan2pdf a nějaké to ocr.

1. naskenovat obrázek s textem (jako stupně šedé)
2. prohnat ho ócéerkem (přímo v gscan2pdf), text se objeví dole pod obrázkem a asi je ho i možno editovat
3. uložit to jako PDF

Ve výsledném PDF bude kromě obrázku s textem i vlastní text (TXT) a bude možno (v Adobe readeru) v něm hledat.

P.S. běžná OCR mají problém s češtinou

Ladka · « **Odpověď #13 kdy:** 14 Listopadu 2011, 11:45:38 »

Citace: compaq 14 Listopadu 2011, 08:29:39

Stačí gscan2pdf a nějaké to ocr.

1. naskenovat obrázek s textem (jako stupně šedé)
2. prohnat ho ócéerkem (přímo v gscan2pdf), text se objeví dole pod obrázkem a asi je ho i možno editovat
3. uložit to jako PDF

Ve výsledném PDF bude kromě obrázku s textem i vlastní text (TXT) a bude možno (v Adobe readeru) v něm hledat.

P.S. běžná OCR mají problém s češtinou

No, naisntalovala jsem gscan2pdf a jakési "gocr" ... pak ještě další ocr, jehož název si nevybavuji, ale v gscan2pdf možnost, která by nabízela ocr nějak nemám ... nebo nevidím... kde ji hledat?

compaq · « **Odpověď #14 kdy:** 14 Listopadu 2011, 11:50:03 »

Používám staré verze (0.9.21) a tam je to normálně v Nástroje - OCR.

RRRadek Neužil · « **Odpověď #15 kdy:** 14 Listopadu 2011, 17:48:54 »

Citace: petus 14 Listopadu 2011, 07:25:46

http://www.onlineocr.net/default.aspx

s tímhle mám výborné zkušenosti. Vyzkoušejte :-)

Fakt super. Funguje lépe než jsem čekal... http://newocr.com/ udělá jen text a ještě s brutálními chybami kde to můžu rovnou přepsat ručně.
http://www.onlineocr.net/default.aspx rozpozná téměř dokonale a umožňuje export do .DOC takže se zachová formátování.

Každopádně je to na maximálné pár stran občas a né na nějaké brutální stohy dokumentů a knih.

ondrejandrej · « **Odpověď #16 kdy:** 14 Listopadu 2011, 18:58:57 »

Jinak já jsem měl na svém Ubuntu instalován Adobe Acrobat pro Windows (už nevím, zda to běželo pod wine, nebo Crossover Linux) a používal jsem ho na rozpoznání textu. Je to velmi dobrý program na OCR, který rozpoznává bez problémů i české znaky.

Nevím jak teď, ale dva roky dozadu nechodila pod wine/Crossover Linux nejnovší verze Adobe Acrobat, pouze tuším 8.0, ale OCR zvládají i starší verze skvěle.

Ladka · « **Odpověď #17 kdy:** 14 Listopadu 2011, 23:25:31 »

Citace: compaq 14 Listopadu 2011, 11:50:03

Používám staré verze (0.9.21) a tam je to normálně v Nástroje - OCR.

Aha. Mně synaptic nabídl jen verzi 0.8.9 .... nevím, zda to tato verze nemá, ale nevidím nejen OCR, ale ani nástroje. Poradíte mi prosím, jak nainstalovat popř. kde sehnat novější verzi s OCR?

compaq · « **Odpověď #18 kdy:** 15 Listopadu 2011, 08:11:35 »

Citace: Ladka 14 Listopadu 2011, 23:25:31

Aha. Mně synaptic nabídl jen verzi 0.8.9 .... nevím, zda to tato verze nemá, ale nevidím nejen OCR, ale ani nástroje. Poradíte mi prosím, jak nainstalovat popř. kde sehnat novější verzi s OCR?

A jakou verzi Ubuntu máš? Já U8.04 viz obrázek.

[attachment deleted by admin]

Ladka · « **Odpověď #19 kdy:** 15 Listopadu 2011, 12:14:14 »

No, já se přiznám, že se v těch distribucích vůbec nevyznám ....(mám linux cca 3 týdny a vůbec nějak nemám ambice hlouběji se systémem zabývat, jen chcizprovoznit věci, které potřebuji.... Takže vůbec nevím, jestli je pod tím, co na PC teď běží, schovaný nějaký "ubuntu základ", či nikoli ... nicméně mám Linux Mint 11 (LMDE) ...
Zkoušela jsem gscan2pdf naisntalovat podle tohoto návodu: http://gscan2pdf.sourceforge.net/

Skončila jsem ovšem hned na začátku:

Kód: [Vybrat]

asus-a6m ~ # gedit /etc/apt/sources.list
asus-a6m ~ # apt-get update
Cíl http://security.debian.org testing/updates InRelease
Ign http://archive.canonical.com lucid InRelease                               
Mám:1 http://ftp.de.debian.org sid InRelease [146 kB]                          
Ign http://ppa.launchpad.net <11> InRelease                                    
Ign http://www.debian-multimedia.org testing InRelease                         
Mám:2 http://archive.canonical.com lucid Release.gpg [198 B]                   
Ign http://ppa.launchpad.net <11> Release.gpg                                  
Mám:3 http://www.debian-multimedia.org testing Release.gpg [198 B]             
Cíl http://archive.canonical.com lucid Release                                 
Ign http://ppa.launchpad.net <11> Release                                      
Mám:4 http://www.debian-multimedia.org testing Release [29,4 kB]               
Ign http://archive.canonical.com lucid Release                                 
Cíl http://security.debian.org testing/updates/main i386 Packages              
Ign http://archive.canonical.com lucid/partner i386 Packages/DiffIndex         
Ign http://ppa.launchpad.net <11>/main TranslationIndex                        
Ign http://packages.linuxmint.com debian InRelease                             
Cíl http://debian.linuxmint.com testing InRelease                              
Cíl http://security.debian.org testing/updates/contrib i386 Packages           
Cíl http://security.debian.org testing/updates/non-free i386 Packages          
Ign http://security.debian.org testing/updates/contrib TranslationIndex        
Ign http://security.debian.org testing/updates/main TranslationIndex           
Ign http://security.debian.org testing/updates/non-free TranslationIndex       
Ign http://archive.canonical.com lucid/partner TranslationIndex                
Cíl http://www.debian-multimedia.org testing/main i386 Packages/DiffIndex      
Cíl http://archive.canonical.com lucid/partner i386 Packages                   
Cíl http://www.debian-multimedia.org testing/non-free i386 Packages/DiffIndex  
Ign http://www.debian-multimedia.org testing/main TranslationIndex             
Ign http://www.debian-multimedia.org testing/non-free TranslationIndex         
Mám:5 http://packages.linuxmint.com debian Release.gpg [198 B]                 
Mám:6 http://ftp.de.debian.org sid/main i386 Packages/DiffIndex [2 038 B]      
Mám:7 http://packages.linuxmint.com debian Release [12,1 kB]                   
Cíl http://debian.linuxmint.com testing/main i386 Packages/DiffIndex           
Mám:8 http://ftp.de.debian.org sid/main TranslationIndex [2 045 B]             
Ign http://security.debian.org testing/updates/contrib Translation-cs_CZ       
Cíl http://debian.linuxmint.com testing/contrib i386 Packages/DiffIndex        
Cíl http://debian.linuxmint.com testing/non-free i386 Packages/DiffIndex       
Ign http://debian.linuxmint.com testing/contrib TranslationIndex               
Ign http://security.debian.org testing/updates/contrib Translation-cs          
Ign http://security.debian.org testing/updates/contrib Translation-en          
Ign http://security.debian.org testing/updates/main Translation-cs_CZ          
Ign http://security.debian.org testing/updates/main Translation-cs             
Ign http://security.debian.org testing/updates/main Translation-en             
Ign http://security.debian.org testing/updates/non-free Translation-cs_CZ      
Ign http://security.debian.org testing/updates/non-free Translation-cs         
Ign http://security.debian.org testing/updates/non-free Translation-en         
Mám:9 http://ftp.de.debian.org sid/main i386 2011-11-14-2022.23.pdiff [5 386 B]
Mám:10 http://packages.linuxmint.com debian/main Sources [10,0 kB]             
Err http://ppa.launchpad.net <11>/main Sources                                 
  404  Not Found
Err http://ppa.launchpad.net <11>/main i386 Packages                           
  404  Not Found
Mám:11 http://ftp.de.debian.org sid/main i386 2011-11-14-2022.23.pdiff [5 386 B]
Cíl http://debian.linuxmint.com testing/main TranslationIndex                  
Ign http://debian.linuxmint.com testing/non-free TranslationIndex              
Ign http://archive.canonical.com lucid/partner Translation-cs_CZ               
Ign http://archive.canonical.com lucid/partner Translation-cs                  
Ign http://archive.canonical.com lucid/partner Translation-en                  
Mám:12 http://ftp.de.debian.org sid/main Translation-cs [710 kB]               
Ign http://www.debian-multimedia.org testing/main Translation-cs_CZ            
Ign http://www.debian-multimedia.org testing/main Translation-cs               
Ign http://www.debian-multimedia.org testing/main Translation-en               
Ign http://www.debian-multimedia.org testing/non-free Translation-cs_CZ        
Ign http://www.debian-multimedia.org testing/non-free Translation-cs           
Cíl http://debian.linuxmint.com testing/main Translation-cs                    
Ign http://ppa.launchpad.net <11>/main Translation-cs_CZ                       
Ign http://ppa.launchpad.net <11>/main Translation-cs                          
Ign http://www.debian-multimedia.org testing/non-free Translation-en           
Ign http://ppa.launchpad.net <11>/main Translation-en                          
Mám:13 http://packages.linuxmint.com debian/upstream Sources [773 B]           
Mám:14 http://packages.linuxmint.com debian/import Sources [2 807 B]           
Mám:15 http://packages.linuxmint.com debian/backport Sources [20 B]            
Mám:16 http://packages.linuxmint.com debian/romeo Sources [616 B]              
Mám:17 http://packages.linuxmint.com debian/main i386 Packages [9 896 B]       
Mám:18 http://packages.linuxmint.com debian/upstream i386 Packages [5 208 B]   
Mám:19 http://packages.linuxmint.com debian/import i386 Packages [19,4 kB]     
Mám:20 http://packages.linuxmint.com debian/backport i386 Packages [20 B]      
Mám:21 http://packages.linuxmint.com debian/romeo i386 Packages [20 B]         
Ign http://packages.linuxmint.com debian/backport TranslationIndex             
Ign http://packages.linuxmint.com debian/import TranslationIndex               
Ign http://packages.linuxmint.com debian/main TranslationIndex                 
Ign http://packages.linuxmint.com debian/romeo TranslationIndex                
Ign http://packages.linuxmint.com debian/upstream TranslationIndex             
Cíl http://qutim.org wheezy InRelease                                          
Cíl http://qutim.org wheezy/main i386 Packages                                 
Ign http://qutim.org wheezy/main TranslationIndex                       
Ign http://debian.linuxmint.com testing/contrib Translation-cs_CZ       
Ign http://debian.linuxmint.com testing/contrib Translation-cs          
Ign http://debian.linuxmint.com testing/contrib Translation-en                 
Ign http://debian.linuxmint.com testing/non-free Translation-cs_CZ             
Ign http://debian.linuxmint.com testing/non-free Translation-cs                
Ign http://debian.linuxmint.com testing/non-free Translation-en                
Mám:22 http://ftp.de.debian.org sid/main i386 2011-11-15-0213.41.pdiff [53,5 kB]
Mám:23 http://ftp.de.debian.org sid/main i386 2011-11-15-0213.41.pdiff [53,5 kB]
Ign http://qutim.org wheezy/main Translation-cs_CZ                             
Ign http://qutim.org wheezy/main Translation-cs                                
Ign http://qutim.org wheezy/main Translation-en                                
Ign http://packages.linuxmint.com debian/backport Translation-cs_CZ            
Ign http://packages.linuxmint.com debian/backport Translation-cs               
Ign http://packages.linuxmint.com debian/backport Translation-en               
Ign http://packages.linuxmint.com debian/import Translation-cs_CZ              
Ign http://packages.linuxmint.com debian/import Translation-cs                 
Ign http://packages.linuxmint.com debian/import Translation-en                 
Ign http://packages.linuxmint.com debian/main Translation-cs_CZ                
Ign http://packages.linuxmint.com debian/main Translation-cs                   
Ign http://packages.linuxmint.com debian/main Translation-en                   
Ign http://packages.linuxmint.com debian/romeo Translation-cs_CZ               
Ign http://packages.linuxmint.com debian/romeo Translation-cs                  
Mám:24 http://ftp.de.debian.org sid/main i386 2011-11-15-0822.01.pdiff [71,0 kB]
Ign http://packages.linuxmint.com debian/romeo Translation-en                  
Mám:25 http://ftp.de.debian.org sid/main i386 2011-11-15-0822.01.pdiff [71,0 kB]
Ign http://packages.linuxmint.com debian/upstream Translation-cs_CZ            
Ign http://packages.linuxmint.com debian/upstream Translation-cs               
Ign http://packages.linuxmint.com debian/upstream Translation-en               
Staženo 1 081 kB za 11s (97,8 kB/s)                                            
W: Chyba GPG: http://archive.canonical.com lucid Release: Následující podpisy nemohly být ověřeny, protože není dostupný veřejný klíč: NO_PUBKEY 40976EAF437D05B5
W: Selhalo stažení http://ppa.launchpad.net/jeffreyratcliffe/ubuntu/dists/<11>/main/source/Sources  404  Not Found

W: Selhalo stažení http://ppa.launchpad.net/jeffreyratcliffe/ubuntu/dists/<11>/main/binary-i386/Packages  404  Not Found

E: Some index files failed to download. They have been ignored, or old ones used instead.

Co s tím?

pacholik · « **Odpověď #20 kdy:** 15 Listopadu 2011, 18:29:24 »

Špatně jsi přidala repozitář, jako <release> se myslí jméno vydání Ubuntu, třeba oneric.

BTW vypadá to že máš v /etc/sources.list šílenej bordel, nechceš povyházet co nepotřebuješ? Nebo ho rovnou celej smazat a začít nanovo, LMDE ho má v základu takhle (prý, klidně mě minťáci opravte)

Kód: [Vybrat]

deb http://packages.linuxmint.com/ debian main upstream import
deb http://debian.linuxmint.com/latest testing main contrib non-free
deb http://debian.linuxmint.com/latest/security testing/updates main contrib non-free
deb http://debian.linuxmint.com/latest/multimedia testing main non-free

Rover623 · « **Odpověď #21 kdy:** 15 Listopadu 2011, 19:56:25 »

Mint 11 je Ubuntu 11.04 (myslím), repozitáře (Mint používá ty Ubunťácké, pokud není na Debian základu) jsou tedy "natty". Jinak souhlasím s tím, že v těch repozitářích je ukrutný bordel, chtělo by to nějak projít vyčistit.

Jinak bych zkusil tohle http://gimagereader.sourceforge.net/ je to grafický front-end pro OCR, export do PDF to zvládne (obrázky i text) a je možnost stáhnout přímo DEB binárku

Ladka · « **Odpověď #22 kdy:** 15 Listopadu 2011, 20:18:42 »

Citace: Rover623 15 Listopadu 2011, 19:56:25

Mint 11 je Ubuntu 11.04 (myslím), repozitáře (Mint používá ty Ubunťácké, pokud není na Debian základu) jsou tedy "natty". Jinak souhlasím s tím, že v těch repozitářích je ukrutný bordel, chtělo by to nějak projít vyčistit.

Jinak bych zkusil tohle http://gimagereader.sourceforge.net/ je to grafický front-end pro OCR, export do PDF to zvládne (obrázky i text) a je možnost stáhnout přímo DEB binárku

Díky, nainstalovala jsem ;-) snad bude fungovat .... vyzkouším zítra ....dneska se v PC hrabu celý den a mám už toho tak nějak dost ....
k těm repozitářům, zařídila jsem se podle rady od pacholika a upravila sources.list podle jeho návrhu .... mám takový pocit, že v systému, který spravuji já už není moc co zkazit ... :-D

Rover623 · « **Odpověď #23 kdy:** 15 Listopadu 2011, 21:59:43 »

Než jsem se naučil používat DOS, zdestruoval jsem ten systém asi pětkrát. Windows jsem poslal pod kytičky snad víc jak stokrát a Linux ze začátku jsem taky reinstaloval skoro každý měsíc. Tenhle stav vám jen pomůže se něco naučit, lidí co se dnes pokouší sebe-zdokonalovat je pořád méně

jAster_BA · « **Odpověď #24 kdy:** 15 Listopadu 2011, 22:07:52 »

Citace: Rover623 15 Listopadu 2011, 21:59:43

Než jsem se naučil používat DOS, zdestruoval jsem ten systém asi pětkrát. Windows jsem poslal pod kytičky snad víc jak stokrát a Linux ze začátku jsem taky reinstaloval skoro každý měsíc. Tenhle stav vám jen pomůže se něco naučit, lidí co se dnes pokouší sebe-zdokonalovat je pořád méně

To je pekné ale obidvaja velmi dobre vieme, kolko času to žerie

Autor Téma: Jak vytvořit PDF s funkcí vyhledávání v textu? (Přečteno 7004 krát)

jmp