Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Obecná podpora => Téma založeno: Ladka 13 Listopadu 2011, 18:31:16
-
Zdravím,
nevíte prosím někdo, zda existuje pro Linux nějaký neplacený program, který by uměl skenovat a ukládat dokumenty jako pdf v nichž se dá vyhledávat pomocí search? Nainstalovala jsem gscan2pdf, ale pokud tam ta funkce je, tak nevím jak ji nastavit.
Neměl byste někdo nějaký tip?
Budu vděčná za Vaše rady....
Pdf s vyhledáváním vážně moc potřebuju. :(
-
V prohlížeči dokumentů to jde klávesami ctrl+F
-
No vyhledávat umím, jde mi o to aby program pomocí něhož skenuji uměl naskenovaný obrázek uložit jako pdf s podporou vyhledávání. Aby se zkrátka v pdfku dalo pak Ctrl+F použít .... gscan2pdf mi sice obrázek naskenuje, ale nenabízí mi možnost "skenovat jako ocr" nebo "uložit jako ocr" ... vlastně ani nic podobného. Nevíte, který program by takto "rovnou ukládat" uměl? Popř. co v gscan nastavit a jak?
-
problematiku neznam, ale obecne to co pozadujete je: udelat obrazek, z obrazku text a z textu pdf
nevim o nicem, co by toto resilo jednorazove
obrazek asi po naskenovani mate
ten musite prohnat skrze nejake OCR, aby z toho byl text (tim ale nejspis prijdete o formatovani a o obrazky v textu)
OCR nejak neni stoprocentne spolehlive, takze zde prijde na radu korektura, zpetne nasazeni obrazku a nove zalomeni
no a pak uz z toho vyrobit pdf...
-
Osobně se mi jako nejlepší nástroj na rozpoznávání textu osvědčila tato stránka: http://newocr.com/
-
Nešlo by to prostě exportovat do LibreOffice a potom to jako PDF uložit.
-
Zdravím,
nevíte prosím někdo, zda existuje pro Linux nějaký neplacený program, který by uměl skenovat a ukládat dokumenty jako pdf v nichž se dá vyhledávat pomocí search?
Tématem jsem se trochu zabýval, ale v současné době takový program asi nebude; možná zkusit nějakou shareware/trial verzi komerčního software ve wine.
Bylo by v mých silách takový program napsat, komponenty jako OCR a sestavováni PDF jsou k mání, ale naprosto nestíhám.
-
Já bych se toho ujal, ale čas budu mít až po vánocích, teď jsem na tom stejně jako pan Dominec, absolutně nezvládám
-
No já jsem na win XP takový program měla - uměl to jakýsi program dodávaný ke skeneru CanoScan LiDE 200 ... už nevím, jak se jmenoval, ale stačilo v něm nastavit v možnostech skenování "ocr" a následně při ukládání "uložit jako pdf" ... výsledek bylo pdf v němž se dalo vyhledávat podtrhávat apod ....
Hrozně moc by se mi něco podobného hodilo i pro linux ( když mi xp odešly do křemíkového nebe) ... Přes ocr všechny ty texty "číst" by zabralo hrozně času (jedná se obvykle o publikace o několika stech stranách, které navíc obsahují i jiné typy písma - hebrejština, řečtina) ... obávám se, že najít nějaké OCR, které by tohle bez problému zvládlo, bude asi problém....
Já bych se toho ujal, ale čas budu mít až po vánocích, teď jsem na tom stejně jako pan Dominec, absolutně nezvládám
... kdybyste někdo něco podobného vytvořili, bylo by to úžasné ;) Klidně si za to i zaplatím, hlavně, aby to fungovalo ;)
-
Já si hlavně nejsem jist jak by to vlastně mělo fungovat.
Máte text který naskenujete, výsledek je obvykle obrázek (png,jpg) z toho následně nějakým nástrojem s podporou ocr vyextrahujete text, ten text poté máte v tom programu, tedy něco takového http://www.root.cz/clanky/softwarova-sklizen-6-4-2011/ (poslední program) a pak už by asi neměl být takový problém dostat to do PDF
-
Tak chyby tam budú vždy a kontrola bude nevyhnutná, nakolko ani najlepšie OCRko nepodá taký výsledok, aký je po ňom požadovaný, t.j. bezchybný text.
-
http://www.onlineocr.net/default.aspx
s tímhle mám výborné zkušenosti. Vyzkoušejte :-)
-
Stačí gscan2pdf a nějaké to ocr.
1. naskenovat obrázek s textem (jako stupně šedé)
2. prohnat ho ócéerkem (přímo v gscan2pdf), text se objeví dole pod obrázkem a asi je ho i možno editovat
3. uložit to jako PDF
Ve výsledném PDF bude kromě obrázku s textem i vlastní text (TXT) a bude možno (v Adobe readeru) v něm hledat.
P.S. běžná OCR mají problém s češtinou
-
Stačí gscan2pdf a nějaké to ocr.
1. naskenovat obrázek s textem (jako stupně šedé)
2. prohnat ho ócéerkem (přímo v gscan2pdf), text se objeví dole pod obrázkem a asi je ho i možno editovat
3. uložit to jako PDF
Ve výsledném PDF bude kromě obrázku s textem i vlastní text (TXT) a bude možno (v Adobe readeru) v něm hledat.
P.S. běžná OCR mají problém s češtinou
No, naisntalovala jsem gscan2pdf a jakési "gocr" ... pak ještě další ocr, jehož název si nevybavuji, ale v gscan2pdf možnost, která by nabízela ocr nějak nemám ... nebo nevidím... kde ji hledat?
-
Používám staré verze (0.9.21) a tam je to normálně v Nástroje - OCR.
-
http://www.onlineocr.net/default.aspx
s tímhle mám výborné zkušenosti. Vyzkoušejte :-)
Fakt super. Funguje lépe než jsem čekal... http://newocr.com/ (http://newocr.com/) udělá jen text a ještě s brutálními chybami kde to můžu rovnou přepsat ručně.
http://www.onlineocr.net/default.aspx (http://www.onlineocr.net/default.aspx) rozpozná téměř dokonale a umožňuje export do .DOC takže se zachová formátování. ;D
Každopádně je to na maximálné pár stran občas a né na nějaké brutální stohy dokumentů a knih.
-
Jinak já jsem měl na svém Ubuntu instalován Adobe Acrobat pro Windows (už nevím, zda to běželo pod wine, nebo Crossover Linux) a používal jsem ho na rozpoznání textu. Je to velmi dobrý program na OCR, který rozpoznává bez problémů i české znaky.
Nevím jak teď, ale dva roky dozadu nechodila pod wine/Crossover Linux nejnovší verze Adobe Acrobat, pouze tuším 8.0, ale OCR zvládají i starší verze skvěle.
-
Používám staré verze (0.9.21) a tam je to normálně v Nástroje - OCR.
Aha. Mně synaptic nabídl jen verzi 0.8.9 .... nevím, zda to tato verze nemá, ale nevidím nejen OCR, ale ani nástroje. Poradíte mi prosím, jak nainstalovat popř. kde sehnat novější verzi s OCR?
-
Aha. Mně synaptic nabídl jen verzi 0.8.9 .... nevím, zda to tato verze nemá, ale nevidím nejen OCR, ale ani nástroje. Poradíte mi prosím, jak nainstalovat popř. kde sehnat novější verzi s OCR?
A jakou verzi Ubuntu máš? Já U8.04 viz obrázek.
[attachment deleted by admin]
-
No, já se přiznám, že se v těch distribucích vůbec nevyznám ....(mám linux cca 3 týdny a vůbec nějak nemám ambice hlouběji se systémem zabývat, jen chcizprovoznit věci, které potřebuji.... Takže vůbec nevím, jestli je pod tím, co na PC teď běží, schovaný nějaký "ubuntu základ", či nikoli ... nicméně mám Linux Mint 11 (LMDE) ...
Zkoušela jsem gscan2pdf naisntalovat podle tohoto návodu: http://gscan2pdf.sourceforge.net/
Skončila jsem ovšem hned na začátku:
asus-a6m ~ # gedit /etc/apt/sources.list
asus-a6m ~ # apt-get update
Cíl http://security.debian.org testing/updates InRelease
Ign http://archive.canonical.com lucid InRelease
Mám:1 http://ftp.de.debian.org sid InRelease [146 kB]
Ign http://ppa.launchpad.net <11> InRelease
Ign http://www.debian-multimedia.org testing InRelease
Mám:2 http://archive.canonical.com lucid Release.gpg [198 B]
Ign http://ppa.launchpad.net <11> Release.gpg
Mám:3 http://www.debian-multimedia.org testing Release.gpg [198 B]
Cíl http://archive.canonical.com lucid Release
Ign http://ppa.launchpad.net <11> Release
Mám:4 http://www.debian-multimedia.org testing Release [29,4 kB]
Ign http://archive.canonical.com lucid Release
Cíl http://security.debian.org testing/updates/main i386 Packages
Ign http://archive.canonical.com lucid/partner i386 Packages/DiffIndex
Ign http://ppa.launchpad.net <11>/main TranslationIndex
Ign http://packages.linuxmint.com debian InRelease
Cíl http://debian.linuxmint.com testing InRelease
Cíl http://security.debian.org testing/updates/contrib i386 Packages
Cíl http://security.debian.org testing/updates/non-free i386 Packages
Ign http://security.debian.org testing/updates/contrib TranslationIndex
Ign http://security.debian.org testing/updates/main TranslationIndex
Ign http://security.debian.org testing/updates/non-free TranslationIndex
Ign http://archive.canonical.com lucid/partner TranslationIndex
Cíl http://www.debian-multimedia.org testing/main i386 Packages/DiffIndex
Cíl http://archive.canonical.com lucid/partner i386 Packages
Cíl http://www.debian-multimedia.org testing/non-free i386 Packages/DiffIndex
Ign http://www.debian-multimedia.org testing/main TranslationIndex
Ign http://www.debian-multimedia.org testing/non-free TranslationIndex
Mám:5 http://packages.linuxmint.com debian Release.gpg [198 B]
Mám:6 http://ftp.de.debian.org sid/main i386 Packages/DiffIndex [2 038 B]
Mám:7 http://packages.linuxmint.com debian Release [12,1 kB]
Cíl http://debian.linuxmint.com testing/main i386 Packages/DiffIndex
Mám:8 http://ftp.de.debian.org sid/main TranslationIndex [2 045 B]
Ign http://security.debian.org testing/updates/contrib Translation-cs_CZ
Cíl http://debian.linuxmint.com testing/contrib i386 Packages/DiffIndex
Cíl http://debian.linuxmint.com testing/non-free i386 Packages/DiffIndex
Ign http://debian.linuxmint.com testing/contrib TranslationIndex
Ign http://security.debian.org testing/updates/contrib Translation-cs
Ign http://security.debian.org testing/updates/contrib Translation-en
Ign http://security.debian.org testing/updates/main Translation-cs_CZ
Ign http://security.debian.org testing/updates/main Translation-cs
Ign http://security.debian.org testing/updates/main Translation-en
Ign http://security.debian.org testing/updates/non-free Translation-cs_CZ
Ign http://security.debian.org testing/updates/non-free Translation-cs
Ign http://security.debian.org testing/updates/non-free Translation-en
Mám:9 http://ftp.de.debian.org sid/main i386 2011-11-14-2022.23.pdiff [5 386 B]
Mám:10 http://packages.linuxmint.com debian/main Sources [10,0 kB]
Err http://ppa.launchpad.net <11>/main Sources
404 Not Found
Err http://ppa.launchpad.net <11>/main i386 Packages
404 Not Found
Mám:11 http://ftp.de.debian.org sid/main i386 2011-11-14-2022.23.pdiff [5 386 B]
Cíl http://debian.linuxmint.com testing/main TranslationIndex
Ign http://debian.linuxmint.com testing/non-free TranslationIndex
Ign http://archive.canonical.com lucid/partner Translation-cs_CZ
Ign http://archive.canonical.com lucid/partner Translation-cs
Ign http://archive.canonical.com lucid/partner Translation-en
Mám:12 http://ftp.de.debian.org sid/main Translation-cs [710 kB]
Ign http://www.debian-multimedia.org testing/main Translation-cs_CZ
Ign http://www.debian-multimedia.org testing/main Translation-cs
Ign http://www.debian-multimedia.org testing/main Translation-en
Ign http://www.debian-multimedia.org testing/non-free Translation-cs_CZ
Ign http://www.debian-multimedia.org testing/non-free Translation-cs
Cíl http://debian.linuxmint.com testing/main Translation-cs
Ign http://ppa.launchpad.net <11>/main Translation-cs_CZ
Ign http://ppa.launchpad.net <11>/main Translation-cs
Ign http://www.debian-multimedia.org testing/non-free Translation-en
Ign http://ppa.launchpad.net <11>/main Translation-en
Mám:13 http://packages.linuxmint.com debian/upstream Sources [773 B]
Mám:14 http://packages.linuxmint.com debian/import Sources [2 807 B]
Mám:15 http://packages.linuxmint.com debian/backport Sources [20 B]
Mám:16 http://packages.linuxmint.com debian/romeo Sources [616 B]
Mám:17 http://packages.linuxmint.com debian/main i386 Packages [9 896 B]
Mám:18 http://packages.linuxmint.com debian/upstream i386 Packages [5 208 B]
Mám:19 http://packages.linuxmint.com debian/import i386 Packages [19,4 kB]
Mám:20 http://packages.linuxmint.com debian/backport i386 Packages [20 B]
Mám:21 http://packages.linuxmint.com debian/romeo i386 Packages [20 B]
Ign http://packages.linuxmint.com debian/backport TranslationIndex
Ign http://packages.linuxmint.com debian/import TranslationIndex
Ign http://packages.linuxmint.com debian/main TranslationIndex
Ign http://packages.linuxmint.com debian/romeo TranslationIndex
Ign http://packages.linuxmint.com debian/upstream TranslationIndex
Cíl http://qutim.org wheezy InRelease
Cíl http://qutim.org wheezy/main i386 Packages
Ign http://qutim.org wheezy/main TranslationIndex
Ign http://debian.linuxmint.com testing/contrib Translation-cs_CZ
Ign http://debian.linuxmint.com testing/contrib Translation-cs
Ign http://debian.linuxmint.com testing/contrib Translation-en
Ign http://debian.linuxmint.com testing/non-free Translation-cs_CZ
Ign http://debian.linuxmint.com testing/non-free Translation-cs
Ign http://debian.linuxmint.com testing/non-free Translation-en
Mám:22 http://ftp.de.debian.org sid/main i386 2011-11-15-0213.41.pdiff [53,5 kB]
Mám:23 http://ftp.de.debian.org sid/main i386 2011-11-15-0213.41.pdiff [53,5 kB]
Ign http://qutim.org wheezy/main Translation-cs_CZ
Ign http://qutim.org wheezy/main Translation-cs
Ign http://qutim.org wheezy/main Translation-en
Ign http://packages.linuxmint.com debian/backport Translation-cs_CZ
Ign http://packages.linuxmint.com debian/backport Translation-cs
Ign http://packages.linuxmint.com debian/backport Translation-en
Ign http://packages.linuxmint.com debian/import Translation-cs_CZ
Ign http://packages.linuxmint.com debian/import Translation-cs
Ign http://packages.linuxmint.com debian/import Translation-en
Ign http://packages.linuxmint.com debian/main Translation-cs_CZ
Ign http://packages.linuxmint.com debian/main Translation-cs
Ign http://packages.linuxmint.com debian/main Translation-en
Ign http://packages.linuxmint.com debian/romeo Translation-cs_CZ
Ign http://packages.linuxmint.com debian/romeo Translation-cs
Mám:24 http://ftp.de.debian.org sid/main i386 2011-11-15-0822.01.pdiff [71,0 kB]
Ign http://packages.linuxmint.com debian/romeo Translation-en
Mám:25 http://ftp.de.debian.org sid/main i386 2011-11-15-0822.01.pdiff [71,0 kB]
Ign http://packages.linuxmint.com debian/upstream Translation-cs_CZ
Ign http://packages.linuxmint.com debian/upstream Translation-cs
Ign http://packages.linuxmint.com debian/upstream Translation-en
Staženo 1 081 kB za 11s (97,8 kB/s)
W: Chyba GPG: http://archive.canonical.com lucid Release: Následující podpisy nemohly být ověřeny, protože není dostupný veřejný klíč: NO_PUBKEY 40976EAF437D05B5
W: Selhalo stažení http://ppa.launchpad.net/jeffreyratcliffe/ubuntu/dists/<11>/main/source/Sources 404 Not Found
W: Selhalo stažení http://ppa.launchpad.net/jeffreyratcliffe/ubuntu/dists/<11>/main/binary-i386/Packages 404 Not Found
E: Some index files failed to download. They have been ignored, or old ones used instead.
Co s tím?
-
Špatně jsi přidala repozitář, jako <release> se myslí jméno vydání Ubuntu, třeba oneric.
BTW vypadá to že máš v /etc/sources.list šílenej bordel, nechceš povyházet co nepotřebuješ? Nebo ho rovnou celej smazat a začít nanovo, LMDE ho má v základu takhle (prý, klidně mě minťáci opravte)
deb http://packages.linuxmint.com/ debian main upstream import
deb http://debian.linuxmint.com/latest testing main contrib non-free
deb http://debian.linuxmint.com/latest/security testing/updates main contrib non-free
deb http://debian.linuxmint.com/latest/multimedia testing main non-free
-
Mint 11 je Ubuntu 11.04 (myslím), repozitáře (Mint používá ty Ubunťácké, pokud není na Debian základu) jsou tedy "natty". Jinak souhlasím s tím, že v těch repozitářích je ukrutný bordel, chtělo by to nějak projít vyčistit.
Jinak bych zkusil tohle http://gimagereader.sourceforge.net/ je to grafický front-end pro OCR, export do PDF to zvládne (obrázky i text) a je možnost stáhnout přímo DEB binárku
-
Mint 11 je Ubuntu 11.04 (myslím), repozitáře (Mint používá ty Ubunťácké, pokud není na Debian základu) jsou tedy "natty". Jinak souhlasím s tím, že v těch repozitářích je ukrutný bordel, chtělo by to nějak projít vyčistit.
Jinak bych zkusil tohle http://gimagereader.sourceforge.net/ je to grafický front-end pro OCR, export do PDF to zvládne (obrázky i text) a je možnost stáhnout přímo DEB binárku
Díky, nainstalovala jsem ;-) snad bude fungovat .... vyzkouším zítra ....dneska se v PC hrabu celý den a mám už toho tak nějak dost ....
k těm repozitářům, zařídila jsem se podle rady od pacholika a upravila sources.list podle jeho návrhu .... mám takový pocit, že v systému, který spravuji já už není moc co zkazit ... :-D
-
Než jsem se naučil používat DOS, zdestruoval jsem ten systém asi pětkrát. Windows jsem poslal pod kytičky snad víc jak stokrát a Linux ze začátku jsem taky reinstaloval skoro každý měsíc. Tenhle stav vám jen pomůže se něco naučit, lidí co se dnes pokouší sebe-zdokonalovat je pořád méně
-
Než jsem se naučil používat DOS, zdestruoval jsem ten systém asi pětkrát. Windows jsem poslal pod kytičky snad víc jak stokrát a Linux ze začátku jsem taky reinstaloval skoro každý měsíc. Tenhle stav vám jen pomůže se něco naučit, lidí co se dnes pokouší sebe-zdokonalovat je pořád méně
To je pekné ale obidvaja velmi dobre vieme, kolko času to žerie :)
-
To mi povídejte .... Já už instalovala 3x za poslední 3 týdny .... a když se zdálo, že vše bude fungovat, podělala něco instalace aktualizací ... a jelikož se nevyznám, vypadá to, že než záplatovat chyby, budu asi systém instalovat znovu ....
PS: ten GimageReader funguje. Díky moc ;)
-
Tenhle stav vám jen pomůže se něco naučit, lidí co se dnes pokouší sebe-zdokonalovat je pořád méně
Normální člověk se tím, že se mu rozsype systém a on si ho nainstaluje znovu nic nenaučí. Je to jen žrout času.
Jsem proti trápení se s instalacemi s jedu třetím rokem (denně 8 hodin) na U8.04, které běží 24/7.
-
Testnul jsem ten GimageReader ale neumí nebo jsem na to nepřišel "češtinu" a to ukládání do PDF jsem také nikde nenašel. :-\
-
Testnul jsem ten GimageReader ale neumí nebo jsem na to nepřišel "češtinu" a to ukládání do PDF jsem také nikde nenašel. :-\
Čeština pro tesseract by měla být zde.
http://code.google.com/p/tesseract-ocr/downloads/detail?name=ces.traineddata.gz&can=2&q=
Ještě to musím vyzkoušet, ten program vypadá dobře a nevěděl jsem o něm.
-
Stáhl jsem tu češtinu rozbalil a nakopíroval příkazem...
sudo cp ./ces.traineddata /usr/share/tesseract-ocr/tessdata/
Spustil jsem GimageReader a ejhle čeština už byla dostupná ;D Ale při nahrání pokusného obrázku a následné kliknutí na tlačítko Recognize selection na mě vyskočí tato hláška... :'(
[attachment deleted by admin]