Fórum Ubuntu CZ/SK

Ubuntu pro osobní počítače => Obecná podpora => Téma založeno: ondysek 02 Května 2010, 12:29:37

Název: OCR pro Linux 10.04
Přispěvatel: ondysek 02 Května 2010, 12:29:37: Dobrý den hledám jednoduché a kvalitní a volně šiřitelné ocr pro linux. Může mi někdo pomoct? Přecházím z win na linux. Extra ve všem se ještě nevyznám. Uvítám pomoc. Gocr jsem zkoušel a moc se mi nezamlouvá nejde mi se dostávat přes to kodovaní a navíc jsem skenoval celou stránku a vyhodilo mi to jen pár znaků a nepřipadá mi že to bylo kompletní (ze stránky textu na papíře mi udělal půl stránky nesrozumitelného textu na pc)

Děkuji za rady a pomoc.
Název: Re: OCR pro Linux 10.04
Přispěvatel: arrange 02 Května 2010, 12:42:43: To je podle mě jedna z mála :) slabin Ubuntu/Linuxu. Něco je na wiki, ale celkově to není slavné.
http://wiki.ubuntu.cz/OCR

Třeba se ale někdo ozve s něčím optimističtějším. ;)
Název: Re: OCR pro Linux 10.04
Přispěvatel: rkamen 02 Května 2010, 14:09:39: Kdysi jsem potřeboval OCR a na tu bídu okolo dával asi nejlepší výsledky tesseract (v repozitáři je balík tesseract-ocr). Možná ti bude stát za vyzkoušení.
Název: Re: OCR pro Linux 10.04
Přispěvatel: LuciusMare 02 Května 2010, 15:58:15: Taky jsem si neco takoveho hledal, pomohl mi tenhle clanek :)
http://www.linux.com/archive/feature/138511
Název: Re: OCR pro Linux 10.04
Přispěvatel: ondysek 03 Května 2010, 23:16:43: Tessaract jsem nainstaloval a slehla se po něm zem. Neumím ho inkde najít. Gocr má ještě dodatečné převádění ze znaků do jiných znaků a tak pokročilý nejsem abych to zvládal.

Je tu něco kdo zvládne obyčejný uživatel?
Název: Re: OCR pro Linux 10.04
Přispěvatel: Walard 04 Května 2010, 19:36:38: http://code.google.com/p/ocropus/ celkem jde
http://code.google.com/p/tesseract-ocr/
http://www.ocr4linux.com/en:start - nejkvalitnější, ale platí se, je to ABBYY FineReader Engine 8.0 CLI for Linux.
http://ubuntuforums.org/showthread.php?t=1456756&highlight=ocr
pdfocr dobrý na převod pdf do textu.

:)
Název: Re: OCR pro Linux 10.04
Přispěvatel: Iljusin 04 Května 2010, 21:16:00: Citace: rkamen 02 Května 2010, 14:09:39
Kdysi jsem potřeboval OCR a na tu bídu okolo dával asi nejlepší výsledky tesseract (v repozitáři je balík tesseract-ocr). Možná ti bude stát za vyzkoušení.
Jsem ho teď zkusil a první pokus skončil rozsypaným čajem. Chybka byla v tom, že tiff nebyl v šedé škále. Po konverzi tiffu do grayscale už tesseract text rozpoznal, jediný problém je s českou diakritikou. Je na to nějaký lék? Díval jsem se, že pro češtinu neexistuje připravený balíček a postup jak tesseract naučit češtinu pomocí tréninkového režimu je pro mě zcela nepochopitelný. Pakliže tedy neexistuje jednoduché řešení jak tesseract naučit česky, tak to asi není dobrá volba pro BFU.
Název: Re: OCR pro Linux 10.04
Přispěvatel: Iljusin 04 Května 2010, 21:22:09: Citace: ondysek 03 Května 2010, 23:16:43
Tessaract jsem nainstaloval a slehla se po něm zem. Neumím ho inkde najít. Gocr má ještě dodatečné převádění ze znaků do jiných znaků a tak pokročilý nejsem abych to zvládal.

Je tu něco kdo zvládne obyčejný uživatel?
tesseract se pouští v konzoli. Použití je v podstatě hrozně jednoduché. Vstupní soubor je scan ve formátu tiff ve stupních šedi.

Kód: [Vybrat]
tesseract vstupni-soubor.tif vystupni-soubor.txt
Ale jak jsem psal před chvílí, má problémy s češtinou.
Název: Re: OCR pro Linux 10.04
Přispěvatel: Jaga 26 Srpna 2010, 15:11:11: Úspěšně používám YAGF (nadstavba Cuneiform) společně s XSANE. Oproti GOCR je úspěšnost převodu textu nesrovnatelně vyšší (rozhodně víc než 95%). Značnou výhodou je volitelná podpora češtiny (aktuální verze 0.8.1). Slovenština sice chybí, ale čeština by si s ní mohla většinou poradit. Pro instalaci YAGF je třeba vytvořit nový zdroj software GetDeb Apps.

Kód: [Vybrat]
wget -q -O - http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add - sudo sh -c 'echo "deb http://archive.getdeb.net/ubuntu lucid-getdeb apps" >> /etc/apt/sources.list.d/getdeb.list'
Pak už stačí např. prostřednictvím "Centra softwaru pro Ubuntu" nainstalovat YAGF, Cuneiform a XSANE a radostně využívat velmi slušně fungující a uživatelsky přívětivé OCR ;) .

Zdroje:
http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/ (http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/)
http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)
http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid (http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid)
Název: Re: OCR pro Linux 10.04
Přispěvatel: compaq 08 Září 2011, 14:18:39: Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
Název: Re: OCR pro Linux 10.04
Přispěvatel: daysleeper 08 Září 2011, 14:40:00: Citace: compaq 08 Září 2011, 14:18:39
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
takze potrebujes ocr. bez toho, ze by nejaky software rozpoznal, co je znak a co ne, nelze zjistit pocet znaku.

mimochodem, ten primer (v tve paticce)
Citace
Stejně jako se nerad vrtám holejma rukama v motoru auta, tak nemusím terminál.
neni presny. terminal je proste jen jiny zpusob jak dosahnout sveho cile, cimz je u auta nechat se dovezt z A do B. hrabanim v motoru si nepomuzu.
takze kdyz jsme u aut, tak ekvivalentem prace v terminalu by bylo, ze si sednu na sedadlo ridice, natukam
Kód: [Vybrat]
go --fastest-route --keep-speed-limits "Ústavní 91, Praha-Bohnice"a pak si pustim film a odpocivam... ;)
Název: Re: OCR pro Linux 10.04
Přispěvatel: compaq 08 Září 2011, 14:56:22: Citace: daysleeper 08 Září 2011, 14:40:00
Citace: compaq 08 Září 2011, 14:18:39
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
takze potrebujes ocr. bez toho, ze by nejaky software rozpoznal, co je znak a co ne, nelze zjistit pocet znaku.

Jasně, myslel jsem to v tom smyslu, že nepotřebuji jako výstup text, ale jen počet znaků. :-)

Teď testuji gtk-ocr, ale funguje to jen s PNG a asi i dalších (mě neznámých) obrazových formátech. Mám většinu skenů v PDF (uvnitř jpeg, nebo LZW).

Kombinace scan2pdf + gocr funguje (pro anglické texty), ale sken nesmí být pérovka.
Název: Re: OCR pro Linux 10.04
Přispěvatel: compaq 08 Září 2011, 15:40:33: Citace: daysleeper 08 Září 2011, 14:40:00
mimochodem, ten primer (v tve paticce)
Citace
Stejně jako se nerad vrtám holejma rukama v motoru auta, tak nemusím terminál.
neni presny. terminal je proste jen jiny zpusob jak dosahnout sveho cile, cimz je u auta nechat se dovezt z A do B. hrabanim v motoru si nepomuzu.
takze kdyz jsme u aut, tak ekvivalentem prace v terminalu by bylo, ze si sednu na sedadlo ridice, natukam
Kód: [Vybrat]
go --fastest-route --keep-speed-limits "Ústavní 91, Praha-Bohnice"a pak si pustim film a odpocivam... ;)

Tak takové auto bych nechtěl ani zadarmo. Při mých znalostech příkazů a rychlém zapomínání by mi vždy jen zčernala okénka a za 3 hodiny, kdy nemám šanci zjistit, zda auto jede, bych byl v lepším případě na stále stejném místě, v horším ve vesnici Bohnice v Kanadě.
Název: Re: OCR pro Linux 10.04
Přispěvatel: Šuohob 08 Září 2011, 15:42:57: Z vlastni zkusenosti doporucuji OCR tesseract, dava snad nejlepsi vysledky pro cesky text ze vsech opensource OCR programu dostupnych pro linux
Název: Re: OCR pro Linux 10.04
Přispěvatel: compaq 08 Září 2011, 16:01:55: Citace: Bohouš 08 Září 2011, 15:42:57
Z vlastni zkusenosti doporucuji OCR tesseract, dava snad nejlepsi vysledky pro cesky text ze vsech opensource OCR programu dostupnych pro linux

Opravdu, ale češtinu můj zatím nenabízí. Existuje?
Název: Re: OCR pro Linux 10.04
Přispěvatel: Šuohob 08 Září 2011, 16:38:14: Citace: compaq 08 Září 2011, 16:01:55
Opravdu, ale češtinu můj zatím nenabízí. Existuje?

Uz je to nejaka doba, co jsem ho pouzil, takze si nepamatuji, jak (a jestli vubec) jsem cestinu resil. Vysledkem ale byl celkem dost dobre precteny cesky text
Název: Re: OCR pro Linux 10.04
Přispěvatel: compaq 08 Září 2011, 16:44:33: Citace: Bohouš 08 Září 2011, 16:38:14
Citace: compaq 08 Září 2011, 16:01:55
Opravdu, ale češtinu můj zatím nenabízí. Existuje?

Uz je to nejaka doba, co jsem ho pouzil, takze si nepamatuji, jak (a jestli vubec) jsem cestinu resil. Vysledkem ale byl celkem dost dobre precteny cesky text

Tak to já když nastavím angličtinu (nebo němčinu), nedá se český text vůbec použít (každé druhé písmeno je jiné). V případě anglických částí textu je převod výborný, s minimem chyb.
Název: Re: OCR pro Linux 10.04
Přispěvatel: beer 08 Září 2011, 17:41:50: http://www.root.cz/clanky/skenovani-knih-a-prevod-do-eknih-je-hracka/ (http://www.root.cz/clanky/skenovani-knih-a-prevod-do-eknih-je-hracka/)
Název: Re: OCR pro Linux 10.04
Přispěvatel: Šuohob 16 Září 2011, 14:59:23: pokud s tim jeste zapasis, zkus cuneiform, umi nativne cestinu a ma velmi dobre vysledky
Název: Re:OCR pro Linux 10.04
Přispěvatel: notebook 13 Prosince 2011, 06:46:30: Dobrý den stáhl jsem si ze stránek http://symmetrica.net/cuneiform-linux/yagf-en.html program yagf,, Software jsem rozbalil a potřeboval bych poradit jak např v terminálu nainstalovat tenhle program.Ubuntu mam 11.10/32..
Výpis složek
Kód: [Vybrat]
├── AUTHORS ├── CMakeCache.txt ├── CMakeFiles │ ├── CMakeCCompiler.cmake │ ├── CMakeDetermineCompilerABI_C.bin │ ├── CMakeError.log │ ├── cmake.check_cache │ ├── CMakeOutput.log │ ├── CMakeSystem.cmake │ ├── CMakeTmp │ │ └── CMakeFiles │ │ └── cmTryCompileExec.dir │ ├── CompilerIdC │ │ ├── a.out │ │ └── CMakeCCompilerId.c │ └── CompilerIdCXX │ └── CMakeCXXCompilerId.cpp ├── CMakeLists.txt ├── COPYING ├── DESCRIPTION ├── ChangeLog ├── README ├── src │ ├── BlockAnalysis.cpp │ ├── BlockAnalysis.h │ ├── CCAnalysis.cpp │ ├── CCAnalysis.h │ ├── configdialog.cpp │ ├── configdialog.h │ ├── configdialog.ui │ ├── FileChannel.cpp │ ├── FileChannel.h │ ├── FileToolBar.cpp │ ├── FileToolBar.h │ ├── ghostscr.cpp │ ├── ghostscr.h │ ├── images │ │ ├── align.png │ │ ├── application_pdf.png │ │ ├── back.png │ │ ├── batch.png │ │ ├── critical.png │ │ ├── deskew2.png │ │ ├── document_open.png │ │ ├── document_save_as.png │ │ ├── editclear.png │ │ ├── editcopy.png │ │ ├── filefind.png │ │ ├── fileopen.png │ │ ├── filesaveas.png │ │ ├── forward.png │ │ ├── check_spelling.png │ │ ├── info.png │ │ ├── larger.png │ │ ├── rccw.png │ │ ├── rcw.png │ │ ├── recblocks.png │ │ ├── remove.png │ │ ├── resize_block.png │ │ ├── resize.png │ │ ├── revert.png │ │ ├── save_all.png │ │ ├── saveblock.png │ │ ├── savpicas.png │ │ ├── scanner.png │ │ ├── scanner_s.png │ │ ├── scanner_s2.png │ │ ├── scanner48.png │ │ ├── select.png │ │ ├── singlecolumn.png │ │ ├── smaller.png │ │ ├── stock_new_html.png │ │ ├── trashcan1s.png │ │ ├── trashcan2-s.png │ │ ├── undo.png │ │ ├── warning.png │ │ └── yagf.png │ ├── main.cpp │ ├── mainform.cpp │ ├── mainform.h │ ├── mainform.ui │ ├── make_style.sh │ ├── PageAnalysis.cpp │ ├── PageAnalysis.h │ ├── pdfextractor.cpp │ ├── pdfextractor.h │ ├── pdf2ppt.cpp │ ├── pdf2ppt.h │ ├── popplerdialog.cpp │ ├── popplerdialog.h │ ├── popplerdialog.ui │ ├── preload.c │ ├── qgraphicsinput.cpp │ ├── qgraphicsinput.h │ ├── qxtgraphicsproxywidget.cpp │ ├── qxtgraphicsproxywidget.h │ ├── qxtgraphicsview.h │ ├── SkewAnalysis.cpp │ ├── SkewAnalysis.h │ ├── spellcheck.cpp │ ├── spellchecker.cpp │ ├── spellchecker.h │ ├── ts_update.sh │ ├── utils.cpp │ ├── utils.h │ ├── yagf_de.ts │ ├── yagf_lt.ts │ ├── yagf_pl.ts │ ├── yagf.qrc │ ├── yagf_ru.ts │ ├── yagf_uk.ts │ └── ycommon.h ├── YAGF.desktop ├── yagf.png └── yagf.specPředem děkuji
Název: Re:OCR pro Linux 10.04
Přispěvatel: pacholik 13 Prosince 2011, 13:51:01: YAGF je na GetDebu http://www.getdeb.net/software/YAGF
Název: Re:OCR pro Linux 10.04
Přispěvatel: notebook 13 Prosince 2011, 18:10:38: kliknu na install this now spustí se centrum softwaru: Nenalezeno v aktuálním zdroji softwaru neexistuje balík s názvem ´´yagf´
Název: Re:OCR pro Linux 10.04
Přispěvatel: pacholik 13 Prosince 2011, 19:02:23: How to Install Apps from GetDeb (http://www.getdeb.net/updates/Ubuntu/11.10#how_to_install)
Název: Re:OCR pro Linux 10.04
Přispěvatel: maikcrew 13 Prosince 2011, 19:43:07: Menší návod jsem udělal na mých stránkách http://janouskovi.net/component/content/article/8-linux/54-ocr-v-xubuntu-11-10 (http://janouskovi.net/component/content/article/8-linux/54-ocr-v-xubuntu-11-10)
Název: Re:OCR pro Linux 10.04
Přispěvatel: notebook 13 Prosince 2011, 21:48:33: Děkuji za pomoc krásně už to funguje ;)