Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Obecná podpora => Téma založeno: ondysek 02 Května 2010, 12:29:37
-
Dobrý den hledám jednoduché a kvalitní a volně šiřitelné ocr pro linux. Může mi někdo pomoct? Přecházím z win na linux. Extra ve všem se ještě nevyznám. Uvítám pomoc. Gocr jsem zkoušel a moc se mi nezamlouvá nejde mi se dostávat přes to kodovaní a navíc jsem skenoval celou stránku a vyhodilo mi to jen pár znaků a nepřipadá mi že to bylo kompletní (ze stránky textu na papíře mi udělal půl stránky nesrozumitelného textu na pc)
Děkuji za rady a pomoc.
-
To je podle mě jedna z mála :) slabin Ubuntu/Linuxu. Něco je na wiki, ale celkově to není slavné.
http://wiki.ubuntu.cz/OCR
Třeba se ale někdo ozve s něčím optimističtějším. ;)
-
Kdysi jsem potřeboval OCR a na tu bídu okolo dával asi nejlepší výsledky tesseract (v repozitáři je balík tesseract-ocr). Možná ti bude stát za vyzkoušení.
-
Taky jsem si neco takoveho hledal, pomohl mi tenhle clanek :)
http://www.linux.com/archive/feature/138511
-
Tessaract jsem nainstaloval a slehla se po něm zem. Neumím ho inkde najít. Gocr má ještě dodatečné převádění ze znaků do jiných znaků a tak pokročilý nejsem abych to zvládal.
Je tu něco kdo zvládne obyčejný uživatel?
-
http://code.google.com/p/ocropus/ celkem jde
http://code.google.com/p/tesseract-ocr/
http://www.ocr4linux.com/en:start - nejkvalitnější, ale platí se, je to ABBYY FineReader Engine 8.0 CLI for Linux.
http://ubuntuforums.org/showthread.php?t=1456756&highlight=ocr
pdfocr dobrý na převod pdf do textu.
:)
-
Kdysi jsem potřeboval OCR a na tu bídu okolo dával asi nejlepší výsledky tesseract (v repozitáři je balík tesseract-ocr). Možná ti bude stát za vyzkoušení.
Jsem ho teď zkusil a první pokus skončil rozsypaným čajem. Chybka byla v tom, že tiff nebyl v šedé škále. Po konverzi tiffu do grayscale už tesseract text rozpoznal, jediný problém je s českou diakritikou. Je na to nějaký lék? Díval jsem se, že pro češtinu neexistuje připravený balíček a postup jak tesseract naučit češtinu pomocí tréninkového režimu je pro mě zcela nepochopitelný. Pakliže tedy neexistuje jednoduché řešení jak tesseract naučit česky, tak to asi není dobrá volba pro BFU.
-
Tessaract jsem nainstaloval a slehla se po něm zem. Neumím ho inkde najít. Gocr má ještě dodatečné převádění ze znaků do jiných znaků a tak pokročilý nejsem abych to zvládal.
Je tu něco kdo zvládne obyčejný uživatel?
tesseract se pouští v konzoli. Použití je v podstatě hrozně jednoduché. Vstupní soubor je scan ve formátu tiff ve stupních šedi.
tesseract vstupni-soubor.tif vystupni-soubor.txt
Ale jak jsem psal před chvílí, má problémy s češtinou.
-
Úspěšně používám YAGF (nadstavba Cuneiform) společně s XSANE. Oproti GOCR je úspěšnost převodu textu nesrovnatelně vyšší (rozhodně víc než 95%). Značnou výhodou je volitelná podpora češtiny (aktuální verze 0.8.1). Slovenština sice chybí, ale čeština by si s ní mohla většinou poradit. Pro instalaci YAGF je třeba vytvořit nový zdroj software GetDeb Apps.
wget -q -O - http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add -
sudo sh -c 'echo "deb http://archive.getdeb.net/ubuntu lucid-getdeb apps" >> /etc/apt/sources.list.d/getdeb.list'
Pak už stačí např. prostřednictvím "Centra softwaru pro Ubuntu" nainstalovat YAGF, Cuneiform a XSANE a radostně využívat velmi slušně fungující a uživatelsky přívětivé OCR ;) .
Zdroje:
http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/ (http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/)
http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)
http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid (http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid)
-
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
-
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
takze potrebujes ocr. bez toho, ze by nejaky software rozpoznal, co je znak a co ne, nelze zjistit pocet znaku.
mimochodem, ten primer (v tve paticce)
Stejně jako se nerad vrtám holejma rukama v motoru auta, tak nemusím terminál.
neni presny. terminal je proste jen jiny zpusob jak dosahnout sveho cile, cimz je u auta nechat se dovezt z A do B. hrabanim v motoru si nepomuzu.
takze kdyz jsme u aut, tak ekvivalentem prace v terminalu by bylo, ze si sednu na sedadlo ridice, natukam go --fastest-route --keep-speed-limits "Ústavní 91, Praha-Bohnice"
a pak si pustim film a odpocivam... ;)
-
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
takze potrebujes ocr. bez toho, ze by nejaky software rozpoznal, co je znak a co ne, nelze zjistit pocet znaku.
Jasně, myslel jsem to v tom smyslu, že nepotřebuji jako výstup text, ale jen počet znaků. :-)
Teď testuji gtk-ocr, ale funguje to jen s PNG a asi i dalších (mě neznámých) obrazových formátech. Mám většinu skenů v PDF (uvnitř jpeg, nebo LZW).
Kombinace scan2pdf + gocr funguje (pro anglické texty), ale sken nesmí být pérovka.
-
mimochodem, ten primer (v tve paticce)
Stejně jako se nerad vrtám holejma rukama v motoru auta, tak nemusím terminál.
neni presny. terminal je proste jen jiny zpusob jak dosahnout sveho cile, cimz je u auta nechat se dovezt z A do B. hrabanim v motoru si nepomuzu.
takze kdyz jsme u aut, tak ekvivalentem prace v terminalu by bylo, ze si sednu na sedadlo ridice, natukam go --fastest-route --keep-speed-limits "Ústavní 91, Praha-Bohnice"
a pak si pustim film a odpocivam... ;)
Tak takové auto bych nechtěl ani zadarmo. Při mých znalostech příkazů a rychlém zapomínání by mi vždy jen zčernala okénka a za 3 hodiny, kdy nemám šanci zjistit, zda auto jede, bych byl v lepším případě na stále stejném místě, v horším ve vesnici Bohnice v Kanadě.
-
Z vlastni zkusenosti doporucuji OCR tesseract, dava snad nejlepsi vysledky pro cesky text ze vsech opensource OCR programu dostupnych pro linux
-
Z vlastni zkusenosti doporucuji OCR tesseract, dava snad nejlepsi vysledky pro cesky text ze vsech opensource OCR programu dostupnych pro linux
Opravdu, ale češtinu můj zatím nenabízí. Existuje?
-
Opravdu, ale češtinu můj zatím nenabízí. Existuje?
Uz je to nejaka doba, co jsem ho pouzil, takze si nepamatuji, jak (a jestli vubec) jsem cestinu resil. Vysledkem ale byl celkem dost dobre precteny cesky text
-
Opravdu, ale češtinu můj zatím nenabízí. Existuje?
Uz je to nejaka doba, co jsem ho pouzil, takze si nepamatuji, jak (a jestli vubec) jsem cestinu resil. Vysledkem ale byl celkem dost dobre precteny cesky text
Tak to já když nastavím angličtinu (nebo němčinu), nedá se český text vůbec použít (každé druhé písmeno je jiné). V případě anglických částí textu je převod výborný, s minimem chyb.
-
http://www.root.cz/clanky/skenovani-knih-a-prevod-do-eknih-je-hracka/ (http://www.root.cz/clanky/skenovani-knih-a-prevod-do-eknih-je-hracka/)
-
pokud s tim jeste zapasis, zkus cuneiform, umi nativne cestinu a ma velmi dobre vysledky
-
Dobrý den stáhl jsem si ze stránek http://symmetrica.net/cuneiform-linux/yagf-en.html program yagf,, Software jsem rozbalil a potřeboval bych poradit jak např v terminálu nainstalovat tenhle program.Ubuntu mam 11.10/32..
Výpis složek
├── AUTHORS
├── CMakeCache.txt
├── CMakeFiles
│ ├── CMakeCCompiler.cmake
│ ├── CMakeDetermineCompilerABI_C.bin
│ ├── CMakeError.log
│ ├── cmake.check_cache
│ ├── CMakeOutput.log
│ ├── CMakeSystem.cmake
│ ├── CMakeTmp
│ │ └── CMakeFiles
│ │ └── cmTryCompileExec.dir
│ ├── CompilerIdC
│ │ ├── a.out
│ │ └── CMakeCCompilerId.c
│ └── CompilerIdCXX
│ └── CMakeCXXCompilerId.cpp
├── CMakeLists.txt
├── COPYING
├── DESCRIPTION
├── ChangeLog
├── README
├── src
│ ├── BlockAnalysis.cpp
│ ├── BlockAnalysis.h
│ ├── CCAnalysis.cpp
│ ├── CCAnalysis.h
│ ├── configdialog.cpp
│ ├── configdialog.h
│ ├── configdialog.ui
│ ├── FileChannel.cpp
│ ├── FileChannel.h
│ ├── FileToolBar.cpp
│ ├── FileToolBar.h
│ ├── ghostscr.cpp
│ ├── ghostscr.h
│ ├── images
│ │ ├── align.png
│ │ ├── application_pdf.png
│ │ ├── back.png
│ │ ├── batch.png
│ │ ├── critical.png
│ │ ├── deskew2.png
│ │ ├── document_open.png
│ │ ├── document_save_as.png
│ │ ├── editclear.png
│ │ ├── editcopy.png
│ │ ├── filefind.png
│ │ ├── fileopen.png
│ │ ├── filesaveas.png
│ │ ├── forward.png
│ │ ├── check_spelling.png
│ │ ├── info.png
│ │ ├── larger.png
│ │ ├── rccw.png
│ │ ├── rcw.png
│ │ ├── recblocks.png
│ │ ├── remove.png
│ │ ├── resize_block.png
│ │ ├── resize.png
│ │ ├── revert.png
│ │ ├── save_all.png
│ │ ├── saveblock.png
│ │ ├── savpicas.png
│ │ ├── scanner.png
│ │ ├── scanner_s.png
│ │ ├── scanner_s2.png
│ │ ├── scanner48.png
│ │ ├── select.png
│ │ ├── singlecolumn.png
│ │ ├── smaller.png
│ │ ├── stock_new_html.png
│ │ ├── trashcan1s.png
│ │ ├── trashcan2-s.png
│ │ ├── undo.png
│ │ ├── warning.png
│ │ └── yagf.png
│ ├── main.cpp
│ ├── mainform.cpp
│ ├── mainform.h
│ ├── mainform.ui
│ ├── make_style.sh
│ ├── PageAnalysis.cpp
│ ├── PageAnalysis.h
│ ├── pdfextractor.cpp
│ ├── pdfextractor.h
│ ├── pdf2ppt.cpp
│ ├── pdf2ppt.h
│ ├── popplerdialog.cpp
│ ├── popplerdialog.h
│ ├── popplerdialog.ui
│ ├── preload.c
│ ├── qgraphicsinput.cpp
│ ├── qgraphicsinput.h
│ ├── qxtgraphicsproxywidget.cpp
│ ├── qxtgraphicsproxywidget.h
│ ├── qxtgraphicsview.h
│ ├── SkewAnalysis.cpp
│ ├── SkewAnalysis.h
│ ├── spellcheck.cpp
│ ├── spellchecker.cpp
│ ├── spellchecker.h
│ ├── ts_update.sh
│ ├── utils.cpp
│ ├── utils.h
│ ├── yagf_de.ts
│ ├── yagf_lt.ts
│ ├── yagf_pl.ts
│ ├── yagf.qrc
│ ├── yagf_ru.ts
│ ├── yagf_uk.ts
│ └── ycommon.h
├── YAGF.desktop
├── yagf.png
└── yagf.spec
Předem děkuji
-
YAGF je na GetDebu http://www.getdeb.net/software/YAGF
-
kliknu na install this now spustí se centrum softwaru: Nenalezeno v aktuálním zdroji softwaru neexistuje balík s názvem ´´yagf´
-
How to Install Apps from GetDeb (http://www.getdeb.net/updates/Ubuntu/11.10#how_to_install)
-
Menší návod jsem udělal na mých stránkách http://janouskovi.net/component/content/article/8-linux/54-ocr-v-xubuntu-11-10 (http://janouskovi.net/component/content/article/8-linux/54-ocr-v-xubuntu-11-10)
-
Děkuji za pomoc krásně už to funguje ;)