Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Obecná podpora => Téma založeno: regine 02 Srpna 2011, 09:44:10
-
Následným způsobem jsem podle návodu nainstaloval YAGF rozlišování písma (anglického, češtinu zatím nemám odvahu zkoušet):
1) XSane Image Scanner - instalace
2) Cuneiform multi-language OCR system
3) yagf_0.8.1-1_i386.deb
4) v Terminálu
wget -q -O - http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add -
sudo sh -c 'echo "deb http://archive.getdeb.net/ubuntu lucid-getdeb apps" >> /etc/apt/sources.list.d/getdeb.list'Během instalací nebyly hlášeny žádné chyby, vše probíhalo OK.
Ve spuštěné grafické rozhraní YAGF (nastaveno Recognition langue - English a text je v angličtině) otevřu soubor (png, tiff), označím oblast s textem a nechám "rozlišovat".
???
V pravé části se vygenerují znaky odpovídající délce označené textu, ale jde o nahodilé znaky (sypaný čaj).
V čem může být problém? ???
Ubuntu 10.04 LTS - the Lucid Lynx
Zdroje:
http://forum.ubuntu.cz/index.php/topic,46597.0.html (http://forum.ubuntu.cz/index.php/topic,46597.0.html)
http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/ (http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/)
http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)
http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid (http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid)
-
Problém odhalen. Záleží na kvalitě předlohy. Font pod 12 bodů v podstatě nečitelný "sypaný čaj".
Cuneiform lze údajně ještě nějak doladit.
http://www.abclinuxu.cz/blog/kenyho_stesky/2010/6/ocr-pod-linuxem.-mile-prekvapeni-cuneiform/diskuse (http://www.abclinuxu.cz/blog/kenyho_stesky/2010/6/ocr-pod-linuxem.-mile-prekvapeni-cuneiform/diskuse)
příspěvek v diskusi od Aleš Kapica.
Cuneiform má možnost nastavit různý typ výstupu (lze je vypsat parametrem -f). Každý z nich může produkovat trochu jiné výsledky(!).Těžko říct jak s nimi nakládá yagf.
Z mého subjektivního pohledu dával lepší výsledky pokud jde o rozvržení stránky filtr 'hocr' (ten obsahuje i souřadnice) a pokud jde o čistý text filtr 'text'. A co je zajímavé, tak lepší výsledky jsem měl s distribuční verzí aplikace 0.7.0 než s poslední stable verzí 0.9.0
Zde výsledky rozpoznání png obrázku bez nastavování Cuneiform:
Dobré ráno. V češtině. V angličtině šel YAGF dohře. Zde je font 28 (chyba bylo 12). Snímáno programem Tal e ScreenShot- > Select Area.
Dobré ráno. V češnně. V angltčnně šel YAGF dobie. Zde le font 16. Snimáno programem Take ScreenShot ->Sefett Area.
Dobré ráno. V češtině. V angličtině šel YAGF dobie. Zde je font 20. Snimáno programem Take ScreenShot ->Select Area.
Dobré ráno. V češtině. V angličtině šel YAGF dohře. Zde je font 28. Snímáno programem Tal e ScreenShot- > Select Area.Výsledek proti OCR-Recognita (ještě stará maďarská Windows verze z 1998) velmi tristní. Asi chybí nějaká zabudovaná inteligence. :-\