Autor Téma: OCR písmo YAGF nerozeznává - sype čaj [vyřešeno] (Přečteno 1422 krát)

regine · « **kdy:** 02 Srpna 2011, 09:44:10 »

Následným způsobem jsem podle návodu nainstaloval YAGF rozlišování písma (anglického, češtinu zatím nemám odvahu zkoušet):
1) XSane Image Scanner - instalace
2) Cuneiform multi-language OCR system
3) yagf_0.8.1-1_i386.deb
4) v Terminálu

Kód: [Vybrat]

wget -q -O - http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add -
sudo sh -c 'echo "deb http://archive.getdeb.net/ubuntu lucid-getdeb apps" >> /etc/apt/sources.list.d/getdeb.list'

Během instalací nebyly hlášeny žádné chyby, vše probíhalo OK.
Ve spuštěné grafické rozhraní YAGF (nastaveno Recognition langue - English a text je v angličtině) otevřu soubor (png, tiff), označím oblast s textem a nechám "rozlišovat".

V pravé části se vygenerují znaky odpovídající délce označené textu, ale jde o nahodilé znaky (sypaný čaj).
V čem může být problém?

Ubuntu 10.04 LTS - the Lucid Lynx
Zdroje:
http://forum.ubuntu.cz/index.php/topic,46597.0.html
http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/
http://symmetrica.net/cuneiform-linux/yagf-en.html
http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid

regine · « **Odpověď #1 kdy:** 02 Srpna 2011, 15:45:23 »

Problém odhalen. Záleží na kvalitě předlohy. Font pod 12 bodů v podstatě nečitelný "sypaný čaj".
Cuneiform lze údajně ještě nějak doladit.
http://www.abclinuxu.cz/blog/kenyho_stesky/2010/6/ocr-pod-linuxem.-mile-prekvapeni-cuneiform/diskuse
příspěvek v diskusi od Aleš Kapica.

Citace

Cuneiform má možnost nastavit různý typ výstupu (lze je vypsat parametrem -f). Každý z nich může produkovat trochu jiné výsledky(!).Těžko říct jak s nimi nakládá yagf.
Z mého subjektivního pohledu dával lepší výsledky pokud jde o rozvržení stránky filtr 'hocr' (ten obsahuje i souřadnice) a pokud jde o čistý text filtr 'text'. A co je zajímavé, tak lepší výsledky jsem měl s distribuční verzí aplikace 0.7.0 než s poslední stable verzí 0.9.0

Zde výsledky rozpoznání png obrázku bez nastavování Cuneiform:

Kód: [Vybrat]

Dobré ráno. V češtině. V angličtině šel YAGF dohře. Zde je font 28 (chyba bylo 12). Snímáno programem Tal e ScreenShot- > Select Area.
Dobré ráno. V češnně. V angltčnně šel YAGF dobie. Zde le font 16. Snimáno programem Take ScreenShot ->Sefett Area. 
Dobré ráno. V češtině. V angličtině šel YAGF dobie. Zde je font 20. Snimáno programem Take ScreenShot ->Select Area. 
Dobré ráno. V češtině. V angličtině šel YAGF dohře. Zde je font 28. Snímáno programem Tal e ScreenShot- > Select Area.

Výsledek proti OCR-Recognita (ještě stará maďarská Windows verze z 1998) velmi tristní. Asi chybí nějaká zabudovaná inteligence. $:-\$

Autor Téma: OCR písmo YAGF nerozeznává - sype čaj [vyřešeno] (Přečteno 1422 krát)

regine

OCR písmo YAGF nerozeznává - sype čaj [vyřešeno]

regine

Re: OCR písmo YAGF nerozeznává - sype čaj