Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: OCR písmo YAGF nerozeznává - sype čaj [vyřešeno]  (Přečteno 1159 krát)

regine

  • Stálý člen
  • **
  • Příspěvků: 826
OCR písmo YAGF nerozeznává - sype čaj [vyřešeno]
« kdy: 02 Srpna 2011, 09:44:10 »
Následným způsobem jsem podle návodu nainstaloval YAGF rozlišování písma (anglického, češtinu zatím nemám odvahu zkoušet):
1) XSane Image Scanner - instalace
2) Cuneiform multi-language OCR system
3) yagf_0.8.1-1_i386.deb
4) v Terminálu
Kód: [Vybrat]
wget -q -O - http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add -
sudo sh -c 'echo "deb http://archive.getdeb.net/ubuntu lucid-getdeb apps" >> /etc/apt/sources.list.d/getdeb.list'
Během instalací nebyly hlášeny žádné chyby, vše probíhalo OK.
Ve spuštěné grafické rozhraní YAGF (nastaveno Recognition langue - English a text je v angličtině) otevřu soubor (png, tiff), označím oblast s textem a nechám "rozlišovat".
 ???
V pravé části se vygenerují znaky odpovídající délce označené textu, ale jde o nahodilé znaky (sypaný čaj).
V čem může být problém? ???
Ubuntu 10.04  LTS - the Lucid Lynx
Zdroje:
http://forum.ubuntu.cz/index.php/topic,46597.0.html
http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/
http://symmetrica.net/cuneiform-linux/yagf-en.html
http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid
« Poslední změna: 02 Srpna 2011, 18:26:03 od regine »
Ubuntu 16.04 LTS 32bit, 22.04 LTS 64bit

regine

  • Stálý člen
  • **
  • Příspěvků: 826
Re: OCR písmo YAGF nerozeznává - sype čaj
« Odpověď #1 kdy: 02 Srpna 2011, 15:45:23 »
Problém odhalen. Záleží na kvalitě předlohy. Font pod 12 bodů v podstatě nečitelný "sypaný čaj".
Cuneiform lze údajně ještě nějak doladit.
http://www.abclinuxu.cz/blog/kenyho_stesky/2010/6/ocr-pod-linuxem.-mile-prekvapeni-cuneiform/diskuse
příspěvek v diskusi od Aleš Kapica.
Citace
Cuneiform má možnost nastavit různý typ výstupu (lze je vypsat parametrem -f). Každý z nich může produkovat trochu jiné výsledky(!).Těžko říct jak s nimi nakládá yagf.
Z mého subjektivního pohledu dával lepší výsledky pokud jde o rozvržení stránky filtr 'hocr' (ten obsahuje i souřadnice) a pokud jde o čistý text filtr 'text'. A co je zajímavé, tak lepší výsledky jsem měl s distribuční verzí aplikace 0.7.0 než s poslední stable verzí 0.9.0
Zde výsledky rozpoznání png obrázku bez nastavování Cuneiform:
Kód: [Vybrat]
Dobré ráno. V češtině. V angličtině šel YAGF dohře. Zde je font 28 (chyba bylo 12). Snímáno programem Tal e ScreenShot- > Select Area.
Dobré ráno. V češnně. V angltčnně šel YAGF dobie. Zde le font 16. Snimáno programem Take ScreenShot ->Sefett Area.
Dobré ráno. V češtině. V angličtině šel YAGF dobie. Zde je font 20. Snimáno programem Take ScreenShot ->Select Area.
Dobré ráno. V češtině. V angličtině šel YAGF dohře. Zde je font 28. Snímáno programem Tal e ScreenShot- > Select Area.
Výsledek proti OCR-Recognita (ještě stará maďarská Windows verze z 1998) velmi tristní. Asi chybí nějaká zabudovaná inteligence. :-\
« Poslední změna: 02 Srpna 2011, 15:55:28 od regine »
Ubuntu 16.04 LTS 32bit, 22.04 LTS 64bit

 

Provoz zaštiťuje spolek OpenAlt.