Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: OCR rozlišení - které - OCRFeeder nebo YAGF [vyřešeno]  (Přečteno 2208 krát)

regine

  • Stálý člen
  • **
  • Příspěvků: 826
Který SW pro rozlišení textu si instalovat z repozitáře OCRFeeder nebo YAGF?
Oba mají stejné hodnocení v repozitáři.
Potřebuji pro:
- běžné domácí užití,
- rezignuji na českou diakritiku (ale upřednostním  ;)),
- většinou pro snímání z JPG, PNG, případně z PDF pokud vnitřně uloženo ne jako text,
- nepotřebuji udržet formátování,
- nepotřebuji konverzi do MS produktů, nemám je.

Hezký den přeji.
« Poslední změna: 23 Září 2014, 23:18:57 od regine »
Ubuntu 16.04 LTS 32bit, 22.04 LTS 64bit

Martin Šácha

  • Člen občanského sdružení Ubuntu ČR a placené komunitní podpory
  • Administrátor fóra
  • ******
  • Příspěvků: 5153
Re:OCR rozlišení - které - OCRFeeder nebo YAGF
« Odpověď #1 kdy: 22 Září 2014, 15:03:39 »
tak si je nainstaluj oba a ktery ti bude vyhovovat pouzivej. OMG.
Mint MATE 64bit / DuckDuckGo.com
Programátoři považují WYSIWYG za špatné u kódu i u žen. Programátor chce "dostat to, co žádá“ – kód tajemný, neodpouštějící, nebezpečný.

regine

  • Stálý člen
  • **
  • Příspěvků: 826
OCRFeeder + Tesseract
« Odpověď #2 kdy: 22 Září 2014, 19:15:15 »
OCRFeeder + Tesseract - první pokus - rychlý test.
Informativní popisek pro ostatní.
Samozřejmě problém s nastavením české diakritiky v Tesseract. Vyřešeny záludnosti s parametry.
Pokud sejmutí anglického textu, pak nutno nastavit v záložce Misc - "no language"
Vyzkoušeny 2 vstupní soubory (PNG a PDF - bezproblémové rozlišení pokud nejsou malé fonty) a 4 možnosti výstupu:
- ODT - nevím proč místo rozpoznaného "a" je ve výstup "á", místo malého "v" je "V" a jiné nezbednosti.
- HTML - jako ODT
- PDF - téměř perfektní "a" nebo "v", asi nejlépe vyřešeno UTF (kódová stránka).
- TXT - jako ODT
Tím, že nejlepší výstup je do needitovatelného PDF, tak velké zklamání. >:(

Až budu mít čas, tak zkusím YAGF s Cuneiform. Hlavně zdržuje nastavování rozlišení českého písma a jiné nedokumentované fičurky.

Doplněno dodatečně po vyzkoušení.
>>>>> Z obrázku PNG.

Terminál - CuneiForm:
Kód: [Vybrat]
Který SW pro rozlišení textu si instalovat z repozitáre OCRFeeder nebo YAGí?
Oba mají stejné hodnocení v repozitáii.
potieguji pro:
— běžné domácí užití,
HODNOCENÍ:
+ rozezná řádkování
- horší detekce znaků

Terminál - Tesseract
Kód: [Vybrat]
Který SW pro rozlišení textu si instalovat Z repozitáře OCRFeedernebo YAGI'?
Oba mají stejné hodnocení v repozitáři.

Potřeguji pro:

- běžné domácí užití,
HODNOCENÍ:
+ lepší detekce znaků než CuneiForm z příkazové řádku
+- řádkuje, ale přidává řádky

OCRFeeder + Tesseract:
Kód: [Vybrat]
Který SW pro rozlišení textu si instalovat Z repozitáře OCRFeedernebo YAGI'? Oba mají stejné hodnocení v repozitáři.
Potřeguji pro:
- běžné domácí užití,
HODNOCENÍ:
+ nejlepší detekce znaků
- špatné řádkování

OCRFeeder + CuneiForm:
Kód: [Vybrat]
Který SW pro rozlišení textu si instalovat z repozitáře OCRFeeder nebo YAGí?  Oba mají stejné hodnocení v repozitáři.  Potřegují pro:  — běžné domácí užití,HODNOCENÍ:
? proč horší detekce znaků než z příkazového povelu v terminálu
- špatné řádkování

YAGF + Tesseract:
Kód: [Vybrat]
Který SW pro rnzlıšeni textu sı ınstalnvat Z repnzıtàře OCRFeedernebn YAGF Oba mají stejné hodnocení v repozitáři. Potřeguji pro: - hňìná dnmárí+ rozlišil slovo "YAGF"
? o něco lepší než YAGF s CuneiForm

YAGF + CuneiForm:
Kód: [Vybrat]
icterý SW pro rozbšeni textu si mstalovat z repozi táre OCRFeeder nebo YAGF Oba mají stejné hodnocení v repozitáii. potieguji pro: - hóan ó rlnmórl ořil I - žádné plus

_______________***____________
>>>>> Ze souboru PDF.

Terminál - CuneiForm - asi nelze
Terminál - Tesseract - určitě nelze, ověřeno

OCRFeeder + Tesseract:
Kód: [Vybrat]
Který SW pro rozlišení textu Si instalovat Z repozitáře OCRFeeder nebo YAGF? Oba mají Stejné hodnocení V repozitáři.
Potřeguji pro:
- běžné domácí užití,
HODNOCENÍ:
+ nejlepší detekce znaků
- špatné řádkování

OCRFeeder + CuneiForm:
Kód: [Vybrat]
Který SW pro rozlišení textu si instalovat z repozitáře OCRFeeder nebo YAGF?  Oba mají stejné hodnocení v repozitáři.  Potřeguji pro:  — běžné domácí užití,- žádné plus

Závěr.
1. Pokud z obrázků detekce textu, potom přes terminál příkazem tesseract.
2. Pokud PDF (nejlépe Master PDF Editor  ;)) nebo GUI ovládání, tak OCRFeeder + Tesseract.

« Poslední změna: 23 Září 2014, 22:46:56 od regine »
Ubuntu 16.04 LTS 32bit, 22.04 LTS 64bit

 

Provoz zaštiťuje spolek OpenAlt.