Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Multimédia => Téma založeno: regine 14 Května 2020, 15:08:54
-
dpScreenOCR potřebuje k rozlišení označeného textu na obrazovce Tesseract.
Doinstaloval jsem dpScreenOCR na další počítač (na dvou předchozích delší dobu užíván), ale nepřiřadí se již instalovaný Tesseract (užívaný již v YAGF pro rozlišení písma).
Vše jsem odinstaloval (dpScreenOCR i Tesseract) a znovu instalovat. Výsledek je stejně špatný.
PLS - užívá někdo a může pomoci, v čem je problém a jak řešit?
https://danpla.github.io/dpscreenocr/ (https://danpla.github.io/dpscreenocr/)
zdroj stažení dpscreenocr_1.0.2-1~xenial1_i386.deb
https://launchpad.net/~daniel.p/+archive/ubuntu/dpscreenocr/+packages (https://launchpad.net/~daniel.p/+archive/ubuntu/dpscreenocr/+packages)
stručný postup instalace:
1. přes příruční-menu nad souborem -dpscreenocr_1.0.2-1~xenial1_i386.deb- vybráno "Centrum SW pro Ubuntu a instalace"
2. terminál:
sudo apt update
sudo apt install tesseract-ocr
přiloženy obrázky OK a bez Tesseract
-
Pokud zároveň nesmázneš konfiguraci, je reinstalace (čehokoli) naprosto zbytečná.... :-\
-
THX. Spustil jsem tesseract v terminálu - chybová hláška:
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /usr/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.Oproti druhým počítačům je navíc adresář:
/usr/share/tessdata/Provedl jsem odinstalaci tesseract:
sudo apt-get remove tesseract-ocrobě složky zůstaly, tak ještě:
sudo apt-get autoremovebyla odstraněn adresář
/usr/share/tessdataZůstal jen:
/usr/share/tesseract-ocr/tessdatase 2 podadresáři se soubory - tessconfigs a configs
PLS - Mám je smazat, či jak postupovat?
-
Pouzivej v takovych pripadech radeji:
apt purge
-
THX. Spustil jsem tesseract v terminálu - chybová hláška:
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /usr/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.Oproti druhým počítačům je navíc adresář:
/usr/share/tessdata/Provedl jsem odinstalaci tesseract:
sudo apt-get remove tesseract-ocrobě složky zůstaly, tak ještě:
sudo apt-get autoremovebyla odstraněn adresář
/usr/share/tessdataZůstal jen:
/usr/share/tesseract-ocr/tessdatase 2 podadresáři se soubory - tessconfigs a configs
PLS - Mám je smazat, či jak postupovat?
Ano, smazat. A další konfigurace může být v domovské složce či ~/.config
A raději při kompletních odinstalacích používej purge
sudo apt-get --purge remove <package>
Jinak ve složce /usr/share/tessdata musí být příslušné soubory *.traineddata Pokud ne, nemá jak ocr proběhnout. Soubory pro jednotlivé jazyky si stáhni a dej do té složky.
-
THX, ale problém přetrvává. Po smazání, nová instalace. Dojde k 'roztržení' obsahu do dvou složek/adresářů.
- na jiných kompech vše v jedné složce /usr/share/tesseract-ocr
- v tomto nefunkčním případě - > složka /usr/share/tesseract-ocr založena, obsahuje podsložku /usr/share/tesseract-ocr/tessdata v ní jen 11 souborů a chybí dvě podsložky configs a tessconfigs
- chybějící dvě podsložky configs a tessconfigs i s dalšími soubory jsou v /usr/share/tessdata plus soubor /usr/share/tessdata/pdf.ttf
Mám přemístit do jedné složky, jako na jiných 2 kompech? Nebo hledat dále, v čem je problém, že při instalaci se roztrhne obsah. Vše jsem pročistil a dohledal, jak výše poraděno.
přiloženy 3 náhledy na složky
>>> doplněno - něco jsem dohledal na: https://github.com/tesseract-ocr/tesseract/issues/221 (https://github.com/tesseract-ocr/tesseract/issues/221)
⇨ A) Jak provést řešení uvedené v diskusi změnou TESSDATA_PREFIX:
The solution is here:
change your tessdata preffix to TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata and all will be good. It works for fixing 4.0.16 version
Mate mne uvádění verze a jak se provádí změna preffix?
⇨ B) Nebo provést kopírování, jak uváděno v dalším příspěvku v diskusi:
Starting from the required files' original location I copied them to the parent folder like this:
sudo cp -i eng.traineddata osd.traineddata /usr/share/tesseract-ocr/4.00/
After this tesseract did not have any more problems.
-
jak se provádí změna preffix?
TESSDATA_PREFIX je tzv. systémová proměnná, neboli environment variable (je to hned v úvodu zmíněno v tom odkazu: "Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.").
Obecně viz https://duckduckgo.com/?q=linux+%22syst%C3%A9mov%C3%A9+prom%C4%9Bnn%C3%A9%22&t=h_&ia=web
Práce s nimi v Ubuntu viz třeba https://help.ubuntu.com/community/EnvironmentVariables
-
Pravdepodobne se ten prefix meni v konfiguracnim souboru bud samotneho tesseract nebo prip. te aplikace dpscreenocr
-
Na všech těch PC máš stejnou verzi Ubuntu? Instaluješ stále tu stejnou verzi tesseract? Proč neinstaluješ verzi z ofiko repo?? To je totiž základní příčina problémů...
-
Z repozitáře (Centrum SW pro Ubuntu) jsem rovněž instaloval se stejným výsledkem, jen jsem zde neuvedl.
Na ostatních dvou počítačích je rovněž Ubuntu 16.04 LTS (jeden 32bit a druhý 64bit, tento je 32bit), jen ne zcela stejné instalace ostatního SW.
-
Z repozitáře (Centrum SW pro Ubuntu) jsem rovněž instaloval se stejným výsledkem, jen jsem zde neuvedl.
Na ostatních dvou počítačích je rovněž Ubuntu 16.04 LTS (jeden 32bit a druhý 64bit, tento je 32bit), jen ne zcela stejné instalace ostatního SW.
Jestliže ti to hlásí
Error opening data file /usr/share/tessdata/eng.traineddata
Tak to znamená, že ta složka (/usr/share/tessdata) je prázdná. Musíš do ní ty jazykové soubory (.traineddata) nakopírovat (ať už odkudkoli, třeba z jiného PC). Pak už ti to poběží.
Nebo to samé zkus vyřešit symlinkem:
sudo rm -R /usr/share/tessdata
sudo ln -s /usr/share/tesseract-ocr/4.00/tessdata /usr/share/tessdata
Tu cestu uprav podle skutešnosti (tam kde tu složku opravdu máš). Výsledek máš pro názornost na obrázcích.
P.S. Přeci nemůžeš s takovou banalitou zápasit několik dní.... :-\
-
1) Po kopírování dpScreenOCR je plně funkční.
2) Zajímavé, že dnes v repozitáři tesseract-ocr se zobrazil v seznamu SW, ale údajně není dostupný k instalaci.
3) :) s takovou banalitou zápasit několik dní - pokud nejsem časově tlačen, rád zjišťuji, co je příčinou, jak nejlépe řešit, ... Jeden se přiučí pro příště.
A všem zúčastněným v diskusi na fóru - díky.
___
P.S. - Stejně mi v mozku žere, proč se obsah za téměř totožných podmínek rozčlení na dva adresáře.