Fórum Ubuntu CZ/SK

Ubuntu pro osobní počítače => Multimédia => Téma založeno: regine 14 Května 2020, 15:08:54

Název: dpScreenOCR - nepřiřadí se Tesseract [Vyřešeno]
Přispěvatel: regine 14 Května 2020, 15:08:54
dpScreenOCR potřebuje k rozlišení označeného textu na obrazovce Tesseract.
Doinstaloval jsem dpScreenOCR na další počítač (na dvou předchozích delší dobu užíván), ale nepřiřadí se již instalovaný Tesseract (užívaný již v YAGF pro rozlišení písma).
Vše jsem odinstaloval (dpScreenOCR i Tesseract) a znovu instalovat. Výsledek je stejně špatný.
PLS - užívá někdo a může pomoci, v čem je problém a jak řešit?
https://danpla.github.io/dpscreenocr/ (https://danpla.github.io/dpscreenocr/)
zdroj stažení dpscreenocr_1.0.2-1~xenial1_i386.deb
https://launchpad.net/~daniel.p/+archive/ubuntu/dpscreenocr/+packages (https://launchpad.net/~daniel.p/+archive/ubuntu/dpscreenocr/+packages)
stručný postup instalace:
Citace
1. přes příruční-menu nad souborem   -dpscreenocr_1.0.2-1~xenial1_i386.deb-   vybráno "Centrum SW pro Ubuntu a instalace"
2. terminál:
sudo apt update
sudo apt install tesseract-ocr
přiloženy obrázky OK a bez Tesseract
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: juwa2 14 Května 2020, 18:09:48
Pokud zároveň nesmázneš konfiguraci, je reinstalace (čehokoli) naprosto zbytečná.... :-\
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: regine 14 Května 2020, 20:16:01
THX. Spustil jsem tesseract v terminálu - chybová hláška:
Kód: [Vybrat]
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /usr/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Oproti druhým počítačům je navíc adresář:
Kód: [Vybrat]
/usr/share/tessdata/Provedl jsem odinstalaci tesseract:
Kód: [Vybrat]
sudo apt-get remove tesseract-ocrobě složky zůstaly, tak ještě:
Kód: [Vybrat]
sudo apt-get autoremovebyla odstraněn adresář
Kód: [Vybrat]
/usr/share/tessdataZůstal jen:
Kód: [Vybrat]
/usr/share/tesseract-ocr/tessdatase 2 podadresáři se soubory - tessconfigs a configs
PLS - Mám je smazat, či jak postupovat?
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: Ventero 14 Května 2020, 21:11:56
Pouzivej v takovych pripadech radeji:
Kód: [Vybrat]
apt purge
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: juwa2 14 Května 2020, 23:04:39
THX. Spustil jsem tesseract v terminálu - chybová hláška:
Kód: [Vybrat]
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /usr/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Oproti druhým počítačům je navíc adresář:
Kód: [Vybrat]
/usr/share/tessdata/Provedl jsem odinstalaci tesseract:
Kód: [Vybrat]
sudo apt-get remove tesseract-ocrobě složky zůstaly, tak ještě:
Kód: [Vybrat]
sudo apt-get autoremovebyla odstraněn adresář
Kód: [Vybrat]
/usr/share/tessdataZůstal jen:
Kód: [Vybrat]
/usr/share/tesseract-ocr/tessdatase 2 podadresáři se soubory - tessconfigs a configs
PLS - Mám je smazat, či jak postupovat?

Ano, smazat. A další konfigurace může být v domovské složce či ~/.config
A raději při kompletních odinstalacích používej purge
Kód: [Vybrat]
sudo apt-get --purge remove <package>
Jinak ve složce /usr/share/tessdata  musí být příslušné soubory *.traineddata  Pokud ne, nemá jak ocr proběhnout. Soubory pro jednotlivé jazyky si stáhni a dej do té složky.
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: regine 15 Května 2020, 07:09:56
THX, ale problém přetrvává. Po smazání, nová instalace. Dojde k 'roztržení' obsahu do dvou složek/adresářů.
- na jiných kompech vše v jedné složce /usr/share/tesseract-ocr
- v tomto nefunkčním případě - > složka /usr/share/tesseract-ocr založena, obsahuje podsložku /usr/share/tesseract-ocr/tessdata v ní jen 11 souborů a chybí dvě podsložky configs a tessconfigs
- chybějící dvě podsložky configs a tessconfigs i s dalšími soubory jsou v /usr/share/tessdata plus soubor /usr/share/tessdata/pdf.ttf
Mám přemístit do jedné složky, jako na jiných 2 kompech? Nebo hledat dále, v čem je problém, že při instalaci se roztrhne obsah. Vše jsem pročistil a dohledal, jak výše poraděno.
přiloženy 3 náhledy na složky
>>> doplněno - něco jsem dohledal na: https://github.com/tesseract-ocr/tesseract/issues/221 (https://github.com/tesseract-ocr/tesseract/issues/221)
⇨ A) Jak provést řešení uvedené v diskusi změnou TESSDATA_PREFIX:
Citace
The solution is here:
change your tessdata preffix to TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata and all will be good. It works for fixing 4.0.16 version
Mate mne uvádění verze a jak se provádí změna preffix?
⇨ B) Nebo provést kopírování, jak uváděno v dalším příspěvku v diskusi:
Citace
Starting from the required files' original location I copied them to the parent folder like this:
sudo cp -i eng.traineddata osd.traineddata /usr/share/tesseract-ocr/4.00/
After this tesseract did not have any more problems.
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: JirkaZ 15 Května 2020, 10:14:11
jak se provádí změna preffix?

TESSDATA_PREFIX je tzv. systémová proměnná, neboli environment variable (je to hned v úvodu zmíněno v tom odkazu: "Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.").

Obecně viz https://duckduckgo.com/?q=linux+%22syst%C3%A9mov%C3%A9+prom%C4%9Bnn%C3%A9%22&t=h_&ia=web

Práce s nimi v Ubuntu viz třeba https://help.ubuntu.com/community/EnvironmentVariables
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: Ventero 15 Května 2020, 10:20:22
Pravdepodobne se ten prefix meni v konfiguracnim souboru bud samotneho tesseract nebo prip. te aplikace dpscreenocr
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: juwa2 15 Května 2020, 14:24:43
Na všech těch PC máš stejnou verzi Ubuntu?  Instaluješ stále tu stejnou verzi tesseract?   Proč neinstaluješ verzi z ofiko repo?? To je totiž základní příčina problémů...
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: regine 15 Května 2020, 16:59:30
Z repozitáře (Centrum SW pro Ubuntu) jsem rovněž instaloval se stejným výsledkem, jen jsem zde neuvedl.
Na ostatních dvou počítačích je rovněž Ubuntu 16.04 LTS (jeden 32bit a druhý 64bit, tento je 32bit), jen ne zcela stejné instalace ostatního SW.
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: juwa2 15 Května 2020, 18:11:19
Z repozitáře (Centrum SW pro Ubuntu) jsem rovněž instaloval se stejným výsledkem, jen jsem zde neuvedl.
Na ostatních dvou počítačích je rovněž Ubuntu 16.04 LTS (jeden 32bit a druhý 64bit, tento je 32bit), jen ne zcela stejné instalace ostatního SW.

Jestliže ti to hlásí
Kód: [Vybrat]
Error opening data file /usr/share/tessdata/eng.traineddata
Tak to znamená, že ta složka (/usr/share/tessdata) je prázdná. Musíš do ní ty jazykové soubory (.traineddata) nakopírovat (ať už odkudkoli, třeba z jiného PC).  Pak už ti to poběží.

Nebo to samé zkus vyřešit symlinkem:
Kód: [Vybrat]
sudo rm -R /usr/share/tessdata
sudo ln -s /usr/share/tesseract-ocr/4.00/tessdata /usr/share/tessdata

Tu cestu uprav podle skutešnosti (tam kde tu složku opravdu máš). Výsledek máš pro názornost na obrázcích.
P.S. Přeci nemůžeš s takovou banalitou zápasit několik dní.... :-\
Název: Re:dpScreenOCR - nepřiřadí se Tesseract
Přispěvatel: regine 15 Května 2020, 19:02:43
1) Po kopírování dpScreenOCR je plně funkční.
2) Zajímavé, že dnes v repozitáři tesseract-ocr se zobrazil v seznamu SW, ale údajně není dostupný k instalaci.
3)  :) s takovou banalitou zápasit několik dní - pokud nejsem časově tlačen, rád zjišťuji, co je příčinou, jak nejlépe řešit, ... Jeden se přiučí pro příště.
A všem zúčastněným v diskusi na fóru - díky.
___
P.S. - Stejně mi v mozku žere, proč se obsah za téměř totožných podmínek rozčlení na dva adresáře.