Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.

Autor Téma: dpScreenOCR - nepřiřadí se Tesseract [Vyřešeno]  (Přečteno 1022 krát)

regine

  • Stálý člen
  • ***
  • Příspěvků: 686
    • Zobrazit profil
dpScreenOCR - nepřiřadí se Tesseract [Vyřešeno]
« kdy: 14 Květen 2020, 15:08:54 »
dpScreenOCR potřebuje k rozlišení označeného textu na obrazovce Tesseract.
Doinstaloval jsem dpScreenOCR na další počítač (na dvou předchozích delší dobu užíván), ale nepřiřadí se již instalovaný Tesseract (užívaný již v YAGF pro rozlišení písma).
Vše jsem odinstaloval (dpScreenOCR i Tesseract) a znovu instalovat. Výsledek je stejně špatný.
PLS - užívá někdo a může pomoci, v čem je problém a jak řešit?
https://danpla.github.io/dpscreenocr/
zdroj stažení dpscreenocr_1.0.2-1~xenial1_i386.deb
https://launchpad.net/~daniel.p/+archive/ubuntu/dpscreenocr/+packages
stručný postup instalace:
Citace
1. přes příruční-menu nad souborem   -dpscreenocr_1.0.2-1~xenial1_i386.deb-   vybráno "Centrum SW pro Ubuntu a instalace"
2. terminál:
sudo apt update
sudo apt install tesseract-ocr
přiloženy obrázky OK a bez Tesseract
« Poslední změna: 15 Květen 2020, 19:03:39 od regine »
Ubuntu 16.04 LTS 32bit

juwa2

  • Závislák
  • ****
  • Příspěvků: 3717
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #1 kdy: 14 Květen 2020, 18:09:48 »
Pokud zároveň nesmázneš konfiguraci, je reinstalace (čehokoli) naprosto zbytečná.... :-\

regine

  • Stálý člen
  • ***
  • Příspěvků: 686
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #2 kdy: 14 Květen 2020, 20:16:01 »
THX. Spustil jsem tesseract v terminálu - chybová hláška:
Kód: [Vybrat]
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /usr/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Oproti druhým počítačům je navíc adresář:
Kód: [Vybrat]
/usr/share/tessdata/Provedl jsem odinstalaci tesseract:
Kód: [Vybrat]
sudo apt-get remove tesseract-ocrobě složky zůstaly, tak ještě:
Kód: [Vybrat]
sudo apt-get autoremovebyla odstraněn adresář
Kód: [Vybrat]
/usr/share/tessdataZůstal jen:
Kód: [Vybrat]
/usr/share/tesseract-ocr/tessdatase 2 podadresáři se soubory - tessconfigs a configs
PLS - Mám je smazat, či jak postupovat?
« Poslední změna: 14 Květen 2020, 20:37:57 od regine »
Ubuntu 16.04 LTS 32bit

Ventero

  • Závislák
  • ****
  • Příspěvků: 2050
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #3 kdy: 14 Květen 2020, 21:11:56 »
Pouzivej v takovych pripadech radeji:
Kód: [Vybrat]
apt purge
Zvuky jsou mantrami a myšlenky moudrostí, prostě proto, že se mohou objevovat ...

juwa2

  • Závislák
  • ****
  • Příspěvků: 3717
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #4 kdy: 14 Květen 2020, 23:04:39 »
THX. Spustil jsem tesseract v terminálu - chybová hláška:
Kód: [Vybrat]
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /usr/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Oproti druhým počítačům je navíc adresář:
Kód: [Vybrat]
/usr/share/tessdata/Provedl jsem odinstalaci tesseract:
Kód: [Vybrat]
sudo apt-get remove tesseract-ocrobě složky zůstaly, tak ještě:
Kód: [Vybrat]
sudo apt-get autoremovebyla odstraněn adresář
Kód: [Vybrat]
/usr/share/tessdataZůstal jen:
Kód: [Vybrat]
/usr/share/tesseract-ocr/tessdatase 2 podadresáři se soubory - tessconfigs a configs
PLS - Mám je smazat, či jak postupovat?

Ano, smazat. A další konfigurace může být v domovské složce či ~/.config
A raději při kompletních odinstalacích používej purge
Kód: [Vybrat]
sudo apt-get --purge remove <package>
Jinak ve složce /usr/share/tessdata  musí být příslušné soubory *.traineddata  Pokud ne, nemá jak ocr proběhnout. Soubory pro jednotlivé jazyky si stáhni a dej do té složky.

regine

  • Stálý člen
  • ***
  • Příspěvků: 686
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #5 kdy: 15 Květen 2020, 07:09:56 »
THX, ale problém přetrvává. Po smazání, nová instalace. Dojde k 'roztržení' obsahu do dvou složek/adresářů.
- na jiných kompech vše v jedné složce /usr/share/tesseract-ocr
- v tomto nefunkčním případě - > složka /usr/share/tesseract-ocr založena, obsahuje podsložku /usr/share/tesseract-ocr/tessdata v ní jen 11 souborů a chybí dvě podsložky configs a tessconfigs
- chybějící dvě podsložky configs a tessconfigs i s dalšími soubory jsou v /usr/share/tessdata plus soubor /usr/share/tessdata/pdf.ttf
Mám přemístit do jedné složky, jako na jiných 2 kompech? Nebo hledat dále, v čem je problém, že při instalaci se roztrhne obsah. Vše jsem pročistil a dohledal, jak výše poraděno.
přiloženy 3 náhledy na složky
>>> doplněno - něco jsem dohledal na: https://github.com/tesseract-ocr/tesseract/issues/221
⇨ A) Jak provést řešení uvedené v diskusi změnou TESSDATA_PREFIX:
Citace
The solution is here:
change your tessdata preffix to TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata and all will be good. It works for fixing 4.0.16 version
Mate mne uvádění verze a jak se provádí změna preffix?
⇨ B) Nebo provést kopírování, jak uváděno v dalším příspěvku v diskusi:
Citace
Starting from the required files' original location I copied them to the parent folder like this:
sudo cp -i eng.traineddata osd.traineddata /usr/share/tesseract-ocr/4.00/
After this tesseract did not have any more problems.
« Poslední změna: 15 Květen 2020, 12:18:42 od regine »
Ubuntu 16.04 LTS 32bit

JirkaZ

  • Stálý člen
  • ***
  • Příspěvků: 682
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #6 kdy: 15 Květen 2020, 10:14:11 »
jak se provádí změna preffix?

TESSDATA_PREFIX je tzv. systémová proměnná, neboli environment variable (je to hned v úvodu zmíněno v tom odkazu: "Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.").

Obecně viz https://duckduckgo.com/?q=linux+%22syst%C3%A9mov%C3%A9+prom%C4%9Bnn%C3%A9%22&t=h_&ia=web

Práce s nimi v Ubuntu viz třeba https://help.ubuntu.com/community/EnvironmentVariables
« Poslední změna: 15 Květen 2020, 10:17:32 od JirkaZ »

Ventero

  • Závislák
  • ****
  • Příspěvků: 2050
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #7 kdy: 15 Květen 2020, 10:20:22 »
Pravdepodobne se ten prefix meni v konfiguracnim souboru bud samotneho tesseract nebo prip. te aplikace dpscreenocr
Zvuky jsou mantrami a myšlenky moudrostí, prostě proto, že se mohou objevovat ...

juwa2

  • Závislák
  • ****
  • Příspěvků: 3717
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #8 kdy: 15 Květen 2020, 14:24:43 »
Na všech těch PC máš stejnou verzi Ubuntu?  Instaluješ stále tu stejnou verzi tesseract?   Proč neinstaluješ verzi z ofiko repo?? To je totiž základní příčina problémů...

regine

  • Stálý člen
  • ***
  • Příspěvků: 686
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #9 kdy: 15 Květen 2020, 16:59:30 »
Z repozitáře (Centrum SW pro Ubuntu) jsem rovněž instaloval se stejným výsledkem, jen jsem zde neuvedl.
Na ostatních dvou počítačích je rovněž Ubuntu 16.04 LTS (jeden 32bit a druhý 64bit, tento je 32bit), jen ne zcela stejné instalace ostatního SW.
« Poslední změna: 15 Květen 2020, 17:03:43 od regine »
Ubuntu 16.04 LTS 32bit

juwa2

  • Závislák
  • ****
  • Příspěvků: 3717
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #10 kdy: 15 Květen 2020, 18:11:19 »
Z repozitáře (Centrum SW pro Ubuntu) jsem rovněž instaloval se stejným výsledkem, jen jsem zde neuvedl.
Na ostatních dvou počítačích je rovněž Ubuntu 16.04 LTS (jeden 32bit a druhý 64bit, tento je 32bit), jen ne zcela stejné instalace ostatního SW.

Jestliže ti to hlásí
Kód: [Vybrat]
Error opening data file /usr/share/tessdata/eng.traineddata
Tak to znamená, že ta složka (/usr/share/tessdata) je prázdná. Musíš do ní ty jazykové soubory (.traineddata) nakopírovat (ať už odkudkoli, třeba z jiného PC).  Pak už ti to poběží.

Nebo to samé zkus vyřešit symlinkem:
Kód: [Vybrat]
sudo rm -R /usr/share/tessdata
sudo ln -s /usr/share/tesseract-ocr/4.00/tessdata /usr/share/tessdata

Tu cestu uprav podle skutešnosti (tam kde tu složku opravdu máš). Výsledek máš pro názornost na obrázcích.
P.S. Přeci nemůžeš s takovou banalitou zápasit několik dní.... :-\
« Poslední změna: 15 Květen 2020, 18:35:10 od juwa2 »

regine

  • Stálý člen
  • ***
  • Příspěvků: 686
    • Zobrazit profil
Re:dpScreenOCR - nepřiřadí se Tesseract
« Odpověď #11 kdy: 15 Květen 2020, 19:02:43 »
1) Po kopírování dpScreenOCR je plně funkční.
2) Zajímavé, že dnes v repozitáři tesseract-ocr se zobrazil v seznamu SW, ale údajně není dostupný k instalaci.
3)  :) s takovou banalitou zápasit několik dní - pokud nejsem časově tlačen, rád zjišťuji, co je příčinou, jak nejlépe řešit, ... Jeden se přiučí pro příště.
A všem zúčastněným v diskusi na fóru - díky.
___
P.S. - Stejně mi v mozku žere, proč se obsah za téměř totožných podmínek rozčlení na dva adresáře.
« Poslední změna: 16 Květen 2020, 07:53:21 od regine »
Ubuntu 16.04 LTS 32bit