Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Vaše pomoc je stále potřeba!

Autor Téma: OCR pro Linux 10.04  (Přečteno 8484 krát)

ondysek

  • Návštěvník
  • Příspěvků: 2
OCR pro Linux 10.04
« kdy: 02 Května 2010, 12:29:37 »
Dobrý den hledám jednoduché a kvalitní a volně šiřitelné ocr pro linux. Může mi někdo pomoct? Přecházím z win na linux. Extra ve všem se ještě nevyznám. Uvítám pomoc. Gocr jsem zkoušel a moc se mi nezamlouvá nejde mi se dostávat přes to kodovaní a navíc jsem skenoval celou stránku  a vyhodilo mi to jen pár znaků a nepřipadá mi že to bylo kompletní (ze stránky textu na papíře mi udělal půl stránky nesrozumitelného textu na pc)

Děkuji za rady a pomoc.

arrange

  • Závislák
  • ***
  • Příspěvků: 4031
  • "jdu s hlavou vztyčenou..."
Re: OCR pro Linux 10.04
« Odpověď #1 kdy: 02 Května 2010, 12:42:43 »
To je podle mě jedna z mála  :) slabin Ubuntu/Linuxu. Něco je na wiki, ale celkově to není slavné.
http://wiki.ubuntu.cz/OCR

Třeba se ale někdo ozve s něčím optimističtějším.  ;)
http://www.openstreetmap.org - mapy celého světa "wiki style"

rkamen

  • Návštěvník
  • Příspěvků: 14
Re: OCR pro Linux 10.04
« Odpověď #2 kdy: 02 Května 2010, 14:09:39 »
Kdysi jsem potřeboval OCR a na tu bídu okolo dával asi nejlepší výsledky tesseract (v repozitáři je balík tesseract-ocr). Možná ti bude stát za vyzkoušení.

LuciusMare

  • Závislák
  • ***
  • Příspěvků: 1749
Re: OCR pro Linux 10.04
« Odpověď #3 kdy: 02 Května 2010, 15:58:15 »
Taky jsem si neco takoveho hledal, pomohl mi tenhle clanek :)
http://www.linux.com/archive/feature/138511
Citace
<Firzen> tak teď budu Číňan
<Firzen> tak uvidíme :D
Jabber: LuciusMare (zkroucenina) jabbim (tecka) cz

ondysek

  • Návštěvník
  • Příspěvků: 2
Re: OCR pro Linux 10.04
« Odpověď #4 kdy: 03 Května 2010, 23:16:43 »
Tessaract jsem nainstaloval a slehla se po něm zem. Neumím ho inkde najít. Gocr má ještě dodatečné převádění ze znaků do jiných znaků a tak pokročilý nejsem abych to zvládal.

Je tu něco kdo zvládne obyčejný uživatel?

Walard

  • Aktivní člen
  • *
  • Příspěvků: 278
Re: OCR pro Linux 10.04
« Odpověď #5 kdy: 04 Května 2010, 19:36:38 »
http://code.google.com/p/ocropus/   celkem jde
http://code.google.com/p/tesseract-ocr/ 
http://www.ocr4linux.com/en:start  - nejkvalitnější, ale platí se, je to ABBYY FineReader Engine 8.0 CLI for Linux.
http://ubuntuforums.org/showthread.php?t=1456756&highlight=ocr
 pdfocr dobrý na převod pdf do textu.

 :)

Iljusin

  • Aktivní člen
  • *
  • Příspěvků: 347
Re: OCR pro Linux 10.04
« Odpověď #6 kdy: 04 Května 2010, 21:16:00 »
Kdysi jsem potřeboval OCR a na tu bídu okolo dával asi nejlepší výsledky tesseract (v repozitáři je balík tesseract-ocr). Možná ti bude stát za vyzkoušení.
Jsem ho teď zkusil a první pokus skončil rozsypaným čajem. Chybka byla v tom, že tiff nebyl v šedé škále. Po konverzi tiffu do grayscale už tesseract text rozpoznal, jediný problém je s českou diakritikou. Je na to nějaký lék? Díval jsem se, že pro češtinu neexistuje připravený balíček a postup jak tesseract naučit češtinu pomocí tréninkového režimu je pro mě zcela nepochopitelný. Pakliže tedy neexistuje jednoduché řešení jak tesseract naučit česky, tak to asi není dobrá volba pro BFU.

Iljusin

  • Aktivní člen
  • *
  • Příspěvků: 347
Re: OCR pro Linux 10.04
« Odpověď #7 kdy: 04 Května 2010, 21:22:09 »
Tessaract jsem nainstaloval a slehla se po něm zem. Neumím ho inkde najít. Gocr má ještě dodatečné převádění ze znaků do jiných znaků a tak pokročilý nejsem abych to zvládal.

Je tu něco kdo zvládne obyčejný uživatel?
tesseract se pouští v konzoli. Použití je v podstatě hrozně jednoduché. Vstupní soubor je scan ve formátu tiff ve stupních šedi.

Kód: [Vybrat]
tesseract vstupni-soubor.tif vystupni-soubor.txt
Ale jak jsem psal před chvílí, má problémy s češtinou.

Jaga

  • Návštěvník
  • Příspěvků: 2
Re: OCR pro Linux 10.04
« Odpověď #8 kdy: 26 Srpna 2010, 15:11:11 »
Úspěšně používám YAGF (nadstavba Cuneiform) společně s XSANE. Oproti GOCR je úspěšnost převodu textu nesrovnatelně vyšší (rozhodně víc než 95%). Značnou výhodou je volitelná podpora češtiny (aktuální verze 0.8.1). Slovenština sice chybí, ale čeština by si s ní mohla většinou poradit. Pro instalaci YAGF je třeba vytvořit nový zdroj software GetDeb Apps.

Kód: [Vybrat]
wget -q -O - http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add -
sudo sh -c 'echo "deb http://archive.getdeb.net/ubuntu lucid-getdeb apps" >> /etc/apt/sources.list.d/getdeb.list'

Pak už stačí např. prostřednictvím "Centra softwaru pro Ubuntu" nainstalovat YAGF, Cuneiform a XSANE a radostně využívat velmi slušně fungující a uživatelsky přívětivé OCR  ;) .

Zdroje:
http://jank.blog.root.cz/2010/06/09/ocr-v-linuxu-ii-co-dnes-opravdu-muzeme-pouzivat/
http://symmetrica.net/cuneiform-linux/yagf-en.html
http://www.ubuntuupdates.org/ppa/getdeb_apps?dist=lucid

compaq

  • Závislák
  • ***
  • Příspěvků: 2445
  • Díky všem za rady a tipy.
Re: OCR pro Linux 10.04
« Odpověď #9 kdy: 08 Září 2011, 14:18:39 »
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
Pokud vám vaše holka či manželka funguje jak má, neměňte jí za mladší, zaděláte si na problém. Stejně to dělejte i s Ubuntu.

daysleeper

  • Stálý člen
  • **
  • Příspěvků: 1206
Re: OCR pro Linux 10.04
« Odpověď #10 kdy: 08 Září 2011, 14:40:00 »
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
takze potrebujes ocr. bez toho, ze by nejaky software rozpoznal, co je znak a co ne, nelze zjistit pocet znaku.

mimochodem, ten primer (v tve paticce)
Citace
Stejně jako se nerad vrtám holejma rukama v motoru auta, tak nemusím terminál.
neni presny. terminal je proste jen jiny zpusob jak dosahnout sveho cile, cimz je u auta nechat se dovezt z A do B. hrabanim v motoru si nepomuzu.
takze kdyz jsme u aut, tak ekvivalentem prace v terminalu by bylo, ze si sednu na sedadlo ridice, natukam
Kód: [Vybrat]
go --fastest-route --keep-speed-limits "Ústavní 91, Praha-Bohnice"
a pak si pustim film a odpocivam...  ;)
« Poslední změna: 08 Září 2011, 14:42:30 od daysleeper »

compaq

  • Závislák
  • ***
  • Příspěvků: 2445
  • Díky všem za rady a tipy.
Re: OCR pro Linux 10.04
« Odpověď #11 kdy: 08 Září 2011, 14:56:22 »
Nepotřebuji OCR, ale pouze zjistit počet znaků u skenovaného dokumentu.
Máte někdo tip, jak na to?
takze potrebujes ocr. bez toho, ze by nejaky software rozpoznal, co je znak a co ne, nelze zjistit pocet znaku.

Jasně, myslel jsem to v tom smyslu, že nepotřebuji jako výstup text, ale jen počet znaků. :-)

Teď testuji gtk-ocr, ale funguje to jen s PNG a asi i dalších (mě neznámých) obrazových formátech. Mám většinu skenů v PDF (uvnitř jpeg, nebo LZW).

Kombinace scan2pdf + gocr funguje (pro anglické texty), ale sken nesmí být pérovka.
« Poslední změna: 08 Září 2011, 15:12:52 od compaq »
Pokud vám vaše holka či manželka funguje jak má, neměňte jí za mladší, zaděláte si na problém. Stejně to dělejte i s Ubuntu.

compaq

  • Závislák
  • ***
  • Příspěvků: 2445
  • Díky všem za rady a tipy.
Re: OCR pro Linux 10.04
« Odpověď #12 kdy: 08 Září 2011, 15:40:33 »
mimochodem, ten primer (v tve paticce)
Citace
Stejně jako se nerad vrtám holejma rukama v motoru auta, tak nemusím terminál.
neni presny. terminal je proste jen jiny zpusob jak dosahnout sveho cile, cimz je u auta nechat se dovezt z A do B. hrabanim v motoru si nepomuzu.
takze kdyz jsme u aut, tak ekvivalentem prace v terminalu by bylo, ze si sednu na sedadlo ridice, natukam
Kód: [Vybrat]
go --fastest-route --keep-speed-limits "Ústavní 91, Praha-Bohnice"
a pak si pustim film a odpocivam...  ;)

Tak takové auto bych nechtěl ani zadarmo. Při mých znalostech příkazů a rychlém zapomínání by mi vždy jen zčernala okénka a za 3 hodiny, kdy nemám šanci zjistit, zda auto jede, bych byl v lepším případě na stále stejném místě, v horším ve vesnici Bohnice v Kanadě.
Pokud vám vaše holka či manželka funguje jak má, neměňte jí za mladší, zaděláte si na problém. Stejně to dělejte i s Ubuntu.

Šuohob

  • Závislák
  • ***
  • Příspěvků: 2171
Re: OCR pro Linux 10.04
« Odpověď #13 kdy: 08 Září 2011, 15:42:57 »
Z vlastni zkusenosti doporucuji OCR tesseract, dava snad nejlepsi vysledky pro cesky text ze vsech opensource OCR programu dostupnych pro linux
« Poslední změna: 08 Září 2011, 15:45:50 od Bohouš »
Tak dlouho se vrzá s Acerem, až se displej utrhne.

compaq

  • Závislák
  • ***
  • Příspěvků: 2445
  • Díky všem za rady a tipy.
Re: OCR pro Linux 10.04
« Odpověď #14 kdy: 08 Září 2011, 16:01:55 »
Z vlastni zkusenosti doporucuji OCR tesseract, dava snad nejlepsi vysledky pro cesky text ze vsech opensource OCR programu dostupnych pro linux

Opravdu, ale češtinu můj zatím nenabízí. Existuje?
Pokud vám vaše holka či manželka funguje jak má, neměňte jí za mladší, zaděláte si na problém. Stejně to dělejte i s Ubuntu.

Šuohob

  • Závislák
  • ***
  • Příspěvků: 2171
Re: OCR pro Linux 10.04
« Odpověď #15 kdy: 08 Září 2011, 16:38:14 »
Opravdu, ale češtinu můj zatím nenabízí. Existuje?

Uz je to nejaka doba, co jsem ho pouzil, takze si nepamatuji, jak (a jestli vubec) jsem cestinu resil. Vysledkem ale byl celkem dost dobre precteny cesky text
Tak dlouho se vrzá s Acerem, až se displej utrhne.

compaq

  • Závislák
  • ***
  • Příspěvků: 2445
  • Díky všem za rady a tipy.
Re: OCR pro Linux 10.04
« Odpověď #16 kdy: 08 Září 2011, 16:44:33 »
Opravdu, ale češtinu můj zatím nenabízí. Existuje?

Uz je to nejaka doba, co jsem ho pouzil, takze si nepamatuji, jak (a jestli vubec) jsem cestinu resil. Vysledkem ale byl celkem dost dobre precteny cesky text

Tak to já když nastavím angličtinu (nebo němčinu), nedá se český text vůbec použít (každé druhé písmeno je jiné). V případě anglických částí textu je převod výborný, s minimem chyb.
Pokud vám vaše holka či manželka funguje jak má, neměňte jí za mladší, zaděláte si na problém. Stejně to dělejte i s Ubuntu.

beer

  • Host

Šuohob

  • Závislák
  • ***
  • Příspěvků: 2171
Re: OCR pro Linux 10.04
« Odpověď #18 kdy: 16 Září 2011, 14:59:23 »
pokud s tim jeste zapasis, zkus cuneiform, umi nativne cestinu a ma velmi dobre vysledky
Tak dlouho se vrzá s Acerem, až se displej utrhne.

notebook

  • Návštěvník
  • Příspěvků: 67
Re:OCR pro Linux 10.04
« Odpověď #19 kdy: 13 Prosince 2011, 06:46:30 »
Dobrý den stáhl jsem si ze stránek http://symmetrica.net/cuneiform-linux/yagf-en.html program yagf,, Software jsem rozbalil a potřeboval bych poradit jak např v terminálu nainstalovat tenhle program.Ubuntu mam 11.10/32..
 Výpis složek
Kód: [Vybrat]
├── AUTHORS
├── CMakeCache.txt
├── CMakeFiles
│   ├── CMakeCCompiler.cmake
│   ├── CMakeDetermineCompilerABI_C.bin
│   ├── CMakeError.log
│   ├── cmake.check_cache
│   ├── CMakeOutput.log
│   ├── CMakeSystem.cmake
│   ├── CMakeTmp
│   │   └── CMakeFiles
│   │       └── cmTryCompileExec.dir
│   ├── CompilerIdC
│   │   ├── a.out
│   │   └── CMakeCCompilerId.c
│   └── CompilerIdCXX
│       └── CMakeCXXCompilerId.cpp
├── CMakeLists.txt
├── COPYING
├── DESCRIPTION
├── ChangeLog
├── README
├── src
│   ├── BlockAnalysis.cpp
│   ├── BlockAnalysis.h
│   ├── CCAnalysis.cpp
│   ├── CCAnalysis.h
│   ├── configdialog.cpp
│   ├── configdialog.h
│   ├── configdialog.ui
│   ├── FileChannel.cpp
│   ├── FileChannel.h
│   ├── FileToolBar.cpp
│   ├── FileToolBar.h
│   ├── ghostscr.cpp
│   ├── ghostscr.h
│   ├── images
│   │   ├── align.png
│   │   ├── application_pdf.png
│   │   ├── back.png
│   │   ├── batch.png
│   │   ├── critical.png
│   │   ├── deskew2.png
│   │   ├── document_open.png
│   │   ├── document_save_as.png
│   │   ├── editclear.png
│   │   ├── editcopy.png
│   │   ├── filefind.png
│   │   ├── fileopen.png
│   │   ├── filesaveas.png
│   │   ├── forward.png
│   │   ├── check_spelling.png
│   │   ├── info.png
│   │   ├── larger.png
│   │   ├── rccw.png
│   │   ├── rcw.png
│   │   ├── recblocks.png
│   │   ├── remove.png
│   │   ├── resize_block.png
│   │   ├── resize.png
│   │   ├── revert.png
│   │   ├── save_all.png
│   │   ├── saveblock.png
│   │   ├── savpicas.png
│   │   ├── scanner.png
│   │   ├── scanner_s.png
│   │   ├── scanner_s2.png
│   │   ├── scanner48.png
│   │   ├── select.png
│   │   ├── singlecolumn.png
│   │   ├── smaller.png
│   │   ├── stock_new_html.png
│   │   ├── trashcan1s.png
│   │   ├── trashcan2-s.png
│   │   ├── undo.png
│   │   ├── warning.png
│   │   └── yagf.png
│   ├── main.cpp
│   ├── mainform.cpp
│   ├── mainform.h
│   ├── mainform.ui
│   ├── make_style.sh
│   ├── PageAnalysis.cpp
│   ├── PageAnalysis.h
│   ├── pdfextractor.cpp
│   ├── pdfextractor.h
│   ├── pdf2ppt.cpp
│   ├── pdf2ppt.h
│   ├── popplerdialog.cpp
│   ├── popplerdialog.h
│   ├── popplerdialog.ui
│   ├── preload.c
│   ├── qgraphicsinput.cpp
│   ├── qgraphicsinput.h
│   ├── qxtgraphicsproxywidget.cpp
│   ├── qxtgraphicsproxywidget.h
│   ├── qxtgraphicsview.h
│   ├── SkewAnalysis.cpp
│   ├── SkewAnalysis.h
│   ├── spellcheck.cpp
│   ├── spellchecker.cpp
│   ├── spellchecker.h
│   ├── ts_update.sh
│   ├── utils.cpp
│   ├── utils.h
│   ├── yagf_de.ts
│   ├── yagf_lt.ts
│   ├── yagf_pl.ts
│   ├── yagf.qrc
│   ├── yagf_ru.ts
│   ├── yagf_uk.ts
│   └── ycommon.h
├── YAGF.desktop
├── yagf.png
└── yagf.spec
Předem děkuji

pacholik

  • Závislák
  • ***
  • Příspěvků: 2072
Re:OCR pro Linux 10.04
« Odpověď #20 kdy: 13 Prosince 2011, 13:51:01 »

notebook

  • Návštěvník
  • Příspěvků: 67
Re:OCR pro Linux 10.04
« Odpověď #21 kdy: 13 Prosince 2011, 18:10:38 »
kliknu na install this now spustí se centrum softwaru: Nenalezeno v aktuálním zdroji softwaru neexistuje balík s názvem ´´yagf´

pacholik

  • Závislák
  • ***
  • Příspěvků: 2072
Re:OCR pro Linux 10.04
« Odpověď #22 kdy: 13 Prosince 2011, 19:02:23 »

maikcrew

  • Návštěvník
  • Příspěvků: 39
    • Dalo by se říct blog kde si píši poznámky co jsem řešil. Místo na papír jsem si je poznamenal na web tak, aby to popřípadě mohli použít druzí :)
Re:OCR pro Linux 10.04
« Odpověď #23 kdy: 13 Prosince 2011, 19:43:07 »
« Poslední změna: 13 Prosince 2011, 20:04:58 od maikcrew »

notebook

  • Návštěvník
  • Příspěvků: 67
Re:OCR pro Linux 10.04
« Odpověď #24 kdy: 13 Prosince 2011, 21:48:33 »
Děkuji za pomoc krásně už to funguje  ;)

 

Provoz zaštiťuje spolek OpenAlt.