Szövegesen kereshető PDF

Fórum: 

Üdv!

Mitvel szoktáok "normál" pdf fájl átalakítani úgy, hogy a szöveges részek kereshetőek legyenek?

Linux Mint 18.1 Xfce 64bit

OCR programmal. Tesseract pld

Értékelés: 

0
Még nincs értékelve

OCR programmal. Tesseract pld.
Tegyük fel PDF-ben igaziból egy JPG kép csücsül. Ha jó minőségben van a kép, akkor az egész olyan mint az 1x1. Ha fika, akkor melós a dolog. Az ubuntu.hu -n bloggolta nemrég valaki hogyan csinálta terminálos megoldással. Itt is volt már szó róla. Keress rá a tesseract, tesseract-ocr-hun kifejezésekre.

RE:OCR programmal. Tesseract pld

Értékelés: 

0
Még nincs értékelve

#1

Ha jól tudom a Tesseract "csak" egy OCR motor, ahhoz kell egy külön progi is, amivel át tudom alakítani a PDF fájlokat.

Mit ajánlassz a Tesseract-hoz?

RE:RE:OCR programmal. Tesseract pld

Értékelés: 

0
Még nincs értékelve

#2 Ma találkoztam először a "LyX"-el. Fogalmam nincs hogy mit tud - de nézd meg - talán találsz benne olyat.

ami hasznos lehet a számodra.

http://www.lyx.org/

Lios

Értékelés: 

0
Még nincs értékelve

https://sourceforge.net/projects/lios/?source=typ_redirect

Lios és a Tesseract OCR. Csak ne felejtsd el hozzá feltenni a tesseract-ocr-hun csomagot.

Meg sem közelíti a sajnos a ABBYY readert (nem is értem miért nem készítik el Linuxra - a motor persze elérhető, csak a grafikus felület nem. Én biztos vennék egyet), de azért használható. Csak fapados egy kicsit.

RE:Lios

Értékelés: 

0
Még nincs értékelve

#4

Közben kipróbáltam már pár dolgot (köztük ezt is), de sajnos úgy látom, hogy a Linuxon erre még nincs profi megoldás.

 

Nincs rá igény. Nem linuxozik

Értékelés: 

0
Még nincs értékelve

Nincs rá igény. Nem linuxozik a sok irodista Gizike. Viszont, ami van az ingyenes. Amint lenne kereslet szélesebb körben, valami biztosan beindulna. Ez egy hasonló terület, mint a CAD.

abbyy

Értékelés: 

0
Még nincs értékelve

az abbyy- nak van egy váltzata - portable - ami wine-nal futtatható....én meg virtualboxban futtatok  win7-et és ott használom az abbyy-t..

kimarite képe

OCR

Értékelés: 

0
Még nincs értékelve

Mai fórumtéma, néhány megoldás említve lett:

-- ABBYY FineReader Engine 11 CLI for Linux is a powerful, ready-to-use command line based application for system administrators, developers and advanced computer users who want to use optical character recognition (OCR, text recognition) and PDF conversion technologies on the Linux platform.
http://www.ocr4linux.com/en:start

-- gImageReader
A graphical frontend to tesseract-ocr
https://sourceforge.net/projects/gimagereader/

-- Free Online OCR Service
Use Optical Character Recognition software online. Service supports
46 languages including Chinese, Japanese and Korean
Extract text from PDF and images (JPG, BMP, TIFF, GIF) and convert into editable
Word, Excel and Text output formats
https://www.onlineocr.net/

-- VietOCR
A Java/.NET GUI frontend for Tesseract OCR engine. Supports optical character recognition for Vietnamese and other languages supported by Tesseract.
http://vietocr.sourceforge.net/
https://wiki.ubuntuusers.de/vietOCR/

-- Cuneiform-Qt
Cuneiform-Qt is GUI frontend for Cuneiform OCR System
https://en.altlinux.org/Cuneiform-Qt
-- Cuneiform-Linux
https://wiki.ubuntuusers.de/Cuneiform-Linux/

RE:OCR

Értékelés: 

0
Még nincs értékelve

#8

Köszönöm

Ezeket feljegyzem, de most vissza kellett térnem windowsra. Nagyon bejött a Linux. de jelenleg több száz oldalas DOC fájlokkal kell dolgoznom és a LibreOffice-el kínszenvedés volt használni őket. :(