Vítejte na Elektro Bastlírn?
Nuke - Elektro Bastlirna
  Vytvořit účet Hlavní · Fórum · DDump · Profil · Zprávy · Hledat na fóru · Příspěvky na provoz EB

Vlákno na téma KORONAVIRUS - nutná registrace


Nuke - Elektro Bastlirna: Diskuzní fórum

 FAQFAQ   HledatHledat   Uživatelské skupinyUživatelské skupiny   ProfilProfil   Soukromé zprávySoukromé zprávy   PřihlášeníPřihlášení 

Aktuální OCR

 
Přidat nové téma   Zaslat odpověď       Obsah fóra Diskuzní fórum Elektro Bastlírny -> Software
Zobrazit předchozí téma :: Zobrazit následující téma  
Autor Zpráva
Celeron



Založen: Apr 02, 2011
Příspěvky: 18475
Bydliště: Nový Bydžov

PříspěvekZaslal: po srpen 12 2024, 10:57    Předmět: Aktuální OCR Citovat

Potřebuju pro sebe a dva kámoše přeložit manuál oscanovanej do PDF. Ideální by bylo pokud by se zachoval formát grafiky a fotky jen se pod PDF texty podložila vrstva s ASCII texty. Adobe Acrobat Pro DC je placenej, ABBYY FineReader PDF taky.
V Google disku je něco podobnýho ale nějak mi to nefunguje. Prý je hodně dobrej Tesseract OCR, je free ale nějak mi nejde nainstalovat.
Co jinýho Free co by umělo textovou vrstvu a nebo PDF rovnou přehrnulo do Wordu a tam přeložit a zeditovat?

_________________
Jirka

Proč mi nemůže všechno chodit hned ?!!
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Dekker



Založen: Jan 11, 2017
Příspěvky: 346

PříspěvekZaslal: po srpen 12 2024, 11:53    Předmět: Citovat

inscape umí otevřít PDF a pokud to nebude něco šílenýho a divnej font tak si i poradí s textem, jen to chce pak trpělivost s přepisováním. Akorát mívá trable s obrázky, že je zesvětluje pak při převodu zpět do PDF a tak postupně mizej
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
ok1hga



Založen: Nov 28, 2006
Příspěvky: 12261
Bydliště: Česká Třebová

PříspěvekZaslal: po srpen 12 2024, 11:59    Předmět: Citovat

Celeron napsal(a):
Prý je hodně dobrej Tesseract OCR, je free ale nějak mi nejde nainstalovat.

to můžu potvrdit, je dobrej, ale neumí češtinu . . .
používám ho ve spojení s irfanview
žádný problém s instalací jsem neměl.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Mikras



Založen: Sep 04, 2019
Příspěvky: 591
Bydliště: Praha

PříspěvekZaslal: po srpen 12 2024, 12:08    Předmět: Citovat

Na překlad různých, převážně technických mauálů v pdf používám tuto online službu.

Ohledně naskenovaného PDF doporučují tento postup:

Jak přeložit naskenovaný dokument?
Naskenovaný text můžete přeložit, ale nejprve musíte naskenovaný dokument převést do Wordu pomocí naší partnerské stránky PDF to Word Converter, která umožňuje převést naskenovaný dokument PDF, PNG a JPG pomocí OCR do dokumentu Word.


Je to zdarma a bez instalace, tak za zkoušku nic nedáš.

Pokud by šlo o něco maličkého a nezáleží na kráse, lze použít na MT aplikaci Translator, v ní dokument vyfotit a obrázek uložit, přeposlat nebo vytisknout.

Pokud se převod do textu podaří a jsou potřebné ještě nějaké korekce, používám SW Infix. Vyžaduje ale licenční klíč (našel jsem ho na netu).

Trochu se mi klepala ruka, tak to píše trošku nesmysly, ale zvládá mi to překládat i ručně psanou a špatně naskenovanou japonštinu Very Happy



EN.jpg
 Komentář:
 Velikost:  281.35 kB
 Zobrazeno:  31 krát

EN.jpg



CZ.jpg
 Komentář:
 Velikost:  244.52 kB
 Zobrazeno:  43 krát

CZ.jpg


Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu Odeslat e-mail Zobrazit autorovy WWW stránky
Hape



Založen: Feb 08, 2010
Příspěvky: 558
Bydliště: Dolní Cerekev, Česko (Czechia)

PříspěvekZaslal: po srpen 12 2024, 17:52    Předmět: Citovat

Já to pro vlastní potřebu dělám v online nástrojích Adobe.
Je to za cenu vytvoření účtu, ale z mé zkušenosti to má nejlepší výsledky.
Zdarma je tam ještě omezení na jeden dokument, nebo jedno použití nástroje za 30 dní. Mně se to ale podařilo nějak prolomit a dnes jsem na zkoušku převedl jeden vícestránkový soubor *.pdf na editovatelný *.docx a jeden jednostránkový skenovaný *.pdf jsem nejprve OCR nástrojem převedl na textový *.pdf a pak na editovatelný *.docx. Akorát ten jejich OCR nástroj při použití na češtinu odstraní háčky a čárky.
Pokud je převáděný originální (ne skenovaný) *.pdf a jsou v něm definovány nadpisy a záložky s odkazy na kapitoly a www odkazy, tak ty zůstanou v nově vytvořeném souboru *.docx funkční. Určité malé chyby se stávají u obrázků. Někdy to nevadí a když mi to vadí, tak ho nahradím obrázkem z originálu. Sice je to piplačka, ale jde to.
Pro editaci *.docx používám LibreOffice Writer. Microsoft Office nepoužívám a nikdy jsem je nepoužíval.
Jinak pro práci s *.pdf soubory ještě používám nástroje PDF24, ale jejich výsledky nejsou tak dobré, jako těch od Adobe.
Kdybys chtěl a ten tvůj soubor někam upnul ke stažení, tak bych ho zkusil těmi Adobe nástroji převést.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu Zobrazit autorovy WWW stránky
Hill
Administrátor


Založen: Sep 10, 2004
Příspěvky: 19879
Bydliště: Jičín, Český ráj

PříspěvekZaslal: po srpen 12 2024, 19:07    Předmět: Citovat

Nestěžuji si na OCR funkci v programu PDF XChange Viewer (od Tracker Software), je to alternativa k AcroReaderu. Na to, že je zdarma, umí toho moc, včetně vestavěné funkce OCR, která podloží PDF textovou vrstvou, přičemž rozeznává i češtinu.
A pak to označím a zkopíruji holý text do některých ofifficů nebo do poznámkového bloku.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
eleferner



Založen: Jun 04, 2016
Příspěvky: 651
Bydliště: Brno

PříspěvekZaslal: po srpen 12 2024, 20:06    Předmět: Citovat

Ja na ty moje skeny manualu pouzivam skript OCRmyPDF:

https://ocrmypdf.readthedocs.io/en/latest/

Je free a jako zaklad pouziva TesseractOCR. ok1hga neposlouchej, samozrejme cestinu umi a velice dobre, vyrazne lepe nez treba Adobe Acrobat XI. Tady ma vyhodu v tom, ze pro textovou vrstvu pouziva tzv. glyphless font. Diky tomu vysledne soubory tolik nenabydou a take se rychleji renderuji.

Hlavni nevyhodou je, ze se ovlada jen z prikazove radky a blbe se instaluje. Na Linuxu je to jednodussi, staci (jako admin) pastnout par prikazu podle navodu vyse. Na Windows je nutne nektere komponenty doinstalovat rucne, ale jde to, zkousel jsem to.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Hill
Administrátor


Založen: Sep 10, 2004
Příspěvky: 19879
Bydliště: Jičín, Český ráj

PříspěvekZaslal: út srpen 13 2024, 7:41    Předmět: Citovat

Každý OCR program je jinak dobrý a jinak špatný. Takže záleží na tom,
Jak jsem se zmínil o tom PDF-X-Change Vieweru, tak ten je dobrý na zkopírování pouze textu. PDF v 300 dpi interpretuje bezchybně, i když je tištěný petitem (odpovídá patkovému písmu velikosti 6 v libovolných Officech). Textovým nástrojem stačí pak označit text a zkopírovat ho jinam.
Obrázky a tabulky je nutné vykopírovat zvlášť.
A ještě jsem narazil na nedostatek - verze pro Win7 nemá problém ani s výběrem čísla jediné stránky, o kterou je zájem, zatímco novější verze pro Win10 potřebuje vybrat nejméně 2 stránky, jinak jen nahlásí, že narastroval text, ale rozeznávání jsem se nedočkal.

Občas použiju i ABBYY FineReader Sprint. Nejlepší výsledky dává s PDF v rozlišení 300, někdy dokonce ponechá použitelné formátování textu na velikost stránky A4. Ale jinak to formátování dokáže zparchantit dost nepříjemně - zvlášť u dvou- či třísloupcového tisku je z toho bezradný a musí se jednak hodně cvičit s posuvníky na pravítkách ve Wordu, jednak i s velikostí a fonty, než z toho bude použitelný *.doc(x)
U textů na dvě tři stránky bývá výhodnější zkopírovat jen obrázky a překlad napsat celý ručně.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
masar



Založen: Dec 03, 2005
Příspěvky: 12931

PříspěvekZaslal: út srpen 13 2024, 10:29    Předmět: Citovat

Hill napsal(a):
...
A ještě jsem narazil na nedostatek - verze pro Win7 nemá problém ani s výběrem čísla jediné stránky, o kterou je zájem, zatímco novější verze pro Win10 potřebuje vybrat nejméně 2 stránky, jinak jen nahlásí, že narastroval text, ale rozeznávání jsem se nedočkal...
Na Win11 žádný takový problém není a nesetkal jsem se s ním ani v minulosti na Win10.
PDF-XChange Editor 10.3.1.387
Wink
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu Odeslat e-mail
Hill
Administrátor


Založen: Sep 10, 2004
Příspěvky: 19879
Bydliště: Jičín, Český ráj

PříspěvekZaslal: st srpen 14 2024, 6:31    Předmět: Citovat

Jenže píšu o vieweru, nikoli o editoru.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
masar



Založen: Dec 03, 2005
Příspěvky: 12931

PříspěvekZaslal: st srpen 14 2024, 7:01    Předmět: Citovat

To jsem přehlídl, pardon. Embarassed
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu Odeslat e-mail
JirkaZ



Založen: Feb 26, 2021
Příspěvky: 2956

PříspěvekZaslal: čt srpen 15 2024, 20:57    Předmět: Citovat

Tesseract samozřejmě češtinu umí, je třeba ji (případně) doinstalovat.

Jo a k Tesseractu je víc než vhodné nějaké grafické rozhraní (GUI), viz třeba zde.

_________________
Kdo chce, hledá způsob;
kdo ne - hledá důvod.

Ze dvou možností často volím tu třetí.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Celeron



Založen: Apr 02, 2011
Příspěvky: 18475
Bydliště: Nový Bydžov

PříspěvekZaslal: pá srpen 16 2024, 17:54    Předmět: Citovat

Mikras napsal(a):
Na překlad různých, převážně technických mauálů v pdf používám tuto online službu.

Zkusil jsem PDF datasheet ATtiny84 převýst přes tuhle službu do DOC. Staženej soubor se neotevře, hlásí spoustu neopravitelných chyb. Ať zkusím převýst cokoliv, vždy to skončí stejně. Office 2007.

_________________
Jirka

Proč mi nemůže všechno chodit hned ?!!
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Zobrazit příspěvky z předchozích:   
Přidat nové téma   Zaslat odpověď       Obsah fóra Diskuzní fórum Elektro Bastlírny -> Software Časy uváděny v GMT + 1 hodina
Strana 1 z 1

 
Přejdi na:  
Nemůžete odesílat nové téma do tohoto fóra.
Nemůžete odpovídat na témata v tomto fóru.
Nemůžete upravovat své příspěvky v tomto fóru.
Nemůžete mazat své příspěvky v tomto fóru.
Nemůžete hlasovat v tomto fóru.
Nemůžete připojovat soubory k příspěvkům
Můžete stahovat a prohlížet přiložené soubory

Powered by phpBB © 2001, 2005 phpBB Group
Forums ©
Nuke - Elektro Bastlirna

Informace na portálu Elektro bastlírny jsou prezentovány za účelem vzdělání čtenářů a rozšíření zájmu o elektroniku. Autoři článků na serveru neberou žádnou zodpovědnost za škody vzniklé těmito zapojeními. Rovněž neberou žádnou odpovědnost za případnou újmu na zdraví vzniklou úrazem elektrickým proudem. Autoři a správci těchto stránek nepřejímají záruku za správnost zveřejněných materiálů. Předkládané informace a zapojení jsou zveřejněny bez ohledu na případné patenty třetích osob. Nároky na odškodnění na základě změn, chyb nebo vynechání jsou zásadně vyloučeny. Všechny registrované nebo jiné obchodní známky zde použité jsou majetkem jejich vlastníků. Uvedením nejsou zpochybněna z toho vyplývající vlastnická práva. Použití konstrukcí v rozporu se zákonem je přísně zakázáno. Vzhledem k tomu, že původ předkládaných materiálů nelze žádným způsobem dohledat, nelze je použít pro komerční účely! Tento nekomerční server nemá z uvedených zapojení či konstrukcí žádný zisk. Nezodpovídáme za pravost předkládaných materiálů třetími osobami a jejich původ. V případě, že zjistíte porušení autorského práva či jiné nesrovnalosti, kontaktujte administrátory na diskuzním fóru EB.


PHP-Nuke Copyright © 2005 by Francisco Burzi. This is free software, and you may redistribute it under the GPL. PHP-Nuke comes with absolutely no warranty, for details, see the license.
Čas potřebný ke zpracování stránky 0.29 sekund