Digitalizujeme soudni spisy - 2. část - Průmyslové skenování
Primary tabs
Běžný kancelářský skener každý zná. Jak ale naskenovat tisíce a miliony stránek soudních spisů na českých soudech? Jaké jsou vlastně výhody elektronických spisů? Je třeba převádět naskenované obrázky na text? Povídali jsme si se Zdenkem Melicharem ze společnosti Nupseso, která se na podobné technologické výzvy specializuje
Lepší manipulace, sdílení údajů
Pane Melichare, jaké jsou hlavní výhody naskenovaných dokumentů, převedených ještě navíc do textového formátu?
Hlavní výhoda obecně elektronického spisu je mnohem lepší manipulace s dokumentem. Přístup k dokumentu je daleko rychlejší, informace může v jeden okamžik sdílet podstatně více lidí než běžný papírový spis. K těm výhodám textové podoby na rozdíl od obrázků, pokud vše převedeme do textové podoby, stojí nás to sice nějaké úsilí, ale právě tyto náklady jsou bohatě kompenzovány dalšími vlastnostmi výsledného dokumentu.
Fulltextové vyhledávání
Jde především o fulltextové vyhledávání. Je to velmi silný nástroj, který dokáže mezi tisíci nebo milióny stránek najít výskyt požadované fráze, klíčového slova. Toto by mohlo mít velký význam u rozsáhlých soudních spisů, kde je opravdu těžké se rychle orientovat a vytvářet takový index manuálně. Klasickou cestou to je téměř nemožné. Bylo by to spojeno s astronomickými náklady.
Na úmornou práci inteligentní vyhledávače
V současnosti se běžně používají takzvané inteligentní vyhledávače, které zastanou právě tu nejúmornější práci, kdy je například potřeba vyhledat klíčové informace ze spisu, který, pro představu ve své fyzické papírové podobě by vážil třeba několik tun. I takové spisy se v extrémních případech vyskytují, nevím jestli zrovna v soudnictví, ale například dokumentace ke stavbě jaderné elektrárny, to je opravdu velmi obsáhlý soubor.
Malá velikost souboru
U textové podoby soudních spisů, případně jiných dokumentů je ještě jedna příjemná vlastnost, samotný text je mnohem úspornější. Výsledné soubory mají mnohem menší objem než soubory, kde by byl soudní spis uložen ve formě fotografií či obrázků.
Jaký je poměr velikostí souborů?
Je těžké říct nějakou jednu hodnotu. Záleží na tom, zda jsou ve spisu obrázky, zda jsou barevné. Orientačně mohu říct, že jedna stránka PDF v průměrné kvalitě má cca desítky kB dat. Vzhledem k cenám záznamových médií nejsou dnes s ukládáním dat větší problémy. Současné technické prostředky také umožňují bezproblémovou výměnu takových dat po sítích všeho druhu.
Ohledně té velikosti ten poměr může být 1:5 nebo 1:10 záleží na detailech. Může to být ale ještě mnohem více, pokud je jako vstup použitý třeba plnobarevný dokument, který je naskenován ve vyšším rozlišení, třeba ve formátu TIFF a pokud nás dále zajímá třeba jen ten text.
Pytle dokumentů na několika cédéčkách
Vezměme jeden projekt, který „máme na svědomí“ pro představu. Zpracovávali jsme dokumentaci, která obnášela 330 tisíc stránek A4 textu do elektronické podoby s plným OCR zpracováním, tedy převodem do textu. Takové množství se ve formě textu, tj. PDF souboru vešlo na 22 CD, které mají kapacitu 700 MB. Skenovali jsme na 300 dpi. Jedno stojí asi deset korun. Přitom 330 tisíc stránek je v klasické podobě několik pytlů, několik osobních aut plných dokumentů.
Odborníci doporučují používejte PDF
Pro soudní spisy doporučujete spíše formu JPEG nebo spíše právě PDF formáty?
Pokud byste měl spis v JPEG formátu, budete mít desítky či stovky samostatných souborů a orientace bude dost těžká. Vezmu-li v úvahu jak vypadá typický soudní spis, jde o mnoho textu a občas obrázek, typu razítko, státní znak, ruční podpis a podobně, tak tady je jednoznačně lepší PDF formát. Máte jeden výsledný soubor. Spis totiž zůstane organizován jakoby byl ve virtuálním šanonu a bude mít všechny vlastnosti pro inteligentní zpracování dokumentu
Inteligentní soudní spis?
Které textové formáty se pro archivaci využívají?
V současnosti je to nejvíce formát PDF. U něj totiž nezáleží, který operační systém má uživatel na počítači. Umožňuje také velmi důležitou věc, zachovává klasickou podobu spisu, kdy jedné fyzické stránce odpovídá také právě jedna stránka v elektronickém souboru. Jinak však je takový spis také podstatně inteligentnější.
Úředníci nebojte se
Samotný PDF formát je vlastně svým způsobem jakási schránka. A v té sice mohou být také obrázky (například JPEG) ale právě i textová podoba dokumentů. Tyto elementy formát PDF dokáže různě kombinovat. Dokument, tedy třeba ten soudní spis, vypadá zcela přesně jako originál, úplně stejně, jako kdybychom ten spis zkopírovali na běžné kopírce. Což může být velká výhoda pro úředníky, kteří jsou na klasické spisy zvyklí, dokáží se v nich totiž velmi jednoduše orientovat a není to pro ně nic až zas tak nového, čeho by se třeba mohli bát.
Soudní spisy v klasické papírové podobě je prakticky nemožné na soudech uhlídat. Občas dochází k různým manipulacím. Dokonce i v případě rekonstrukce nebo výstavby zcela nové soudní budovy je velmi obtížné zajistit pro občany možnost nahlížení do spisů, aniž by současně byla ohrožena bezpečnost uložených listin. Potvrdil nám to nedávno i pan předseda Nejvyššího správního soudu, dr. Josef Baxa, který považuje právě nahlížení do soudních spisů za velmi rizikové a obtížně technicky řešitelné. Mohly by zde ale pomoci elektronické dokumenty?
Myslím, že ano. Elektronický dokument může být podstatně lépe zabezpečen než běžný papírový. Lze jednak stanovit, které osoby k němu budou mít vůbec přístup. A oprávněné uživatele lze potom sledovat, monitorovat jejich aktivity, aby bylo zřejmé, se kterými podrobnostmi dokumentu se manipulovalo, jak dlouho a kdo byl tím „návštěvníkem“ spisu. Jak jsem už řekl, v jeden okamžik může takový spis sdílet více uživatelů. Teoreticky může informace současně využívat třeba policista, soudce, státní žalobce, obžalovaný, obhájce a pokud by to bylo potřeba, je také možné údaje veřejně vystavit na webu. Samozřejmě tak, aby nemohlo dojít k jejich pozměnění nebo jiné nezákonné manipulaci.
Na soudu jako v bance
Pro zabezpečení elektronických soudních spisů by bylo třeba dopředu pečlivě připravit projekt. Musí se stanovit třeba to, zda se pro uchovávání dat použije interní síť s omezeným přístupem nebo zda budou dokumenty přístupné veřejně. Zda se pro zabezpečení použije třeba digitální podpis atd. Je to souhrn technických a organizačních opatření. Není rozdíl v tom, zda jde o data banky, pojišťovny nebo třeba policie či soudu. My jsme třeba zpracovali kompletní archiv pro jadernou elektrárnu v Mochovcích. Tam bylo třeba zpracovat několik milionů dokumentů a obnášelo to dvouletou práci celého týmu.
V justici jde také o velká kvanta dat. Hodně lidí má právě z toho obavy. Zda je to vůbec technicky a organizačně řešitelné. Data jsou v běžných obálkách nebo vazbách, různé dokumenty mají různou kvalitu.
V případě rozsáhlých archivů se prakticky vždy setkáváme s dokumenty různé kvality. Zpracovali jsme například listiny od formátu A5 až po výkresy A0 na různém papíru s různou kvalitou tisku. Celý archiv jaderné elektrárny je nakonec uložen na nosiči, který je ekvivalentní objemem zhruba 40 CD.
Začínáme digitalizovat
Jaký je postup? Pokud jde o kontrakt obnášející miliony stránek, jak to celé probíhá?
Majitel dokumentů by měl mít pořádek v dokumentech. Měl by být seznam jaké dokumenty a kde se nacházejí, abychom mohli zachovat strukturu archivu. Vše musí být dohledatelné - na kterém místě se nachází jaké informace. První krok je tedy analýza, jak je dokumentace uložena, všude je nějaký spisový řád. Dále se zjistí, jak jsou dokumenty dělené, zda je to obchodní korespondence, obchodní agenda, technické výkresy a dokumentace, existuje vždy i další dělení. Musíme tedy promyslet jak se co bude ukládat.
Proudem nebo po jednom
Samotné skenování - záleží na kvalitě primárních dokumentů, zda jsou svázány listy a dají se volně rozebírat. To je důležité pro kalkulace, ke stanovení nutné techniky. Je rozdíl zda se použijí proudové skenery nebo se vše dělá ručně. Nastaví se technické detaily, jas, kontrast atd. Problém může být s dokumenty nevalné kvality, které mohou být psané na průklepovém papíru a je těžké je přečíst i pouhým okem.
Skenování je možné jak u dodavatele, tak i u zákazníka. Je to jen organizační krok, jde především o bezpečnost dat. Může se skenovat přímo v archivu. V Mochovcích jsme dělali dva roky a pracovalo se na dvě směny. Soudním spisům je velmi příbuzná problematika dokumentů v parlamentním archivu. Který jsme však také celý převedli do elektronické podoby.
Také patentové spisy
Jaké máte tedy reference?
Pro skenování a rozpoznávání textu dodala naše firma technologii dodavateli, který zpracovával pojistné formuláře pro havarijní pojištění společnosti Alianz, včetně rozpoznávání písma ručně psaného. Technologii jsme také dodávali v Bánské Bystrici pro Úřad průmyslového vlastnictví. Tam se digitalizovalo několik milionů listin, šlo o patentové spisy, což může být soudním spisům velmi podobná položka.
OCR jsme tam dodali ve speciální úpravě, rozpoznávalo se záhlaví patentového spisu, nikoli tedy celý spis. Šlo o to vytvořit databází s klíčovými slovy pro vyhledávání. Šlo právě opět o dokumenty z různého období, z padesátých let a podobně.
Pro slovenský parlament jsme rozpoznávali listiny psané německy, švabachem. Byly to věci staré téměř 150 let. A zatím jsme tam předali hotových zhruba 330 tisíc rozpoznaných stránek.
Detaily
- Proudové skenery, více než 10 stran za minutu, špičkové produkční proudové skenery až 200 dokumentů za minutu.
- Řádová cena 12-25 Kč na stránku s OCR, včetně označení dokumentu pro vyhledávání, indexu.
- Je možné jen částečné OCR, cena je pak o hodně nižší, je naskenovaný dokument s klíčovými slovy tj. například korespondence, datum vytvoření, autor, značka soudního spisu metadata pak je cena 4-10 Kč. Cena se odvíjí od velikosti zakázky.
- Potřeba vyplyne právě z analýzy. Je třeba najít rovnováhu mezi náklady a potřebami.
- ICR inteligentní rozpoznávání rukou psaného hůlkového písma
- Digitální archiv obhospodařováním dokumentů ušetřím na indexaci, ale samotná aplikace bude stát desítky milionů korun. Alternativa je plné OCR a běžné internetové vyhledavače, tam už pak žádné další náklady nejsou.
Produkty pro OCR optické rozpoznávání písma:
- FineReader pro desktop
- SW pro rozpoznávání formulářů pro průmyslové použití
- Přidat komentář
Verze pro tisk- 196 přečtení
Send by email
PDF verze

Komentáře
Produkty pro zpracování soudních spisů
dne So, 09/10/2004 - 21:44 Permalink
Ohledně produktů pro převod naskenovaných, ofocených dokumentů do elektronické podoby, tzv. OCR - další a velice výborný kromě FineReaderu je Recognita Omnipage (---archivex.cz/recognita.html). Více o technologii OCR naleznete zde: -medard.institut.cz/digidat/obraz_OCR.htm . A ještě více zde: ---digineff.cz/jaknato/ocr/ocr.html (odkaz nefunguje).