MONATO
Por skribi al ni
Serĉu en la retpaĝoj de Monato
en la retpaĝoj de Monato

Aliĝu al la senpaga servo Nova!

Komputado

BITLIBROJ

De papero al komputilo: bitigo de presitaj dokumentoj

Tradicie skribitaj informoj estas kolektitaj en libroj, kajeroj, dosierujoj, skatoloj ktp. Se la tuto estas zorge ordigita, spertulo rapide retrovas la bezonatan informon. Bedaŭrinde, ofte la dokumentoj estas ĥaose ie deponitaj, kaj la serĉanto ne ĉiam estas spertulo. Komputilo povas helpi.

Gazeteltondaĵoj ...

Antaŭ kelkaj jardekoj mi komencis eltondi gazetartikolojn pri aferoj, kiuj interesas min. La eltondaĵojn mi ordigis laŭ kelkaj ĉeftemoj en dosierujoj, simple laŭ la datoj, unu sur alia. Kiam dosierujo estis plena, mi translokis ĝin al subtegmento kaj ekuzis novan. Finfine mi havis dekon da plenaj dosierujoj, sed konstatis, ke mi apenaŭ konsultas la kolektitajn informojn. Serĉado estis malfacila. De bezonata artikolo mi ja konis la proksimuman aperdaton, sed tamen mi devis serĉi tra dekoj aŭ centoj da dokumentoj. Almenaŭ unu dosierujo iel perdiĝis.

Prepare al planata translokiĝo, mi decidis raciigi mian arĥivon. Kelkajn temojn, kiuj ne plu tre interesis min, mi forigis. La aliajn mi registris en komputila tabelo, kun vicnumero, fontindiko, dato, titolo kaj eventuale kelkaj ŝlosilvortoj. Donante serĉinstrukcion al komputilo, mi tiel facile povis retrovi bezonatan tekston. Laŭ la disponebla tempo mi ankaŭ komencis skani la paperajn dokumentojn per hejma A4-skanilo. Tiel mi havis bildojn de la dokumentoj en la komputilo, kaj eblis iom post iom forigi la dosierujojn.

Tamen la solvo ne estis kontentiga. Multaj eltondaĵoj estis pli grandaj ol A4, kaj necesis trarigardi plurajn bildojn por vidi ilin komplete. Kaj estis nur bildoj de teksto en la komputilo. Kiam en longa teksto mi serĉis iun nomon, mi devis tute tralegi ĝin. Por la lasta problemo mi jam disponis solvon: signorekonan programon, kiun mi nur malofte uzis. Trovo de skanilo, kiu taŭgis por grandformataj dokumentoj, estis malpli facila. Ekzistas tiaj profesiaj skaniloj, sed ili kostas ege multe. Fine mi trovis A3-skanilon de Mustek je proksimume 200 eŭroj.

Samtempe mi ankaŭ konatiĝis kun la skanitaj dokumentoj ĉe Europeana kaj Google Books. Tio stimulis min por plivastigi mian bitigan eksperimenton al libroj kaj revuoj. Atentu, ke mi faris la bitigon por persona uzo. Profesiaj bibliotekistoj kaj arĥivistoj uzas multe pli striktajn (kaj temporabajn, multekostajn) procedurojn.

Bitigi la paperan dokumenton

Simpla A4-formata skanilo kostas maksimume 100 eŭrojn kaj ofte samtempe uzeblas kiel printilo kaj kopiilo. Kiu volas enkomputiligi sian paperan arĥivon pli efike, uzos A3-skanilon. Antaŭ kelkaj jaroj mi trovis nur Mustek, en mia regiono apenaŭ konatan markon. Nun ankaŭ Brother vendas A3-skanilojn-printilojn kontraŭ ĉirkaŭ 300 eŭroj. Profesiaj aparatoj kostas minimume dekoblon.

La uzanto povas difini la distingivon, tio estas, la precizecon de la skanado. Kutime sufiĉas 300 dpi (dots per inch, punktoj en colo) . Oni konsilas konservi la dokumenton en la dosieroformo TIFF, sed ankaŭ JPEG estas uzebla.

Fojfoje estas komplikaĵoj. Se pro iu kialo (tre grandformata aŭ fiksita objekto) ne eblas uzi skanilon, eblas anstataŭe foti ĝin. Bone binditan libron aŭ revuokolekton oni povas tute malfermi kaj bonkvalite skani du apudajn paĝojn samtempe. Glubindita libro damaĝiĝas, se ĝi tute malfermiĝas; tamen, se ĝi estas nur parte malfermita, la surfaco de la paĝoj ne estas plata, kaj la meza parto estas malbone skanata. Skanante libron, de kiu estas pluraj ekzempleroj, oni metu la plej uzitan sur la skanilon. De revuoj oni prefere skanu nebinditajn kolektojn. Profesiaj libroskaniloj (ekzemple Zeutschel) funkcias ne kiel hejma skanilo: la skanota libro estas metata duone malfermita en „liton”, kaj la du apudaj paĝoj estas fotataj desupre per du fotiloj.

Ne ĉiu scias, ke moderna oficeja fotokopiilo uzeblas ankaŭ kiel A3-skanilo. La rezulto de la skanado estas PDF-dokumento, uzebla por posta prilaboro. Tia uzo principe estas senkosta, ĉar ne konsumiĝas inko.

Konverto de bildo al teksto

Se en la bitigita dokumento ne estas teksto, la proceduro ĉi tie finiĝas. Restas eble kelkaj etaj taskoj: forigi la nebezonatajn randojn de la dokumento, decidi, en kiu formo oni konservos (JPEG aŭ TIFF; ambaŭ havas siajn avantaĝojn), doni taŭgan dosiernomon kaj kopii ĝin al almenaŭ unu plia komputila disko (por havi savkopion).

Preskaŭ ĉiam en dokumento estas teksto, kaj do estas bezonata plia paŝo: transformo de la bildo al komputile legebla dokumento. Tiu proceduro nomiĝas optika signorekono: la komputilo analizas ĉiun bildon de litero aparte kaj decidas, kiu litero estas. Ekzistas pluraj programoj por optika signorekono. Mi elektis OmniPage, ĉar ĝi enhavas menuojn en mia (nederlanda) lingvo kaj esperantan vortaron. La plej nova (baza) versio 18 kostas ĉirkaŭ 100 eŭrojn; la pli kapabla (sed ne nepre bezonata) profesia versio ĉirkaŭ 400 eŭrojn. Alia konata programo estas ABBYY FineReader. Ĝi kostas ĉirkaŭ 130 eŭrojn, sed ekzistas senpaga provversio kun limigitaj kapabloj uzebla dum 15 tagoj.

Mi spertis, ke la ekuzo de la programo ne estas facila. Ja ne plu estas liverata kun ĝi dika manlibro, kiel estis kutimo antaŭ dudek jaroj. Oni devas memstare ĉion lerni. Tamen, mi nun kvazaŭ sen pensi uzas ĝin, kvankam verŝajne en la menuoj estas kaŝitaj interesaj eroj, kiujn mi ankoraŭ ne malkovris.

La komputila proceduro konsistas el pluraj eroj: la akiro de la dokumento, ĝia plibonigo, la optika signorekonado kaj la eksporto al komputile legebla formo.

Akiro

Normale la programo mem stiras la skanilon; por tio necesas dum la instalo indiki, kiu skanilo estas konektita al la komputilo. La programo elektas la distingivon, ĝi donas instrukcion por meti dokumenton sur la skanilon, ĝi demandas, ĉu ankoraŭ paĝoj estas skanotaj aŭ ĉu estis la lasta paĝo de dokumento ktp.

Okazas, ke jam ekzistas skanaĵoj en bildoformo (JPEG, foto, PDF-dosiero produktita de komputilo); tiujn la programo aŭtomate importas. Se skanaĵo rekte akirita per la programo pro iu kialo ne estas bonkvalita (tio ofte okazas kun presaĵo sur kolora papero), oni mem skanu la dokumenton kaj lasu la programon importi la bildodosieron. Se eĉ tio ne estas sukcesa, indas provi per alia skanilo. Cetere, importado de skanitaj bildoj ebligas taskodividon: skani estas teda kaj temporaba, sed ne tre komplika tasko, plenumebla de alia persono. Eĉ facilas manipuli du skanilojn samtempe.

Plibonigo

La formato de la skanita dokumento kutime ne egalas al la formato de la skanilo. Pro tio restas randoj, kiujn oni fortranĉu. La tranĉilo estas nur unu el la multaj plibonigiloj de programo por optika signorekono. Enestas la kutimaj eroj de grafika programo por adapti la kontraston, la kolorojn ktp. Mi malofte uzas ilin, ĉar estas bezonata multe da faka scio por atingi kontentigan rezulton.

La bildoj de plurpaĝa dokumento aperas unu post la alia en miniatura formo sur la ekrano. Eblas ŝanĝi la vicordon, aldoni forgesitan aŭ forigi troan bildon.

Optika signorekonado kaj provlegado

La programo analizas la paĝojn laŭvice. Komence oni indiku, kiuj lingvoj estas en la teksto; en okazo de dubo pri iu vorto la programo klopodas per vortlistoj trovi la plej verŝajnan solvon. Post la analizo la programo montras la tekstojn kaj indikas la erojn, kiuj estas dubaj. Tiujn oni povas permane korekti. Se perfekta rezulto estas bezonata, necesas provlegi la tutan tekston, ĉar fojfoje la programo eraras.

Praktike mi akceptas la aŭtomatan analizon kaj nur escepte korektas iun okulfrapan eraron. Mi spertis, ke la rezulto surbaze de bonkvalita presaĵo estas je 95 ĝis 99 elcentoj ĝusta. La ĉefa celo de la bitigo estas la eblo aŭtomate traserĉi la tekston, kaj tiucele tia nivelo de ĝusteco sufiĉas. La granda tempo-investo en zorga provlegado ne valoras la etan plibonigon de la fidindeco. Kompreneble, la agmaniero dependas de personaj preferoj, kaj en iuj okazoj perfekta teksto ja gravas.

Eksporto

Eblas konservi la finan rezulton en multaj dosieroformoj; la kutimaj estas DOC (preferinda, se la teksto estas ankoraŭ prilaborota) kaj PDF (dosiero neŝanĝebla, kiu montras perfektan kopion de la originalo sur la ekrano). De la lasta estas du subformoj, kiuj gravas ĉe bitigo: simpla sinsekvo de bildoj kaj traserĉebla dokumento. Se la originalo ne taŭgas por optika signorekono (ekzemple presita teksto kun manskribitaj notoj, manuskripto, tajpaĵo per malbona skribmaŝino), oni ne faru la analizon kaj estu kontenta kun sinsekvo de bildoj, bone legeblaj sur komputila ekrano. Traserĉeblan dokumenton oni elektu, kiam analizo kaj provlegado donis kontentigan rezulton. La aspekto sur la ekrano estas kiel bildo de la originalo, sed kaŝite ĉeestas la teksto legebla de komputilo (kaj ankaŭ kopiebla/gluebla de la posta uzanto de la dosiero).

Gravas doni klaran nomon al la dosieroj. Se oni bitigus sian kolekton de la revuo MONATO, oni povus doni la dosiernomojn „monato-1980-01.pdf”, „monato-1980-02.pdf” ktp. Se estas laŭtemaj gazeteltondaĵoj, utilas komence meti la (inversan) daton, ekzemple „20091213-GazetoA-Morgaŭ elektoj en Ikslando”, „20091216-GazetoB-Disputo pri la rezultoj de la elektoj en Ikslando” ktp. (Se oni uzas la saman ŝablonon por ĉiu nomo kaj metas la jaron antaŭ la monatonumeron, komputilo scios ĝuste ordigi la dosierojn en listo.)

Reklamoj de programoj por optika signorekono kutimas aserti, ke ili perfekte kopias la enpaĝigon de la originalo. Ili sukcesas preskaŭ atingi tian rezulton por simpla teksto, sed tute ne, se estas tabeloj, kolumnoj kaj aliaj komplikaĵoj. (Tio ne gravas por PDF, ĉar ĝi montras precizan kopion de la originalo.)

Posta uzo

Se oni donis al la PDF-dosieroj taŭgan nomon, kaj se oni elektis bonan dosierujo-strukturon, serĉado de artikolo en komputilo estas almenaŭ same facila kiel de papera folio en skatolo, sed per komputilo eblas pli. Ekzistas la senpaga programo Google Desktop, kiu aŭtomate indeksas ĉiujn dokumentojn en komputilo. Se mi deziras scii, kiuj tekstoj estas en mia arĥivo pri „Ikslando”, ĝi fulmrapide donas la liston. Malavantaĝo de Google Desktop estas, ke ĝi forrabas sufiĉe grandan kvanton de la laborkapacito de komputilo; precipe malnovajn komputilojn ĝi malrapidigas.

Centoj aŭ miloj da dosieroj ne estas problemo, se ili estas nur por propra uzo. La diskoj de nuntempaj komputiloj estas tiom grandaj, ke apenaŭ eblas plenigi ilin. Estas alia situacio, kiam oni ekzemple deziras disponigi revuokolekton interrete. La senpagaj retpaĝoj por individuoj kutime havas maksimuman kapaciton de 100 megabajtoj. Tio sufiĉas por kelkdekoj ĝis cento da PDF-dosieroj, ekzemple la revuo-arĥivo de malgranda klubo. Eblas mendi pli da retspaco, sed tio kostas monon kaj estas iom komplika. Ekzistas servoj, kie oni rajtas senpage meti kelkajn gigabajtojn, ekzemple www.mydrive.ch. Tie la dosieroj ne estas rekte alireblaj, sed nur per uzantonomo kaj pasvorto.

Aperigante dokumentojn interrete, oni atentu pri aŭtorrajtoj. En Usono la situacio estas simpla: presaĵoj de antaŭ 1923 estas liberaj de aŭtorrajtoj. En plejparto de Eŭropo estas aŭtorrajtoj ĝis 70 jaroj post la morto de la aŭtoro. Tio estas longa periodo kaj malfacile kontrolebla, precipe se temas pri revuoj, al kiuj kontribuis multaj aŭtoroj. Praktike bibliotekoj, kiuj rete disponigas bitigitajn gazetojn, konsideras eldonaĵojn ĝis 1940 kiel liberajn.

Fina rimarko

Ĉi tiun tekston mi verkis surbaze de miaj propraj spertoj dum la pasintaj jaroj. Mi legis la literaturon, kiu aperis pri la temo, sed preskaŭ ne havis kontaktojn kun personoj, kiuj faras la samon. Eblas, ke aliaj, uzante aliajn ilojn kaj laborante en aliaj cirkonstancoj, havas tute aliajn spertojn.

Roland ROTSAERT

Tiu ĉi artikolo povas esti libere kopiita aŭ tradukita por nekomercaj celoj, se oni mencias la fonton: Artikolo de Roland Rotsaert el Monato (www.monato.net).
Lasta adapto de tiu ĉi paĝo: 2018-04-22
Creative Commons License