Billedlagring i slægtsforskning
2. udgave
©1999-04-15 Erik Bachmann
(e_bachmann@hotmail.com)
www.e-bachmann.dk/docs/billed/billed.htm
Introduktion
Intentionen med denne artikel er at give en kortfattet introduktion til
digital billedlagring - ikke billedbehandling i form af billedmanipulation.
Tekniske udtryk er forsøgt udeladt, for ikke at ende i bit-fedteri og
diskussioner om profetens skæg.
Ligeledes er der ingen omtaler/anbefalinger af specifikke programmer.
Det er læserens opgave at vælge frit.
Artiklen er skrevet fordi der ustandselig kommer spørgsmål angående de
samme problemer, som jeg selv har kæmpet med. Der er ikke mig bekendt
noget kortfattet dansksproget materiale indenfor dette område.
DIS udgav i 1994 et særnummer om scanning. Teknologisk er det ca. 2
generationer siden og artiklerne har mange tekniske detaljer, som er
uvæsentlige for den moderne bruger.
I artiklen støtter jeg mig meget til Wayne Fultons fremragende bog "A few scanning tips"
(www.scantips.com).
Bogen giver en eminent og teknisk velfunderet gennemgang af dette
område på engelsk. Bogen kan læses gratis på internettet og kan stærkt
anbefales.
Husk!
Kæmper er oftest blot små mænd, der står på skuldrene af andre.
|
Har du kommentarer eller forslag til denne arktikel hører jeg gerne nærmere.
Indhold
- Introduktion
- Indhold
- Formål
- Læseudstyr
- Lagerstørrelser og farver
- Lager
- Fastdisk
- Permanent lagermedie
- Filformater FILFORMAT
- Hvilke programmer skal man bruge?
- Opbevaring af billeder
- OCR (Optical Character Recognition)
- Og hvad gør han selv?
- Referencer
Formål
Inden man giver sig i kast med de følgende kapitler, er det en
nødvendighed at gøre sig klart, med hvilket formål man ønsker at
digitalisere sine billeder.
Undervejs i processen må man nødvendigvis træffe nogle valg, som senere
kan vise sig at være skæbnesvangre - især hvis man træffer de forkerte valg.
Formål med digitaliseringen kan være:
- Alle de andre gør det og jeg har lige købt en scanner (Dårlig
begrundelse = find en anden)
- Portrætter til stamtræet på papir. Eet enkelt forholdsvis lille
billede af hver enkelt person i familien.
- Kopier til andre familiemedlemmer
- Sikkerhedskopier af arvesølvet
- Reprokopier til slægtsbog
- Portrætter til WWW anetavle eller anden computerbaseret samling
Hver af de ovenstående mål stiller vidt forskellige krav til metode og
medie.
- Reprokvalitet
- Meget høj opløsning (mere end 1.200 dpi). Kræver meget diskplads og
maskinkraft. Endvidere er billederne tunge/langsomme at arbejde med.
- Skærmbilleder
- (fx. til WWW) kan laves i meget lave opløsninger (fx. 75 dpi), da
skærmopløsningen ikke kan vise detaljerne i højopløselige billeder,
indenfor de almindelige dimensioner (640*480, 600*800, 1024*768).
- Kopier til andre familiemedlemmer
- bør man overveje andres muligheder og behov. Ønsker
modtageren WWW kopier, almindelige papirbilleder, eller helst dias?
- Hvis ikke modtageren af en diskette eller CD-ROM overhovedet har en
computer, kan arbejdet være spildt.
Læseudstyr
Til selve affotograferingen af billeder, genstande og dokumenter kan man
anvende digitale kameraer eller scannere.
Digitalt kamera
Nyest på markedet er det digitale kamera. Dette er glimrende til
portrætter af personer, billeder af bygninger, inventar fra
rytterstatuer til nipsenåle. De er dog ikke velegnede til
gengivelser af dokumenter og affotografering af andre fotografier. Dette
vil kræve professionelle fotolaboratorier og højere opløsning end
teknisk muligt i dag.
Scannere
Er i princippet fotodelen af en fotokopimaskine: en fotosensor bevæges
henover originalen, imedens denne belyses af en kraftig lampe.
Fotosensorens "oplevelser" gemmes som en digital (binær) kode. og vupti
har man en digital kopi.
Scannere er i dag tilgængelige for menigmand til priser fra få hundrede
kroner og opad - tilsyneladende uden øvre grænse.
Teknisk set er der tre hovedtyper, der fortjener en nærmere beskrivelse:
Håndscannere, rullescannere og fladscannere.
Håndscannere
Håndscannere består af et håndholdt læseapperat med indbygges lys.
Kendere af hr. Von Triers nyere værker ved at håndholdt kamera er
rystende og ofte forvirrende i sin stil. Kunstnerisk interessant og
nyskabende, men til dokumentation og kopiering af billeder eller
dokumenter - bestemt ikke egnet.
Rullescannere
Rullescannere er meget små, kompakte og billige scannere, der med
en roterende rulle fører originalen forbi læsehovedet i en jævn
bevægelse.
Denne form for scannere fremhæves ofte i forbindelse med optisk
skriftgenkendelse (OCR). De giver ofte meget høj opløselige kopier til
en billig penge.
Desværre er der een vægtig ulempe: Rullerne.
Da originalen føre frem af en rulle må originalens tykkelse ikke
overstige 2-4 mm. Endvidere er der en risiko for at originalen bliver
bøjet under fremføringen.
Rullescannere er velegnede til enkeltark, men ikke til bøger,
fotografier eller skrøbelige arkivalier.
Fladscannere
Fladscannere minder mest om den konventionelle fotokopieringsmaskine.
Originalen lægges på en glasplade med forsiden nedad og den dækkes med
et låg inden selve kopieringen.
Ulemperne er at de ofte er klodsede, langsomme og at originalerne let
forskubber sig, når låget lægges på.
Fordelene er at originalen ikke bukkes, og at der kan arbejdes med flere
optagelser, uden at originalen skal flyttes.
Velegnet til ukorrente objekter som fotografier på karton, breve og
skæve fotografier, der skal efterbehandles ved fx beskæring.
Lagerstørrelser og farver
Lidt matematik
Lad os tage et eksempel: Et fotografi ca. 10 * 15 cm. (Det er let at
regne med)
Edb-verdenen er om ikke anglofil, så dog amerikaniseret i en grad, at
engelske mål og enheder er mere reglen end undtagelsen.
Alle optiske mål angives i engelske tommer eller rettere punkter pr.
tomme (Dot per inch) eller dpi, hvor en 1" (tomme) er lig med 2,54 cm.
Dette giver en billedstørrelse på 3.94 * 5,91". For at holde
jordforbindelsen runder vi af og siger at billedet er ca. 4 * 6 "
(10,16 * 15,24 cm). Inden tråden tabes helt kommer et par eksempler på
hvor meget digitale billeder fylder.
WWW og skærm
En attraktiv billedopløsning til WWW og anden skærmbrug er 75 dpi. I
denne opløsning vil billedet fylde:
( 4" * 75 dpi ) * ( 6" * 75 dpi ) = 135.000 punkter.
Gråtone billeder
Hvor meget fylder billedet så? For hvert punkt skal man have en
farve/kontrast værdi. Simple sort/hvide billeder (grafisk set: gråtone
billeder) kan lageres med kun 8 bit kontrast information (= 256
gråtoner). Dette betyder at hvert punkt på billedet fylder 1 byte (eet
tegn). Billedet vil altså fylde 135.000 bytes i lageret.
På disken afhænger størrelsen af filformatet, men herom senere.
Ægte farver
Er det et farvebillede, bliver beregningen lidt mere kompliceret. For at
lave farver med ægte glød og klarhed skal farvespektret helt op på 24
bit (16,8 millioner farver) eller rettere farve, lys og kontrast
kombinationer.
Et sådan billede vil fylde 3 gange så meget som et 8 bit gråtone billede,
idet 8 bit = 1 byte = eet tegn og 24 bit = 3 byte = 3 tegn eller i alt 405.000 byte.
På engelsk kaldes 24 bit farve også for "True color" altså "ægte
farve".
Høj farveopløsning
Mindre farvelade kan naturligvis gøre næsten det samme. Vælger man 16
bit farve med ca. 32.000 farvekombinationer fylder billedet "kun"
dobbelt så meget som et gråtone billede nemlig 270.000 byte. Naturligvis
med et betydeligt tab af farvenuancer.
På engelsk kaldes 16 bit farve også for "High color" altså "høj
farveopløsning".
Simple farver
"I gamle dage" kunne man nøjes med 256 farver (8 bit), altså samme
størrelse som gråtone billedet på 135.000 byte. Farverne vil dog på
ingen måde yde originalbilledet retfærdighed. Denne farveopløsning egner
sig IKKE til fotografier, men kan anvendes til tegninger og andre
grafiske illustrationer med et begrænset farvespektre og hvis indhold
ikke stiller store krav til farveægtheden.
Monokrom
Monokrom eller "Stregtegning" (1 bit ægte sort/hvid) anvendes til
konturindeks og tekstdokumenter, der gør sig bedst uden gråtoner. Fylder
kun ganske lidt i forhold til farve og gråtone billeder. Eksempelvis
fylder billedet på 135.000 punkter kun 16.875 bytes
(135.000 punkter * 1 byte / 8 bit pr. byte )
Om "ægte farver" virkelig også er naturtro afhænger naturligvis af
øjnene, som ser; men i højeste grad også af de udstyr, som anvendes:
Både scanner, programmel og skærmen resultatet skal vises på.
| Opløsning |
Billedstørrelse 6 * 4 " |
Antal punkter (Pixel) |
Størrelse i tegn internt lager |
| Farve |
Gråtone |
Monokrom |
| 75 dpi |
450 * 300 |
135.000 |
405.000 |
135.000 |
16.875 |
| 150 dpi |
900 * 600 |
540.000 |
1.620.000 |
540.000 |
67.500 |
| 300 dpi |
1800 * 1200 |
2.160.000 |
6.480.000 |
2.160.000 |
270.000 |
| 600 dpi |
3600 * 2400 |
8.640.000 |
25.920.000 |
8.640.000 |
1.080.000 |
Og hvad skal man så med den viden?
Jo - afgøre fra starten hvilken:
- Opløsning man vil vælge
- farvedybde, der skal anvendes
Hvis man ønsker at lave kopier til eftertiden som sikkerhedskopi mod
brand, ran og anden utøj, er der ingen vej udenom:
- højest mulige opløsning (>1.200 dpi)
- højeste farvedybde (eller gråtoner til sort/hvide billeder)
Hvis man derimod gerne vil lave kopier til brug på internettet eller bare
til "skærmbrug", bør man holde igen med farveladen og moderere
opløsningen. Det fylder og det kræver meget af både brugerens skærm,
disk - og evt. modem.
Det er IKKE lykken at bruge 1/2 time på at hente et 2400 dpi
portræt i ægte 24 bit farve af en "forkert" person.
På samme vil bør man holde sig til at lave opløsninger på billeder. en
almindelig VGA skærm svarer groft talt til 75 dpi. Højere opløsninger
giver ofte et ringere resultat pga. skærmens forvanskning og begrænsede
størrelse.
Hvis man ønsker at lave papirkopier af sine billeder er det værd at
huske på at 300 dpi eller 600 dpi er maksimalt opløsning for de
almindelige printere i dag. Et 2400 dpi billede skal altså "presses" ned
i en lavere opløsning ved udskrivning. Dette tager dels tid, dels øger
det risikoen for et betydeligt kvalitetstab.
Optisk kontra interpoleret opløsning
Med hensyn til opløsning skal man vide hvilken optisk opløsning
scanneren har. Oftest oplyser producenten/forhandleren en
interpoleret opløsning.
Forskellen ligger populært sagt i at ved optisk opløsning svarer eet
punkt læst til eet punkt lagret. Ved interpolering læses nogle punkter,
hvorefter der indsættes nogle fyldpunkter med en beregnet ca. værdi.
Interpolering får billedet til at se større ud, men giver ofte et tåget
og uskarpt billede.
Hvis en scanner fx. har en optisk opløsning på 300 * 600 og en
interpoleret opløsning på 600 * 1200 vil den maksimale rene opløsning
være 300 * 600.
Bruger man 600 * 1200 får man blot et 300 * 600 billede forstørret op
ved at hvert andet punkt i billedet er udfyldt med en ca værdi.
Lad os tage et eksempel, hvor lysintesiteten angives som en værdi
imellem 0 og 200, hvor 000 er sort og 200 hvid.
|100|150|200|000|200|
____/ // /| |\ \\ \_____
/ ____// / | | \ \\____ \
/ / _/ / | | \ \_ \ \
( ) ( ) ( ) ( ) ( )
|100|125|150|175|200|100|000|100|200|
^^^ ^^^ ^^^ ^^^
De interpolerede værdier er mærket med ^.
Bemærk at den ene sorte plet (000) som ligger imellem 2 hvide pletter
(200) bliver til faktisk til tre punkter (100, 000, 100), hvilket vil
give et uskarpt billede.
Lager
Den første gang jeg sad med en kopi af et sort/hvid billede, som fyldte
85 MB fik jeg lidt af et chok - hvor i alverden triller man sådan en
moppedreng hen?
Lager kan her være en af tre ting:
- Internt lager (hukommelse, RAM) i PC
- Fastdisk
- Permanent lagermedie
Internt lager
Pc'en skal nødvendigvis have en vis kapacitet for at kunne rumme de
enorme datamængder, som billeder er. Moderne styresystemer bruger oftest
disken som en "forlængelse" af de interne lager. Dette gør de muligt at
arbejde med billeder, der er langt større end det fysiske interne lager.
Løsningen er dog langsom.
Langt at foretrække er den moderne multimedie PC med tilstrækkeligt
kapacitet til at håndtere hele billedet i det interne lager. Der kan
være tale om over 100 MB - en størrelse, der godt kan give pletter for
øjnene, hvis man forsøger at forholde sig nærmere til den.
Fastdisk
Fastdisken er der hvor man midlertidigt gemmer sine billeder. Her er de
bekvemt ved hånden under scanning, registrering, efterbehandling osv.
Desværre er diskkapaciteten begrænset. Det er nok de færreste, der kan
have hele familiealbummet på Pc'en.
Det ideelle er nok at kunne lagre og redigere tilstrækkeligt store
mængder af data til senere at kunne overføre en "færdigpakke" til et
mere permanent medie.
Permanent lagermedie
Et permanent medie SKAL være et holdbart medie, gerne med stor
kapacitet og hurtig tilgang til data.
Mediet kan være magnetbånd, magnetdiske (Zip, Jazz osv.) eller optiske
diske (CD-ROM, CD-RW, DVD).
For tiden er det bedste bud på et godt lagermedie en CD-ROM.
- Lagerkapaciteten er forholdsvis høj (640 MB)
- Mediet er almindeligt udbredt
- Adgang til data er hurtig
- Kopier kan laves meget billigt ( < 15 kr. pr. stk)
I løbet af et års tid eller to vil DVD (Digital Versatile Disc) komme ind
på markedet. DVD ligner fysisk CD-ROM'en, men har en lager kapacitet på
over 5 GB eller næste det ni dobbelte af CD-ROM'ens kapacitet. Prisen er
dog endnu meget høj.
Filformater
Når oldemor er blevet digitaliseret, skal hun også gemmes. Det er bestemt
ikke ligegyldigt i hvilket format billederne gemmes.
Der anvendes flere hundrede forskellige filformater, der stort set
enhver programproducent har genopfundet tallerkenen. Nogle er obskure
rariteter, der måske kun kan læses af et enkelt program. Andre anvendes
bredt og har fået status af industristandarder - uden at der i øvrigt
skal lægges for meget i ordet "standard".
Nogle af de mest udbredte formater er:
BMP, GIF, JPEG, PCX, PNG og TIFF
Brug een af disse og undgå specialiteterne.
BMP (Windows Bitmap)
Er et Windows specifikt format. Kan gemme 24 bit farveformat, men uden
kompression. Billederne vil fylde enormt og kan typisk kun vises af
Windows baserede maskiner.
Udemærket til mindre grafik, der kan komprimeres med RLE (Run Length
Encoding), men er uegnet til fotografier.
GIF (Graphic Interchange Format)
er et gammelt format udviklet sidst i 80'erne af Compuserve. Et gedint
format med alle de faciliteter man kunne ønske sig - dengang.
- Kompression uden datatab
- Gennemsigtig (transparent) baggrund
Desværre kan GIF maksimalt gemme en farvepalette på 256 farver - vildt i
1987, men håbløst i dag.
Hvert billeder har sin egen farvepalette, hvilket kan give en god
farvedybde og et realistisk billede. Desværre giver denne selvstændig
farvepalette problemer ved visning i nogle programmer (fx. Netscape
klienter), hvor billederne kan virke "grynede" pga. konflikter med
programmets faste farvepalette.
GIF er dog stadig et godt format til Web-sider og især grafik. GIF er
dog bestemt ikke egnet til originalbilleder (masterkopier) pga.
begrænsningerne i antal farver og problemerne med farvepaletten.
JPEG (Joint Photograpic Experts Group) eller JPG
er et format med meget høj farveopløsning (min. 16 bit / 32.000 farver)
og en utrolig effektiv kompression. Formatet er fremragende til
Web-sider, da billederne kun fylder ganske lidt og alligevel har meget
høj farveopløsning.
Desværre har alting en pris: Kompressionen smider data væk !!!!
Hver gang man gemmer billedet tabes der information ved
rekomprimeringen. Billedet bliver altså mere og mere utydeligt for hver
gang der gemmes.
|
ADVARSEL!!!
Brug ALDRIG JPEG formatet til original data (masterkopier).
|
Eksempel på datatab i JPEG
|

|
|
Udklip af det originale billede.
|
Udklip af et komprimeret billede i
JPEG-format. Bemærk at det øverste kronblad er blevet diffust i kanten.
Støvdragerne har mistet alle detaljer. Der er store firkantede områder
på det nederste kronblad som er blevet dækket af tågede firkanter.
|
Brug formatet til farveægte kopier på Web-sider og til e-post - ikke til
originaler.
PCX (Windows Paintbrush)
Igen en Windows specialitet. Billeder fylder meget og kan kun vises på
Windows baserede maskiner
Brug et andet format.
PNG (Portable Network Graphics)
er afløseren for GIF med allehånde tekniske finesser indbygget. Der er
nogle vigtige aspekter:
- Høj farveopløsning (op til 48 bit)
- God kompression uden datatab
- Åbent fil format (ikke bundet til platform eller producent)
Dette format er i øjeblikket teknisk set det bedste til
originalfotografier.
Dog er formatet forholdsvis nyt. Ældre billedbehandlingsprogrammer kan
måske ikke læse/skrive i formatet.
Et godt og velment råd: Opgrader eller skift til programmer, der kan
håndtere PNG.
TIFF (Tagged Image File Format) eller TIF
er et universal format udviklet af Aldus (i dag Adobe). Formatet kan
anvendes på tværs af stort set alle platforme (PC, Mac, Amiga, Unix,
OS/2) og er et af de mest udbredte formater til foto og grafik.
TIFF findes både med og uden kompression. Kompressionen er af typen LZW
og er uden datatab. Desværre fylder selv komprimerede TIFF-filer
uforholdsvis meget.
Ukomprimerede TIFF-filer er kun for folk med for meget diskplads ;-)
Summa summarum:
- Gem originalbilleder i PNG (eller evt. TIFF)
- Gem andenhåndskopier til fx. Web-sider i JPEG formatet
Originalbilledet er 4 * 6". Størrelserne ved filformaterne er angivet i
tegn (byte).
| Farvebillede |
| Opløsning |
Størrelse internt lager |
Filformater Størrelse i tegn |
| PNG |
TIFF/k *2 |
TIFF/u *3 |
JPEG *1 |
| 75 dpi |
395,0 KB |
244.657 |
370.196 |
405.208 |
20.692 |
| 600 dpi |
6,1MB |
3.670.177 |
5.912.692 |
6.485.588 |
252.799
|
| 2400 dpi |
99 MB |
35.210.201 |
85.009.778 |
103.852.744 |
2.966.058 |
|
| Gråtonebillede |
| Opløsning |
Størrelse internt lager |
Filformater Størrelse i tegn |
| PNG |
TIFF/k *2 |
TIFF/u *3 |
JPEG *1 |
| 75 dpi |
131,6 KB |
80.065 |
114.820 |
136.028 |
19.051 |
| 600 dpi |
2,0 MB |
1.170.162 |
1.675.984 |
2.163.722 |
247.826 |
| 2400 dpi |
33,0 MB |
11.638.371 |
20.672.030 |
34.623.052 |
3.011.260 |
*1) JPEG 15% Kompression 300 dpi
*2) TIFF 300 dpi
*3) kompression = LZW
|
Bemærk!
Eksemplet fra "Lagerstørrelser og farver" (75 dpi gråtone) fylder
135.000 bytes i det interne lager, men ikke nødvendigvis på disken!
Der kan dels være et filhoved, som fortæller noget om billedets
størrelse, farvedybde, komprimering mv. - dels kan selve billeddata være
komprimeret mere eller mindre (fx. ca. 10% i PNG eller op til 60-70% i
JPEG).
Det er svært at beregne filstørrelse udfra originalens opløsning,
størrelse og farvedybde.
|
Hvilke programmer skal man bruge?
Til scanning og elementær behandling (tilskæring) af billeder, man
sagtens bruge mange af de gratis programmer, der i dag bliver leveret
sammen med scannerne.
Oftest ligger den avancerede del af teknikken gemt i de styreprogrammer
(drivere), som producenten har udviklet til at styre scanneren med.
Er det de mere avancerede lyster med farve- og kontrastændringer eller
retouchering af beskadigede billeder, bør man nok kigge på de halv-
eller hel professionelle billedbehandlingsprogrammer.
Det er uendeligt svært at rådgive om, hvilket program man skal vælge.
Mange har et næsten religiøst forhold til netop deres favoritprogram.
Mine råd er:
- Prøv nogle af de gratis evaluerings- og demoversioner af
programmerne
- Find anmeldelser i edb-bladene. Her er ofte sammenligninger af de
almindeligste programmer
Pas på skamrosende artikler i de mindre seriøse blade. Ofte får
importøren selv lov til at "anmelde" sit produkt. Desværre fremgår dette
tilhørsforhold eller forfatteren ikke altid af artiklerne. Er artiklen
ren skønmaling, kan der let være ugler i mosen.
- Søg råd hos den lokale edb-medicinmand m/k. Husk at spørge hvorfor
dette eller hint program er blevet en favorit.
De samme råd vil jeg give til valg af slægtsforskningsprogram:
- Kig på DIS Norges glimrende anmeldelser af
slægtsforskningsprogrammer http://www.sol.
no/disnorge/program.htm
- Prøv demoversionerne af med den nærmeste familie (10-30 personer)
- Lad din egen personprofil udfylde med alle felter i database.
Sæt fx. din egen død og begravelse til december 2099 (rart at kunne
udskyde det :-) ) for bl.a. at se om der er logiske test i programmet på
datoer og levetid.
- Eet ultimativt krav til et moderne slægtsforskningsprogram er at det
understøtter GEDCOM standarden til udveksling af data med andre
slægtsforskere. Det vil spare i hundredvis af arbejdstimer, når den
ukendte amerikanske kusine dukker op med hele familiesagaen (den er god
nok - jeg har selv prøvet det :-)
- Vælg så vidt muligt et program, som er forholdsvis kendt og hvortil
du kan få hjælp - både fra udvikler/distributør, men også fra venner og
familie
Opbevaring af billeder
Som de fleste har bemærket, holder moderne fotografier ikke særligt godt
i fotorammer og i plastikalbum.
Væsentligst fordi fotografier har tre fjender: Lys, syre og fugt.
- Lyset bleger langsomt billederne. Især farvefotografier er følsomme
overfor lys. Ældre tiders bruntonede billeder er derimod
bemærkelsesværdigt hårdføre overfor lyspåvirkninger. Der er dog ingen
grund til at udfordre skæbnen. Pas godt på originalerne og lad en evt.
kopi af tipoldemor fra 1870 stå fremme
- Syrepåvirkningen kan komme fra dårligt behandlet papir. Mange
billige fotografier og bøger er faktisk selvdestruerende. Papiret går i
opløsning. Moderne plastiklommer fremskynder desværre de nedbrydende
processer og kan i værste fald "trække" motivet af papiret eller ætse
det bort.
- Fugt er ikke blot en gammel fjende fra før isolering og
centralvarme. Også i dag begås synder, som at gemme billeder, breve,
dagbøger og lignende i papkasser på lofter og i kældre.
Skynd jer at sikre disse ofte uvurderlige og upåagtede værdier!
Jævn temperatur, relativ lav luftfugtighed og mørke er godt for
arkivalier. Det er kun os levende, der trænger til lys og luft.
Skrøbelige dokumenter og fotografier bør opbevares i en fornuftig
emballage. Fra Museumsbutikken i Viborg kan man købe særlige konvolutter
i kraftigt syrefrit papir. Oven i købet til billige penge.
OCR (Optical Character Recognition)
"C'est ne pas une pipe" skrev surrealisten Magritte på et billede af en
pibe. Det samme gælder for billeder af dokumenter: Man kan ikke lave
tekstbehandling eller søgninger i teksten.
Visse typer af dokumenter kan, hvis de er af god kvalitet og med
fast ensartet typografi (bog- og avistryk eller maskinskrevet),
fortolkes fra billeder til tekstdata. Processen kaldes ofte for OCR
eller ICR (Intelligent Character Recognition).
Hov! Er det her ikke billedbehandling i stedet for billedlagring???
Jo - tildels, men der er en kolossal forskel på, om man vælger at gemme
billedet eller teksten fra billedet rent pladsmæssigt.
Ønsker den amerikanske kusine pludselig en oversættelse af billedet
starter processen helt forfra. Har man allerede teksten, er det en del
lettere.
I praksis forsøger programmet at sammenligne nogle kendte figurer
(bogstaver og tal) med det billede, der scannes ind.
Originalen skal være af god og letlæselig kvalitet med tydeligt
afgrænsede tegn. I visse skrifttyper flyder bogstavkombinationerne
sammen så "rn" bliver til "m". Hvis originalen er smudset til eller
udtværet, vil der lettere opstå fejl.
OCR programmer læser som et barn i første klasse: Uden erfaring og med
ringe sans for sproget. Efter oversættelsen tolker det som en olding:
Udfra stor erfaring, men med uforudsigelige huller i erfaringsmassen.
Er OCR overhovedet anvendelig for slægtsforskere?
Ja - det kan i princippet anvendes på alt materiale, der ikke er
håndskrevet: avisartikler, maskinskrevne protokoller, officielle
dokumenter osv.
Det kræver dog meget også af det udstyr, der anvendes. Der er i snesevis
af OCR programmer i alle prisklasser fra gratis og op til
professionelle (= hundedyre). Sammen med en ny scanner får man ofte en
gratis demoversion af et OCR-program. Desværre er kvaliteten ikke
særlig god. Der er en sammenhæng imellem pris og kvalitet. For OCR
programmer er prisen desværre høj.
Og hvad gør han selv?
Den mest besværlige løsning. Efter en del eksperimenter er jeg kommet
frem til følgende model.
Billederne scannes i to opløsninger:
- 600 dpi
- Højopløseligt billede, som kan anvendes til papirkopier (=
scannerens højeste OPTISKE opløsning).
- 75 dpi
- "Skærmkvalitet" til bl.a. internet
Bemærk!
I en tidligere udgave tillod jeg mig frit og frejdigt at
foreslå scanning i 2400 dpi i reprokvalitet. Kvaliteten kunne dog ikke
stå for en nærmere prøve.
Overvurder ikke din scanners kvalitet. Se også afsnittet: Optisk kontra interpoleret opløsning
Udfra 75 dpi billederne laves yderligere to billeder:
- "Frimærke"
- Et lille knapbillede, der maksimalt er 100 punkter på den længste
led. Frimærket laves ved at resample 75 dpi billedet. Anvendes til
oversigter mv.
- Konturindeks
- Et indeksbillede, hvor man ser konturerne af hver enkelt person.
Personen er markeret med en bogstavkode, der refererer til den
beskrivende tekst.
Indekset laves ved at reducere billedet farvepalette til kun 16 farver
og tegne personens omrids op med en bred linie i en kontrastfarve. Dvs.
en farve, der ellers ikke anvendes i billedet (skarp gul, cyklamen,
pink). Derefter sættes alle andre farveværdier end kontrastfarven til hvid.
Kontrastfarven sættes til sort og billedets farvepalette kan nu
reduceres til to farver (monokrom eller 1 bit), da der kun er rent
sort og hvid. Herved reduceres billedets lagerstørrelse betydeligt.
Til sidst indsættes et bogstav på eller ved hver enkelt omrids på
billedet.
Billedbehandlingsprogrammer har ofte to funktioner til at ændre
størrelse på billeder:
- Resize
- Skærer hårdt dele af billedet væk. Resultatet er ofte grovkornede
billeder.
- Resample
- Nye biller dannes udfra vægtede gennemsnitsværdier. Funktionen giver
bedre fotografiske billeder end Resize.
For at kunne holde styr på billederne og deres indhold registreres en
række oplysninger for hvert enkelt billede i en database
- id:
- Unikt nr. for hvert enkelt billede. Portrætter af enkeltpersoner
starter med p_000000.png og grupper mv. starter med g_000000.png og
konturindekser starter med i_000000.png.
- Motiv
- Kort beskrivelse af motiv
- Nummerering/datering
- Nr. på negativ og evt. dato for optagelse
- Beskrivelse på dansk (og engelsk)
- Fyldig beskrivelse af motiv
- Efternavn, fornavn og personID i anetavlen
- Data til at lave henvisninger til anetavlen fra billedoversigten
- Størrelse i cm
- Billedets fysiske dimensioner
- Farve eller s/h
- Farve eller sort/hvid original
- Ophav/fotograf
- Evt. fotograf eller atelier
- Fysiske dimensioner på kopier
- For hver kopi angives størrelsen i punkter
Fra databasen udtrækkes et hovedindeks, der indeholder en
liste med alle "frimærkerne" og en kort beskrivelse af hvert enkelt
billede (motiv).
Frimærket er en reference til en side med et 75 dpi
billede, evt. et konturindeks og en fuldbeskrivelse af billedet.
Personnavnene fungerer som referencer til anedatabasen.
Eksempler:
Forside med referencer i frimærkerne til billedbeskrivelse
Billedbeskrivelse med fuldt 75 dpi billed- og konturindeks. Der er
referencer i personnavnene til anetavlen
Anetavlen som den ser ud, når man springer fra billedbeskrivelsen.
Databasen er i mit tilfælde en flad tekstfil og indekserne udtrækkes
vha. et script i Perl.
Referencer
"A few scanning tips" (www.scantips.com) / Wayne Fulton.
Bogen giver en eminent og teknisk velfunderet gennemgang af dette område
på engelsk. Bogen kan læses gratis på internettet og kan stærkt
anbefales.
DIS - Databehandling I Slægtsforskning http://users.cybercity.
dk/~dko6959/
Genealogy Resource Index for Denmark, GRID http://www.purl.dk/net/9712-
0110
DIS-Norges program- og filservice for slektsforskere
http://www.sol.no/disnorge/program.htm
Color Scanning Handbook http://www.scanjet.hp.com/workshop/tips/.
Udvalgte tips om scanning.
Erik Bachmann, Grydehoejvej 62, DK-4000 Roskilde, Denmark, Europe
\\\\\///// _ ______
_\ __ __ /_ _| |_ (_)::(_)Voice.:
| ||_*||*_|| | | | | |_ |____| (+45) 46789899
|_/ _/\_ \_| | | | | | ____
/ |____| \ _ | | | | | | #| E-mail:
/' /||\ '\ | \_| | | | | |____| e_bachmann@hotmail.com
//\____/\\ \ \ | ______
///||||\\\ \_ | /_Home_\ Clickety [CLICK] Software
Hello world! \______/ |____|
http://www.e-bachmann.dk
|