Billedlagring i slægtsforskning

2. udgave

©1999-04-15 Erik Bachmann
(e_bachmann@hotmail.com)

www.e-bachmann.dk/genealogy/billed/billed.html

Introduktion

Intentionen med denne artikel er at give en kortfattet introduktion til digital billedlagring - ikke billedbehandling i form af billedmanipulation.
Tekniske udtryk er forsøgt udeladt, for ikke at ende i bit-fedteri og diskussioner om profetens skæg.
Ligeledes er der ingen omtaler/anbefalinger af specifikke programmer. Det er læserens opgave at vælge frit.

Artiklen er skrevet fordi der ustandselig kommer spørgsmål angående de samme problemer, som jeg selv har kæmpet med. Der er ikke mig bekendt noget kortfattet dansksproget materiale indenfor dette område.
DIS udgav i 1994 et særnummer om scanning. Teknologisk er det ca. 2 generationer siden og artiklerne har mange tekniske detaljer, som er uvæsentlige for den moderne bruger.

I artiklen støtter jeg mig meget til Wayne Fultons fremragende bog "A few scanning tips" (www.scantips.com).
Bogen giver en eminent og teknisk velfunderet gennemgang af dette område på engelsk. Bogen kan læses gratis på internettet og kan stærkt anbefales.

Husk!
Kæmper er oftest blot små mænd, der står på skuldrene af andre.

Har du kommentarer eller forslag til denne arktikel hører jeg gerne nærmere.


|forside|Indhold|

Indhold

  1. Introduktion
  2. Indhold
  3. Formål
  4. Læseudstyr
  5. Lagerstørrelser og farver
  6. Lager
    • Internt lager
    • Fastdisk
    • Permanent lagermedie
  7. Filformater FILFORMAT
  8. Hvilke programmer skal man bruge?
  9. Opbevaring af billeder
  10. OCR (Optical Character Recognition)
  11. Og hvad gør han selv?
  12. Referencer

|forside|Indhold|

Formål

Inden man giver sig i kast med de følgende kapitler, er det en nødvendighed at gøre sig klart, med hvilket formål man ønsker at digitalisere sine billeder.
Undervejs i processen må man nødvendigvis træffe nogle valg, som senere kan vise sig at være skæbnesvangre - især hvis man træffer de forkerte valg.

Formål med digitaliseringen kan være:

  • Alle de andre gør det og jeg har lige købt en scanner (Dårlig begrundelse = find en anden)
  • Portrætter til stamtræet på papir. Eet enkelt forholdsvis lille billede af hver enkelt person i familien.
  • Kopier til andre familiemedlemmer
  • Sikkerhedskopier af arvesølvet
  • Reprokopier til slægtsbog
  • Portrætter til WWW anetavle eller anden computerbaseret samling

Hver af de ovenstående mål stiller vidt forskellige krav til metode og medie.

Reprokvalitet
Meget høj opløsning (mere end 1.200 dpi). Kræver meget diskplads og maskinkraft. Endvidere er billederne tunge/langsomme at arbejde med.
Skærmbilleder
(fx. til WWW) kan laves i meget lave opløsninger (fx. 75 dpi), da skærmopløsningen ikke kan vise detaljerne i højopløselige billeder, indenfor de almindelige dimensioner (640*480, 600*800, 1024*768).
Kopier til andre familiemedlemmer
bør man overveje andres muligheder og behov. Ønsker modtageren WWW kopier, almindelige papirbilleder, eller helst dias?
Hvis ikke modtageren af en diskette eller CD-ROM overhovedet har en computer, kan arbejdet være spildt.

|forside|Indhold|

Læseudstyr

Til selve affotograferingen af billeder, genstande og dokumenter kan man anvende digitale kameraer eller scannere.

Digitalt kamera

Nyest på markedet er det digitale kamera. Dette er glimrende til portrætter af personer, billeder af bygninger, inventar fra rytterstatuer til nipsenåle. De er dog ikke velegnede til gengivelser af dokumenter og affotografering af andre fotografier. Dette vil kræve professionelle fotolaboratorier og højere opløsning end teknisk muligt i dag.

Scannere

Er i princippet fotodelen af en fotokopimaskine: en fotosensor bevæges henover originalen, imedens denne belyses af en kraftig lampe. Fotosensorens "oplevelser" gemmes som en digital (binær) kode. og vupti har man en digital kopi.

Scannere er i dag tilgængelige for menigmand til priser fra få hundrede kroner og opad - tilsyneladende uden øvre grænse.

Teknisk set er der tre hovedtyper, der fortjener en nærmere beskrivelse: Håndscannere, rullescannere og fladscannere.

Håndscannere

Håndscannere består af et håndholdt læseapperat med indbygges lys. Kendere af hr. Von Triers nyere værker ved at håndholdt kamera er rystende og ofte forvirrende i sin stil. Kunstnerisk interessant og nyskabende, men til dokumentation og kopiering af billeder eller dokumenter - bestemt ikke egnet.
 

Rullescannere

Rullescannere er meget små, kompakte og billige scannere, der med en roterende rulle fører originalen forbi læsehovedet i en jævn bevægelse.
Denne form for scannere fremhæves ofte i forbindelse med optisk skriftgenkendelse (OCR). De giver ofte meget høj opløselige kopier til en billig penge.

Desværre er der een vægtig ulempe: Rullerne.
Da originalen føre frem af en rulle må originalens tykkelse ikke overstige 2-4 mm. Endvidere er der en risiko for at originalen bliver bøjet under fremføringen.
Rullescannere er velegnede til enkeltark, men ikke til bøger, fotografier eller skrøbelige arkivalier.
 

Fladscannere


Fladscannere minder mest om den konventionelle fotokopieringsmaskine. Originalen lægges på en glasplade med forsiden nedad og den dækkes med et låg inden selve kopieringen.

Ulemperne er at de ofte er klodsede, langsomme og at originalerne let forskubber sig, når låget lægges på.
Fordelene er at originalen ikke bukkes, og at der kan arbejdes med flere optagelser, uden at originalen skal flyttes.

Velegnet til ukorrente objekter som fotografier på karton, breve og skæve fotografier, der skal efterbehandles ved fx beskæring.


|forside|Indhold|

Lagerstørrelser og farver

Lidt matematik

Lad os tage et eksempel: Et fotografi ca. 10 * 15 cm. (Det er let at regne med)

Edb-verdenen er om ikke anglofil, så dog amerikaniseret i en grad, at engelske mål og enheder er mere reglen end undtagelsen. Alle optiske mål angives i engelske tommer eller rettere punkter pr. tomme (Dot per inch) eller dpi, hvor en 1" (tomme) er lig med 2,54 cm. Dette giver en billedstørrelse på 3.94 * 5,91". For at holde jordforbindelsen runder vi af og siger at billedet er ca. 4 * 6 " (10,16 * 15,24 cm). Inden tråden tabes helt kommer et par eksempler på hvor meget digitale billeder fylder.

WWW og skærm

En attraktiv billedopløsning til WWW og anden skærmbrug er 75 dpi. I denne opløsning vil billedet fylde:
( 4" * 75 dpi ) * ( 6" * 75 dpi ) = 135.000 punkter.

Gråtone billeder

Hvor meget fylder billedet så? For hvert punkt skal man have en farve/kontrast værdi. Simple sort/hvide billeder (grafisk set: gråtone billeder) kan lageres med kun 8 bit kontrast information (= 256 gråtoner). Dette betyder at hvert punkt på billedet fylder 1 byte (eet tegn). Billedet vil altså fylde 135.000 bytes i lageret.

På disken afhænger størrelsen af filformatet, men herom senere.

Ægte farver

Er det et farvebillede, bliver beregningen lidt mere kompliceret. For at lave farver med ægte glød og klarhed skal farvespektret helt op på 24 bit (16,8 millioner farver) eller rettere farve, lys og kontrast kombinationer.
Et sådan billede vil fylde 3 gange så meget som et 8 bit gråtone billede, idet 8 bit = 1 byte = eet tegn og 24 bit = 3 byte = 3 tegn eller i alt 405.000 byte.
På engelsk kaldes 24 bit farve også for "True color" altså "ægte farve".

Høj farveopløsning

Mindre farvelade kan naturligvis gøre næsten det samme. Vælger man 16 bit farve med ca. 32.000 farvekombinationer fylder billedet "kun" dobbelt så meget som et gråtone billede nemlig 270.000 byte. Naturligvis med et betydeligt tab af farvenuancer.
På engelsk kaldes 16 bit farve også for "High color" altså "høj farveopløsning".

Simple farver

"I gamle dage" kunne man nøjes med 256 farver (8 bit), altså samme størrelse som gråtone billedet på 135.000 byte. Farverne vil dog på ingen måde yde originalbilledet retfærdighed. Denne farveopløsning egner sig IKKE til fotografier, men kan anvendes til tegninger og andre grafiske illustrationer med et begrænset farvespektre og hvis indhold ikke stiller store krav til farveægtheden.

Monokrom

Monokrom eller "Stregtegning" (1 bit ægte sort/hvid) anvendes til konturindeks og tekstdokumenter, der gør sig bedst uden gråtoner. Fylder kun ganske lidt i forhold til farve og gråtone billeder. Eksempelvis fylder billedet på 135.000 punkter kun 16.875 bytes
(135.000 punkter * 1 byte / 8 bit pr. byte )

Om "ægte farver" virkelig også er naturtro afhænger naturligvis af øjnene, som ser; men i højeste grad også af de udstyr, som anvendes: Både scanner, programmel og skærmen resultatet skal vises på.

Opløsning Billedstørrelse
6 * 4 "
Antal punkter
(Pixel)
Størrelse i tegn
internt lager
Farve Gråtone Monokrom
75 dpi 450 * 300 135.000 405.000 135.000 16.875
150 dpi 900 * 600 540.000 1.620.000 540.000 67.500
300 dpi 1800 * 1200 2.160.000 6.480.000 2.160.000 270.000
600 dpi 3600 * 2400 8.640.000 25.920.000 8.640.000 1.080.000

Og hvad skal man så med den viden?

Jo - afgøre fra starten hvilken:
  • Opløsning man vil vælge
  • farvedybde, der skal anvendes
Hvis man ønsker at lave kopier til eftertiden som sikkerhedskopi mod brand, ran og anden utøj, er der ingen vej udenom:
  • højest mulige opløsning (>1.200 dpi)
  • højeste farvedybde (eller gråtoner til sort/hvide billeder)

Hvis man derimod gerne vil lave kopier til brug på internettet eller bare til "skærmbrug", bør man holde igen med farveladen og moderere opløsningen. Det fylder og det kræver meget af både brugerens skærm, disk - og evt. modem.
Det er IKKE lykken at bruge 1/2 time på at hente et 2400 dpi portræt i ægte 24 bit farve af en "forkert" person.

På samme vil bør man holde sig til at lave opløsninger på billeder. en almindelig VGA skærm svarer groft talt til 75 dpi. Højere opløsninger giver ofte et ringere resultat pga. skærmens forvanskning og begrænsede størrelse.

Hvis man ønsker at lave papirkopier af sine billeder er det værd at huske på at 300 dpi eller 600 dpi er maksimalt opløsning for de almindelige printere i dag. Et 2400 dpi billede skal altså "presses" ned i en lavere opløsning ved udskrivning. Dette tager dels tid, dels øger det risikoen for et betydeligt kvalitetstab.

Optisk kontra interpoleret opløsning

Med hensyn til opløsning skal man vide hvilken optisk opløsning scanneren har. Oftest oplyser producenten/forhandleren en interpoleret opløsning.
Forskellen ligger populært sagt i at ved optisk opløsning svarer eet punkt læst til eet punkt lagret. Ved interpolering læses nogle punkter, hvorefter der indsættes nogle fyldpunkter med en beregnet ca. værdi. Interpolering får billedet til at se større ud, men giver ofte et tåget og uskarpt billede.
Hvis en scanner fx. har en optisk opløsning på 300 * 600 og en interpoleret opløsning på 600 * 1200 vil den maksimale rene opløsning være 300 * 600.
Bruger man 600 * 1200 får man blot et 300 * 600 billede forstørret op ved at hvert andet punkt i billedet er udfyldt med en ca værdi.

Lad os tage et eksempel, hvor lysintesiteten angives som en værdi imellem 0 og 200, hvor 000 er sort og 200 hvid.

        |100|150|200|000|200|
   ____/   //  /|   |\  \\  \_____
  /   ____//  / |   | \  \\____   \
 /   /   _/  /  |   |  \  \_   \   \
(   )   (   )   (   )   (   )   (   )
|100|125|150|175|200|100|000|100|200|
     ^^^     ^^^     ^^^     ^^^
De interpolerede værdier er mærket med ^.

Bemærk at den ene sorte plet (000) som ligger imellem 2 hvide pletter (200) bliver til faktisk til tre punkter (100, 000, 100), hvilket vil give et uskarpt billede.


|forside|Indhold|

Lager

Den første gang jeg sad med en kopi af et sort/hvid billede, som fyldte 85 MB fik jeg lidt af et chok - hvor i alverden triller man sådan en moppedreng hen?

Lager kan her være en af tre ting:

  1. Internt lager (hukommelse, RAM) i PC
  2. Fastdisk
  3. Permanent lagermedie

Internt lager

Pc'en skal nødvendigvis have en vis kapacitet for at kunne rumme de enorme datamængder, som billeder er. Moderne styresystemer bruger oftest disken som en "forlængelse" af de interne lager. Dette gør de muligt at arbejde med billeder, der er langt større end det fysiske interne lager. Løsningen er dog langsom.
Langt at foretrække er den moderne multimedie PC med tilstrækkeligt kapacitet til at håndtere hele billedet i det interne lager. Der kan være tale om over 100 MB - en størrelse, der godt kan give pletter for øjnene, hvis man forsøger at forholde sig nærmere til den.

Fastdisk

Fastdisken er der hvor man midlertidigt gemmer sine billeder. Her er de bekvemt ved hånden under scanning, registrering, efterbehandling osv.
Desværre er diskkapaciteten begrænset. Det er nok de færreste, der kan have hele familiealbummet på Pc'en.
Det ideelle er nok at kunne lagre og redigere tilstrækkeligt store mængder af data til senere at kunne overføre en "færdigpakke" til et mere permanent medie.

Permanent lagermedie

Et permanent medie SKAL være et holdbart medie, gerne med stor kapacitet og hurtig tilgang til data.
Mediet kan være magnetbånd, magnetdiske (Zip, Jazz osv.) eller optiske diske (CD-ROM, CD-RW, DVD).

For tiden er det bedste bud på et godt lagermedie en CD-ROM.

  • Lagerkapaciteten er forholdsvis høj (640 MB)
  • Mediet er almindeligt udbredt
  • Adgang til data er hurtig
  • Kopier kan laves meget billigt ( < 15 kr. pr. stk)

I løbet af et års tid eller to vil DVD (Digital Versatile Disc) komme ind på markedet. DVD ligner fysisk CD-ROM'en, men har en lager kapacitet på over 5 GB eller næste det ni dobbelte af CD-ROM'ens kapacitet. Prisen er dog endnu meget høj.


|forside|Indhold|

Filformater

Når oldemor er blevet digitaliseret, skal hun også gemmes. Det er bestemt ikke ligegyldigt i hvilket format billederne gemmes.
Der anvendes flere hundrede forskellige filformater, der stort set enhver programproducent har genopfundet tallerkenen. Nogle er obskure rariteter, der måske kun kan læses af et enkelt program. Andre anvendes bredt og har fået status af industristandarder - uden at der i øvrigt skal lægges for meget i ordet "standard".

Nogle af de mest udbredte formater er:

BMP, GIF, JPEG, PCX, PNG og TIFF Brug een af disse og undgå specialiteterne.

BMP (Windows Bitmap)

Er et Windows specifikt format. Kan gemme 24 bit farveformat, men uden kompression. Billederne vil fylde enormt og kan typisk kun vises af Windows baserede maskiner.
Udemærket til mindre grafik, der kan komprimeres med RLE (Run Length Encoding), men er uegnet til fotografier.

GIF (Graphic Interchange Format)

er et gammelt format udviklet sidst i 80'erne af Compuserve. Et gedint format med alle de faciliteter man kunne ønske sig - dengang.
  • Kompression uden datatab
  • Gennemsigtig (transparent) baggrund
Desværre kan GIF maksimalt gemme en farvepalette på 256 farver - vildt i 1987, men håbløst i dag.
Hvert billeder har sin egen farvepalette, hvilket kan give en god farvedybde og et realistisk billede. Desværre giver denne selvstændig farvepalette problemer ved visning i nogle programmer (fx. Netscape klienter), hvor billederne kan virke "grynede" pga. konflikter med programmets faste farvepalette.
GIF er dog stadig et godt format til Web-sider og især grafik. GIF er dog bestemt ikke egnet til originalbilleder (masterkopier) pga. begrænsningerne i antal farver og problemerne med farvepaletten.

JPEG (Joint Photograpic Experts Group) eller JPG

er et format med meget høj farveopløsning (min. 16 bit / 32.000 farver) og en utrolig effektiv kompression. Formatet er fremragende til Web-sider, da billederne kun fylder ganske lidt og alligevel har meget høj farveopløsning.

Desværre har alting en pris: Kompressionen smider data væk !!!!

Hver gang man gemmer billedet tabes der information ved rekomprimeringen. Billedet bliver altså mere og mere utydeligt for hver gang der gemmes.

ADVARSEL!!!

Brug ALDRIG JPEG formatet til original data (masterkopier).

Eksempel på datatab i JPEG


Udklip af det originale billede.

Udklip af et komprimeret billede i JPEG-format. Bemærk at det øverste kronblad er blevet diffust i kanten. Støvdragerne har mistet alle detaljer. Der er store firkantede områder på det nederste kronblad som er blevet dækket af tågede firkanter.

Brug formatet til farveægte kopier på Web-sider og til e-post - ikke til originaler.

PCX (Windows Paintbrush)

Igen en Windows specialitet. Billeder fylder meget og kan kun vises på Windows baserede maskiner
Brug et andet format.

PNG (Portable Network Graphics)

er afløseren for GIF med allehånde tekniske finesser indbygget. Der er nogle vigtige aspekter:
  • Høj farveopløsning (op til 48 bit)
  • God kompression uden datatab
  • Åbent fil format (ikke bundet til platform eller producent)
Dette format er i øjeblikket teknisk set det bedste til originalfotografier.
Dog er formatet forholdsvis nyt. Ældre billedbehandlingsprogrammer kan måske ikke læse/skrive i formatet.
Et godt og velment råd: Opgrader eller skift til programmer, der kan håndtere PNG.

TIFF (Tagged Image File Format) eller TIF

er et universal format udviklet af Aldus (i dag Adobe). Formatet kan anvendes på tværs af stort set alle platforme (PC, Mac, Amiga, Unix, OS/2) og er et af de mest udbredte formater til foto og grafik.
TIFF findes både med og uden kompression. Kompressionen er af typen LZW og er uden datatab. Desværre fylder selv komprimerede TIFF-filer uforholdsvis meget.
Ukomprimerede TIFF-filer er kun for folk med for meget diskplads ;-)

Summa summarum:

  1. Gem originalbilleder i PNG (eller evt. TIFF)
  2. Gem andenhåndskopier til fx. Web-sider i JPEG formatet

Originalbilledet er 4 * 6". Størrelserne ved filformaterne er angivet i tegn (byte).

Farvebillede
Opløsning Størrelse
internt lager
Filformater
Størrelse i tegn
PNG TIFF/k *2 TIFF/u *3 JPEG *1
75 dpi 395,0 KB 244.657 370.196 405.208 20.692
600 dpi 6,1MB 3.670.177 5.912.692 6.485.588 252.799
2400 dpi 99 MB 35.210.201 85.009.778 103.852.744 2.966.058
Gråtonebillede
Opløsning Størrelse
internt lager
Filformater
Størrelse i tegn
PNG TIFF/k *2 TIFF/u *3 JPEG *1
75 dpi 131,6 KB 80.065 114.820 136.028 19.051
600 dpi 2,0 MB 1.170.162 1.675.984 2.163.722 247.826
2400 dpi 33,0 MB 11.638.371 20.672.030 34.623.052 3.011.260
*1) JPEG 15% Kompression 300 dpi
*2) TIFF 300 dpi
*3) kompression = LZW

Bemærk!

Eksemplet fra "Lagerstørrelser og farver" (75 dpi gråtone) fylder 135.000 bytes i det interne lager, men ikke nødvendigvis på disken!

Der kan dels være et filhoved, som fortæller noget om billedets størrelse, farvedybde, komprimering mv. - dels kan selve billeddata være komprimeret mere eller mindre (fx. ca. 10% i PNG eller op til 60-70% i JPEG).
Det er svært at beregne filstørrelse udfra originalens opløsning, størrelse og farvedybde.


|forside|Indhold|

Hvilke programmer skal man bruge?

Til scanning og elementær behandling (tilskæring) af billeder, man sagtens bruge mange af de gratis programmer, der i dag bliver leveret sammen med scannerne.
Oftest ligger den avancerede del af teknikken gemt i de styreprogrammer (drivere), som producenten har udviklet til at styre scanneren med.
Er det de mere avancerede lyster med farve- og kontrastændringer eller retouchering af beskadigede billeder, bør man nok kigge på de halv- eller hel professionelle billedbehandlingsprogrammer.
Det er uendeligt svært at rådgive om, hvilket program man skal vælge. Mange har et næsten religiøst forhold til netop deres favoritprogram.
Mine råd er:
  • Prøv nogle af de gratis evaluerings- og demoversioner af programmerne
  • Find anmeldelser i edb-bladene. Her er ofte sammenligninger af de almindeligste programmer
    Pas på skamrosende artikler i de mindre seriøse blade. Ofte får importøren selv lov til at "anmelde" sit produkt. Desværre fremgår dette tilhørsforhold eller forfatteren ikke altid af artiklerne. Er artiklen ren skønmaling, kan der let være ugler i mosen.
  • Søg råd hos den lokale edb-medicinmand m/k. Husk at spørge hvorfor dette eller hint program er blevet en favorit.
De samme råd vil jeg give til valg af slægtsforskningsprogram:
  • Kig på DIS Norges glimrende anmeldelser af slægtsforskningsprogrammer http://www.sol. no/disnorge/program.htm
  • Prøv demoversionerne af med den nærmeste familie (10-30 personer)
  • Lad din egen personprofil udfylde med alle felter i database. Sæt fx. din egen død og begravelse til december 2099 (rart at kunne udskyde det :-) ) for bl.a. at se om der er logiske test i programmet på datoer og levetid.
  • Eet ultimativt krav til et moderne slægtsforskningsprogram er at det understøtter GEDCOM standarden til udveksling af data med andre slægtsforskere. Det vil spare i hundredvis af arbejdstimer, når den ukendte amerikanske kusine dukker op med hele familiesagaen (den er god nok - jeg har selv prøvet det :-)
  • Vælg så vidt muligt et program, som er forholdsvis kendt og hvortil du kan få hjælp - både fra udvikler/distributør, men også fra venner og familie

|forside|Indhold|

Opbevaring af billeder

Som de fleste har bemærket, holder moderne fotografier ikke særligt godt i fotorammer og i plastikalbum.
Væsentligst fordi fotografier har tre fjender: Lys, syre og fugt.
  • Lyset bleger langsomt billederne. Især farvefotografier er følsomme overfor lys. Ældre tiders bruntonede billeder er derimod bemærkelsesværdigt hårdføre overfor lyspåvirkninger. Der er dog ingen grund til at udfordre skæbnen. Pas godt på originalerne og lad en evt. kopi af tipoldemor fra 1870 stå fremme
  • Syrepåvirkningen kan komme fra dårligt behandlet papir. Mange billige fotografier og bøger er faktisk selvdestruerende. Papiret går i opløsning. Moderne plastiklommer fremskynder desværre de nedbrydende processer og kan i værste fald "trække" motivet af papiret eller ætse det bort.
  • Fugt er ikke blot en gammel fjende fra før isolering og centralvarme. Også i dag begås synder, som at gemme billeder, breve, dagbøger og lignende i papkasser på lofter og i kældre.
    Skynd jer at sikre disse ofte uvurderlige og upåagtede værdier!
    Jævn temperatur, relativ lav luftfugtighed og mørke er godt for arkivalier. Det er kun os levende, der trænger til lys og luft.
Skrøbelige dokumenter og fotografier bør opbevares i en fornuftig emballage. Fra Museumsbutikken i Viborg kan man købe særlige konvolutter i kraftigt syrefrit papir. Oven i købet til billige penge.
|forside|Indhold|

OCR (Optical Character Recognition)

"C'est ne pas une pipe" skrev surrealisten Magritte på et billede af en pibe. Det samme gælder for billeder af dokumenter: Man kan ikke lave tekstbehandling eller søgninger i teksten.
Visse typer af dokumenter kan, hvis de er af god kvalitet og med fast ensartet typografi (bog- og avistryk eller maskinskrevet), fortolkes fra billeder til tekstdata. Processen kaldes ofte for OCR eller ICR (Intelligent Character Recognition).

Hov! Er det her ikke billedbehandling i stedet for billedlagring???
Jo - tildels, men der er en kolossal forskel på, om man vælger at gemme billedet eller teksten fra billedet rent pladsmæssigt.
Ønsker den amerikanske kusine pludselig en oversættelse af billedet starter processen helt forfra. Har man allerede teksten, er det en del lettere.

I praksis forsøger programmet at sammenligne nogle kendte figurer (bogstaver og tal) med det billede, der scannes ind.
Originalen skal være af god og letlæselig kvalitet med tydeligt afgrænsede tegn. I visse skrifttyper flyder bogstavkombinationerne sammen så "rn" bliver til "m". Hvis originalen er smudset til eller udtværet, vil der lettere opstå fejl.
OCR programmer læser som et barn i første klasse: Uden erfaring og med ringe sans for sproget. Efter oversættelsen tolker det som en olding: Udfra stor erfaring, men med uforudsigelige huller i erfaringsmassen.

Er OCR overhovedet anvendelig for slægtsforskere?
Ja - det kan i princippet anvendes på alt materiale, der ikke er håndskrevet: avisartikler, maskinskrevne protokoller, officielle dokumenter osv.
Det kræver dog meget også af det udstyr, der anvendes. Der er i snesevis af OCR programmer i alle prisklasser fra gratis og op til professionelle (= hundedyre). Sammen med en ny scanner får man ofte en gratis demoversion af et OCR-program. Desværre er kvaliteten ikke særlig god. Der er en sammenhæng imellem pris og kvalitet. For OCR programmer er prisen desværre høj.


|forside|Indhold|

Og hvad gør han selv?

Den mest besværlige løsning. Efter en del eksperimenter er jeg kommet frem til følgende model.

Billederne scannes i to opløsninger:

600 dpi
Højopløseligt billede, som kan anvendes til papirkopier (= scannerens højeste OPTISKE opløsning).
75 dpi
"Skærmkvalitet" til bl.a. internet
Bemærk!
I en tidligere udgave tillod jeg mig frit og frejdigt at foreslå scanning i 2400 dpi i reprokvalitet. Kvaliteten kunne dog ikke stå for en nærmere prøve.
Overvurder ikke din scanners kvalitet. Se også afsnittet: Optisk kontra interpoleret opløsning

Udfra 75 dpi billederne laves yderligere to billeder:

"Frimærke"
Et lille knapbillede, der maksimalt er 100 punkter på den længste led. Frimærket laves ved at resample 75 dpi billedet. Anvendes til oversigter mv.
Konturindeks
Et indeksbillede, hvor man ser konturerne af hver enkelt person. Personen er markeret med en bogstavkode, der refererer til den beskrivende tekst.
Indekset laves ved at reducere billedet farvepalette til kun 16 farver og tegne personens omrids op med en bred linie i en kontrastfarve. Dvs. en farve, der ellers ikke anvendes i billedet (skarp gul, cyklamen, pink). Derefter sættes alle andre farveværdier end kontrastfarven til hvid. Kontrastfarven sættes til sort og billedets farvepalette kan nu reduceres til to farver (monokrom eller 1 bit), da der kun er rent sort og hvid. Herved reduceres billedets lagerstørrelse betydeligt.
Til sidst indsættes et bogstav på eller ved hver enkelt omrids på billedet.

Billedbehandlingsprogrammer har ofte to funktioner til at ændre størrelse på billeder:

Resize
Skærer hårdt dele af billedet væk. Resultatet er ofte grovkornede billeder.
Resample
Nye biller dannes udfra vægtede gennemsnitsværdier. Funktionen giver bedre fotografiske billeder end Resize.

For at kunne holde styr på billederne og deres indhold registreres en række oplysninger for hvert enkelt billede i en database

id:
Unikt nr. for hvert enkelt billede. Portrætter af enkeltpersoner starter med p_000000.png og grupper mv. starter med g_000000.png og konturindekser starter med i_000000.png.
Motiv
Kort beskrivelse af motiv
Nummerering/datering
Nr. på negativ og evt. dato for optagelse
Beskrivelse på dansk (og engelsk)
Fyldig beskrivelse af motiv
Efternavn, fornavn og personID i anetavlen
Data til at lave henvisninger til anetavlen fra billedoversigten
Størrelse i cm
Billedets fysiske dimensioner
Farve eller s/h
Farve eller sort/hvid original
Ophav/fotograf
Evt. fotograf eller atelier
Fysiske dimensioner på kopier
For hver kopi angives størrelsen i punkter
Fra databasen udtrækkes et hovedindeks, der indeholder en liste med alle "frimærkerne" og en kort beskrivelse af hvert enkelt billede (motiv). Frimærket er en reference til en side med et 75 dpi billede, evt. et konturindeks og en fuldbeskrivelse af billedet. Personnavnene fungerer som referencer til anedatabasen.
Eksempler:


Forside med referencer i frimærkerne til billedbeskrivelse


 

Billedbeskrivelse med fuldt 75 dpi billed- og konturindeks. Der er referencer i personnavnene til anetavlen


 

Anetavlen som den ser ud, når man springer fra billedbeskrivelsen.


 

Databasen er i mit tilfælde en flad tekstfil og indekserne udtrækkes vha. et script i Perl.


|forside|Indhold|

Referencer

"A few scanning tips" (www.scantips.com) / Wayne Fulton.
Bogen giver en eminent og teknisk velfunderet gennemgang af dette område på engelsk. Bogen kan læses gratis på internettet og kan stærkt anbefales.

DIS - Databehandling I Slægtsforskning http://www.dis-danmark.dk

Genealogy Resource Index for Denmark, GRID http://www.purl.dk/net/9712- 0110

DIS-Norges program- og filservice for slektsforskere http://www.sol.no/disnorge/program.htm

Color Scanning Handbook http://www.scanjet.hp.com/workshop/tips/. Udvalgte tips om scanning.