Massadigitaliseringsproject IMPACT afgerond


Verbetering digitalisering historische teksten
Op 26 juni werden in de Koninklijke Bibliotheek in Den Haag de resultaten gepresenteerd van IMPACT (IMproving Access to Text): een grootschalig Europees project dat historische teksten beter toegankelijk maakt door de kwaliteit van de digitalisering te verbeteren en zoekmethodes in historische teksten te vergemakkelijken.
 
Afwijkende spelling en woordenschat
De kwaliteit van het papier en de druk van historische teksten is vaak slecht. Daarnaast komen er in zulke teksten onbekende lettertypes voor en wijken de spelling en woordenschat veel af van het hedendaagse Nederlands. Dat levert problemen op voor digitalisering van de teksten door Optical Character Recogniton (OCR). Het INL, een van de zesentwintig partners van dit project, ontwikkelde samen met de Ludwig-Maximilians-Universität in München een methode voor het bouwen en toepassen van OCR-lexica speciaal toegespitst op historisch tekstmateriaal.
 
Lexicon verbetert digitalisering van historische teksten
Het INL ontwikkelde tools (gereedschap) om computerlexica te bouwen en bouwde zelf lexica voor het Nederlands en het Engels. Het automatisch herkennen van personen, plaatsen en organisaties in teksten (Named Entity Recogition) was daarbij een belangrijk onderdeel. De ontwikkelde methode was in hoge mate taalonafhankelijk, waardoor er uiteindelijk voor 9 talen (Bulgaars, Duits, Engels, Frans, Nederlands, Pools, Sloveens, Spaans, Tsjechisch) lexica gerealiseerd zijn. Door het gebruik van deze specifieke lexica binnen het OCR-programma, ligt het rendement van goed herkende woorden 10 tot 30% procent hoger.  Ook de doorzoekbaarheid van historische teksten is aanzienlijk verbeterd.
 
Historische kranten KB
Het door het INL ontwikkelde OCR-lexicon voor het Nederlands is inmiddels in gebruik genomen door De Koninklijke Bibliotheek (KB), voor de digitalisering van de oudste kranten. Het OCR-lexicon van het INL zal gebruikt worden bij het digitaliseren van ongeveer 1,2 miljoen krantenpagina’s uit de 17e eeuw (Opregte Haarlemse Courant) tot en met de 20e eeuw (Telegraaf). Een groeiende selectie van historisch krantenmateriaal (1618-1995) is via de webdienst van de KB voor iedereen gratis toegankelijk en op eenvoudige wijze te doorzoeken.
 
Het INL · Schatkamer van de Nederlandse taal
Het INL bestudeert de Nederlandse taal en werkt aan een zo volledig mogelijke beschrijving van de woordenschat. Daarnaast beheert en onderhoudt het INL digitale taalmaterialen en stelt die via de TST-Centrale beschikbaar.

Nadere informatie
Wilt u meer informatie? Bezoek onze webpagina: www.inl.nl/voordepers. Ook kunt u contact opnemen met Katrien Depuydt, Afdelingshoofd Taalbank Nederlands: +31 (0)71-5272479, E-mail: Katrien.Depuydt@inl.nl. Twitter: www.twitter.com/Taalbank_INL.

Bron: INL