De Historische Database Suriname en Curaçao (HDSC) creëert een data-infrastructuur van inwoners van Suriname en Curaçao (1828-1950). Door de volledige burgerlijke stand van beide landen te digitaliseren kunnen onderzoekers de sociale, culturele en demografische geschiedenis bestuderen van twee tropische koloniale samenlevingen die geworteld zijn in slavernij en contractarbeid. Bovendien vergemakkelijkt het openbaar maken van alle gegevens het familiehistorisch onderzoek.
Momenteel werkt het team aan de transcriptie van de burgerlijke stand via het crowdsourcingplatform HET VOLK (https://hetvolk.org/). Het transcriberen van de honderdduizenden akten met burgerwetenschappers zal jaren duren. Daarom onderzoekt het team hoe geautomatiseerde technologie voor handgeschreven tekstherkenning (HTR) en entiteitherkenning in de workflow kunnen worden geïntegreerd.
Dit project richt zich op het ontwikkelen van een methode om informatie uit de HTR-tekst te halen en op te slaan in een databaseformat. Natural Language Processing (NLP) lijkt een geschikte methode om de gewenste entiteiten te herkennen. Samen met het eScience Center zal een voldoende nauwkeurig NLP-model worden ontwikkeld en getraind om het transcriptieproces te versnellen en het werk van de vrijwilligers te verlichten.
Dit project is nauw verbonden met De Historische Database Suriname en Curacao.