KULeuven kreeg OCRE-financiering voor het iCANDID 3.0 SSH FAIR Data Hub project

Gepubliceerd op di, 04/25/2023 - 17:05

OCRE is niet alleen een raamcontract, het is ook een instrument dat onderzoekers de mogelijkheid biedt om steun te krijgen voor hun project. Twee projecten onder leiding van Belgische universiteiten hebben onlangs financiering gekregen. Dit is met name het geval voor het iCANDID 3.0 SSH FAIR Data Hub project binnen de KULeuven, onder leiding van Leen D'Haenens en Roxanne Wyns, co-promotor en technical lead. 

Gebruik van Google AI-clouddiensten voor gegevensverwerkingsactiviteiten in het iCANDID 3.0 SSH FAIR Data Hub-onderzoeksproject.

iCANDID en het gebruik van cloud AI & ML-diensten

Het iCANDID 3.0 SSH FAIR Data Hub-project richt zich op het gebied van sociale- en (digitale) geesteswetenschappen (SSH) en helpt onderzoekers grote hoeveelheden data te verzamelen en te analyseren. De infrastructuur biedt FAIR (Findable, Accessible, Interoperable and Reusable) toegang tot verschillende soorten data van persmedia, sociale media, open data van de overheid etc. Onderzoekers gebruiken iCANDID om gegevens op te vragen, visualiseren en exporteren in een formaat naar keuze voor verdere analyse met tools zoals SPSS, Gephi of Sketch Engine. Door de verzamelde gegevens beschikbaar te maken op een specifiek platform, zorgt iCANDID ervoor dat het tijdrovende proces van gegevensverzameling niet door individuele onderzoekers hoeft te worden herhaald. Gegevensextractie, normalisatie en database-ontwikkeling zijn immers activiteiten waar onderzoekers doorgaans veel tijd aan besteden.

In de eerste fase van het project (2018-2022) hebben we ons gericht op het ontwikkelen van een robuuste en schaalbare data-infrastructuur die in staat is om grote hoeveelheden data te extraheren, transformeren en laden (ETL) afkomstig van meerdere providers in meerdere formaten en die meerdere uitwisselingsprotocollen ondersteunt. De gegevens die in dit vroege stadium werden verzameld, waren redelijk homogeen: 9 miljoen tekstuele records uit persdatabases en sociale media-accounts, voornamelijk in het Nederlands. In 2022 kregen we nieuwe financiering van het Fonds Wetenschappelijk Onderzoek-Vlaanderen om de infrastructuur uit te bouwen tot een FAIR datahub voor zowel sociale wetenschappen als geesteswetenschappen, waarbij deze laatste specifiek geïnteresseerd zijn in data uit bibliotheken en archieven. Met de uitbreidingsplannen van onze gegevensverzameling, zowel in volume als in diversiteit op het vlak van vertegenwoordigde talen en opgenomen formaten (tekst, beeld, audiovisueel), wilden we AI en machine learning gaan gebruiken voor de voorbewerking van gegevens om zin te geven aan de groeiende hoeveelheid gegevens die via iCANDID beschikbaar zijn. Van specifiek belang voor het project waren automatische vertaling, NER en dataclassificatie, sentimentanalyse en beeldanalyse (inclusief OCR/HTR).

Het OCRE-programma kwam op het juiste moment en gaf ons de kans om het potentieel te verkennen van cloudproviders zoals Google, die een uitgebreid aanbod hebben op het gebied van AI & Machine Learning-diensten.

Met meer dan 18 miljoen records en een continue groei in volume hadden we een schaalbare oplossing nodig die voldoende kwaliteit zou leveren bij de standaardverwerking van onze datasets. Met de verstrekte financiering kunnen wij zowel het potentieel van clouddiensten verkennen als het onderzoekspotentieel van de beschikbare datasets vergroten.

De mogelijkheid van de OCRE minicompetitie en een stand van zaken

Aanvankelijk dacht ik dat OCRE vooral gericht was op cloudopslag en compute, diensten waar we niet direct naar op zoek waren. Toen ik de Belnet-collega's ontmoette op de TNC22-conferentie in Triëst, begonnen we te praten over OCRE en de beschikbaarheid van de verschillende soorten diensten in de catalogus, waaronder AI- en ML-diensten. Jean-Pierre Aerts informeerde me over de mogelijkheid van de minicompetitie georganiseerd door GÉANT en moedigde ons aan om financiering aan te vragen. Hierna ging het snel en met de steun van Sparkle, OCRE-bekroonde provider voor GCP, en het Google Belgium Team, waren we succesvol in onze aanvraag. Sparkle heeft ons fundamentele ondersteuning gegeven bij het opstellen van ons voorstel op een manier die het beste beantwoordde aan de aanbestedingscriteria en bij het beheersen van alle stadia van het proces, aangezien zij al lange tijd een officiële en vertrouwde OCRE-leverancier zijn. Het Google-team heeft ons geholpen onze functionele vereisten om te zetten in technische vereisten en onze middelen te optimaliseren om zoveel mogelijk waar voor ons geld te krijgen. Zo zijn we erin geslaagd financiering te ontvangen om Google AI & ML-services voor iCANDID te gebruiken.

We testen momenteel alle relevante AI & ML-diensten voor de verschillende soorten gegevens in iCANDID en hoewel er altijd een leercurve is, vinden we de services gemakkelijk te gebruiken. Om de machine learning-resultaten te verbeteren voor enkele specifiek geselecteerde datasets, bereiden we momenteel de pilot voor met Google AutoML, waarmee we aangepaste ML-modellen kunnen trainen voor betere OCR-resultaten. Ook gaan we de komende maanden wat grotere gegevensbatches verwerken met de standaard ML-modellen, zoals machinevertaling van Tweets van Hongaarse politici en parlementaire data uit Zweden. Dit zijn gegevens waarmee wordt gewerkt in lopende onderzoeksprojecten waarbij onderzoekers van de KU Leuven betrokken zijn.

Dit OCRE-project stelt ons in staat om de mogelijkheden, processen, het vereiste vaardigheidsniveau en de kwaliteit en bruikbaarheid van clouddiensten voor sociale wetenschappen en geesteswetenschappen te onderzoeken.

We zien het als een kans om terugkerende activiteiten in SSH-gegevensvoorbereiding op te schalen met het voordeel van toegang tot schaalbaarheid in de cloud wanneer we die nodig hebben. Het is onze ambitie om AI en machine learning te integreren in onze geautomatiseerde processen in de iCANDID-infrastructuur. De OCRE-dienstencatalogus lijkt dus mogelijkheden te bieden voor een efficiënte toegang tot clouddiensten. Ook de contacten en ondersteuning van Belnet verlagen de drempel om van deze diensten gebruik te maken.

Over het team en de auteur

Het iCANDID 3.0 SSH FAIR Data Hub onderzoeksinfrastructuurproject wordt gefinancierd door het Fonds voor Wetenschappelijk Onderzoek - Vlaanderen en wordt geleid door Prof. Leen d'Haenens van het Instituut voor Mediastudies (KU Leuven). Het project omvat verschillende andere onderzoeksgroepen uit de vertaalwetenschap, computationele linguïstiek, massacommunicatie, literatuurwetenschap en culturele studies aan de KU Leuven. LIBIS treedt op als technische partner voor de ontwikkeling van de datahub en het platform voor FAIR datatoegang. Meer informatie: https://icandid.libis.be/

Roxanne Weyns, LIBIS, KULeuvenRoxanne Wyns (v) is innovatiemanager bij LIBIS, een digitale dienstverlener onderdeel van KU Leuven Bibliotheken. Als innovatiemanager is ze gespecialiseerd in FAIR-data-infrastructuren en werkt ze aan verschillende domeinspecifieke onderzoeksinfrastructuurprojecten met betrekking tot FAIR-beheer van dataverzamelingen. Ze neemt deel aan verschillende Open Science- en Research Data Management-initiatieven in Vlaanderen en Europa en is covoorzitter van de EOSC-A Long Term Data Preservation Task Force.

Vond u dit nieuws interessant?

Copyright © 2023 Belnet.