La KULeuven a reçu un financement d'OCRE pour le projet iCANDID 3.0 SSH FAIR Data Hub

Publié le mar 25/04/2023 - 17:05

OCRE n’est pas qu’un simple contrat-cadre, c’est aussi un outil offrant l’opportunité à des chercheurs de recevoir un soutien pour leur projet. Deux projets menés par des Universités belges ont récemment remporté un financement. C’est notamment le cas du projet iCANDID 3.0 SSH FAIR Data Hub au sein de la KULeuven et porté par Leen D'Haenens en collaboration avec Roxanne Wyns, co-promoteur et technical lead. 

Utilisation des services Google cloud AI dans le renforcement des activités de traitement des données dans le cadre du projet d'infrastructure de recherche iCANDID 3.0 SSH FAIR Data Hub

iCANDID et l'utilisation des services cloud AI & ML 

Le projet iCANDID 3.0 SSH FAIR Data Hub se concentre sur le domaine des sciences sociales et humaines (numériques) (SSH) et aide les chercheurs à collecter et à analyser de grands volumes de données. L'infrastructure fournit un accès FAIR (trouvable, accessible, interopérable et réutilisable) à divers types de données provenant des médias de presse, des médias sociaux, des données ouvertes gouvernementales, etc. Les chercheurs utilisent iCANDID pour interroger, visualiser et exporter les données dans le format de leur choix en vue d'une analyse plus approfondie avec des outils tels que SPSS, Gephi ou Sketch Engine. En mettant les données récoltées à disposition sur une plateforme dédiée, iCANDID permet aux chercheurs de ne pas avoir à répéter le processus fastidieux de collecte des données, puisque l'extraction des données, la normalisation et le développement de la base de données sont des activités auxquelles ils consacrent généralement beaucoup de temps.

Au cours de la première phase du projet (2018-2022), nous nous sommes concentrés sur le développement d'une infrastructure de données robuste et évolutive capable d'extraire, de transformer et de charger (ETL) de grandes quantités de données provenant de fournisseurs multiples dans des formats multiples et prenant en charge de nombreux protocoles d'échange. Les données collectées à ce stade initial étaient relativement homogènes : 9 millions d'enregistrements textuels provenant de bases de données de presse et de comptes de médias sociaux, principalement en néerlandais. En 2022, nous avons reçu un nouveau financement de la Fondation flamande pour la recherche afin d'étendre l'infrastructure vers un centre de données FAIR pour les sciences sociales et les sciences humaines, ces dernières étant particulièrement intéressées par les données provenant des bibliothèques et des archives. Avec les plans d'expansion de notre collection de données en termes de volume et de diversité des langues représentées et des formats inclus (texte, image, audiovisuel), nous voulions commencer à utiliser l'IA et l'apprentissage automatique pour le prétraitement des données afin de donner un sens au volume croissant de données disponibles par le biais d'iCANDID. La traduction automatique, la NER et la classification des données, l'analyse des sentiments et l'analyse des images (y compris l'OCR/HTR) présentaient un intérêt particulier pour le projet.

Le programme OCRE est arrivé à point nommé et nous a donné l'occasion d'explorer le potentiel de fournisseurs de services cloud tels que Google, qui proposent de nombreux services d'IA et d'apprentissage automatique.

Avec plus de 18 millions d'enregistrements et une croissance continue du volume, nous avions besoin d'une solution évolutive qui offrirait une qualité suffisante dans le traitement standard de nos ensembles de données. Le financement fourni nous permettra à la fois d'explorer le potentiel des services cloud et de renforcer le potentiel de recherche des ensembles de données disponibles.

L'opportunité du mini-concours OCRE et l'état d'avancement des travaux

À l'origine, je pensais qu'OCRE se concentrait principalement sur le stockage dans le cloud et le cloud computing, des services que nous ne recherchions pas spécifiquement. Lorsque j'ai rencontré les collègues de Belnet lors de la conférence TNC22 à Trieste, nous avons commencé à parler d'OCRE et de la disponibilité des différents types de services dans le catalogue, y compris les services d'IA et de ML. Jean-Pierre Aerts m'a informé de l'opportunité du mini-concours organisé par GÉANT et nous a encouragés à demander un financement. Après cela, les choses ont évolué rapidement et, avec le soutien de Sparkle, fournisseur agréé par OCRE pour GCP, et de l'équipe de Google Belgique, notre candidature a été acceptée. Sparkle nous a apporté un soutien fondamental dans l'élaboration de notre proposition de manière à ce qu'elle réponde au mieux aux critères de l'appel d'offres et dans la gestion de toutes les étapes du processus, étant donné qu'il s'agit d'un fournisseur officiel d'OCRE en qui nous avons confiance depuis longtemps. L'équipe de Google nous a aidés à traduire nos exigences fonctionnelles en exigences techniques, tout en nous aidant à optimiser les ressources pour obtenir le meilleur rapport qualité-prix possible. C'est ainsi que nous avons reçu un financement pour utiliser les services d'IA et de ML de Google pour iCANDID.

Nous testons actuellement tous les services d'IA et de ML pertinents pour les différents types de données dans iCANDID et, bien qu'il y ait toujours une courbe d'apprentissage, nous trouvons que les services sont faciles à utiliser. Afin d'améliorer les résultats de l'apprentissage automatique pour certains ensembles de données spécifiques que nous avons sélectionnés, nous préparons actuellement le pilote avec Google AutoML, qui nous permettra d'entraîner des modèles d'apprentissage automatique personnalisés pour obtenir de meilleurs résultats en matière d'OCR. Dans les mois à venir, nous traiterons également des lots de données plus importants avec les modèles ML standard, tels que la traduction automatique de tweets d'hommes politiques hongrois et de données parlementaires suédoises. Ces données sont traitées dans le cadre de projets de recherche en cours impliquant des chercheurs de la KU Leuven.

Ce projet OCRE nous permet d'explorer les possibilités, les processus, le niveau de compétence requis, ainsi que la qualité et la facilité d'utilisation des services cloud pour les sciences sociales et humaines.

Nous y voyons une opportunité d'augmenter les activités récurrentes de préparation de données SSH avec l'avantage d'accéder à l'évolutivité du cloud quand nous en avons besoin. Notre ambition est d'intégrer l'IA et l'apprentissage automatique dans nos processus automatisés dans l'infrastructure iCANDID. À ce titre, le catalogue de services OCRE semble offrir des possibilités d'accès efficace aux services cloud. Les contacts et l'assistance fournis par Belnet abaissent également le seuil d'utilisation de ces services.

À propos de l'équipe et de l'auteur

Le projet d'infrastructure de recherche iCANDID 3.0 SSH FAIR Data Hub est financé par la Fondation flamande pour la recherche et est dirigé par le professeur Leen d'Haenens de l'Institut d'études des médias (KU Leuven). Le projet inclut plusieurs autres groupes de recherche en traductologie, linguistique informatique, communication de masse, théorie littéraire et études culturelles à la KU Leuven. LIBIS agit en tant que partenaire technique pour le développement du hub de données et de la plateforme d'accès aux données FAIR. Plus d'informations : https://icandid.libis.be/

Roxanne Wyns, LIBIS, KULeuvenRoxanne Wyns (f) est responsable de l'innovation chez LIBIS, un fournisseur de services numériques faisant partie des bibliothèques de la KU Leuven. En tant que responsable de l'innovation, elle est spécialisée dans les infrastructures de données FAIR et travaille sur plusieurs projets d'infrastructure de recherche spécifiques à un domaine, liés à la gestion FAIR des collections de données. Elle participe à plusieurs initiatives de science ouverte et de gestion des données de recherche en Flandre

Avez-vous trouvé ce contenu intéressant?

Copyright © 2023 Belnet.