Après l'invasion massive de l'Ukraine par la Russie le 24 février 2022, la demande de machines virtuelles par les organisations utilisatrices d'URAN, le NREN ukrainien, a augmenté de manière exponentielle, en raison de la nécessité de prévenir la perte de données due à la destruction possible de l'infrastructure physique. De nombreuses universités ont pu profiter des services cloud gratuits offerts par URAN, mais la demande accrue a entraîné une crise imprévue causée par la surcharge du stockage sur disques dans le centre de données du NREN.
Le défi
Début septembre, toutes les machines virtuelles fonctionnant dans le cloud URAN se sont arrêtées de manière inattendue. eduGAIN (le service international d'interfédération reliant les fédérations d'identité de la recherche et de l'éducation du monde entier) et eduVPN (un service de connexion internet sécurisée et cryptée) ainsi que les systèmes de gestion de l'apprentissage (LMS) de l'Université nationale d'économie de Kharkiv et d'apprentissage à distance de l'Université agraire d'État d'Odessa ont été bloqués. Même les noms de domaine enregistrés pour les utilisateurs d'URAN ont cessé de fonctionner à la suite de l'arrêt des serveurs DNS d'URAN. Il a fallu plus de 12 heures à l'équipe technique d'URAN pour identifier et éliminer la cause de ce problème.
Recherche de la cause
« Le diagnostic est la première étape dans de telles circonstances. Notre principal défi était que tous nos outils de diagnostic montraient l'absence de problèmes, et pourtant rien ne semblait fonctionner », explique Yevhenii Preobrazhenskyi, directeur exécutif d'URAN.
Les spécialistes techniques d'URAN ont remarqué que l'un des disques du stockage cloud avait atteint une capacité de plus de 95 %. Le système de stockage de données tolérant aux pannes, appelé Ceph, utilisé dans le stockage cloud d'URAN, envoie un avertissement lorsque l'un de ses disques atteint une certaine capacité. Lorsqu'un disque atteint 85 %, il affiche un avertissement « nearfull », à 90 % il envoie un avertissement « backfillfull » et à 95 % un avertissement « full ».
« Le système a réagi d'une manière inattendue lorsqu'il a atteint une capacité de 95 % », commente Oleh Yurchenko, administrateur du système URAN. « Mais après avoir parcouru toute la documentation sur le stockage de données Ceph, nous avons découvert une petite note de bas de page expliquant que lorsqu'un disque atteint 95 %, l'ensemble du cluster passe en mode 'lecture seule', bloquant ainsi tout le système, afin de sécuriser et de sauvegarder les données stockées ».
Résolution du problème
Le problème a été résolu en trois étapes. La première tâche a été de rendre les machines virtuelles à nouveau opérationnelles étant donné qu'elles n'avaient pas fonctionné pendant 8 heures, puis d'éliminer la cause de l'arrêt et d'empêcher qu'il ne se reproduise.
Oleh Yurchenko poursuit : « Nous avons d'abord modifié le pourcentage correspondant à un état 'disque plein', puis nous avons rééquilibré le système. La troisième étape a consisté à ajouter un certain nombre de disques dans le cluster. Nous avons connecté au système un serveur, précédemment acquis dans le cadre du projet EaPConnect, et le cluster s'est finalement stabilisé. Les organisations utilisatrices ont ainsi bénéficié d'un service cloud fiable et stable et ont pu continuer à offrir leurs services à leurs utilisateurs. Les étudiants et les enseignants ont retrouvé l'accès à l'espace d'apprentissage virtuel, les sites web de l'université ont été remis en service et l'enseignement à distance a repris ».
« En outre, nous sommes désormais prêts à accepter des demandes pour de nouvelles machines virtuelles, car la demande pour ce service dans des conditions de guerre reste extrêmement élevée », a déclaré Yevhenii Preobrazhenskyi, directeur exécutif d'URAN.
Développement futur
L'équipe technique d'URAN estime que si l'ajout de 5 disques permet de répondre à la demande actuelle, il ne permet pas d'assurer un développement durable à l'avenir. Par conséquent, l'URAN prévoit d'acheter des serveurs supplémentaires dans le cadre du projet EaPConnect, car le NREN représente les intérêts de la communauté ukrainienne de la recherche et de l'enseignement.
L'équipe travaille également sur un projet technique visant à rééquiper certains vieux serveurs de nouveaux disques SDD ayant une vitesse de lecture et d'écriture beaucoup plus élevée afin d'améliorer la fourniture de services cloud et d'aider URAN à rester dans la course.
EaPConnect
Financé par l'Union européenne, EaPConnect fait partie de l'initiative européenne EU4Digital. Le projet vise à réunir les communautés de la recherche et de l'enseignement de l'UE et des pays partenaires de l'Est, ainsi qu'à réduire la fracture numérique.
Source : In the Field
Cet article est une traduction d'une contribution d'EAP Connect et de GÉANT publiée en février 2023 sur le blog « In The Field ». Ce blog est géré par le service Médias & Communications d'AARNet (Australia's Academic and Research Network) en collaboration avec des professionnels du marketing et de la communication du réseau mondial des réseaux de la recherche et de l'enseignement.