Na de grootschalige inval van Rusland in Oekraïne op 24 februari 2022 nam de vraag naar virtuele machines door de gebruikersorganisaties van URAN, het Oekraïense NREN, exponentieel toe – aangejaagd door de noodzaak om gegevensverlies door de mogelijke vernietiging van de fysieke infrastructuur te voorkomen. Talrijke universiteiten konden gebruik maken van de gratis clouddiensten aangeboden door URAN, maar de toegenomen vraag leidde tot een onvoorziene crisis door overbelasting van de schijfopslag in het NREN-datacenter.
De uitdaging
Begin september werden alle virtuele machines die in de URAN-cloud draaien onverwacht uitgeschakeld. eduGAIN, de interfederatiedienst die identiteitsfederaties over de hele wereld verbindt, en eduVPN (een beveiligde en versleutelde internetverbindingsdienst) en de onderwijsbeheersystemen (LMS) van de Simon Kuznets Kharkiv National University of Economics en het afstandsonderwijs van de Odesa State Agrarian University werden geblokkeerd. Zelfs domeinnamen geregistreerd voor URAN-gebruikers werkten niet meer als gevolg van de uitschakeling van de DNS-servers van URAN. Het kostte het technische team van URAN meer dan 12 uur om de oorzaak van het probleem op te sporen en te verhelpen.
De oorzaak vinden
'Diagnostiek is de eerste stap in dergelijke omstandigheden. Onze grootste uitdaging was dat al onze diagnostische tools aangaven dat er geen probleem was, terwijl er toch niets leek te werken', zegt Yevhenii Preobrazhenskyi, uitvoerend directeur van URAN.
De technische specialisten van URAN stelden vast dat een van de harde schijven in de cloudopslag meer dan 95% capaciteit had bereikt.
Ceph, het fouttolerante gegevensopslagsysteem dat in de cloudopslag van URAN wordt gebruikt, verstuurt een waarschuwing wanneer een van de schijven een bepaalde capaciteit bereikt. Wanneer een schijf voor 85% gevuld is, verschijnt een 'bijna vol'-waarschuwing, bij 90% een 'backfill vol'-waarschuwing en bij 95% een 'vol'-waarschuwing.
'Het systeem reageerde op een manier die we niet hadden verwacht wanneer het 95% van zijn capaciteit bereikte', zegt Oleh Yurchenko, systeembeheerder van URAN. 'Maar nadat we alle documentatie over de Ceph-gegevensopslag hadden doorgenomen, ontdekten we een kleine voetnoot waarin wordt uitgelegd dat wanneer één schijf 95% bereikt, het hele cluster overschakelt op 'alleen-lezen'-modus om de opgeslagen gegevens te beveiligen en te bewaren. Dat heeft het hele systeem geblokkeerd.'
Het probleem aanpakken
Het probleem werd in drie stappen opgelost. Een eerste doel was om de virtuele machines weer operationeel te maken, aangezien ze al 8 uur buiten werking waren, en vervolgens de oorzaak van de blokkering weg te nemen en herhaling ervan te voorkomen.
Oleh Yurchenko gaat verder: 'We hebben eerst het percentage veranderd dat overeenkomt met een 'volle schijf'-toestand, en daarna hebben we het systeem opnieuw uitgebalanceerd. De derde stap bestond in het toevoegen van een aantal schijven aan het cluster. We hebben een server, die eerder in het kader van het EaPConnect-project was aangeschaft, op het systeem aangesloten en het cluster is uiteindelijk gestabiliseerd. Daardoor beschikten de gebruikersorganisaties terug over een betrouwbare en stabiele clouddienst en konden zij hun diensten aan hun gebruikers blijven aanbieden. Studenten en docenten kregen weer toegang tot de virtuele onderwijsruimte, de websites van de universiteit werkten weer en het afstandsonderwijs kon worden hervat.'
'Bovendien zijn we nu ook klaar om aanvragen voor nieuwe virtuele machines te aanvaarden, aangezien de vraag naar die dienst in oorlogsomstandigheden extreem hoog blijft,' zegt Yevhenii Preobrazhenskyi, uitvoerend directeur van URAN.
Toekomstige ontwikkeling
Het technische team van URAN is van mening dat de toevoeging van vijf schijven weliswaar aan de huidige vraag kan voldoen, maar dat het geen duurzame ontwikkeling in de toekomst garandeert. Daarom is URAN van plan extra servers aan te schaffen in het kader van het EaPConnect-project, waarbij het NREN de belangen van de Oekraïense onderzoeks- en onderwijsgemeenschap vertegenwoordigt.
Het team werkt ook aan een technisch project om enkele oude servers uit te rusten met nieuwe SDD-schijven met een veel hogere lees- en schrijfsnelheid om de levering van clouddiensten te verbeteren en URAN te helpen bij te blijven.
EaPConnect
EaPConnect wordt gefinancierd door de Europese Unie en maakt deel uit van het Europese initiatief EU4Digital. Het project heeft tot doel de onderzoeks- en onderwijsgemeenschappen van de EU en de oostelijke partnerlanden te verenigen en de digitale kloof te verkleinen.
Bron: EaPConnect
Auteurs: Tetiana Preobrazhenska (URAN) en Rosanna Norman (GÉANT)
Dit artikel is een vertaling van een bijdrage van EAP Connect en GÉANT die in oktober 2022 werd gepubliceerd op de website van EaPConnect. Het "EU4Digital: Connecting Research and Education Communities (EaPConnect)' project wordt gecoördineerd door het pan-Europese onderzoeks- en onderwijsnetwerk GÉANT Association in samenwerking met de nationale onderzoeks- en onderwijsnetwerken (NREN's) in de vijf partnerlanden: Armenië, Azerbeidzjan, Georgië, Moldavië en Oekraïne.