Within this video tutorial we take you through the what, why, and how of SURF Research Cloud

Deze video tutorial is de uitkomst van een DCC pilot voor Praktijkgericht onderzoek. Het doel van deze pilot is om SURF Research Cloud te implementeren als platform waar data-analyse ingezet wordt om gegevens te bekijken en interpreteren die via onderzoek zijn verzameld.  Uit de data-analyse komen vervolgens resultaten naar boven waarmee de onderzoeksvragen goed beantwoord kunnen worden.

De casus maakt op een aansprekende manier duidelijk hoe data-analyse in SURF Research Cloud veilig en betrouwbaar mogelijk is. Voor het verantwoord inzetten van kunstmatige intelligentie is het van belang dat gebruik wordt gemaakt van een betrouwbare en veilige digitale infrastructuur. SURF biedt deze infrastructuur, maar deze is onvoldoende bekend bij onderzoekers, docenten en studenten. In dit project is serie tutorials ontwikkeld waarin we de mogelijkheden van SURF Research Cloud en het reproduceren van de data-analyse stapsgewijs uitlegt worden op een manier die aansluit bij de belevingswereld van deze gebruikersgroepen.

Bij de stappen in het data-analyse proces wordt nu nog vaak gebruik gemaakt van tools die door commerciële aanbieders zijn ontwikkeld. Denk daarbij aan Google Collab, (blob) data storage en Jupyter notebooks in het Amazon Web Services of Microsoft Azure ecosysteem. Deze tools zijn zichtbaarder en er zijn online heldere tutorials beschikbaar om ermee te werken. Vanuit onderzoeksperspectief kleven er echter nadelen aan het gebruik van deze ecosystemen, zeker aangezien er een beter alternatief beschikbaar is. We tonen de waarde van SURF Research Cloud aan de hand van een analyse op de Global Database of Events, Language and Tone (GDELT) 2.0 databank. De GDELT 2.0 is een open databank met gegevens van nieuwsmedia en sociale media in meer dan honderd talen. De GDELT 2.0 wordt elke 15 minuten geüpdatet en heeft een omvang van meer dan 2.5 Terrabyte. De databank is beschikbaar in 65 talen, waaronder ook het Nederlands. De GDELT 2.0 databank is in het verleden andere ingezet om het verloop van de Arabische lente te voorspellen en de vluchtelingenstroom van de Syrische burgeroorlog te volgen. In deze casus brengen we de berichtgeving rondom de oorlog in Oekraïne in kaart met behulp van de bovenstaande databank en Natural Language Processing.

Mocht je vragen hebben naar aanleiding van deze tutorial of geïnteresseerd zijn in een de dienst SURF Research Cloud. Kijk dan voor meer informatie hier of stuur een e-mail naar onderzoeksupport@hu.nl.

This video is meant for researchers, teachers, and students at educational- or research institutes who might be interested in utilising responsible cloud computing.

 Timestamps
00:00 – Introduction
01:03 – What is SURF (Research Cloud)?
02:29 – Why use cloud computing?
03:53 – Why use SURF Research Cloud?
06:02 – Pre-requisites to using SURF Research Cloud
07:04 – Collaborative Organisation (CO)
10:15 – SURF Research Manager (SRAM), adding/removing collaborators, requesting CO
13:58 – Research Drive
17:27 – Research Cloud
19:37 – Research Cloud, request wallet
21:14 – Research Cloud, linking Research Drive
23:56 – Research Cloud, persistent storage
27:28 – Research Cloud, set-up workspaces
33:35 – Research Cloud, getting into workspaces
35:02 – Research Cloud, showcasing JupyterHub environment
39:36 – Practical example
41:49 – Practical example, BigQuery data gathering
52:52 – Practical example, showcasing VSCode environment, remote SSH
55:35 – Practical example, code walkthrough BERTopic Modeling
1:04:23 – End

Resources 
Powerpoint with script in comments
List of institutions with Research Drive: https://wiki.surfnet.nl/pages/viewpage.action?spaceKey=RDRIVE&title=All+institutional+instances

HU (some might be internal links)
HU flowchart ‘how to set up Research Cloud’
HU request form Research Cloud

HU Research Drive 

SURF 
SRAM: sram.surf.nl
Research Cloud: portal.live.surfresearchcloud.nl
SURF request computing resources

Contact information
Fabian Kok: fabian.kok@hu.nl or team Digitale Onderzoeksomgeving: onderzoeksupport@hu.nl

Support
This video is made possible with funding from Digital Competence Center – Praktijkgericht Onderzoek (www.dcc-po.nl) and in collaboration with team Digitale Onderzoeksomgeving and Lectoraat Artificial Intelligence – Stefan Leijnen.