Wat ik heb geleerd van het MIT Professional Education Program “Data Science: Data to Insights”
On december 15, 2021 by adminJa! Ik ben net klaar met een cursus over Data Science van het Massachusetts Institute of Technology – bekender bekend als MIT. Helaas moet ik de campus in Cambridge, Massachusetts (VS) nog bezoeken, maar ik vond deze cursus wel erg de moeite waard. Ik heb deelgenomen aan een zes weken durende online cursus, het MIT Professional Education programma: “Data Science: Data to Insights”. Het draait allemaal om het oplossen van complexe vraagstukken met je data – zoals de teaser uitlegt. Het onderwerp wordt tegenwoordig steeds relevanter, want 90 procent van alle data ter wereld is pas de afgelopen jaren gecreëerd.
Je vraagt je misschien af of je wel of niet zo’n cursus zou moeten volgen? Dus, ik denk dat het alleen maar eerlijk is dat ik wat inzichten met u deel. Om mijn standpunt te begrijpen, geef ik je wat persoonlijke achtergrondinformatie over mijn IT-carrière en voorkennis over kunstmatige intelligentie (AI).
Ik heb een diploma in informatica en daarnaast een Master of Science in Digital Media. Tijdens mijn opleiding was AI nog niet zo’n populair vak als het nu is. Toch was het mijn persoonlijke focus in mijn afstudeerscriptie in 2005. Helaas heb ik maar een korte tijd als ontwikkelaar kunnen werken, en was ik niet in staat om in een andere discipline binnen AI te werken. Sinds een jaar of 10 richt ik mij op IT consulting onderwerpen, voornamelijk op IT-shoring, -sourcing, en vendor consolidatie. Ik heb specifiek voor deze online cursus gekozen omdat ik de mogelijkheden en beperkingen van de methoden en technologie wil begrijpen.
Elke module gaat vergezeld van 10-20 video’s (met als hoogtepunt een meerkeuzebeoordeling) en ergens tussen één en zeven casestudy’s. Studenten ontvangen hun certificaat en de CEU (1,3) alleen bij het succesvol afronden van alle assessments.
Om de modules succesvol af te ronden, voorzien (assistent-)professoren de studenten van online cursussen, verrijkt met animaties en grafieken. Deelnemers kunnen open onderwerpen en vragen bespreken in een online forum. Algoritmen en concepten worden steeds uitgelegd aan de hand van industriële of real life voorbeelden, zoals Netflix of Facebook.
Het onderwerp “Data Science” is opgedeeld in vijf modules:
- Waarnemen van ongestructureerde data
- Regressie en voorspelling
- Classificatie, hypothesetesten en deep learning
- Aanbevelingssystemen
- Netwerken en grafische modellen
In de eerste module leer je hoe je patronen en latente structuren in data kunt ontdekken. Zo leer je bijvoorbeeld hoe je al je tekstbestanden op je laptop kunt structureren op basis van bepaalde thema’s. Of, als je latente gemeenschappen in een sociaal netwerk wilt ontdekken – ook wel clustering genoemd – dan kun je dat doen.
In regressie en voorspelling ligt de nadruk op bivariate en multivariate regressie ten behoeve van voorspelling en causale inferentie, gevolgd door logistische en niet-lineaire regressie. U leert hoe u voorspellingsproblemen met hoogdimensionale gegevens oplost, namelijk lasso, ridge, regressiebomen, boosted trees, random forests en andere.
De derde module Classificatie, hypothesetesten en deep learning begint met statistische methoden van classificatie, het testen van hypothesen en de toepassingen ervan, waaronder detectie van statistische anomalieën, detectie van fraude, spam en ander kwaadaardig gedrag. Bijvoorbeeld binaire classificatie zoals een e-mail wordt gecategoriseerd als ofwel spam of geen spam. Je maakt kennis met neurale netwerken, perceptron (een algoritme voor gesuperviseerd leren van binaire classifiers), deep learning en hun beperkingen.
Module vier Aanbevelingssystemen, leert je hoe je relevante informatie kunt ontdekken uit enorme hoeveelheden gegevens. Je leert hoe Netflix nieuwe films aanbeveelt aan zijn gebruikers; hoe Amazon, Facebook of Spotify aanbevelingen doen aan hun gebruikers. Je leert verschillende principes en algoritmes voor aanbevelingen, ranking, collaborative filtering en gepersonaliseerde aanbevelingen.
De laatste module, Netwerken en Grafische modellen laat je het gedrag van een netwerk begrijpen. Bijvoorbeeld hoe informatie of ideeën worden verspreid in een sociaal netwerk, wat niet alleen relevant is in marketingtermen, maar ook hoe het kan worden gebruikt voor andere doeleinden, bijvoorbeeld bij het opsporen van criminaliteit. Je leert over algoritmes om grote netwerken te analyseren en methoden om netwerkprocessen te modelleren.
Ik kon de Prüfungsangst (examenangst) al ruiken, en ik zat alleen maar in een virtueel klaslokaal!
Ik vond het programma echt geweldig omdat het de deur opent naar de onbekende mogelijkheden in de technologie, mogelijkheden die continu zijn veranderd en onze wereld de komende jaren ingrijpend zullen blijven veranderen. De docenten geven les op het hoogste niveau en sprekend voor allen die de cursus hebben gevolgd – kunnen we eerlijk zeggen dat we iets nieuws hebben geleerd.
Zijn talent, (naast zijn enorme capaciteiten in regressie en voorspelling), ligt in zijn vaardigheid in het geven van lezingen alleen door middel van wiskundige formules. Hij leest formules zoals anderen de krantenkoppen lezen! Het is niet moeilijk om geen ultiem respect voor hem te hebben. Pas nadat ik de video een aantal keren had bekeken, kreeg ik een idee van de inhoud. Het internet, met name de YouTube-video’s over wiskunde waren erg behulpzaam. En dat is nu precies het verschil. Op school legde onze leraar de stof maar één keer uit, nu kunnen we de stof zo vaak herhalen als we willen tot het onderwerp beklijft.
Machines klimmen op de ladder en nemen mentale arbeid over.
Als je eenmaal over dit moeilijke college heen bent, zijn alle andere absoluut leuk, vooral die over diep leren. Het was zo’n eyeopener dat ik het sindsdien twee keer heb bekeken. Bij deep learning leert de ontwikkelaar het systeem slechts hoe het moet leren, en hoe het een probleem moet oplossen. Het systeem krijgt een onderwijsset van informatie om zelf te verkennen en te leren – het programma leert van gegevens uit het verleden.
Het systeem leest bijvoorbeeld beelden van dieren en de naam van het dier in de test die is ingesteld. Dus, het leert hoe een hond te detecteren op beelden door zichzelf. Het systeem leert welke kenmerken een hond heeft puur op basis van beelden. Vandaar dat computers nu het gebied van de geestelijke arbeid hebben betreden dat tot nu toe slechts een gebied was dat door mensen werd uitgeoefend.
Met dit soort algoritmen kunnen machines nieuwe classificaties overnemen van taken die in het verleden alleen door mensen werden uitgevoerd. Bijvoorbeeld bij het interpreteren van medische beelden en het opsporen van kanker, waarbij beelden van honden slechts in de plaats zijn gekomen van röntgenfoto’s. De leerset bevat de informatie of kanker al dan niet is ontdekt. Nadat het systeem heeft geleerd hoe het de röntgenfoto’s moet lezen en interpreteren, kan het de tijd die een arts aan de analyse van de beelden moet besteden, verkorten. Machines klimmen op de ladder en nemen mentale arbeid over.
Om praktijkervaringen op te doen, zijn na elke module casestudies opgenomen. Voor sommige studies heb je ontwikkelaarsvaardigheden in Python of ‘R’ nodig. Als u niet bekend bent met de programmeertalen, worden de documenten in de casestudies ondersteund met codefragmenten. Er wordt bijvoorbeeld code gegeven voor het lezen uit een extern bestand of voor het visualiseren van uw gegevens. U ontwikkelt uw vaardigheden in een praktische, real-world setting. U bouwt bijvoorbeeld uw eigen aanbevelingssysteem voor films, vergelijkbaar met het aanbevelingssysteem van Netflix. In een andere casestudy gebruik je de netwerktheoretische ideeën om nieuwe kandidaat-genen te identificeren die autisme zouden kunnen veroorzaken.
De cursus is niet op een hoog niveau, omdat je de algemene concepten in wiskunde leert. Van het einde tot het einde implementeer je het probleem direct om je eigen oplossing te ontwikkelen op echte gegevens.
Aan de ene kant was de cursus extreem uitdagend vanwege de diepe duik in wiskunde en programmeren en het vaste tijdsbestek van slechts zes weken. Het was bevredigend omdat het je diep in de wereld van data en intelligente systemen brengt, wat een van de belangrijkste drijfveren in mijn specifieke vakgebied is.
Het nadeel aan de andere kant is dat je maar een paar maanden toegang tot het cursusmateriaal hebt, en vooral als het om de video’s gaat, is dit niet genoeg. Ook kun je de video’s niet downloaden, alleen de tekstbestanden, en die zijn niet bruikbaar. De cursus start weer in februari 2017. Voor consultants die zich richten op de digitale transformaties, is het zeker een aanrader. Veel plezier!
Als je graag dieper graaft in Data Science:
Een visuele introductie in machine learning online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Een goed boek dat vergelijkbare onderwerpen behandelt als in de cursus:
● Data Science for Business door Foster Provost, Tom Fawcett
● Foundations of Machine Learning door Mehryar Mohri en Afshin Rostamizadeh
De link naar de MIT-cursus:
● https://mitprofessionalx.mit.edu/courses/
Over de auteur: Florian Hoeppner is werkzaam als Technology Advisor voor New IT in Financial Services Noord-Amerika. Zijn focus ligt op Enterprise Agile, DevOps, SRE gecombineerd met sourcing en shoring strategie. Op dit moment leeft Florian zijn droom in New York City.
Geef een antwoord