Hvad jeg lærte af MIT Professional Education Program “Data Science”: Data to Insights”
On december 15, 2021 by adminJa! Jeg har netop afsluttet et kursus om datavidenskab fra Massachusetts Institute of Technology – mere kendt som MIT. Selv om jeg desværre stadig mangler at besøge campus i Cambridge, Massachusetts, USA, fandt jeg dette kursus meget givende Jeg deltog i et seks ugers online-kursus, MIT Professional Education program, på seks uger: “Data Science: Data to Insights”. Det handler om at løse komplekse problemstillinger med dine data – som teaseren forklarer. Emnet bliver mere og mere relevant i dag, fordi 90 procent af verdens data kun er skabt inden for de sidste par år.
Du spekulerer muligvis på, om du burde tage sådan et kursus eller ej? Så jeg synes, det er kun rimeligt, at jeg deler nogle indsigter med dig. For at forstå mit synspunkt vil jeg give dig nogle personlige baggrundsoplysninger om min it-karriere og forhåndsviden om kunstig intelligens (AI).
Jeg har en diplomuddannelse i datalogi og har derudover en Master of Science i digitale medier. Under min uddannelse var AI ikke et så populært fag, som det er nu. Det var dog mit personlige fokus i min diplomopgave i 2005. Desværre var jeg kun i stand til at arbejde i kort tid som udvikler, og var ikke i stand til at arbejde inden for en anden disciplin inden for AI. I ca. 10 år har jeg nu fokuseret på IT-konsulent emner, primært på IT-shoring, -sourcing og leverandørkonsolidering. Jeg valgte specifikt dette onlinekursus, fordi mit ønske er at forstå mulighederne og begrænsningerne i metoderne og teknologien.
Hvert modul ledsages af 10-20 videoer (der kulminerer med en overvejende multiple choice-bedømmelse) og et sted mellem en og syv casestudier. De studerende modtager kun deres certifikat og CEU (1,3), når de har gennemført alle vurderinger med succes.
For at gennemføre modulerne med succes giver (assisterende) professorer de studerende online-kurser, der er beriget med animationer og grafer. Deltagerne kan diskutere åbne emner og spørgsmål i et onlineforum. Algoritmer og begreber forklares altid på baggrund af eksempler fra industrien eller fra det virkelige liv, f.eks. Netflix eller Facebook.
Temaet “Data Science” er opdelt i fem moduler:
- Få mening ud af ustrukturerede data
- Regression og forudsigelse
- Klassifikation, hypotesetestning og deep learning
- Anbefalingssystemer
- Netværk og grafiske modeller
I det første modul lærer du, hvordan du opdager mønstre og latente strukturer i data. Du er f.eks. i stand til at lære at strukturere alle dine tekstfiler på din bærbare computer ud fra bestemte temaer. Eller hvis du ønsker at opdage latente fællesskaber i et socialt netværk – også kaldet clustering – så er du i stand til at gøre det.
I regression og forudsigelse er fokus på bivariat og multivariat regression med henblik på forudsigelse og kausal inferens, efterfulgt af logistisk og ikke-lineær regression. Du lærer at løse forudsigelsesproblemer med højdimensionelle data, nemlig lasso, ridge, regressionstræer, boosted trees, random forests samt andre. Det tredje modul Klassifikation, hypotesetestning og deep learning starter med statistiske metoder til klassifikation, hypotesetestning og dens anvendelser, herunder påvisning af statistiske anomalier, påvisning af svindel, spam og anden ondsindet adfærd. F.eks. binær klassifikation som en e-mail kategoriseres som enten spam eller ikke-spam. Du vil blive introduceret til neurale netværk, perceptron (en algoritme til overvåget indlæring af binære klassifikatorer), deep learning og deres begrænsninger.
Modul fire Anbefalingssystemer, lærer dig, hvordan du finder relevante oplysninger fra store mængder data. Du lærer, hvordan Netflix anbefaler nye film til sine brugere, og hvordan Amazon, Facebook og Spotify anbefaler deres brugere. Du lærer forskellige principper og algoritmer for anbefalinger, rangordning, kollaborativ filtrering og personlige anbefalinger.
Det sidste modul, Netværk og grafiske modeller, giver dig mulighed for at forstå et netværks adfærd. F.eks. hvordan oplysninger eller idéer spredes i et socialt netværk, hvilket ikke kun er relevant i markedsføringsmæssig henseende, men også hvordan det kan bruges til andre formål, f.eks. til at afsløre kriminalitet. Du lærer om algoritmer til analyse af store netværk og metoder til modellering af netværksprocesser.
Jeg kunne allerede lugte Prüfungsangst (eksamensangst), og jeg var kun i et virtuelt klasseværelse!
Jeg elskede virkelig programmet, fordi det åbner døren til de ukendte muligheder inden for teknologi, som hele tiden har ændret sig og vil fortsætte med at ændre vores verden dramatisk i de kommende år. Foredragsholderne underviser på højeste niveau, og på vegne af alle os, der deltog i kurset, kan vi ærligt sige, at vi lærte noget nyt.
Hans talent (ud over hans enorme evner inden for regression og forudsigelse) ligger i hans evne til at holde foredrag udelukkende gennem matematiske formler. Han læser formler, som andre læser nyhedsoverskrifter! Det er ikke svært ikke at have ultimativ respekt for ham. Det var først efter at jeg havde set videoen adskillige gange, at jeg havde EN vis idé om dens indhold. Internettet, specielt YouTube-videoerne om matematik var meget hjælpsomme. Og det er den præcise forskel lige der. Mens vores lærer i skolen kun forklarede emnet én gang, mens vi nu kan repetere stoffet så ofte, vi vil, indtil emnet sidder fast.
Maskiner klatrer op ad stigen og overtager det mentale arbejde.
Når man er i stand til at komme igennem denne svære forelæsning, er alle andre absolut fornøjelige, især dem om deep learning. Det var en sådan øjenåbner, at jeg siden har set det to gange. I deep learning er udvikleren blot ved at lære systemet, hvordan det skal lære, og hvordan det skal løse et problem. Systemet modtager et læringssæt af oplysninger til at udforske og lære på egen hånd – programmet lærer fra tidligere data.
Systemet læser f.eks. billeder af dyr og navnet på dyret i den test, der er sat. Så det lærer selv at opdage en hund på billeder. Systemet lærer, hvilke egenskaber en hund har udelukkende på baggrund af billeder. Derfor er computere nu kommet ind på området for mentalt arbejde, som indtil nu kun var et område, der blev udøvet af mennesker.
Med denne form for algoritme kan maskinerne overtage nye klassifikationer af opgaver, som kun mennesker tidligere har udført. F.eks. ved fortolkning af medicinske billeder og opdagelse af kræft, hvor billeder af hunde blot er blevet erstattet af røntgenbilleder. Læringssættet indeholder oplysninger om, hvorvidt der blev opdaget kræft eller ej. Efter at have lært at læse og fortolke røntgenbillederne er systemet i stand til at reducere den tid, som en læge skal bruge på at analysere billederne. Maskiner klatrer op ad stigen og overtager det mentale arbejde.
For at få praktiske erfaringer er der medtaget casestudier efter hvert modul. Til nogle undersøgelser skal du have udviklerfærdigheder i Python eller ‘R’. Hvis du ikke er fortrolig med programsprogene, er dokumenterne i casestudierne understøttet med kodefragmenter. Der er f.eks. angivet kode for, hvordan du læser fra en ekstern fil eller for at visualisere dine data. Du udvikler dine færdigheder i en praktisk virkelighedssituation. Du skal f.eks. bygge dit eget anbefalingssystem til film, der ligner anbefalingssystemet fra Netflix. I et andet casestudie bruger du de netværksteoretiske idéer til at identificere nye kandidatgener, der kan forårsage autisme.
Kurset er ikke på et højt niveau, da du lærer de generelle begreber i matematik. Fra ende til anden implementerer du direkte problemet for at udvikle din egen løsning på reelle data.
På den ene side var kurset ekstremt udfordrende på grund af det dybe dyk i matematik og programmering og den faste tidsramme på kun seks uger. Det var tilfredsstillende, fordi det tager dig dybt ind i en verden af data og intelligente systemer, som er en af de vigtigste drivkræfter inden for netop mit forretningsområde.
Men på den anden side er ulempen, at du kun i et par måneder har adgang til kursusmaterialet, og især når det gælder videoerne, er det ikke nok. Desuden kan du ikke downloade videoerne, kun tekstfilerne, hvilket ikke er brugbart. Kurset starter igen i februar 2017. For konsulenter, der fokuserer på de digitale transformationer, er det helt sikkert et must. God fornøjelse!
Hvis du gerne vil grave dybere i Data Science:
En visuel introduktion til machine learning online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
En god bog, der dækker lignende emner som i kurset:
● Data Science for Business af Foster Provost, Tom Fawcett
● Foundations of Machine Learning af Mehryar Mohri og Afshin Rostamizadeh
Link til MIT-kurset:
● https://mitprofessionalx.mit.edu/courses/
>Om forfatteren:
Florian Hoeppner arbejder som teknologirådgiver for New IT i Financial Services North America. Hans fokus er på Enterprise Agile, DevOps, SRE kombineret med sourcing- og shoring-strategi. Lige nu lever Florian sin drøm i New York City.
Skriv et svar