Mitä opin MIT:n ammatillisen koulutuksen ohjelmasta ”Data Science: Data to Insights”
On 15 joulukuun, 2021 by adminJoo! Olen juuri suorittanut Massachusetts Institute of Technologyn – joka tunnetaan paremmin nimellä MIT – Data Science -kurssin. Valitettavasti en ole vielä päässyt käymään kampuksella Cambridgessa, Massachusettsissa, Yhdysvalloissa, mutta tämä kurssi oli mielestäni erittäin antoisa osallistuin kuuden viikon verkkokurssille, MIT Professional Education -ohjelmaan: ”Data Science: Data to Insights”. Kyse on monimutkaisten ongelmien ratkaisemisesta datan avulla – kuten teaser kertoo. Aihe on nykyään yhä ajankohtaisempi, sillä 90 prosenttia maailman datasta on luotu vasta viime vuosina.
Mahdollisesti mietit, pitäisikö sinun osallistua tällaiselle kurssille vai ei? Joten mielestäni on vain reilua, että jaan kanssasi joitain oivalluksia. Jotta ymmärtäisit näkökulmani, annan sinulle muutamia henkilökohtaisia taustatietoja tietoteknisestä urastani ja tekoälyn (AI) etukäteistuntemuksestani.

Minulla on tietotekniikan tutkintotodistukseni, ja minulla on lisäksi digitaalisen median maisterin tutkinto. Koulutukseni aikana tekoäly ei ollut niin suosittu oppiaine kuin nyt. Se oli kuitenkin henkilökohtainen painopisteeni diplomityössäni vuonna 2005. Valitettavasti pääsin työskentelemään vain lyhyen aikaa kehittäjänä, enkä päässyt työskentelemään muulla tieteenalalla tekoälyn sisällä. Olen nyt noin 10 vuoden ajan keskittynyt IT-konsultointiin, lähinnä IT:n ulkoistamiseen, -hankintaan ja toimittajien konsolidointiin. Valitsin nimenomaan tämän verkkokurssin, koska pyrkimykseni on ymmärtää menetelmien ja teknologian mahdollisuuksia ja rajoituksia.
Kunkin moduulin mukana on 10-20 videota (jotka huipentuvat pääosin monivalinta-arviointiin) ja yhdestä seitsemään tapaustutkimusta. Opiskelijat saavat todistuksen ja CEU:n (1.3) vasta, kun kaikki arvioinnit on suoritettu onnistuneesti.
Moduulien suorittamiseksi onnistuneesti (apulais)professorit tarjoavat opiskelijoille verkkokursseja, joita on rikastettu animaatioilla ja kaavioilla. Osallistujat voivat keskustella avoimista aiheista ja kysymyksistä verkkofoorumilla. Algoritmit ja käsitteet selitetään aina teollisten tai tosielämän esimerkkien, kuten Netflixin tai Facebookin, avulla.
Aihe ”Data Science” on jaettu viiteen moduuliin:
- Rakenteettoman datan ymmärtäminen
- Regressio ja ennustaminen
- Luokittelu, hypoteesien testaus ja syväoppiminen
- Suositusjärjestelmät
- Verkko- ja graafiset mallit
Ensimmäisessä moduulissa opit löytämään malleja ja piileviä rakenteita datasta. Pystyt esimerkiksi oppimaan, miten voit jäsentää kaikki kannettavassa tietokoneessasi olevat tekstitiedostot tiettyjen teemojen perusteella. Tai jos haluat löytää latentteja yhteisöjä sosiaalisesta verkostosta – jota kutsutaan myös klusteroinniksi – niin pystyt siihen.
Regressiossa ja ennustamisessa keskitytään kaksimuuttujaiseen ja monimuuttujaiseen regressioon ennustamista ja syy-seuraussuhteiden päättelyä varten, minkä jälkeen käsitellään logistista ja epälineaarista regressiota. Opit ratkaisemaan ennustusongelmia korkea-ulotteisen datan kanssa, nimittäin lasso, ridge, regressiopuut, tehostetut puut, satunnaismetsät sekä muut.
Kolmannessa moduulissa Luokittelu, hypoteesien testaaminen ja syväoppiminen aloitetaan luokittelun tilastollisista menetelmistä, hypoteesien testaamisesta ja sen sovelluksista, mukaan lukien tilastollisten poikkeavuuksien havaitseminen, petosten, roskapostin ja muun haitallisen käyttäytymisen tunnistaminen. Esimerkiksi binääriluokittelu, jossa sähköposti luokitellaan joko roskapostiksi tai ei-roskapostiksi. Tutustut neuroverkkoihin, perceptroniin (algoritmi binääriluokittelijoiden valvottuun oppimiseen), syväoppimiseen ja niiden rajoituksiin.
Moduuli neljä Suosittelujärjestelmät, opettaa, miten löydetään relevanttia tietoa suurista tietomääristä. Opit, miten Netflix suosittelee uusia elokuvia käyttäjilleen; miten Amazon, Facebook tai Spotify suosittelevat käyttäjilleen. Opit erilaisia periaatteita ja algoritmeja suosituksia, paremmuusjärjestystä, yhteistoiminnallista suodatusta ja personoituja suosituksia varten.
Viimeisessä moduulissa Verkostoituminen ja graafiset mallit opit ymmärtämään verkon käyttäytymistä. Esimerkiksi sitä, miten tieto tai ajatukset leviävät sosiaalisessa verkostossa, mikä ei ole merkityksellistä vain markkinoinnin kannalta, vaan myös sitä, miten sitä voitaisiin käyttää muihin tarkoituksiin, esimerkiksi rikosten havaitsemisessa. Opit algoritmeja suurten verkostojen analysoimiseksi ja menetelmiä verkostoprosessien mallintamiseksi.
Voin jo haistaa tenttipelon, ja olin vain virtuaalisessa luokkahuoneessa!
Pidin ohjelmasta todella paljon, koska se avaa oven teknologian tuntemattomiin mahdollisuuksiin, jotka ovat jatkuvasti muuttuneet ja tulevat muuttamaan maailmaamme lähivuosina dramaattisesti. Luennoitsijat opettavat korkeimmalla tasolla, ja meidän kaikkien kurssin suorittaneiden puolesta puhuen voimme rehellisesti sanoa, että opimme jotain uutta.
Hänen lahjakkuutensa (sen lisäksi, että hänellä on valtavat kyvyt regressiossa ja ennustamisessa), piilee hänen kyvyssään pitää luentoja vain matemaattisten kaavojen avulla. Hän lukee kaavoja kuten muut lukevat uutisotsikoita! Ei ole vaikea olla kunnioittamatta häntä äärimmilleen. Vasta kun olin katsonut videon lukuisia kertoja, sain jonkinlaisen käsityksen sen sisällöstä. Internetistä ja erityisesti matematiikkaa käsittelevistä YouTube-videoista oli paljon apua. Ja juuri siinä on se ero. Koulussa opettajamme selitti asiaa vain kerran, kun taas nyt voimme harjoitella materiaalia niin usein kuin haluamme, kunnes aihe jää mieleen.
Koneet kiipeävät tikapuita ylöspäin ja ottavat henkisen työn haltuunsa.
Kun pääset tämän vaikean luennon ohi, kaikki muut luennot ovat ehdottoman nautinnollisia, varsinkin ne, jotka käsittelevät syväoppimista. Se oli niin silmiä avaava, että olen sittemmin katsonut sen kahdesti. Syväoppimisessa kehittäjä vain opettaa järjestelmälle miten oppia ja miten ratkaista ongelma. Järjestelmä saa opetusjoukon tietoa, jota se tutkii ja oppii itse – ohjelma oppii aiemmasta datasta.
Systeemi lukee esimerkiksi kuvia eläimistä ja eläimen nimeä testissä, joka on asetettu. Se siis oppii itse tunnistamaan koiran kuvista. Järjestelmä oppii, mitä ominaisuuksia koiralla on puhtaasti kuvien perusteella. Näin ollen tietokoneet ovat nyt tunkeutuneet henkisen työn alueelle, joka on tähän asti ollut pelkästään ihmisten harjoittamaa aluetta.
Tällaisen algoritmin avulla koneet voivat ottaa haltuunsa uusia luokittelutehtäviä, joita vain ihmiset ovat aiemmin suorittaneet. Esimerkiksi lääketieteellisten kuvien tulkinnassa ja syövän havaitsemisessa, jossa röntgenkuvat on pelkästään korvattu koirien kuvilla. Opetusjoukko sisältää tiedon siitä, onko syöpä havaittu vai ei. Kun järjestelmä on oppinut lukemaan ja tulkitsemaan röntgenkuvia, se pystyy vähentämään aikaa, joka lääkärin on käytettävä kuvien analysointiin. Koneet kiipeävät tikapuita ylöspäin ja korvaavat henkisen työn.
Käytännön kokemusten saamiseksi jokaisen moduulin jälkeen on mukana tapaustutkimuksia. Joihinkin tutkimuksiin tarvitaan Python- tai ’R’-kehittäjätaitoja. Jos et tunne ohjelmointikieliä, tapaustutkimusten dokumentteja tuetaan koodinpätkillä. Koodia annetaan esimerkiksi siihen, miten luetaan ulkoisesta tiedostosta tai visualisoidaan tietoja. Kehität taitojasi käytännönläheisessä todellisessa ympäristössä. Rakennat esimerkiksi oman suosittelujärjestelmän elokuville, joka muistuttaa Netflixin suosittelujärjestelmää. Toisessa tapaustutkimuksessa käytät verkostoteoreettisia ideoita autismia mahdollisesti aiheuttavien uusien geeniehdokkaiden tunnistamiseen.
Kurssi ei ole korkeatasoinen, sillä opit matematiikan yleiset käsitteet. Loppupäästä toteutat suoraan ongelman kehittääksesi oman ratkaisusi todelliseen dataan.
Yhtäältä kurssi oli erittäin haastava, koska se oli syvä sukellus matematiikkaan ja ohjelmointiin sekä kiinteä aikataulu, joka oli ainoastaan kuusi viikkoa. Se oli tyydyttävää, koska se vie sinut syvälle datan ja älykkäiden järjestelmien maailmaan, joka on yksi tärkeimmistä ajureista omalla liiketoiminta-alueellani.
Toisaalta haittapuolena on kuitenkin se, että sinulla on pääsy kurssimateriaaliin vain muutamaksi kuukaudeksi, eikä tämä riitä etenkään videoiden kohdalla. Lisäksi videoita ei voi ladata, vain tekstitiedostoja, joista ei ole hyötyä. Kurssi alkaa uudelleen helmikuussa 2017. Digitaalisiin muutoksiin keskittyville konsulteille se on ehdottomasti pakollinen. Nauttikaa!
Jos haluat syventyä Data Scienceen:
Visuaalinen johdatus koneoppimiseen verkossa:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Hyvä kirja, joka käsittelee samanlaisia aiheita kuin kurssilla:
● Data Science for Business by Foster Provost, Tom Fawcett
● Foundations of Machine Learning by Mehryar Mohri and Afshin Rostamizadeh
Linkki MIT:n kurssille:
● https://mitprofessionalx.mit.edu/courses/
Linkki MIT:n kurssille: Florian Hoeppner työskentelee teknologianeuvojana New IT:ssä rahoituspalveluiden Pohjois-Amerikassa. Hänen painopisteensä on Enterprise Agile, DevOps, SRE yhdistettynä hankinta- ja shoring-strategiaan. Juuri nyt Florian elää unelmaansa New Yorkissa.
Vastaa