Ce am învățat de la programul de educație profesională MIT „Data Science: Data to Insights”
On decembrie 15, 2021 by adminDa! Tocmai am terminat un curs despre Știința datelor de la Massachusetts Institute of Technology – mai cunoscut sub numele de MIT. Din păcate, deși încă nu am reușit să vizitez campusul din Cambridge, Massachusetts, SUA, am găsit acest curs foarte satisfăcător am participat la un curs online de șase săptămâni, programul MIT Professional Education: „Data Science: Data to Insights”. Este vorba despre rezolvarea unor probleme complexe cu ajutorul datelor – după cum explică teaserul. Subiectul devine din ce în ce mai relevant în zilele noastre, deoarece 90% din datele din lume au fost create abia în ultimii ani.
Este posibil să vă întrebați dacă ar trebui sau nu să participați la un astfel de curs? Așadar, cred că este corect să vă împărtășesc câteva informații. Pentru a-mi înțelege punctul de vedere, vă voi oferi câteva informații personale despre cariera mea în domeniul IT și despre cunoștințele mele anterioare în domeniul inteligenței artificiale (AI).
Sunt licențiat în informatică și am, în plus, un masterat în Digital Media. În timpul studiilor mele, IA nu era o materie atât de populară cum este acum. Cu toate acestea, a fost punctul meu personal de interes în lucrarea mea de diplomă din 2005. Din păcate, nu am putut lucra decât pentru o perioadă scurtă de timp ca dezvoltator și nu am putut lucra într-o altă disciplină din cadrul AI. De aproximativ 10 ani, m-am axat pe subiecte de consultanță în domeniul IT, în principal pe IT-shoring, -sourcing și consolidarea furnizorilor. Am ales în mod special acest curs online pentru că aspirația mea este să înțeleg posibilitățile și limitele metodelor și tehnologiei.
Care modul este însoțit de 10-20 de videoclipuri (care culminează cu o evaluare predominant cu alegere multiplă) și între unul și șapte studii de caz. Studenții primesc certificatul și CEU (1,3) doar odată cu finalizarea cu succes a tuturor evaluărilor.
Pentru a finaliza cu succes modulele, profesorii (asistenți) pun la dispoziția studenților cursuri online, îmbogățite cu animații și grafice. Participanții pot discuta subiecte deschise și întrebări pe un forum online. Algoritmii și conceptele sunt întotdeauna explicate pe exemple industriale sau din viața reală, de exemplu, Netflix sau Facebook.
Tema „Data Science” este împărțită în cinci module:
- Facerea sensului datelor nestructurate
- Regresie și predicție
- Clasificare, testarea ipotezelor și învățare profundă
- Sisteme de recomandare
- Rețele și modele grafice
În primul modul învățați cum să descoperiți modele și structuri latente în date. De exemplu, sunteți în măsură să învățați cum să vă structurați toate fișierele text de pe laptop în funcție de anumite teme. Sau, dacă doriți să descoperiți comunități latente într-o rețea socială – numită și clusterizare – atunci sunteți capabil să faceți acest lucru. În regresie și predicție, accentul se pune pe regresia bivariată și multivariată în scopul predicției și al inferenței cauzale, urmată de regresia logistică și non-lineară. Veți învăța cum să rezolvați probleme de predicție cu date cu dimensiuni mari, și anume lasso, ridge, arbori de regresie, arbori boosted, păduri aleatoare, precum și altele.
Cel de-al treilea modul Clasificare, testarea ipotezelor și învățare profundă începe cu metode statistice de clasificare, testarea ipotezelor și aplicațiile sale, inclusiv detectarea anomaliilor statistice, detectarea fraudei, a spam-ului și a altor comportamente rău intenționate. De exemplu, clasificarea binară, cum ar fi faptul că un e-mail este clasificat fie ca fiind spam, fie ca nefiind spam. Veți face cunoștință cu rețelele neuronale, perceptronul (un algoritm pentru învățarea supravegheată a clasificatorilor binari), învățarea profundă și limitările acestora.
Modulul patru Sisteme de recomandare, vă învață cum să descoperiți informații relevante din cantități mari de date. Veți învăța cum le recomandă Netflix noi filme utilizatorilor săi; cum le recomandă Amazon, Facebook sau Spotify utilizatorilor lor. Veți învăța diferite principii și algoritmi pentru recomandări, clasificare, filtrare colaborativă și recomandări personalizate.
Ultimul modul, Networking and Graphical models vă permite să înțelegeți comportamentul unei rețele. De exemplu, cum se răspândesc informațiile sau ideile într-o rețea socială, ceea ce este relevant nu numai în sensul marketingului, ci și cum ar putea fi folosit în alte scopuri, de exemplu în detectarea infracțiunilor. Învățați despre algoritmi de analiză a rețelelor mari și metode de modelare a proceselor de rețea.
Simțeam deja mirosul Prüfungsangst (anxietatea de examen), și eram doar într-o sală de clasă virtuală!
Am îndrăgit cu adevărat programul pentru că deschide ușa către posibilitățile necunoscute ale tehnologiei, cele care s-au schimbat continuu și vor continua să schimbe dramatic lumea noastră în următorii ani. Lectorii predau la cel mai înalt nivel și, vorbind în numele tuturor celor care am urmat cursul – putem spune cu sinceritate că am învățat ceva nou.
Talentul său, (pe lângă capacitățile sale enorme în regresie și predicție), constă în abilitatea de a ține prelegeri doar prin formule matematice. El citește formulele așa cum alții citesc titlurile de știri! Nu este greu să nu ai un respect suprem pentru el. Abia după ce am vizionat videoclipul de mai multe ori am avut O ALTĂ idee despre conținutul său. Internetul, în special videoclipurile de pe YouTube despre matematică mi-au fost de mare ajutor. Și asta este exact diferența, chiar aici. În timp ce la școală, profesorul nostru explica materia doar o singură dată, în timp ce acum putem repeta materia ori de câte ori dorim, până când subiectul se lipește.
Mașinile urcă pe scara ierarhică și preiau munca mentală.
După ce reușești să treci de această prelegere dificilă, toate celelalte sunt absolut plăcute, în special cele despre învățarea profundă. Mi-a deschis atât de mult ochii încât de atunci am vizionat-o de două ori. În învățarea profundă, dezvoltatorul nu face decât să învețe sistemul despre cum să învețe și cum să rezolve o problemă. Sistemul primește un set de informații de predare pentru a explora și a învăța pe cont propriu – programul învață din datele din trecut.
De exemplu, sistemul citește imagini de animale și numele animalului din testul care este stabilit. Astfel, acesta învață singur cum să detecteze un câine pe imagini. Sistemul învață ce caracteristici are un câine doar pe baza imaginilor. Prin urmare, computerele au intrat acum în domeniul muncii mentale, care până acum era un domeniu exercitat doar de oameni.
Cu acest tip de algoritm, mașinile pot prelua noi clasificări ale unor munci pe care doar oamenii le executau în trecut. De exemplu, la interpretarea imaginilor medicale și detectarea cancerului, unde imaginile cu câini au fost pur și simplu înlocuite cu raze X. Setul de învățături include informația dacă a fost sau nu detectat cancerul. După ce a învățat cum să citească și să interpreteze radiografiile, sistemul este capabil să reducă timpul pe care un medic trebuie să îl petreacă pentru a analiza imaginile. Mașinile urcă pe scara ierarhică și preiau munca mentală.
Pentru a obține experiențe practice, după fiecare modul sunt incluse studii de caz. Pentru unele studii aveți nevoie de competențe de dezvoltator în Python sau „R”. Dacă nu sunteți familiarizat cu limbajele de programare, documentele din studiile de caz sunt susținute cu fragmente de cod. De exemplu, se oferă codul pentru modul de citire dintr-un fișier extern sau pentru vizualizarea datelor. Vă dezvoltați competențele într-un cadru practic din lumea reală. De exemplu, vă veți construi propriul sistem de recomandare pentru filme, similar sistemului de recomandare de la Netflix. Într-un alt studiu de caz, veți folosi ideile teoretice ale rețelelor pentru a identifica noi gene candidate care ar putea cauza autismul.
Cursul nu este la un nivel înalt, deoarece învățați conceptele generale de matematică. De la un capăt la altul, implementați direct problema pentru a vă dezvolta propria soluție pe date reale.
Pe de o parte, cursul a fost extrem de provocator din cauza scufundării profunde în matematică și programare și a intervalului de timp fix de numai șase săptămâni. A fost satisfăcător pentru că te duce adânc în lumea datelor și a sistemelor inteligente, care este unul dintre principalele motoare în domeniul meu de activitate particular.
Dar, pe de altă parte, dezavantajul este că ai acces doar pentru câteva luni la materialul de curs și, mai ales când vine vorba de videoclipuri, acest lucru nu este suficient. De asemenea, nu poți descărca videoclipurile, ci doar fișierele text, care nu sunt utile. Cursul va începe din nou în februarie 2017. Pentru consultanții care se concentrează pe transformările digitale, este cu siguranță o necesitate. Distracție plăcută!
Dacă vă place să aprofundați știința datelor:
O introducere vizuală în învățarea mașinilor online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
O carte bună care acoperă subiecte similare cu cele din curs:
● Data Science for Business de Foster Provost, Tom Fawcett
● Foundations of Machine Learning de Mehryar Mohri și Afshin Rostamizadeh
Legătura către cursul MIT:
● https://mitprofessionalx.mit.edu/courses/
Despre autor: Florian Hoeppner lucrează în calitate de consilier tehnologic pentru New IT în serviciile financiare din America de Nord. El se concentrează pe Enterprise Agile, DevOps, SRE, combinate cu strategia de sourcing și shoring. În acest moment, Florian își trăiește visul în New York City..
Lasă un răspuns