Cosa ho imparato dal programma di formazione professionale del MIT “Data Science: Data to Insights”
Il Dicembre 15, 2021 da adminSì! Ho appena finito un corso sulla Data Science del Massachusetts Institute of Technology – più noto come MIT. Purtroppo, mentre devo ancora visitare il campus a Cambridge, Massachusetts, USA, ho trovato questo corso molto gratificante ho partecipato a un corso online di sei settimane, il programma di formazione professionale del MIT: “Data Science: Data to Insights”. Si tratta di risolvere problemi complessi con i dati – come spiega il teaser. L’argomento sta diventando sempre più rilevante al giorno d’oggi, perché il 90% dei dati del mondo è stato creato solo negli ultimi anni.
Si starà chiedendo se è il caso di seguire un corso del genere? Quindi, penso che sia giusto che io condivida alcune intuizioni con voi. Per capire il mio punto di vista, ti darò alcune informazioni personali sulla mia carriera informatica e sulla mia conoscenza dell’intelligenza artificiale (AI).
Ho un diploma in informatica e ho inoltre un Master of Science in Digital Media. Durante la mia formazione l’IA non era una materia così popolare come lo è ora. Tuttavia, era il mio obiettivo personale nella mia tesi di diploma nel 2005. Sfortunatamente, ho potuto lavorare solo per un breve periodo come sviluppatore, e non sono stato in grado di lavorare in un’altra disciplina all’interno dell’IA. Da circa 10 anni, mi sono concentrato su argomenti di consulenza IT, principalmente su IT-shoring, -sourcing, e consolidamento dei fornitori. Ho scelto specificamente questo corso online perché la mia aspirazione è quella di capire le possibilità e i limiti dei metodi e della tecnologia.
Ogni modulo è accompagnato da 10-20 video (che culminano in una valutazione prevalentemente a scelta multipla) e da uno a sette casi di studio. Gli studenti ricevono il loro certificato e il CEU (1,3) solo con il completamento con successo di tutte le valutazioni.
Per completare con successo i moduli, i professori (assistenti) forniscono agli studenti corsi online, arricchiti con animazioni e grafici. I partecipanti possono discutere argomenti aperti e domande in un forum online. Algoritmi e concetti sono sempre spiegati su esempi industriali o di vita reale, ad esempio Netflix o Facebook.
L’argomento “Data Science” è suddiviso in cinque moduli:
- Dare un senso ai dati non strutturati
- Regressione e predizione
- Classificazione, test di ipotesi e deep learning
- Sistemi di raccomandazione
- Rete e modelli grafici
Nel primo modulo si impara a scoprire modelli e strutture latenti nei dati. Per esempio, sei in grado di imparare come strutturare tutti i tuoi file di testo sul tuo portatile in base a certi temi. Oppure, se volete scoprire le comunità latenti in una rete sociale – chiamata anche clustering – allora siete in grado di farlo.
Nella regressione e nella predizione l’attenzione è sulla regressione bivariata e multivariata per scopi di predizione e inferenza causale, seguita dalla regressione logistica e non lineare. Imparerete come risolvere problemi di predizione con dati ad alta dimensione, vale a dire lasso, ridge, alberi di regressione, alberi potenziati, foreste casuali e altri.
Il terzo modulo Classificazione, test di ipotesi e deep learning inizia con i metodi statistici di classificazione, test di ipotesi e le sue applicazioni, incluso il rilevamento di anomalie statistiche, rilevamento di frodi, spam e altri comportamenti dannosi. Per esempio, la classificazione binaria come un’email è classificata come spam o non spam. Sarete introdotti alle reti neurali, al perceptron (un algoritmo per l’apprendimento supervisionato di classificatori binari), all’apprendimento profondo e ai loro limiti.
Modulo quattro Sistemi di raccomandazione, vi insegna come scoprire informazioni rilevanti da grandi quantità di dati. Imparerete come Netflix sta raccomandando nuovi film ai suoi utenti; come Amazon, Facebook o Spotify stanno raccomandando ai loro utenti. Imparerete diversi principi e algoritmi per le raccomandazioni, la classificazione, il filtraggio collaborativo e le raccomandazioni personalizzate.
L’ultimo modulo, Networking e modelli grafici vi permettono di capire il comportamento di una rete. Per esempio, come le informazioni o le idee si diffondono in una rete sociale che è rilevante non solo in senso di marketing ma anche come potrebbe essere usata per altri scopi, per esempio nel rilevamento del crimine. Si imparano algoritmi per analizzare grandi reti e metodi per modellare i processi di rete.
Potevo già sentire l’odore del Prüfungsangst (ansia da esame), ed ero solo in un’aula virtuale!
Mi è piaciuto molto il programma perché apre le porte alle possibilità sconosciute della tecnologia, che sono cambiate continuamente e continueranno a cambiare il nostro mondo nei prossimi anni in modo drammatico. I docenti insegnano al più alto livello e parlando per tutti noi che abbiamo intrapreso il corso – possiamo onestamente dire che abbiamo imparato qualcosa di nuovo.
Il suo talento, (oltre alle sue enormi capacità di regressione e previsione), sta nella sua abilità nel dare lezioni solo attraverso formule matematiche. Legge le formule come altri leggono i titoli delle notizie! Non è difficile non avere il massimo rispetto per lui. È stato solo dopo aver visto il video numerose volte che mi sono fatto un’idea del suo contenuto. Internet, specialmente i video di YouTube sulla matematica sono stati molto utili. Ed è proprio questa la differenza. Quando eravamo a scuola, il nostro insegnante spiegava la materia solo una volta, mentre ora possiamo provare il materiale tutte le volte che vogliamo fino a quando l’argomento si fissa.
Le macchine stanno salendo la scala e prendono il controllo del lavoro mentale.
Una volta che sei in grado di superare questa dura lezione tutte le altre sono assolutamente piacevoli, specialmente quelle sull’apprendimento profondo. Mi ha aperto gli occhi a tal punto che l’ho guardato due volte. Nell’apprendimento profondo lo sviluppatore sta semplicemente insegnando al sistema come imparare e come risolvere un problema. Il sistema riceve una serie di informazioni di insegnamento da esplorare e imparare da solo – il programma sta imparando dai dati passati.
Per esempio, il sistema sta leggendo immagini di animali e il nome dell’animale nel test che è impostato. Quindi, impara come rilevare un cane sulle immagini da solo. Il sistema impara quali caratteristiche ha un cane basandosi puramente sulle immagini. Quindi, i computer sono ora entrati nell’area del lavoro mentale che fino ad ora era un’area esercitata solo dagli umani.
Con questo tipo di algoritmo, le macchine possono assumere nuove classificazioni di lavori che solo gli umani avevano eseguito in passato. Per esempio, nell’interpretazione delle immagini mediche e nell’individuazione del cancro, dove le immagini dei cani sono state semplicemente sostituite dalle radiografie. Il set di insegnamento include le informazioni sul fatto che il cancro sia stato rilevato o meno. Dopo aver imparato a leggere e interpretare le radiografie, il sistema è in grado di ridurre il tempo che un medico deve spendere per analizzare le immagini. Le macchine stanno salendo la scala e prendendo il posto del lavoro mentale.
Per avere esperienze pratiche, i casi di studio sono inclusi dopo ogni modulo. Per alcuni studi sono necessarie competenze da sviluppatore in Python o ‘R’. Se non avete familiarità con i linguaggi di programma, i documenti dei casi studio sono supportati da frammenti di codice. Per esempio, il codice è dato per come leggere da un file esterno o per visualizzare i dati. Sviluppate le vostre abilità in un contesto pratico del mondo reale. Per esempio, costruirete il vostro sistema di raccomandazione per i film, simile al sistema di raccomandazione di Netflix. In un altro caso di studio, userete le idee teoriche di rete per identificare nuovi geni candidati che potrebbero causare l’autismo.
Il corso non è di alto livello, poiché imparerete i concetti generali della matematica. Dalla fine alla fine, si implementa direttamente il problema per sviluppare la propria soluzione su dati reali.
Da un lato il corso è stato estremamente impegnativo a causa della profonda immersione nella matematica e nella programmazione e il tempo fisso di sole sei settimane. È stato soddisfacente perché ti porta in profondità nel mondo dei dati e dei sistemi intelligenti, che è uno dei driver principali nella mia particolare area di business.
D’altra parte, però, lo svantaggio è che si ha accesso solo per pochi mesi al materiale del corso, e soprattutto quando si tratta di video, questo non è sufficiente. Inoltre, non si possono scaricare i video, solo i file di testo, che non sono utili. Il corso ricomincia a febbraio 2017. Per i consulenti che si concentrano sulle trasformazioni digitali, è sicuramente un must. Buon divertimento!
Se ti piace scavare più a fondo in Data Science:
Un’introduzione visiva all’apprendimento automatico online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Un buon libro che copre argomenti simili a quelli del corso:
● Data Science for Business di Foster Provost, Tom Fawcett
● Foundations of Machine Learning di Mehryar Mohri e Afshin Rostamizadeh
Il link al corso del MIT:
● https://mitprofessionalx.mit.edu/courses/
Sull’autore: Florian Hoeppner lavora come consulente tecnologico per il New IT nei servizi finanziari del Nord America. La sua attenzione si concentra su Enterprise Agile, DevOps, SRE combinato con sourcing e strategia di shoring. In questo momento, Florian sta vivendo il sogno a New York City.
Lascia un commento