Mit tanultam az MIT Professional Education Program “Data Science: Data to Insights”
On december 15, 2021 by adminIgen! Most fejeztem be a Massachusetts Institute of Technology – ismertebb nevén MIT – adattudományi kurzusát. Sajnos, bár még mindig nem látogattam el a campusra Cambridge-ben, Massachusettsben, az USA-ban, de nagyon hasznosnak találtam ezt a kurzust, részt vettem egy hathetes online kurzuson, az MIT Professional Education programban: “Data Science: Data to Insights”. Az egész arról szól, hogy komplex problémákat oldjunk meg az adatokkal – ahogy a teaser is magyarázza. A téma manapság egyre aktuálisabbá válik, hiszen a világ adatainak 90 százaléka csak az elmúlt néhány évben keletkezett.
Elképzelhető, hogy azon gondolkodsz, hogy érdemes-e részt venned egy ilyen tanfolyamon? Úgyhogy úgy gondolom, az a tisztességes, ha megosztok veled néhány meglátást. Hogy megértsd az álláspontomat, adok néhány személyes háttérinformációt az informatikai karrieremről és a mesterséges intelligencia (AI) előismereteiről.
Informatikus diplomával rendelkezem, emellett pedig digitális média mesterszakos diplomával. Az én tanulmányaim alatt a mesterséges intelligencia nem volt olyan népszerű tantárgy, mint most. A 2005-ös diplomamunkámban azonban ez volt a személyes témám. Sajnos csak rövid ideig dolgozhattam fejlesztőként, és nem tudtam más tudományágban dolgozni az AI-n belül. Körülbelül 10 éve IT-tanácsadási témákkal foglalkozom, főként IT-shoring, -sourcing és beszállítói konszolidáció témakörökkel. Kifejezetten azért választottam ezt az online tanfolyamot, mert az a törekvésem, hogy megértsem a módszerek és a technológia lehetőségeit és korlátait.
Minden modulhoz 10-20 videó (amelyek túlnyomórészt feleletválasztós értékelésben csúcsosodnak ki) és egytől hétig terjedő esettanulmányok tartoznak. A hallgatók csak az összes értékelés sikeres teljesítésével kapják meg a tanúsítványt és a CEU-t (1,3).
A modulok sikeres elvégzéséhez a (segéd)professzorok animációkkal és grafikonokkal gazdagított online kurzusokat biztosítanak a hallgatóknak. A résztvevők egy online fórumon vitathatják meg a nyitott témákat és kérdéseket. Az algoritmusokat és fogalmakat mindig ipari vagy valós példákon, pl. Netflix vagy Facebook példákon magyarázzák el.
A “Data Science” téma öt modulra tagolódik:
- A strukturálatlan adatok értelmezése
- Regresszió és előrejelzés
- Klasszifikáció, hipotézisvizsgálat és mélytanulás
- Javaslati rendszerek
- Hálózati és grafikus modellek
Az első modulban megtanulja, hogyan fedezhet fel mintákat és látens struktúrákat az adatokban. Például megtanulhatod, hogyan strukturálhatod a laptopodon lévő összes szöveges fájlodat bizonyos témák alapján. Vagy ha látens közösségeket szeretne felfedezni egy szociális hálózatban – amit klaszterezésnek is neveznek -, akkor képes lesz rá.
A regresszió és előrejelzés során a hangsúly a két- és többváltozós regresszióra helyeződik előrejelzés és oksági következtetés céljából, majd a logisztikus és nemlineáris regresszió következik. Megtanulja, hogyan lehet előrejelzési problémákat megoldani nagydimenziós adatokkal, nevezetesen a lasso, ridge, regressziós fák, boosted fák, véletlen erdők, valamint mások segítségével.
A harmadik modul osztályozás, hipotézisvizsgálat és mélytanulás az osztályozás statisztikai módszereivel, a hipotézisvizsgálattal és annak alkalmazásaival kezdődik, beleértve a statisztikai anomáliák, csalás, spam és más rosszindulatú viselkedés felderítését. Például a bináris osztályozás, például egy e-mailt vagy spamként vagy nem spamként kategorizálnak. Bemutatásra kerülnek a neurális hálózatok, a perceptron (a bináris osztályozók felügyelt tanulására szolgáló algoritmus), a mélytanulás és ezek korlátai.
Negyedik modul Ajánlórendszerek, megtanítja, hogyan lehet hatalmas mennyiségű adatból releváns információkat felfedezni. Megtanulja, hogyan ajánlja a Netflix az új filmeket a felhasználóinak; hogyan ajánl az Amazon, a Facebook vagy a Spotify a felhasználóinak. Megismerheti az ajánlások különböző elveit és algoritmusait, a rangsorolást, a kollaboratív szűrést és a személyre szabott ajánlásokat.
Az utolsó modul, a Hálózatok és grafikus modellek segítségével megértheti egy hálózat viselkedését. Például azt, hogy hogyan terjednek az információk vagy ötletek egy közösségi hálózatban, ami nemcsak marketing szempontból releváns, hanem azt is, hogyan lehet más célokra felhasználni, például a bűncselekmények felderítésében. Megismerkedhetsz a nagy hálózatok elemzéséhez szükséges algoritmusokkal és a hálózati folyamatok modellezésének módszereivel.
Már éreztem a vizsgaszorongás szagát, pedig csak egy virtuális tanteremben voltam!
A program nagyon tetszett, mert megnyitja az ajtót a technológia ismeretlen lehetőségei előtt, amelyek folyamatosan változtak és a következő években is drámaian fogják változtatni a világunkat. Az előadók a legmagasabb színvonalon tanítanak, és mindannyiunk nevében szólva, akik vállaltuk a kurzust – őszintén mondhatjuk, hogy tanultunk valami újat.”
A tehetségét (a regresszióban és előrejelzésben való hatalmas képességei mellett) az adja, hogy csak matematikai képleteken keresztül tart előadásokat. Úgy olvassa a képleteket, mint mások a hírek címlapjait! Nem nehéz nem végső soron nem tisztelni őt. Csak miután többször is megnéztem a videót, volt némi fogalmam a tartalmáról. Az internet, különösen a matematikáról szóló YouTube-videók nagyon sokat segítettek. És pont ez a különbség. Amíg az iskolában a tanárunk csak egyszer magyarázta el a tananyagot, addig most addig gyakorolhatjuk az anyagot, ahányszor csak akarjuk, amíg a téma meg nem ragad.
A gépek felmásznak a ranglétrán, és átveszik a szellemi munkát.
Ha már túljutottál ezen a nehéz előadáson, az összes többi teljesen élvezetes, különösen a mélytanulásról szóló előadások. Annyira felnyitotta a szemem, hogy azóta kétszer is megnéztem. A mélytanulásban a fejlesztő csupán megtanítja a rendszert arra, hogyan tanuljon, és hogyan oldjon meg egy problémát. A rendszer kap egy tanító információhalmazt, hogy saját maga fedezze fel és tanuljon – a program a múltbeli adatokból tanul.
A rendszer például állatokról készült képeket és a beállított tesztben szereplő állat nevét olvassa be. Így magától megtanulja, hogyan kell felismerni egy kutyát a képeken. A rendszer pusztán a képek alapján tanulja meg, hogy milyen tulajdonságokkal rendelkezik egy kutya. Ennélfogva a számítógépek mostanra beléptek a szellemi munka területére, amely eddig pusztán az emberek által gyakorolt terület volt.
Egy ilyen algoritmus segítségével a gépek olyan munkák új osztályozását vehetik át, amelyeket korábban csak az emberek végeztek. Például az orvosi képek értelmezésénél és a rák felismerésénél, ahol a röntgenfelvételeket pusztán kutyák képei váltották fel. A tanítóhalmaz tartalmazza azt az információt, hogy a rákot észlelték-e vagy sem. A röntgenfelvételek olvasásának és értelmezésének megtanulása után a rendszer képes csökkenteni azt az időt, amelyet az orvosnak a képek elemzésével kell töltenie. A gépek felmásznak a ranglétrán, és átveszik a szellemi munkát.
A gyakorlati tapasztalatok megszerzése érdekében minden modul után esettanulmányok szerepelnek. Néhány tanulmányhoz Python vagy ‘R’ fejlesztői ismeretekre van szükség. Ha nem ismeri a programnyelveket, az esettanulmányok dokumentumai kódrészletekkel vannak alátámasztva. Például kódot adunk meg arra, hogyan olvassa be egy külső fájlból vagy hogyan vizualizálja az adatait. Gyakorlati, valós környezetben fejlesztheti készségeit. Például a Netflix ajánlórendszeréhez hasonlóan saját ajánlórendszert építesz filmekhez. Egy másik esettanulmányban a hálózatelméleti ötleteket arra használod, hogy új jelölt géneket azonosíts, amelyek autizmust okozhatnak.
A kurzus nem magas szintű, mivel a matematika általános fogalmait tanulod meg. A végétől a végéig közvetlenül implementálod a problémát, hogy valós adatokon kidolgozd a saját megoldásodat.
A kurzus egyrészt rendkívül nagy kihívást jelentett a matematikában és a programozásban való mély elmélyülés és a kizárólag hat hétre meghatározott időkeret miatt. Kielégítő volt, mert mélyen bevezet az adatok és az intelligens rendszerek világába, ami az én konkrét üzleti területem egyik fő mozgatórugója.
Másrészt azonban hátránya, hogy csak néhány hónapig van hozzáférésed a tananyaghoz, és különösen a videók esetében ez nem elég. Továbbá a videókat nem tudod letölteni, csak a szöveges fájlokat, amik nem hasznosak. A tanfolyam 2017 februárjában indul újra. A digitális átalakulásokra összpontosító tanácsadók számára mindenképpen kötelező. Jó szórakozást!
Ha szeretnél mélyebbre ásni az adattudományban:
Vizuális bevezetés a gépi tanulásba online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Egy jó könyv, amely hasonló témákat tárgyal, mint a tanfolyam:
● Foundations of Machine Learning by Mehryar Mohri and Afshin Rostamizadeh
A MIT kurzus linkje:
● https://mitprofessionalx.mit.edu/courses/
A szerzőről: Florian Hoeppner az Új IT technológiai tanácsadójaként dolgozik a Pénzügyi Szolgáltatások Észak-Amerikában. Fókuszában a vállalati agilis, DevOps, SRE a beszerzési és shoring stratégiával kombinálva. Jelenleg Florian New Yorkban éli az álmát.
Vélemény, hozzászólás?