Co jsem se naučil na odborném vzdělávacím programu MIT „Datová věda:
On 15 prosince, 2021 by adminAno! Právě jsem dokončil kurz o datové vědě z Massachusettského technologického institutu – známějšího jako MIT. Bohužel se mi sice ještě nepodařilo navštívit kampus v Cambridge ve státě Massachusetts v USA, ale tento kurz byl pro mě velmi přínosný Účastnil jsem se šestitýdenního online kurzu, programu MIT Professional Education: „Data Science: MIT: Data to Insights“. Jde o řešení složitých problémů pomocí dat – jak vysvětluje upoutávka. Téma je v dnešní době stále aktuálnější, protože 90 procent světových dat bylo vytvořeno teprve v posledních několika letech.
Přemýšlíte možná, zda byste takový kurz měli absolvovat? Tak si myslím, že je fér, abych se s vámi podělil o pár postřehů. Abyste pochopili můj pohled na věc, poskytnu vám několik osobních informací o své kariéře v oblasti informačních technologií a předzvěsti umělé inteligence (AI).
Mám diplom z informatiky a navíc mám magisterský titul z digitálních médií. V době mého vzdělávání nebyla umělá inteligence tak populárním předmětem jako nyní. V roce 2005 jsem se jí však osobně věnoval ve své diplomové práci. Bohužel jsem mohl jen krátce pracovat jako vývojář a nebyl jsem schopen pracovat v jiném oboru v rámci AI. Již zhruba 10 let se věnuji tématům poradenství v oblasti IT, především IT-shoringu, -sourcingu a konsolidaci dodavatelů. Konkrétně jsem si vybral tento online kurz, protože mou snahou je pochopit možnosti a omezení metod a technologií.
Každý modul je doprovázen 10-20 videi (zakončenými převážně hodnocením s výběrem odpovědi) a jednou až sedmi případovými studiemi. Certifikát a CEU (1,3) získají studenti až po úspěšném absolvování všech hodnocení.
Pro úspěšné absolvování modulů poskytují (asistenti) profesorům online kurzy obohacené o animace a grafy. Účastníci mohou diskutovat o otevřených tématech a otázkách v online fóru. Algoritmy a koncepty jsou vždy vysvětlovány na průmyslových nebo reálných příkladech, tj. na příkladu Netflixu nebo Facebooku.
Téma „Data Science“ je rozděleno do pěti modulů:
- Dávání smyslu nestrukturovaným datům
- Regrese a predikce
- Klasifikace, testování hypotéz a hluboké učení
- Rekomendační systémy
- Síťové a grafické modely
V prvním modulu se naučíte objevovat vzory a latentní struktury v datech. Jste například schopni naučit se strukturovat všechny textové soubory v notebooku na základě určitých motivů. Nebo chcete-li objevit latentní komunity v sociální síti – nazývané také shlukování – pak jste schopni tak učinit.
V oblasti regrese a predikce je kladen důraz na bivariační a multivariační regresi pro účely predikce a kauzální inference, následuje logistická a nelineární regrese. Naučíte se řešit predikční problémy s vysokorozměrnými daty, konkrétně lasso, ridge, regresní stromy, boostované stromy, náhodné lesy i další.
Třetí modul Klasifikace, testování hypotéz a hluboké učení začíná statistickými metodami klasifikace, testováním hypotéz a jejich aplikacemi, včetně detekce statistických anomálií, odhalování podvodů, spamu a jiného škodlivého chování. Například binární klasifikace, jako je e-mail, který je kategorizován jako spam nebo není spam. Seznámíte se s neuronovými sítěmi, perceptronem (algoritmus pro učení binárních klasifikátorů pod dohledem), hlubokým učením a jejich omezeními.
Čtvrtý modul Doporučovací systémy, vás naučí, jak objevit relevantní informace z obrovského množství dat. Dozvíte se, jak Netflix doporučuje svým uživatelům nové filmy; jak Amazon, Facebook nebo Spotify doporučují svým uživatelům. Naučíte se různé principy a algoritmy pro doporučování, řazení, kolaborativní filtrování a personalizovaná doporučení.
Poslední modul, Sítě a grafické modely, vám umožní pochopit chování sítě. Například jak se šíří informace nebo myšlenky v sociální síti, což je důležité nejen v marketingovém smyslu, ale také jak by se to dalo využít k jiným účelům, například při odhalování trestné činnosti. Dozvíte se o algoritmech pro analýzu rozsáhlých sítí a metodách modelování síťových procesů.
Už jsem cítil Prüfungsangst (úzkost ze zkoušky), a to jsem byl jen ve virtuální učebně!“
Program se mi opravdu líbil, protože otevírá dveře k nepoznaným možnostem v oblasti technologií, které se neustále mění a budou v příštích letech dramaticky měnit náš svět. Lektoři vyučují na nejvyšší úrovni a mluvím za nás všechny, kteří jsme kurz absolvovali – můžeme upřímně říci, že jsme se naučili něco nového.
Jeho talent (kromě obrovských schopností v oblasti regrese a predikce) spočívá ve schopnosti přednášet pouze prostřednictvím matematických vzorců. Čte vzorce stejně, jako jiní čtou novinové titulky! Není těžké nemít k němu konečný respekt. Teprve poté, co jsem video zhlédl mnohokrát, jsem měl NĚJAKOU představu o jeho obsahu. Velmi mi pomohl internet, speciálně videa na YouTube o matematice. A to je právě ten rozdíl. Zatímco ve škole nám učitel vysvětloval látku jen jednou, zatímco teď si ji můžeme opakovat tak často, dokud nám téma nezůstane v paměti.
Stroje šplhají po žebříčku a přebírají duševní práci.
Když jste schopni překonat tuto náročnou přednášku, všechny ostatní jsou naprosto příjemné, zejména ty o hlubokém učení. Byla to přednáška, která mi tak otevřela oči, že jsem si ji od té doby pustil dvakrát. V hlubokém učení vývojář pouze učí systém, jak se učit a jak řešit problém. Systém dostává učební sadu informací, které má sám zkoumat a učit se – program se učí z minulých dat.
Například systém čte obrázky zvířat a jméno zvířete v testu, který je zadán. Sám se tedy učí, jak detekovat psa na obrázcích. Systém se učí, jaké vlastnosti má pes, čistě na základě obrázků. Počítače tedy nyní vstoupily do oblasti duševní práce, která byla dosud pouhou oblastí vykonávanou lidmi.
S tímto druhem algoritmu mohou stroje převzít nové klasifikace prací, které v minulosti vykonávali pouze lidé. Například při interpretaci lékařských snímků a odhalování rakoviny, kde snímky psů pouze nahradily rentgenové snímky. Učební soubor obsahuje informaci o tom, zda byla rakovina zjištěna, nebo ne. Poté, co se systém naučí číst a interpretovat rentgenové snímky, je schopen zkrátit čas, který musí lékař věnovat analýze snímků. Stroje stoupají po žebříčku a přebírají duševní práci.
Pro získání praktických zkušeností jsou po každém modulu zařazeny případové studie. Pro některé studie budete potřebovat vývojářské dovednosti v jazyce Python nebo „R“. Pokud tyto programovací jazyky neznáte, jsou dokumenty v případových studiích doplněny úryvky kódu. Například je uveden kód, jak číst z externího souboru nebo jak vizualizovat data. Své dovednosti tak rozvíjíte v praktickém prostředí reálného světa. Například vytvoříte vlastní doporučovací systém pro filmy, podobný doporučovacímu systému od Netflixu. V jiné případové studii využijete myšlenky teorie sítí k identifikaci nových kandidátních genů, které by mohly způsobovat autismus.
Kurz není na vysoké úrovni, protože se učíte obecné pojmy v matematice. Od konce do konce přímo implementujete problém a vyvíjíte vlastní řešení na reálných datech.
Na jedné straně byl kurz nesmírně náročný kvůli hlubokému ponoru do matematiky a programování a pevnému časovému rámci výhradně šesti týdnů. Bylo to uspokojivé, protože vás to zavede hluboko do světa dat a inteligentních systémů, což je jeden z hlavních hnacích motorů v mé konkrétní oblasti podnikání.
Na druhou stranu je však nevýhodou, že k materiálům kurzu máte přístup pouze po dobu několika měsíců, a zejména pokud jde o videa, je to málo. Navíc si videa nemůžete stáhnout, pouze textové soubory, které nejsou k ničemu. Kurz začíná znovu v únoru 2017. Pro konzultanty zaměřené na digitální transformace je to určitě nutnost. Přejeme příjemnou zábavu!
Pokud chcete proniknout do problematiky Data Science hlouběji:
Vizuální úvod do strojového učení online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Dobrá kniha pokrývající podobná témata jako v kurzu:
● Data Science for Business od Fostera Provosta, Toma Fawcetta
● Foundations of Machine Learning od Mehryara Mohriho a Afshina Rostamizadeha
Odkaz na kurz MIT:
● https://mitprofessionalx.mit.edu/courses/
O autorovi: Florian Hoeppner pracuje jako technologický poradce pro nové IT ve finančních službách v Severní Americe. Zaměřuje se na podnikové agilní řešení, DevOps, SRE v kombinaci se strategií sourcingu a shoringu. V současné době žije Florian svůj sen v New Yorku.
Napsat komentář