Czego nauczyłem się z MIT Professional Education Program „Data Science: Data to Insights”
On 15 grudnia, 2021 by adminTak! Właśnie skończyłem zajęcia z Data Science z Massachusetts Institute of Technology – bardziej znanego jako MIT. Niestety, choć wciąż jeszcze nie udało mi się odwiedzić kampusu w Cambridge, Massachusetts, USA, to jednak uważam ten kurs za bardzo satysfakcjonujący Uczestniczyłem w sześciotygodniowym kursie online, w ramach programu MIT Professional Education: „Data Science: Data to Insights”. Chodzi o rozwiązywanie złożonych problemów za pomocą danych – jak wyjaśnia teaser. Temat staje się coraz bardziej aktualny w dzisiejszych czasach, ponieważ 90 procent danych na świecie powstało tylko w ciągu ostatnich kilku lat.
Pewnie zastanawiasz się, czy powinieneś wziąć udział w takich zajęciach? Myślę więc, że to sprawiedliwe, że podzielę się z tobą kilkoma spostrzeżeniami. Aby zrozumieć mój punkt widzenia, podam Ci kilka osobistych informacji na temat mojej kariery w IT i wiedzy na temat sztucznej inteligencji (AI).

Posiadam dyplom z informatyki i dodatkowo tytuł Master of Science in Digital Media. Podczas mojej edukacji AI nie było tak popularnym przedmiotem jak teraz. Jednak był to mój osobisty przedmiot zainteresowania w pracy dyplomowej w 2005 roku. Niestety, mogłem pracować tylko przez krótki czas jako programista i nie byłem w stanie pracować w innej dyscyplinie w ramach AI. Od około 10 lat koncentruję się na tematach konsultingu IT, głównie na IT-shoringu, -sourcingu i konsolidacji dostawców. Specjalnie wybrałem tę klasę online, ponieważ moją aspiracją jest zrozumienie możliwości i ograniczeń metod i technologii.
Każdemu modułowi towarzyszy 10-20 filmów (kończących się przeważnie oceną wielokrotnego wyboru) i od jednego do siedmiu studiów przypadku. Studenci otrzymują swój certyfikat i CEU (1,3) tylko po pomyślnym zakończeniu wszystkich ocen.
Aby pomyślnie ukończyć moduły, (asystenci) profesorowie zapewniają studentom kursy online, wzbogacone animacjami i wykresami. Uczestnicy mogą omawiać otwarte tematy i pytania na forum internetowym. Algorytmy i koncepcje są zawsze wyjaśniane na przykładach przemysłowych lub rzeczywistych, np. Netflix lub Facebook.
Temat „Data Science” jest podzielony na pięć modułów:
- Nadawanie sensu niestrukturalnym danym
- Regresja i predykcja
- Klasyfikacja, testowanie hipotez i głębokie uczenie
- Systemy rekomendacji
- Sieć i modele graficzne
W pierwszym module uczysz się, jak odkrywać wzorce i ukryte struktury w danych. Na przykład, jesteś w stanie dowiedzieć się, jak zorganizować wszystkie pliki tekstowe na swoim laptopie w oparciu o pewne tematy. Lub, jeśli chcesz odkryć utajone społeczności w sieci społecznej – zwany także klastrowanie – to jesteś w stanie to zrobić.
W regresji i przewidywania nacisk kładzie się na dwu-i wielowymiarowej regresji do celów przewidywania i wnioskowania przyczynowego, a następnie regresji logistycznej i nieliniowej. Dowiesz się, jak rozwiązywać problemy predykcji z danymi wielowymiarowymi, a mianowicie lasso, ridge, drzewa regresji, drzewa wzmocnione, lasy losowe, jak również inne.
Trzeci moduł Klasyfikacja, testowanie hipotez i głębokie uczenie zaczyna się od statystycznych metod klasyfikacji, testowania hipotez i ich zastosowań, w tym wykrywania anomalii statystycznych, wykrywania oszustw, spamu i innych złośliwych zachowań. Na przykład, klasyfikacja binarna, jak e-mail jest skategoryzowany jako spam lub nie spam. Zostaniesz wprowadzony do sieci neuronowych, perceptron (algorytm do nadzorowanego uczenia się klasyfikatorów binarnych), głębokie uczenie i ich ograniczenia.
Moduł czwarty Systemy rekomendacji, uczy, jak odkryć istotne informacje z ogromnych ilości danych. Dowiesz się jak Netflix rekomenduje swoim użytkownikom nowe filmy; jak Amazon, Facebook czy Spotify rekomendują swoich użytkowników. Poznasz różne zasady i algorytmy rekomendacji, rankingi, filtrowanie kolaboracyjne i spersonalizowane rekomendacje.
Ostatni moduł, Sieci i modele graficzne pozwolą Ci zrozumieć zachowanie sieci. Na przykład, jak informacje lub pomysły są rozprzestrzeniane w sieci społecznej, która jest istotna nie tylko w sensie marketingowym, ale także jak można ją wykorzystać do innych celów, na przykład do wykrywania przestępstw. Uczysz się o algorytmach do analizy dużych sieci i metodach modelowania procesów sieciowych.
Mogłem już poczuć Prüfungsangst (niepokój egzaminacyjny), a byłem tylko w wirtualnej klasie!
Naprawdę kochałem ten program, ponieważ otwiera on drzwi do nieznanych możliwości w technologii, takich, które ciągle się zmieniały i będą dalej dramatycznie zmieniać nasz świat w następnych latach. Wykładowcy uczą na najwyższym poziomie i mówiąc w imieniu nas wszystkich, którzy podjęli się tego kursu – możemy szczerze powiedzieć, że nauczyliśmy się czegoś nowego.
Jego talent, (oprócz jego ogromnych zdolności w regresji i przewidywaniu), leży w jego zdolności do prowadzenia wykładów tylko poprzez wzory matematyczne. On czyta wzory tak, jak inni czytają nagłówki wiadomości! Nie trudno nie mieć do niego najwyższego szacunku. Dopiero po wielokrotnym obejrzeniu filmu miałem JAKIEŚ pojęcie o jego treści. Internet, a zwłaszcza filmy z matematyki na YouTube były bardzo pomocne. I to jest właśnie ta różnica. Podczas gdy w szkole nasz nauczyciel wyjaśniał temat tylko raz, podczas gdy teraz możemy powtarzać materiał tak często, jak chcemy, aż temat się przyklei.
Maszyny wspinają się po drabinie i przejmują pracę umysłową.
Jeśli jesteś w stanie przebrnąć przez ten trudny wykład, wszystkie inne są absolutnie przyjemne, zwłaszcza te o głębokim uczeniu się. To był taki otwieracz oczu, że od tego czasu obejrzałem go dwa razy. W głębokim uczeniu programista jedynie uczy system, jak ma się uczyć i jak rozwiązać problem. System otrzymuje zestaw informacji nauczania, aby zbadać i uczyć się na własną rękę – program uczy się z danych z przeszłości.
Na przykład, system czyta obrazy ze zwierząt i nazwę zwierzęcia w teście, który jest ustawiony. Uczy się więc sam, jak wykryć psa na obrazkach. System uczy się, jakie cechy psa ma wyłącznie na podstawie obrazów. Stąd komputery weszły teraz w obszar pracy umysłowej, która do tej pory była jedynie obszarem wykonywanym przez ludzi.
Z tego rodzaju algorytmem, maszyny mogą przejąć nowe klasyfikacje prac, które tylko ludzie wykonywali w przeszłości. Na przykład, przy interpretacji obrazów medycznych i wykrywaniu raka, gdzie obrazy psów zostały jedynie zastąpione zdjęciami rentgenowskimi. Zestaw uczący zawiera informacje o tym, czy rak został wykryty, czy nie. Po nauczeniu się, jak czytać i interpretować zdjęcia rentgenowskie, system jest w stanie skrócić czas, jaki lekarz musi poświęcić na analizę zdjęć. Maszyny wspinają się po drabinie i przejmują pracę umysłową.
Aby zdobyć praktyczne doświadczenia, po każdym module zamieszczono studia przypadków. Dla niektórych badań trzeba umiejętności dewelopera w Pythonie lub „R”. Jeśli nie jesteś zaznajomiony z językami programowania, dokumenty w studiach przypadków są wspierane przez fragmenty kodu. Na przykład, podany jest kod jak czytać z zewnętrznego pliku lub jak wizualizować dane. Rozwijasz swoje umiejętności w praktycznym, rzeczywistym środowisku. Na przykład, zbudujesz swój własny system rekomendacji dla filmów, podobny do systemu rekomendacji Netflix. W innym studium przypadku, używasz sieciowo-teoretycznych pomysłów do identyfikacji nowych genów kandydujących, które mogą powodować autyzm.
Kurs nie jest na wysokim poziomie, ponieważ uczysz się ogólnych pojęć z matematyki. Od końca do końca bezpośrednio wdrażasz problem, aby opracować własne rozwiązanie na rzeczywistych danych.
Z jednej strony kurs był niezwykle wymagający ze względu na głębokie nurkowanie w matematyce i programowaniu oraz ustalone ramy czasowe wyłącznie sześciu tygodni. To było satysfakcjonujące, ponieważ zabiera cię w głąb świata danych i inteligentnych systemów, które są jednym z głównych czynników napędzających w moim konkretnym obszarze działalności.
Jednakże, z drugiej strony, wadą jest to, że masz tylko przez kilka miesięcy dostęp do materiałów kursu, a zwłaszcza jeśli chodzi o filmy, to nie wystarczy. Ponadto, nie można pobrać filmów, tylko pliki tekstowe, które nie są przydatne. Kurs rusza ponownie w lutym 2017 roku. Dla konsultantów koncentrujących się na cyfrowych transformacjach, jest to zdecydowanie obowiązkowa pozycja. Enjoy!
Jeśli lubisz kopać głębiej w Data Science:
Wizualne wprowadzenie do uczenia maszynowego online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Dobra książka obejmująca podobne tematy jak w kursie:
● Data Science for Business autorstwa Foster Provost, Tom Fawcett
● Foundations of Machine Learning autorstwa Mehryar Mohri i Afshin Rostamizadeh
Łącznik do kursu MIT:
● https://mitprofessionalx.mit.edu/courses/
O autorze: Florian Hoeppner pracuje jako doradca technologiczny ds. nowego IT w Financial Services North America. Jego zainteresowania skupiają się na Enterprise Agile, DevOps, SRE w połączeniu z sourcingiem i strategią shoringu. W tej chwili Florian żyje marzeniami w Nowym Jorku.
Dodaj komentarz