Was ich aus dem MIT Professional Education Program „Data Science“ gelernt habe: Data to Insights“
On Dezember 15, 2021 by adminJa! Ich habe gerade einen Kurs über Data Science am Massachusetts Institute of Technology – besser bekannt als MIT – abgeschlossen. Leider muss ich den Campus in Cambridge, Massachusetts, USA, noch besuchen, aber ich fand diesen Kurs sehr lohnend und habe an einem sechswöchigen Online-Kurs, dem MIT Professional Education Programm, teilgenommen: „Data Science: Daten zu Einsichten“. Dabei geht es um die Lösung komplexer Probleme mit Ihren Daten – wie der Teaser erklärt. Das Thema wird in der heutigen Zeit immer relevanter, denn 90 Prozent der weltweiten Daten wurden erst in den letzten Jahren erstellt.
Sie fragen sich vielleicht, ob Sie einen solchen Kurs belegen sollten? Ich denke, es ist nur fair, dass ich Ihnen einige Einblicke gebe. Um meinen Standpunkt zu verstehen, gebe ich Ihnen einige persönliche Hintergrundinformationen zu meiner IT-Karriere und meinem Vorwissen über künstliche Intelligenz (KI).
Ich habe ein Diplom in Informatik und zusätzlich einen Master of Science in Digital Media. Während meiner Ausbildung war KI kein so populäres Thema wie heute. Dennoch war es mein persönlicher Schwerpunkt in meiner Diplomarbeit im Jahr 2005. Leider konnte ich nur kurze Zeit als Entwickler arbeiten und war nicht in der Lage, in einer anderen Disziplin innerhalb der KI zu arbeiten. Seit etwa 10 Jahren beschäftige ich mich mit IT-Beratungsthemen, vor allem mit IT-Shoring, -Sourcing und Vendor Consolidation. Ich habe mich gezielt für diesen Online-Kurs entschieden, weil ich die Möglichkeiten und Grenzen der Methoden und Technologien verstehen möchte.
Jedes Modul wird von 10-20 Videos (die überwiegend mit einer Multiple-Choice-Bewertung enden) und ein bis sieben Fallstudien begleitet. Die Studierenden erhalten ihr Zertifikat und die CEU (1,3) nur bei erfolgreichem Abschluss aller Prüfungen.
Um die Module erfolgreich abzuschließen, stellen (Assistenz-)Professoren den Studierenden Online-Kurse zur Verfügung, die mit Animationen und Grafiken angereichert sind. Die Teilnehmer können offene Themen und Fragen in einem Online-Forum diskutieren. Algorithmen und Konzepte werden immer anhand von Beispielen aus der Industrie oder dem wirklichen Leben erklärt, z.B. Netflix oder Facebook.
Das Thema „Data Science“ ist in fünf Module aufgeteilt:
- Making sense of unstructured Data
- Regression und Vorhersage
- Klassifikation, Hypothesentests und Deep Learning
- Empfehlungssysteme
- Vernetzung und grafische Modelle
Im ersten Modul lernst du, wie du Muster und latente Strukturen in Daten entdeckst. Sie können zum Beispiel lernen, wie Sie alle Textdateien auf Ihrem Laptop nach bestimmten Themen strukturieren können. Oder wenn Sie latente Gemeinschaften in einem sozialen Netzwerk – auch Clustering genannt – entdecken wollen, dann sind Sie dazu in der Lage.
In Regression und Vorhersage liegt der Schwerpunkt auf bivariater und multivariater Regression zum Zwecke der Vorhersage und des Kausalschlusses, gefolgt von logistischer und nichtlinearer Regression. Sie lernen, wie man Vorhersageprobleme mit hochdimensionalen Daten löst, nämlich mit Lasso, Ridge, Regressionsbäumen, Boosted Trees, Random Forests und anderen.
Das dritte Modul Klassifikation, Hypothesentest und Deep Learning beginnt mit statistischen Methoden der Klassifikation, dem Testen von Hypothesen und deren Anwendungen, einschließlich der Erkennung von statistischen Anomalien, der Erkennung von Betrug, Spam und anderem bösartigen Verhalten. Zum Beispiel die binäre Klassifizierung, bei der eine E-Mail entweder als Spam oder als Nicht-Spam kategorisiert wird. Sie erhalten eine Einführung in neuronale Netze, Perceptron (ein Algorithmus für überwachtes Lernen von binären Klassifikatoren), Deep Learning und deren Grenzen.
Modul vier Empfehlungssysteme, in dem Sie lernen, wie man relevante Informationen aus riesigen Datenmengen entdeckt. Sie lernen, wie Netflix seinen Nutzern neue Filme empfiehlt; wie Amazon, Facebook oder Spotify ihren Nutzern Empfehlungen geben. Sie lernen verschiedene Prinzipien und Algorithmen für Empfehlungen, Ranking, kollaboratives Filtern und personalisierte Empfehlungen kennen.
Das letzte Modul, Networking und grafische Modelle, lässt Sie das Verhalten eines Netzwerks verstehen. Zum Beispiel, wie sich Informationen oder Ideen in einem sozialen Netzwerk verbreiten, was nicht nur im Sinne des Marketings relevant ist, sondern auch für andere Zwecke genutzt werden könnte, zum Beispiel für die Verbrechensaufklärung. Man lernt Algorithmen zur Analyse großer Netzwerke und Methoden zur Modellierung von Netzwerkprozessen kennen.
Ich konnte die Prüfungsangst schon riechen, und dabei war ich nur in einem virtuellen Klassenzimmer!
Ich fand das Programm wirklich toll, weil es die Tür zu den unbekannten Möglichkeiten in der Technologie öffnet, die sich ständig verändert haben und unsere Welt in den nächsten Jahren weiter dramatisch verändern werden. Die Dozenten lehren auf höchstem Niveau, und ich spreche für alle, die den Kurs besucht haben – wir können ehrlich sagen, dass wir etwas Neues gelernt haben.
Sein Talent (neben seinen enormen Fähigkeiten in Regression und Vorhersage) liegt in seiner Fähigkeit, Vorlesungen nur durch mathematische Formeln zu halten. Er liest Formeln, wie andere die Schlagzeilen lesen! Es ist nicht schwer, nicht den größten Respekt vor ihm zu haben. Erst nachdem ich mir das Video mehrmals angesehen hatte, hatte ich eine Ahnung vom Inhalt. Das Internet, insbesondere die YouTube-Videos über Mathematik, waren sehr hilfreich. Und genau das ist der Unterschied. In der Schule hat unser Lehrer den Stoff nur einmal erklärt, während wir ihn jetzt so oft wiederholen können, bis das Thema hängen bleibt.
Maschinen klettern die Leiter hinauf und übernehmen die Kopfarbeit.
Wenn man diese schwierige Vorlesung überstanden hat, sind alle anderen absolut unterhaltsam, vor allem die über Deep Learning. Sie hat mir so sehr die Augen geöffnet, dass ich sie mir inzwischen zweimal angesehen habe. Beim Deep Learning bringt der Entwickler dem System lediglich bei, wie es lernt und wie es ein Problem lösen kann. Das System erhält eine Reihe von Informationen, die es selbst erforschen und erlernen kann – das Programm lernt aus vergangenen Daten.
Zum Beispiel liest das System Bilder von Tieren und den Namen des Tieres im Test, der vorgegeben ist. So lernt es selbst, wie man einen Hund auf Bildern erkennt. Das System lernt, welche Eigenschaften ein Hund hat, allein auf der Grundlage von Bildern. Damit sind Computer in den Bereich der geistigen Arbeit vorgedrungen, der bisher nur von Menschen ausgeübt wurde.
Mit dieser Art von Algorithmus können Maschinen neue Klassifizierungen von Aufgaben übernehmen, die bisher nur von Menschen ausgeführt wurden. Zum Beispiel bei der Interpretation medizinischer Bilder und der Erkennung von Krebs, wo Bilder von Hunden lediglich Röntgenbilder ersetzt haben. Der Lehrsatz enthält die Information, ob Krebs erkannt wurde oder nicht. Nachdem das System gelernt hat, die Röntgenbilder zu lesen und zu interpretieren, ist es in der Lage, die Zeit zu reduzieren, die ein Arzt für die Analyse der Bilder aufwenden muss. Maschinen klettern die Leiter hinauf und übernehmen die geistige Arbeit.
Um praktische Erfahrungen zu sammeln, sind nach jedem Modul Fallstudien enthalten. Für einige Studien benötigen Sie Entwicklerkenntnisse in Python oder ‚R‘. Wenn Sie mit diesen Programmiersprachen nicht vertraut sind, werden die Dokumente in den Fallstudien mit Codefragmenten unterstützt. Zum Beispiel wird der Code für das Einlesen einer externen Datei oder für die Visualisierung Ihrer Daten angegeben. Sie entwickeln Ihre Fähigkeiten in einem praktischen, realen Umfeld. Zum Beispiel bauen Sie Ihr eigenes Empfehlungssystem für Filme, ähnlich dem Empfehlungssystem von Netflix. In einer anderen Fallstudie verwenden Sie die netzwerktheoretischen Ideen, um neue Kandidatengene zu identifizieren, die Autismus verursachen könnten.
Der Kurs ist nicht auf hohem Niveau, da Sie die allgemeinen Konzepte der Mathematik lernen. Am Ende setzt man das Problem direkt um, um eine eigene Lösung für reale Daten zu entwickeln.
Einerseits war der Kurs extrem herausfordernd, weil man tief in die Mathematik und das Programmieren eintauchen musste und der Zeitrahmen nur sechs Wochen betrug. Es war befriedigend, weil man tief in die Welt der Daten und der intelligenten Systeme eintaucht, was in meinem Geschäftsbereich einer der wichtigsten Faktoren ist.
Der Nachteil ist jedoch, dass man nur für ein paar Monate Zugang zum Kursmaterial hat, und das ist vor allem bei den Videos nicht genug. Außerdem können Sie die Videos nicht herunterladen, sondern nur die Textdateien, die nicht nützlich sind. Der Kurs beginnt wieder im Februar 2017. Für Berater, die sich auf die digitale Transformation konzentrieren, ist er definitiv ein Muss. Viel Spaß!
Wenn Sie tiefer in Data Science einsteigen möchten:
Eine visuelle Einführung in maschinelles Lernen online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Ein gutes Buch, das ähnliche Themen wie im Kurs behandelt:
● Data Science for Business von Foster Provost, Tom Fawcett
● Foundations of Machine Learning von Mehryar Mohri und Afshin Rostamizadeh
Der Link zum MIT-Kurs:
● https://mitprofessionalx.mit.edu/courses/
Über den Autor: Florian Hoeppner ist als Technology Advisor für New IT in Financial Services North America tätig. Sein Fokus liegt auf Enterprise Agile, DevOps, SRE kombiniert mit Sourcing und Shoring Strategie. Momentan lebt Florian den Traum in New York City.
Schreibe einen Kommentar