Unterschied zwischen maschinellem Lernen, Data Science, KI, Deep Learning und Statistik – Data Science Central
On Januar 1, 2022 by adminIn diesem Artikel erläutere ich die verschiedenen Rollen des Datenwissenschaftlers und wie sich Data Science mit verwandten Bereichen wie maschinellem Lernen, Deep Learning, KI, Statistik, IoT, Operations Research und angewandter Mathematik vergleicht und überschneidet. Da es sich bei der Datenwissenschaft um ein breites Fachgebiet handelt, beschreibe ich zunächst die verschiedenen Arten von Datenwissenschaftlern, die man in jedem Unternehmen antreffen kann: Vielleicht entdecken Sie sogar, dass Sie selbst ein Datenwissenschaftler sind, ohne es zu wissen. Wie in jeder wissenschaftlichen Disziplin können Datenwissenschaftler Techniken aus verwandten Disziplinen übernehmen, obwohl wir unser eigenes Arsenal entwickelt haben, insbesondere Techniken und Algorithmen, um sehr große unstrukturierte Datensätze auf automatisierte Weise zu verarbeiten, auch ohne menschliche Interaktion, um Transaktionen in Echtzeit durchzuführen oder Vorhersagen zu treffen.
1. Verschiedene Arten von Data Scientists
Um einen Einstieg zu finden und eine historische Perspektive zu erhalten, können Sie meinen Artikel über 9 Arten von Data Scientists lesen, der 2014 veröffentlicht wurde, oder meinen Artikel, in dem ich Data Science mit 16 analytischen Disziplinen vergleiche, ebenfalls 2014 veröffentlicht.
Die folgenden Artikel, die im gleichen Zeitraum veröffentlicht wurden, sind immer noch nützlich:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
In jüngerer Zeit (August 2016) diskutierte Ajit Jaokar den Typ A (Analytics) versus Typ B (Builder) Data Scientist:
- Der Data Scientist vom Typ A kann gut genug programmieren, um mit Daten zu arbeiten, ist aber nicht unbedingt ein Experte. Der Datenwissenschaftler vom Typ A kann ein Experte für Versuchsplanung, Vorhersage, Modellierung, statistische Schlussfolgerungen oder andere Dinge sein, die typischerweise in Statistikabteilungen gelehrt werden. Im Allgemeinen besteht das Arbeitsprodukt eines Datenwissenschaftlers jedoch nicht aus „p-Werten und Konfidenzintervallen“, wie es die akademische Statistik manchmal zu suggerieren scheint (und wie es manchmal für traditionelle Statistiker, die beispielsweise in der Pharmaindustrie arbeiten, der Fall ist). Bei Google werden Data Scientists vom Typ A als Statistiker, Quantitative Analysten, Decision Support Engineering Analysten oder Data Scientists bezeichnet, und wahrscheinlich noch einige mehr.
- Data Scientist vom Typ B: Das B steht für Building. Data Scientists vom Typ B haben einen gewissen statistischen Hintergrund mit Typ A gemeinsam, sind aber auch sehr gute Programmierer und können ausgebildete Software-Ingenieure sein. Der Data Scientist vom Typ B ist hauptsächlich an der Verwendung von Daten „in der Produktion“ interessiert. Sie erstellen Modelle, die mit den Nutzern interagieren und häufig Empfehlungen ausgeben (Produkte, Personen, die Sie vielleicht kennen, Werbung, Filme, Suchergebnisse). Quelle: hier klicken.
Ich habe auch über die ABCDs der Geschäftsprozessoptimierung geschrieben, wobei D für Data Science, C für Computer Science, B für Business Science und A für Analytics Science steht. Data Science kann, muss aber nicht unbedingt Codierung oder mathematische Praxis beinhalten, wie Sie in meinem Artikel über Low-Level- versus High-Level-Data Science nachlesen können. In einem Startup tragen Datenwissenschaftler in der Regel mehrere Hüte, z. B. als Führungskraft, Data Miner, Dateningenieur oder -architekt, Forscher, Statistiker, Modellierer (wie bei der prädiktiven Modellierung) oder Entwickler.
Während der Datenwissenschaftler im Allgemeinen als Programmierer mit Erfahrung in R, Python, SQL, Hadoop und Statistik dargestellt wird, ist dies nur die Spitze des Eisbergs, die durch Datencamps populär gemacht wurde, die sich auf die Vermittlung einiger Elemente der Datenwissenschaft konzentrieren. Aber genauso wie sich ein Labortechniker als Physiker bezeichnen kann, ist der echte Physiker viel mehr als das, und seine Fachgebiete sind vielfältig: Astronomie, mathematische Physik, Kernphysik (die an Chemie grenzt), Mechanik, Elektrotechnik, Signalverarbeitung (auch ein Teilgebiet der Datenwissenschaft) und vieles mehr. Das Gleiche gilt für Datenwissenschaftler: Es gibt so unterschiedliche Bereiche wie Bioinformatik, Informationstechnologie, Simulationen und Qualitätskontrolle, Finanzinformatik, Epidemiologie, Wirtschaftsingenieurwesen und sogar Zahlentheorie.
In meinem Fall habe ich mich in den letzten 10 Jahren auf die Kommunikation von Maschine zu Maschine und Gerät zu Gerät spezialisiert und Systeme zur automatischen Verarbeitung großer Datenmengen und zur Durchführung automatischer Transaktionen entwickelt: zum Beispiel den Kauf von Internetverkehr oder die automatische Erzeugung von Inhalten. Sie beinhaltet die Entwicklung von Algorithmen, die mit unstrukturierten Daten arbeiten, und befindet sich an der Schnittstelle von KI (künstliche Intelligenz), IoT (Internet der Dinge) und Datenwissenschaft. Dies wird als Deep Data Science bezeichnet. Sie ist relativ frei von Mathematik und erfordert relativ wenig Kodierung (meist APIs), ist aber recht datenintensiv (einschließlich des Aufbaus von Datensystemen) und basiert auf brandneuer statistischer Technologie, die speziell für diesen Kontext entwickelt wurde.
Vor dieser Zeit habe ich an der Erkennung von Kreditkartenbetrug in Echtzeit gearbeitet. Zu einem früheren Zeitpunkt meiner Laufbahn (etwa 1990) arbeitete ich an einer Technologie für die Fernerkundung von Bildern, unter anderem zur Erkennung von Mustern (oder Formen oder Merkmalen, z. B. Seen) in Satellitenbildern und zur Segmentierung von Bildern: Damals wurde meine Forschung als „Computational Statistics“ bezeichnet, aber die Leute, die genau dasselbe in der Informatikabteilung nebenan an meiner Heimatuniversität taten, nannten ihre Forschung „Artificial Intelligence“. Heute würde man das als Datenwissenschaft oder künstliche Intelligenz bezeichnen, mit den Unterbereichen Signalverarbeitung, Computer Vision oder IoT.
Außerdem kann man Datenwissenschaftler überall im Lebenszyklus von datenwissenschaftlichen Projekten finden, in der Phase der Datenerfassung oder der Datenexploration, bis hin zur statistischen Modellierung und der Wartung bestehender Systeme.
2. Maschinelles Lernen versus Deep Learning
Bevor wir uns näher mit der Verbindung zwischen Data Science und maschinellem Lernen befassen, wollen wir kurz auf maschinelles Lernen und Deep Learning eingehen. Maschinelles Lernen ist eine Reihe von Algorithmen, die auf einem Datensatz trainieren, um Vorhersagen zu treffen oder Maßnahmen zu ergreifen, um bestimmte Systeme zu optimieren. So werden beispielsweise überwachte Klassifizierungsalgorithmen verwendet, um potenzielle Kunden auf der Grundlage historischer Daten als gute oder schlechte Kreditkandidaten einzustufen. Die für eine bestimmte Aufgabe (z. B. überwachtes Clustering) eingesetzten Techniken sind vielfältig: Naive Bayes, SVM, neuronale Netze, Ensembles, Assoziationsregeln, Entscheidungsbäume, logistische Regression oder eine Kombination aus vielen. Eine detaillierte Liste der Algorithmen finden Sie hier. Eine Liste von Problemen des maschinellen Lernens finden Sie hier.
All dies ist ein Teilbereich der Datenwissenschaft. Wenn diese Algorithmen automatisiert werden, wie bei der automatischen Steuerung oder bei fahrerlosen Autos, spricht man von KI, genauer gesagt, von Deep Learning. Klicken Sie hier für einen weiteren Artikel, in dem maschinelles Lernen mit Deep Learning verglichen wird. Wenn die gesammelten Daten von Sensoren stammen und über das Internet übertragen werden, handelt es sich um maschinelles Lernen oder Data Science oder Deep Learning, angewandt auf das Internet der Dinge.
Einige Leute haben eine andere Definition für Deep Learning. Sie betrachten Deep Learning als neuronale Netze (eine maschinelle Lerntechnik) mit einer tieferen Schicht. Die Frage wurde kürzlich auf Quora gestellt, und im Folgenden finden Sie eine ausführlichere Erklärung (Quelle: Quora)
- Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik, das in den 1960er Jahren entstand und sich mit der Lösung von Aufgaben befasst, die für Menschen leicht, für Computer aber schwer sind. Insbesondere wäre eine so genannte starke KI ein System, das alles kann, was ein Mensch kann (vielleicht ohne rein physikalische Dinge). Das ist ziemlich allgemein und schließt alle Arten von Aufgaben ein, wie z.B. Planen, sich in der Welt bewegen, Objekte und Geräusche erkennen, Sprechen, Übersetzen, soziale oder geschäftliche Transaktionen durchführen, kreatives Arbeiten (Kunst oder Poesie) usw.
- NLP (Natural language processing) ist einfach der Teil der KI, der mit Sprache (gewöhnlich geschrieben) zu tun hat.
- Maschinelles Lernen befasst sich mit einem Aspekt dieses Themas: Bei einem KI-Problem, das in diskreten Begriffen beschrieben werden kann (z.B. welche Aktion aus einer bestimmten Menge von Aktionen die richtige ist), und bei einer Vielzahl von Informationen über die Welt, muss herausgefunden werden, welche die „richtige“ Aktion ist, ohne dass der Programmierer sie einprogrammieren muss. In der Regel ist ein externer Prozess erforderlich, um zu beurteilen, ob die Aktion richtig war oder nicht. Mathematisch ausgedrückt handelt es sich dabei um eine Funktion: Man gibt eine Eingabe ein und möchte, dass sie die richtige Ausgabe erzeugt; das ganze Problem besteht also einfach darin, ein Modell dieser mathematischen Funktion auf automatische Weise zu erstellen. Um einen Unterschied zu KI zu machen: Wenn ich ein sehr kluges Programm schreiben kann, das sich ähnlich wie ein Mensch verhält, kann es KI sein, aber wenn seine Parameter nicht automatisch aus Daten gelernt werden, ist es kein maschinelles Lernen.
- Deep Learning ist eine Art des maschinellen Lernens, die jetzt sehr beliebt ist. Dabei handelt es sich um eine bestimmte Art von mathematischem Modell, das man sich als eine Komposition einfacher Blöcke (Funktionskomposition) eines bestimmten Typs vorstellen kann, wobei einige dieser Blöcke angepasst werden können, um das Endergebnis besser vorherzusagen.
Was ist der Unterschied zwischen maschinellem Lernen und Statistik?
Dieser Artikel versucht, diese Frage zu beantworten. Der Autor schreibt, dass Statistik maschinelles Lernen mit Konfidenzintervallen für die vorhergesagten oder geschätzten Größen ist. Ich neige dazu, dem nicht zuzustimmen, da ich ingenieursfreundliche Konfidenzintervalle erstellt habe, die keine mathematischen oder statistischen Kenntnisse erfordern.
3. Datenwissenschaft versus maschinelles Lernen
Maschinelles Lernen und Statistik sind Teil der Datenwissenschaft. Das Wort „Lernen“ in maschinellem Lernen bedeutet, dass die Algorithmen von einigen Daten abhängen, die als Trainingssatz verwendet werden, um einige Modell- oder Algorithmusparameter fein abzustimmen. Dies umfasst viele Techniken wie Regression, Naive Bayes oder überwachtes Clustering. Aber nicht alle Techniken passen in diese Kategorie. So zielt beispielsweise das unüberwachte Clustering – eine statistische und datenwissenschaftliche Technik – auf die Erkennung von Clustern und Clusterstrukturen ab, ohne dass der Klassifizierungsalgorithmus über Vorwissen oder Trainingsdaten verfügt. Ein Mensch ist erforderlich, um die gefundenen Cluster zu benennen. Einige Techniken sind hybride Verfahren, wie die halbüberwachte Klassifizierung. Einige Verfahren zur Mustererkennung oder Dichteschätzung fallen in diese Kategorie.
Datenwissenschaft ist jedoch viel mehr als maschinelles Lernen. Daten in der Datenwissenschaft können von einer Maschine oder einem maschinellen Prozess stammen oder auch nicht (Umfragedaten könnten manuell gesammelt werden, klinische Studien beinhalten eine bestimmte Art von kleinen Daten), und sie haben vielleicht nichts mit Lernen zu tun, wie ich gerade erörtert habe. Der Hauptunterschied ist jedoch die Tatsache, dass die Datenwissenschaft das gesamte Spektrum der Datenverarbeitung abdeckt, nicht nur die algorithmischen oder statistischen Aspekte. Insbesondere umfasst Data Science auch
- Datenintegration
- Verteilte Architektur
- Automatisierung von maschinellem Lernen
- Datenvisualisierung
- Dashboards und BI
- Data Engineering
- Einsatz im Produktionsmodus
- automatisiert, datengestützte Entscheidungen
In vielen Unternehmen konzentrieren sich die Datenwissenschaftler natürlich nur auf einen Teil dieses Prozesses. Um einige meiner ursprünglichen Beiträge zu Data Science zu lesen, klicken Sie hier.
Follow @analyticbridge
Um diese Art von Inhalten in Zukunft nicht zu verpassen, abonnieren Sie unseren Newsletter. Für verwandte Artikel desselben Autors klicken Sie hier oder besuchen Sie www.VincentGranville.com. Folgen Sie mir auf LinkedIn, oder besuchen Sie meine alte Webseite hier. Andere nützliche Ressourcen:
Schreibe einen Kommentar