Data Science oder Statistik?
On Oktober 28, 2021 by adminIn Donohos (2015) Beitrag 50 Years of Data Science geht er der Frage nach, wie der Begriff „Data Science“ sinnvoll definiert werden kann, um besser zu verstehen, was er ist und wie er sich von anderen Disziplinen, insbesondere der Statistik, unterscheidet.
Er beginnt seinen Vergleich mit dem Bereich der Statistik und anderen Bereichen wie der Informatik und den Sozialwissenschaften, die alle einen Anspruch auf die Techniken und Methoden zu haben scheinen.
Donoho argumentiert, dass das, was John Tukey begann und andere wie William Cleveland und John Chambers vertraten, in Wirklichkeit eine Erweiterung der Statistik um das war, was wir heute als Data Science kennen.
Aus dieser Sichtweise heraus sehen sie die Statistik als eine Wissenschaft, die sich hauptsächlich auf die Theorie der Statistik konzentriert, die es einem erlaubt, ein inferentielles Modell zu erstellen, wenn man Daten hat, um etwas über die interessierende Population zu wissen.
Diese frühen Befürworter der „Datenwissenschaft“ waren der Meinung, dass die zeitgenössische Statistik die Bedeutung der Datenerfassung und -bereinigung im Datenprozess außer Acht lässt.
Neben der Modellierung mit dem Ziel, Rückschlüsse aus den Daten zu ziehen, wird auch die Vorhersagekraft der Anwendung von Modellen auf Daten in den Vordergrund gerückt, anstatt die Daten zum Testen eines theoretischen Modells zu verwenden.
Donoho weist darauf hin, wie deutlich dies im Bereich des maschinellen Lernens der Datenwissenschaft, aber auch in vielen anderen Anwendungsfällen ist. Anstatt sich auf die statistische Theorie zu verlassen – die ein einziges Wahrheitsmodell in den Daten voraussetzte – gab es nun einen Paradigmenwechsel, der sich darauf konzentrierte, Muster und mehrere potenzielle Modelle aus den Daten selbst zu finden.
Donoho behauptet, dass diese Erweiterung durch das Aufkommen der Rechenleistung und die Veränderungen in der Visualisierung, die in den letzten 40 Jahren erreicht wurden, möglich wurde.
Von der Statistik zur Datenanalyse
Durch die Popularität von Statistiksoftware wie SPSS, SAS und schließlich R, die das Feld in den 1990er Jahren zu dominieren begann, wurde der Rückgriff auf und die Bekanntheit dieser Programme zum Synonym für „Datenanalyse“ und die Methoden verbreiteten sich in vielen akademischen und kommerziellen Anwendungen.
In gewissem Sinne trugen diese Programme dazu bei, die Statistik zu demokratisieren und über die formalen „Statistiker“ hinaus zu erweitern. Außerdem begannen Praktiker in fast allen Bereichen, sich mit „Big Data“ und „Data Mining“ zu befassen, anstatt mit den zuvor verwendeten klassischen statistischen Techniken.
Das Common Task Framework (CTF)
Die nächste wichtige Entwicklung war das Common Task Framework (CTF), eine Methodik für Wettbewerbe. Das CFT erfordert:
- (1) öffentlich verfügbare Datensätze,
- (2) Wettbewerber/Kollaborateure, die ein gemeinsames Ziel verfolgen, nämlich eine Vorhersageregel aus den Daten abzuleiten, und
- (3) einen objektiven Schiedsrichter, der die Beiträge der Wettbewerber bewerten kann.
Das CFT ermöglicht Data-Science-Wettbewerbe, hat aber auch eine Kultur der offenen Beschaffung wissenschaftlicher Probleme mit Daten geschaffen, da es klare messbare Antworten und vereinbarte Ziele gibt.
Das CFT und die Entwicklung hin zu quelloffenen Data-Science-Technologien (R, Python, Github usw.) haben dem Data-Science-Paradigma einen entscheidenden Schub gegeben.
Ein neuer Wissenschaftszweig
Die Datenwissenschaft, die eindeutig über die Statistik hinausgeht, umfasst heute in fast allen Anwendungen Kenntnisse in den Bereichen Programmierung, Technik, Mathematik, Design und wissenschaftliche Methodik.
Außerdem liegt der Schwerpunkt auf der Implementierung von Lösungen, die Schnittstellen für Produkte und Dienstleistungen umfassen oder einfach nur die Datenvisualisierung zur Präsentation der Ergebnisse der Datenwissenschaft.
Dies ist eindeutig etwas, auf das sich nicht nur ein Fachgebiet konzentriert, sondern das auch in dem Sinne universell ist, dass viele Fachgebiete diese Techniken und dieses Wissen übernehmen und davon profitieren können, wenn sie auf ihre spezifischen Probleme angewandt werden.
Wie von John Tukey in den 1960er Jahren erklärt, wird die Wissenschaft der Daten in unserer Welt immer wichtiger und breitet sich schnell in fast allen Bereichen unseres Lebens aus.
Schreibe einen Kommentar