Data Science of Statistiek?
On oktober 28, 2021 by adminIn Donoho’s (2015) paper, 50 Years of Data Science, behandelt hij de vraag om de term “Data Science” op een zinvolle manier te definiëren om beter te begrijpen wat het is, en hoe het verschilt van andere disciplines, namelijk statistiek.
Hij begint zijn vergelijking met een verwijzing naar het gebied van de statistiek en andere gebieden, zoals informatica en sociale wetenschappen, die allemaal aanspraak lijken te maken op de technieken en methoden.
Donoho maakt het geval dat wat John Tukey begon, en anderen voorstonden, zoals William Cleveland en John Chambers, eigenlijk een uitbreiding van de statistiek was met wat we vandaag kennen als data science.
Vanuit dit perspectief zien zij statistiek als voornamelijk gericht op de theorie van de statistiek die iemand in staat stelde om een inferentieel model te bouwen wanneer je gegevens had om iets te weten over je populatie van belang.
Deze vroege voorstanders van “data science” vonden dat de hedendaagse statistiek het belang van het verzamelen en opschonen in het gegevensproces wegliet.
Daarnaast zien we ook een focus op de voorspellende kracht van het toepassen van modellen op gegevens, naast het modelleren om conclusies te trekken uit de gegevens, in plaats van de gegevens te gebruiken om een door theorie gebouwd model te testen.
Donoho wijst erop hoe duidelijk dit is in de machine learning-sector van data science, maar ook in veel andere use-cases. In plaats van te vertrouwen op statistische theorie – die één model van de waarheid noodzakelijk maakte dat in de gegevens bestond – was er nu een paradigmaverschuiving die zich richtte op het vinden van patronen en meerdere potentiële modellen uit de gegevens zelf.
Donoho beweerde dat deze uitbreiding mogelijk werd gemaakt door de komst van rekenkracht en visualisatieveranderingen die in de afgelopen 40 jaar werden bereikt.
Van statistiek naar gegevensanalyse
Zoals te zien is aan de populariteit van statistische software als SPSS, SAS, en uiteindelijk R, die het vakgebied in de jaren negentig begon te domineren, werd het vertrouwen op en de bekendheid van deze programma’s synoniem met “gegevensanalyse” en verspreidden de methoden zich naar vele academische en commerciële toepassingen.
In zekere zin hielpen deze programma’s de statistiek te democratiseren en uit te breiden tot buiten de formele “statistici” van opleiding. Bovendien begonnen beoefenaars in bijna elke setting “big data” en “datamining” aan te pakken in plaats van de klassieke statistische technieken die voorheen werden gebruikt.
Het gemeenschappelijk taakkader (Common Task Framework – CTF)
De volgende belangrijkste ontwikkeling was het gemeenschappelijk taakkader (Common Task Framework – CTF), dat een methodologie voor concurrentie is. Het CTF vereist:
- (1) openbaar beschikbare datasets,
- (2) concurrenten/samenwerkers die een gemeenschappelijk doel hebben om een voorspellingsregel uit de data af te leiden, en
- (3) een objectieve scorende scheidsrechter/arbiter die de inzendingen van de concurrenten kan scoren.
De CFT maakt data science wedstrijden mogelijk, maar heeft ook een cultuur opgebouwd van open sourcing van wetenschappelijke problemen met gegevens, omdat er duidelijke meetbare antwoorden en overeengekomen doelen zijn.
De CFT en de verschuiving naar open source data science technologieën (R, Python, Github, ect.) zijn een dwingende duw geweest voor het data science paradigma.
Een nieuwe tak van wetenschap
Duidelijk iets dat verder gaat dan statistiek, omvat data science nu programmeer-, engineering-, wiskunde-, ontwerp- en wetenschappelijke methodologiekennis in bijna alle toepassingen.
Daarnaast is er een focus op het implementeren van oplossingen, om interfaces voor producten en diensten te omvatten of eenvoudigweg datavisualisatie te bieden voor het presenteren van resultaten van het data science-werk.
Dit is duidelijk iets meer dan een enkel veld was eerder gericht op, maar het is ook universeel in de zin dat veel velden kunnen adopteren en profiteren van deze technieken en kennis worden toegepast op hun specifieke problemen.
Zoals verklaard door John Tukey in de jaren 1960, de wetenschap van gegevens wordt steeds belangrijker in onze wereld, en is snel verspreiden door bijna elk facet van ons leven.
Geef een antwoord