Datavidenskab eller statistik?
On oktober 28, 2021 by adminI Donohos (2015) artikel 50 Years of Data Science tager han fat på spørgsmålet om at definere begrebet “datavidenskab” på en meningsfuld måde for bedre at forstå, hvad det er, og hvordan det adskiller sig fra andre discipliner, nemlig statistik.
Han indleder sin sammenligning med at henvise til statistikområdet og andre områder som f.eks. datalogi og samfundsvidenskab, som alle synes at have krav på teknikker og metoder.
Donoho argumenterer for, at det, som John Tukey begyndte, og som andre var fortalere for, f.eks. William Cleveland og John Chambers, i virkeligheden var en udvidelse af statistikken til at omfatte det, som vi i dag kender som datalogi.
Fra dette perspektiv ser de statistikken som primært fokuserende på teorien om statistik, som gjorde det muligt for nogen at opbygge en slutningsmodel, når man havde data til at vide noget om sin population af interesse.
Disse tidlige fortalere for “datavidenskab” mente, at nutidig statistik udelod vigtigheden af indsamling og rensning i dataprocessen.
Dertil kommer, at vi også ser et fokus på den forudsigelseskraft, der ligger i at anvende modeller på data ud over modellering med det formål at drage slutninger ud fra dataene, snarere end at bruge dataene til at teste en teoriopbygget model.
Donoho påpeger, hvor tydeligt dette er i maskinlæringssektoren af datavidenskab, men også i mange andre anvendelsestilfælde. I stedet for at stole på statistisk teori – som krævede, at der kun fandtes én sandhedsmodel i dataene – skete der nu et paradigmeskift, som fokuserede på at finde mønstre og flere potentielle modeller ud fra dataene selv.
Donoho hævder, at denne udvidelse blev muliggjort af fremkomsten af computerkraft og de ændringer i visualiseringen, der blev opnået i løbet af de sidste 40 år.
Fra statistik til dataanalyse
Som det fremgår af populariteten af statistisk software som SPSS, SAS og endelig R, der begyndte at dominere feltet i 1990’erne, blev afhængigheden af og fremtrædende betydning af disse programmer synonymt med “dataanalyse”, og metoderne spredte sig til mange akademiske og kommercielle anvendelser.
I en vis forstand var disse programmer med til at demokratisere og udvide statistikken ud over de formelle “statistikere” af uddannelse. Desuden begyndte praktikere i næsten alle sammenhænge at tage fat på “big data” og “data mining” i stedet for de klassiske statistiske teknikker, der tidligere var blevet anvendt.
Den fælles opgaveramme (CTF)
Den næstvigtigste udvikling var den fælles opgaveramme (CTF), som er en metode til konkurrence. CFT kræver:
- (1) offentligt tilgængelige datasæt,
- (2) konkurrenter/samarbejdspartnere, der har et fælles mål om at udlede en forudsigelsesregel af dataene, og
- (3) en objektiv pointgivende dommer/arbiter, der kan score indsendelserne fra konkurrenterne.
CFT giver mulighed for datavidenskabs-konkurrencer, men har også opbygget en kultur for open sourcing af videnskabelige problemer med data, fordi der er klare målbare svar og aftalte mål.
CFT og overgangen til open source datavidenskabsteknologier (R, Python, Github osv.) har været et afgørende skub for datavidenskabsparadigmet.
En ny gren af videnskaben
Datavidenskab er tydeligvis noget andet end statistik og omfatter nu programmering, ingeniørarbejde, matematik, design og viden om videnskabelige metoder i næsten alle anvendelser.
Der er desuden fokus på at implementere løsninger, for at inkludere grænseflader til produkter og tjenester eller blot levere datavisualisering til præsentation af resultaterne af datavidenskabsarbejdet.
Dette er helt klart noget mere end noget enkelt felt tidligere har været fokuseret på, men det er også universelt i den forstand, at mange områder kan adoptere og drage fordel af disse teknikker og viden, der anvendes på deres specifikke problemer.
Som John Tukey erklærede i 1960’erne, bliver datavidenskaben mere og mere vigtig i vores verden, og den breder sig hurtigt gennem næsten alle facetter af vores liv.
Skriv et svar