Datavetenskap eller statistik?
On oktober 28, 2021 by adminI Donohos (2015) artikel 50 Years of Data Science tar han upp frågan om att definiera termen ”datavetenskap” på ett meningsfullt sätt för att bättre förstå vad det är och hur det skiljer sig från andra discipliner, nämligen statistik.
Han inleder sin jämförelse med att hänvisa till statistikområdet och andra områden som datavetenskap och samhällsvetenskap, som alla tycks göra anspråk på tekniker och metoder.
Donoho argumenterar för att det som John Tukey påbörjade, och som andra förespråkade, till exempel William Cleveland och John Chambers, i själva verket var en utvidgning av statistiken för att inkludera det som vi i dag känner till som datavetenskap.
Från detta perspektiv ser de statistiken som huvudsakligen inriktad på teorin om statistik som gjorde det möjligt för någon att bygga en inferensmodell när man hade data för att veta något om den population man var intresserad av.
Dessa tidiga förespråkare för ”datavetenskap” ansåg att den samtida statistiken utelämnade betydelsen av insamling och rensning i dataprocessen.
Därtill ser vi också ett fokus på den prediktiva kraften av att tillämpa modeller på data utöver modellering i syfte att dra slutsatser från data, snarare än att använda data för att testa en teoriuppbyggd modell.
Donoho påpekar hur tydligt detta är i maskininlärningssektorn av datavetenskap, men också i många andra användningsområden. Istället för att förlita sig på statistisk teori – som krävde att det fanns en sanningsmodell som existerade i data – skedde nu ett paradigmskifte som fokuserade på att hitta mönster och flera potentiella modeller från själva datan.
Donoho hävdade att denna utvidgning möjliggjordes av tillkomsten av datorkraft och de visualiseringsförändringar som uppnåddes under de senaste 40 åren.
Från statistik till dataanalys
Som framgår av populariteten hos statistiska programvaror som SPSS, SAS och slutligen R som började dominera fältet på 1990-talet, blev beroendet av och framhävandet av dessa program synonymt med ”dataanalys” och metoderna spreds till många akademiska och kommersiella användningsområden.
På sätt och vis bidrog dessa program till att demokratisera och expandera statistiken bortom de formella ”statistiker” som har utbildning. Dessutom började praktiker i nästan alla miljöer ta itu med ”stora data” och ”datautvinning” snarare än klassiska statistiska tekniker som tidigare använts.
The Common Task Framework (CTF)
Näst viktigast var utvecklingen av Common Task Framework (CTF) som är en metodik för konkurrens. CFT kräver:
- (1) offentligt tillgängliga dataset,
- (2) konkurrenter/samarbetare som har ett gemensamt mål att härleda en förutsägelseregel från data, och
- (3) en objektiv poängsättande domare/arbiter som kan poängsätta bidragen från konkurrenterna.
CFT möjliggör datavetenskapstävlingar men har också byggt upp en kultur av öppen källkod för vetenskapliga problem med data eftersom det finns tydliga mätbara svar och överenskomna mål.
CFT och övergången till datavetenskapstekniker med öppen källkod (R, Python, Github, etc.) har varit en nödvändig drivkraft för datavetenskapsparadigmet.
En ny gren av vetenskapen
Datavetenskapen, som tydligt är något utöver statistik, omfattar nu kunskap om programmering, teknik, matematik, design och vetenskaplig metodik i nästan alla tillämpningar.
Det finns dessutom ett fokus på att implementera lösningar, för att inkludera gränssnitt för produkter och tjänster eller helt enkelt tillhandahålla datavisualisering för att presentera resultaten av det datavetenskapliga arbetet.
Detta är helt klart något mer än vad något enskilt område tidigare fokuserat på, men det är också universellt i den bemärkelsen att många områden kan anamma och dra nytta av dessa tekniker och kunskaper som tillämpas på deras specifika problem.
Som John Tukey förklarade på 1960-talet blir datavetenskapen allt viktigare i vår värld, och den sprider sig snabbt genom nästan alla aspekter av våra liv.
Lämna ett svar