Adattudomány vagy statisztika?
On október 28, 2021 by adminDonoho (2015) 50 Years of Data Science című tanulmányában az “Adattudomány” kifejezés értelmes meghatározásának kérdésével foglalkozik, hogy jobban megértsük, mi is ez, és miben különbözik más tudományágaktól, nevezetesen a statisztikától.
Összehasonlítását a statisztika és más területek, például az informatika és a társadalomtudományok összehasonlításával kezdi, amelyek látszólag mind igényt tartanak a technikákra és módszerekre.
Donoho azt állítja, hogy amit John Tukey elkezdett, és mások, például William Cleveland és John Chambers is szorgalmaztak, az valójában a statisztika kiterjesztése volt arra, amit ma adattudományként ismerünk.
Erről a nézőpontról úgy tekintenek a statisztikára, mint ami elsősorban a statisztika elméletére összpontosít, amely lehetővé tette valakinek, hogy következtetési modellt építsen, amikor már rendelkezett adatokkal, hogy tudjon valamit az érdeklődési körébe tartozó populációról.
Az “adattudomány” e korai támogatói úgy gondolták, hogy a kortárs statisztika kihagyta az adatgyűjtés és -tisztítás fontosságát az adatfeldolgozás során.
Kiegészítésképpen azt is látjuk, hogy a modellek adatokra való alkalmazásának előrejelző erejére összpontosítanak a modellezés mellett azért, hogy következtetéseket vonjanak le az adatokból, ahelyett, hogy az adatokat egy elméletből felépített modell tesztelésére használnák.
Donoho rámutat arra, hogy ez mennyire egyértelmű az adattudomány gépi tanulási ágazatában, de sok más felhasználási esetben is. A statisztikai elméletre való támaszkodás helyett – amely az adatokban létező egyetlen igazságmodellt tett szükségessé – most egy olyan paradigmaváltás következett be, amely arra összpontosított, hogy magukból az adatokból mintákat és több lehetséges modellt találjanak.
Donoho azt állította, hogy ezt a bővülést a számítási teljesítmény és a vizualizációs változások megjelenése tette lehetővé, amelyeket az elmúlt 40 évben értek el.
A statisztikától az adatelemzésig
Mint az olyan statisztikai szoftverek népszerűségén keresztül látható, mint az SPSS, a SAS és végül az R, amelyek az 1990-es években kezdték uralni a területet, ezeknek a programoknak a használata és kiemelkedő szerepe az “adatelemzés” szinonimájává vált, és a módszerek számos tudományos és kereskedelmi felhasználásra terjedtek el.
Ezek a programok bizonyos értelemben segítették a statisztika demokratizálását és kiterjesztését a formális “statisztikus” képzésen túlra. Emellett a gyakorlati szakemberek szinte minden környezetben elkezdtek foglalkozni a “nagy adatokkal” és az “adatbányászattal” a korábban használt klasszikus statisztikai technikák helyett.
A közös feladatkeret (CTF)
A következő legfontosabb fejlesztés a Common Task Framework (CTF) volt, amely egy versenymódszertan. A CFT megköveteli:
- (1) nyilvánosan elérhető adathalmazokat,
- (2) versenyzőket/együttműködőket, akiknek közös céljuk, hogy az adatokból egy előrejelzési szabályt következtessenek, és
- (3) egy objektív pontozóbírót/kritikust, aki pontozni tudja a versenyzők beadványait.
A CFT lehetővé teszi az adattudományi versenyeket, ugyanakkor az adatokkal kapcsolatos tudományos problémák nyílt forráskódú megoldásának kultúráját is kialakította, mivel egyértelmű, mérhető válaszok és egyeztetett célok állnak rendelkezésre.
A CFT és a nyílt forráskódú adattudományi technológiák (R, Python, Github, stb.) felé való elmozdulás az adattudományi paradigma elengedhetetlen lökést adott.
A tudomány új ága
Az adattudomány ma már egyértelműen túlmutat a statisztikán, és szinte minden alkalmazásban magában foglalja a programozási, mérnöki, matematikai, tervezési és tudományos módszertani ismereteket.
Az adattudomány emellett a megoldások megvalósítására is összpontosít, beleértve a termékek és szolgáltatások interfészeit vagy egyszerűen az adatok vizualizációját az adattudományi munka eredményeinek bemutatására.
Ez egyértelműen több, mint amire korábban bármelyik terület fókuszált, de univerzális is abban az értelemben, hogy számos terület átveheti és hasznot húzhat abból, ha ezeket a technikákat és ismereteket sajátos problémáira alkalmazzák.
Amint azt John Tukey az 1960-as években kijelentette, az adatok tudománya egyre fontosabbá válik a világunkban, és gyorsan terjed életünk szinte minden területén.
Vélemény, hozzászólás?