Data Science nebo statistika?
On 28 října, 2021 by adminV článku 50 let datové vědy se Donoho (2015) zabývá otázkou smysluplného vymezení pojmu „datová věda“, aby bylo možné lépe pochopit, co je to datová věda a jak se liší od jiných disciplín, konkrétně od statistiky.
Své srovnání začíná odkazem na obor statistiky a další obory, jako je informatika a společenské vědy, které si na techniky a metody zdánlivě dělají nárok.
Donoho uvádí, že to, co začal John Tukey a co prosazovali další, například William Cleveland a John Chambers, bylo ve skutečnosti rozšířením statistiky o to, co dnes známe jako datovou vědu.
Z tohoto pohledu považují statistiku za zaměřenou hlavně na teorii statistiky, která někomu umožnila sestavit inferenční model, když jste měli data, abyste se něco dozvěděli o populaci, která vás zajímá.
Tito první zastánci „vědy o datech“ se domnívali, že současná statistika opomíjí význam shromažďování a čištění v procesu zpracování dat.
Dále se také setkáváme se zaměřením na prediktivní sílu aplikace modelů na data vedle modelování za účelem vyvození závěrů z dat, spíše než použití dat k testování teoreticky vytvořeného modelu.
Donoho poukazuje na to, jak je to zřejmé v sektoru strojového učení datové vědy, ale i v mnoha dalších případech použití. Namísto spoléhání se na statistickou teorii – která vyžadovala jeden model pravdy existující v datech – nyní došlo ke změně paradigmatu, které se zaměřuje na hledání vzorců a více potenciálních modelů ze samotných dat.
Donoho tvrdí, že toto rozšíření bylo umožněno nástupem výpočetního výkonu a změnami ve vizualizaci, kterých bylo dosaženo za posledních 40 let.
Od statistiky k analýze dat
Jak je patrné z popularity statistického softwaru, jako je SPSS, SAS a nakonec R, který začal dominovat oboru v 90. letech 20. století, závislost na těchto programech a jejich význam se staly synonymem pro „analýzu dat“ a metody se rozšířily do mnoha akademických i komerčních oblastí použití.
V jistém smyslu tyto programy pomohly demokratizovat a rozšířit statistiku mimo formální „statistiky“ podle vzdělání. Kromě toho se praktici téměř v každém prostředí začali zabývat spíše „velkými daty“ a „dolováním dat“ než dříve používanými klasickými statistickými technikami.
Společný rámec úloh (CTF)
Dalším nejdůležitějším vývojem byl Společný rámec úloh (CTF), což je metodika pro soutěž. CFT vyžaduje:
- (1) veřejně dostupné datové sady,
- (2) soutěžící/spolupracovníky, kteří mají společný cíl odvodit z dat predikční pravidlo, a
- (3) objektivního bodového rozhodčího/arbitra, který může hodnotit příspěvky soutěžících.
CFT umožňuje soutěže v datové vědě, ale také vybudoval kulturu otevřeného zadávání vědeckých problémů s daty, protože existují jasné měřitelné odpovědi a dohodnuté cíle.
CFT a přechod na open source technologie datové vědy (R, Python, Github atd.) byly nezbytným impulsem pro paradigma datové vědy.
Nové odvětví vědy
Je zřejmé, že datová věda je něco více než statistika, a proto nyní zahrnuje znalosti programování, inženýrství, matematiky, designu a vědecké metodologie téměř ve všech aplikacích.
Dále je kladen důraz na implementaci řešení, aby zahrnovala rozhraní pro produkty a služby nebo jednoduše poskytovala vizualizaci dat pro prezentaci výsledků práce datové vědy.
Je to zjevně něco víc, než na co se dříve zaměřoval kterýkoli obor, ale je to také univerzální v tom smyslu, že mnoho oborů může tyto techniky a znalosti aplikovat na své specifické problémy a těžit z nich.
Jak prohlásil John Tukey v šedesátých letech minulého století, věda o datech je v našem světě stále důležitější a rychle se šíří téměř všemi aspekty našeho života.
Napsat komentář