Data Science czy statystyka?
On 28 października, 2021 by adminW pracy Donoho (2015), 50 Years of Data Science, podejmuje on kwestię zdefiniowania terminu „Data Science” w znaczący sposób, aby lepiej zrozumieć, czym jest i jak różni się od innych dyscyplin, a mianowicie statystyki.
Zaczyna swoje porównanie od odniesienia do dziedziny statystyki i innych dziedzin, takich jak informatyka i nauki społeczne, które wszystkie wydają się mieć roszczenia do technik i metod.
Donoho stawia tezę, że to, co rozpoczął John Tukey, a inni orędownicy, tacy jak William Cleveland i John Chambers, było naprawdę rozszerzeniem statystyki w celu włączenia tego, co znamy dzisiaj jako naukę o danych.
Z tej perspektywy, postrzegają oni statystykę jako skupiającą się głównie na teorii statystyki, która pozwoliła komuś zbudować model wnioskowania, gdy miałeś dane, aby wiedzieć coś o interesującej Cię populacji.
Te wczesne zwolenniczki „nauki o danych” uważały, że współczesna statystyka pominęła znaczenie zbierania i czyszczenia w procesie danych.
Dodatkowo, widzimy również nacisk na moc predykcyjną stosowania modeli do danych oprócz modelowania w celu wnioskowania z danych, a nie używania danych do testowania modelu zbudowanego na podstawie teorii.
Donoho wskazuje, jak wyraźne jest to w sektorze uczenia maszynowego nauki o danych, ale także w wielu innych przypadkach użycia. Zamiast polegać na teorii statystycznej – która wymagała jednego modelu prawdy istniejącego w danych – teraz nastąpiła zmiana paradygmatu, która skupiła się na znajdowaniu wzorców i wielu potencjalnych modeli z samych danych.
Donoho twierdzi, że ta ekspansja była możliwa dzięki pojawieniu się mocy obliczeniowej i zmianom w wizualizacji, które zostały osiągnięte w ciągu ostatnich 40 lat.
Od statystyki do analizy danych
Jak widać na przykładzie popularności oprogramowania statystycznego, takiego jak SPSS, SAS i wreszcie R, które zaczęło dominować w tej dziedzinie w latach 90-tych, poleganie na tych programach i ich znaczenie stało się synonimem „analizy danych”, a metody rozprzestrzeniły się na wiele zastosowań akademickich i komercyjnych.
W pewnym sensie programy te pomogły zdemokratyzować i rozszerzyć statystykę poza formalnych „statystyków” z wykształcenia. Dodatkowo, praktycy w prawie każdym otoczeniu zaczęli zajmować się „big data” i „eksploracją danych”, a nie klasycznymi technikami statystycznymi stosowanymi wcześniej.
Wspólne ramy zadań (CTF)
Kolejnym najważniejszym osiągnięciem były wspólne ramy zadań (CTF), które są metodologią konkurencji. CFT wymaga:
- (1) publicznie dostępnych zbiorów danych,
- (2) konkurentów/współpracowników, którzy mają wspólny cel wnioskowania o regule predykcyjnej z danych, oraz
- (3) obiektywnego sędziego/arbitra punktowego, który może oceniać zgłoszenia od konkurentów.
CFT pozwala na konkursy data science, ale także zbudowało kulturę otwartego pozyskiwania problemów naukowych z danymi, ponieważ istnieją jasne, wymierne odpowiedzi i uzgodnione cele.
CFT i ruch w kierunku technologii open source data science (R, Python, Github, ect.) były imperatywnym impulsem dla paradygmatu data science.
Nowa gałąź nauki
Jasno wykraczająca poza statystykę, nauka o danych obejmuje obecnie programowanie, inżynierię, matematykę, projektowanie i wiedzę z zakresu metodologii naukowej w prawie wszystkich zastosowaniach.
Dodatkowo kładzie się nacisk na wdrażanie rozwiązań, w tym interfejsów dla produktów i usług lub po prostu zapewnienie wizualizacji danych w celu przedstawienia wyników pracy w zakresie nauki o danych.
Jest to wyraźnie coś więcej niż jakakolwiek pojedyncza dziedzina skupiała się wcześniej, ale jest to również uniwersalne w tym sensie, że wiele dziedzin może przyjąć i czerpać korzyści z tych technik i wiedzy stosowanej do ich konkretnych problemów.
Jak zadeklarował John Tukey w latach 60-tych, nauka o danych staje się coraz ważniejsza w naszym świecie i szybko rozprzestrzenia się w prawie każdym aspekcie naszego życia.
.
Dodaj komentarz