Skip to content

Archives

  • styczeń 2022
  • grudzień 2021
  • listopad 2021
  • październik 2021
  • wrzesień 2021

Categories

  • Brak kategorii
Trend RepositoryArticles and guides
Articles

Data Science czy statystyka?

On 28 października, 2021 by admin

W pracy Donoho (2015), 50 Years of Data Science, podejmuje on kwestię zdefiniowania terminu „Data Science” w znaczący sposób, aby lepiej zrozumieć, czym jest i jak różni się od innych dyscyplin, a mianowicie statystyki.

Zaczyna swoje porównanie od odniesienia do dziedziny statystyki i innych dziedzin, takich jak informatyka i nauki społeczne, które wszystkie wydają się mieć roszczenia do technik i metod.

Donoho stawia tezę, że to, co rozpoczął John Tukey, a inni orędownicy, tacy jak William Cleveland i John Chambers, było naprawdę rozszerzeniem statystyki w celu włączenia tego, co znamy dzisiaj jako naukę o danych.

Z tej perspektywy, postrzegają oni statystykę jako skupiającą się głównie na teorii statystyki, która pozwoliła komuś zbudować model wnioskowania, gdy miałeś dane, aby wiedzieć coś o interesującej Cię populacji.

Te wczesne zwolenniczki „nauki o danych” uważały, że współczesna statystyka pominęła znaczenie zbierania i czyszczenia w procesie danych.

Dodatkowo, widzimy również nacisk na moc predykcyjną stosowania modeli do danych oprócz modelowania w celu wnioskowania z danych, a nie używania danych do testowania modelu zbudowanego na podstawie teorii.

Donoho wskazuje, jak wyraźne jest to w sektorze uczenia maszynowego nauki o danych, ale także w wielu innych przypadkach użycia. Zamiast polegać na teorii statystycznej – która wymagała jednego modelu prawdy istniejącego w danych – teraz nastąpiła zmiana paradygmatu, która skupiła się na znajdowaniu wzorców i wielu potencjalnych modeli z samych danych.

Donoho twierdzi, że ta ekspansja była możliwa dzięki pojawieniu się mocy obliczeniowej i zmianom w wizualizacji, które zostały osiągnięte w ciągu ostatnich 40 lat.

Od statystyki do analizy danych

Jak widać na przykładzie popularności oprogramowania statystycznego, takiego jak SPSS, SAS i wreszcie R, które zaczęło dominować w tej dziedzinie w latach 90-tych, poleganie na tych programach i ich znaczenie stało się synonimem „analizy danych”, a metody rozprzestrzeniły się na wiele zastosowań akademickich i komercyjnych.

W pewnym sensie programy te pomogły zdemokratyzować i rozszerzyć statystykę poza formalnych „statystyków” z wykształcenia. Dodatkowo, praktycy w prawie każdym otoczeniu zaczęli zajmować się „big data” i „eksploracją danych”, a nie klasycznymi technikami statystycznymi stosowanymi wcześniej.

Wspólne ramy zadań (CTF)

Kolejnym najważniejszym osiągnięciem były wspólne ramy zadań (CTF), które są metodologią konkurencji. CFT wymaga:

  • (1) publicznie dostępnych zbiorów danych,
  • (2) konkurentów/współpracowników, którzy mają wspólny cel wnioskowania o regule predykcyjnej z danych, oraz
  • (3) obiektywnego sędziego/arbitra punktowego, który może oceniać zgłoszenia od konkurentów.

CFT pozwala na konkursy data science, ale także zbudowało kulturę otwartego pozyskiwania problemów naukowych z danymi, ponieważ istnieją jasne, wymierne odpowiedzi i uzgodnione cele.

CFT i ruch w kierunku technologii open source data science (R, Python, Github, ect.) były imperatywnym impulsem dla paradygmatu data science.

Nowa gałąź nauki

Jasno wykraczająca poza statystykę, nauka o danych obejmuje obecnie programowanie, inżynierię, matematykę, projektowanie i wiedzę z zakresu metodologii naukowej w prawie wszystkich zastosowaniach.

Dodatkowo kładzie się nacisk na wdrażanie rozwiązań, w tym interfejsów dla produktów i usług lub po prostu zapewnienie wizualizacji danych w celu przedstawienia wyników pracy w zakresie nauki o danych.

Jest to wyraźnie coś więcej niż jakakolwiek pojedyncza dziedzina skupiała się wcześniej, ale jest to również uniwersalne w tym sensie, że wiele dziedzin może przyjąć i czerpać korzyści z tych technik i wiedzy stosowanej do ich konkretnych problemów.

Jak zadeklarował John Tukey w latach 60-tych, nauka o danych staje się coraz ważniejsza w naszym świecie i szybko rozprzestrzenia się w prawie każdym aspekcie naszego życia.

.

Dodaj komentarz Anuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Archiwa

  • styczeń 2022
  • grudzień 2021
  • listopad 2021
  • październik 2021
  • wrzesień 2021

Meta

  • Zaloguj się
  • Kanał wpisów
  • Kanał komentarzy
  • WordPress.org
  • DeutschDeutsch
  • NederlandsNederlands
  • SvenskaSvenska
  • DanskDansk
  • EspañolEspañol
  • FrançaisFrançais
  • PortuguêsPortuguês
  • ItalianoItaliano
  • RomânăRomână
  • PolskiPolski
  • ČeštinaČeština
  • MagyarMagyar
  • SuomiSuomi
  • 日本語日本語

Copyright Trend Repository 2022 | Theme by ThemeinProgress | Proudly powered by WordPress