Różnica między uczeniem maszynowym, Data Science, AI, Deep Learning i statystyką – Data Science Central
On 1 stycznia, 2022 by adminW tym artykule wyjaśniam różne role naukowca zajmującego się danymi oraz to, w jaki sposób data science porównuje się i pokrywa z pokrewnymi dziedzinami, takimi jak uczenie maszynowe, głębokie uczenie, AI, statystyka, IoT, badania operacyjne i matematyka stosowana. Ponieważ nauka o danych jest szeroką dyscypliną, zaczynam od opisania różnych typów naukowców zajmujących się danymi, z którymi można się spotkać w każdym środowisku biznesowym: możesz nawet odkryć, że sam jesteś naukowcem zajmującym się danymi, nie wiedząc o tym. Podobnie jak w każdej innej dyscyplinie naukowej, naukowcy zajmujący się danymi mogą zapożyczać techniki z pokrewnych dyscyplin, choć rozwinęliśmy nasz własny arsenał, zwłaszcza techniki i algorytmy do obsługi bardzo dużych nieustrukturyzowanych zbiorów danych w sposób zautomatyzowany, nawet bez interakcji z człowiekiem, do wykonywania transakcji w czasie rzeczywistym lub do tworzenia prognoz.
1. Różne typy naukowców danych
Aby zacząć i zyskać trochę perspektywy historycznej, możesz przeczytać mój artykuł o 9 typach naukowców danych, opublikowany w 2014 roku, lub mój artykuł, w którym porównuję naukę o danych z 16 dyscyplinami analitycznymi, również opublikowany w 2014 roku.
Poniższe artykuły, opublikowane w tym samym okresie czasu, są nadal przydatne:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Ostatnio (sierpień 2016) Ajit Jaokar omówił Type A (Analytics) versus Type B (Builder) data scientist:
- The Type A Data Scientist potrafi kodować wystarczająco dobrze, aby pracować z danymi, ale niekoniecznie jest ekspertem. Naukowiec zajmujący się danymi typu A może być ekspertem w projektowaniu eksperymentalnym, prognozowaniu, modelowaniu, wnioskowaniu statystycznym lub innych rzeczach, które są typowo nauczane w działach statystyki. Ogólnie rzecz biorąc, produktem pracy naukowca zajmującego się danymi nie są „p-wartości i przedziały ufności”, jak czasami wydaje się sugerować statystyka akademicka (i jak czasami jest w przypadku tradycyjnych statystyków pracujących na przykład w przemyśle farmaceutycznym). W Google, Data Scientists typu A są znani jako Statistician, Quantitative Analyst, Decision Support Engineering Analyst, lub Data Scientist, i prawdopodobnie jeszcze kilka innych.
- Type B Data Scientist: The B is for Building. Naukowcy zajmujący się danymi typu B mają pewne doświadczenie statystyczne z pracownikami typu A, ale są również bardzo dobrymi koderami i mogą być wyszkolonymi inżynierami oprogramowania. Data Scientist typu B jest głównie zainteresowany wykorzystaniem danych „w produkcji”. Budują modele, które wchodzą w interakcję z użytkownikami, często serwując rekomendacje (produktów, osób, które możesz znać, reklam, filmów, wyników wyszukiwania). Źródło: kliknij tutaj.
Pisałem też o ABCD’s optymalizacji procesów biznesowych, gdzie D oznacza data science, C – informatykę, B – biznes science, a A – analytics science. Nauka o danych może, ale nie musi wiązać się z kodowaniem lub praktyką matematyczną, jak można przeczytać w moim artykule na temat niskopoziomowej i wysokopoziomowej nauki o danych. W startupie naukowcy zajmujący się danymi zazwyczaj noszą kilka kapeluszy, takich jak dyrektor wykonawczy, górnik danych, inżynier danych lub architekt, badacz, statystyk, modeler (jak w modelowaniu predykcyjnym) lub programista.
Podczas gdy naukowiec zajmujący się danymi jest ogólnie przedstawiany jako koder doświadczony w R, Pythonie, SQL, Hadoop i statystykach, jest to tylko wierzchołek góry lodowej, spopularyzowany przez obozy danych skupiające się na nauczaniu niektórych elementów nauki o danych. Ale tak jak laborant może nazywać siebie fizykiem, tak prawdziwy fizyk jest kimś więcej, a jego domeny są bardzo zróżnicowane: astronomia, fizyka matematyczna, fizyka jądrowa (która jest z pogranicza chemii), mechanika, elektrotechnika, przetwarzanie sygnałów (również subdziedzina data science) i wiele innych. To samo można powiedzieć o naukowcach zajmujących się danymi: dziedziny są tak różnorodne jak bioinformatyka, technologia informacyjna, symulacje i kontrola jakości, finanse obliczeniowe, epidemiologia, inżynieria przemysłowa, a nawet teoria liczb.
W moim przypadku, w ciągu ostatnich 10 lat, specjalizowałem się w komunikacji machine-to-machine i device-to-device, opracowując systemy do automatycznego przetwarzania dużych zbiorów danych, do przeprowadzania zautomatyzowanych transakcji: na przykład, zakup ruchu internetowego lub automatyczne generowanie treści. Wiąże się to z opracowywaniem algorytmów, które pracują z nieustrukturyzowanymi danymi i znajduje się na przecięciu AI (sztucznej inteligencji), IoT (Internetu rzeczy) i nauki o danych. Określa się to mianem deep data science. Jest ona stosunkowo wolna od matematyki i wymaga stosunkowo niewiele kodowania (głównie API), ale jest dość intensywnie wykorzystująca dane (w tym budowanie systemów danych) i oparta na zupełnie nowej technologii statystycznej zaprojektowanej specjalnie dla tego kontekstu.
Przedtem pracowałem nad wykrywaniem oszustw z użyciem kart kredytowych w czasie rzeczywistym. Wcześniej w mojej karierze (około 1990 roku) pracowałem nad technologią teledetekcji obrazu, między innymi w celu identyfikacji wzorców (lub kształtów lub cech, na przykład jezior) na zdjęciach satelitarnych i przeprowadzania segmentacji obrazu: w tym czasie moje badania były oznaczone jako statystyka obliczeniowa, ale ludzie robiący dokładnie to samo w dziale informatyki obok w moim rodzinnym uniwersytecie, nazywali swoje badania sztuczną inteligencją. Dziś nazywałoby się to nauką o danych lub sztuczną inteligencją, a subdomenami są przetwarzanie sygnałów, wizja komputerowa lub IoT.
Naukowców zajmujących się danymi można znaleźć wszędzie w cyklu życia projektów nauki o danych, na etapie zbierania danych lub etapie eksploracji danych, aż po modelowanie statystyczne i utrzymanie istniejących systemów.
2. uczenie maszynowe kontra głębokie uczenie
Zanim zagłębimy się w związek między nauką o danych a uczeniem maszynowym, omówmy pokrótce uczenie maszynowe i głębokie uczenie. Uczenie maszynowe to zestaw algorytmów, które trenują na zbiorze danych, aby dokonać przewidywań lub podjąć działania w celu optymalizacji niektórych systemów. Na przykład, nadzorowane algorytmy klasyfikacji są używane do klasyfikowania potencjalnych klientów na dobre lub złe perspektywy, do celów kredytowych, na podstawie danych historycznych. Techniki stosowane do danego zadania (np. nadzorowane grupowanie) są różne: naiwny Bayes, SVM, sieci neuronowe, zespoły, reguły asocjacyjne, drzewa decyzyjne, regresja logistyczna lub kombinacja wielu z nich. Szczegółowa lista algorytmów znajduje się tutaj. Aby uzyskać listę problemów związanych z uczeniem maszynowym, kliknij tutaj.
Wszystko to jest podzbiorem nauki o danych. Kiedy te algorytmy są zautomatyzowane, jak w automatycznym pilotażu lub samochodach bez kierowcy, nazywa się to AI, a dokładniej głębokie uczenie. Kliknij tutaj, aby przeczytać inny artykuł porównujący uczenie maszynowe z głębokim uczeniem. Jeśli zebrane dane pochodzą z czujników i jeśli są przesyłane przez Internet, to jest to uczenie maszynowe lub nauka o danych lub głębokie uczenie stosowane do IoT.
Niektórzy ludzie mają inną definicję głębokiego uczenia się. Uważają głębokie uczenie się za sieci neuronowe (technika uczenia maszynowego) z głębszą warstwą. Pytanie zostało zadane na Quora niedawno, a poniżej znajduje się bardziej szczegółowe wyjaśnienie (źródło: Quora)
- AI (sztuczna inteligencja) to poddziedzina informatyki, która powstała w latach 60. i była (jest) zainteresowana rozwiązywaniem zadań, które są łatwe dla ludzi, ale trudne dla komputerów. W szczególności, tak zwane silne AI byłoby systemem, który może zrobić wszystko, co człowiek może (być może bez czysto fizycznych rzeczy). Jest to dość ogólne i obejmuje wszystkie rodzaje zadań, takich jak planowanie, poruszanie się w świecie, rozpoznawanie obiektów i dźwięków, mówienie, tłumaczenie, przeprowadzanie transakcji społecznych lub biznesowych, praca twórcza (tworzenie sztuki lub poezji), itp.
- NLP (Natural language processing) jest po prostu częścią AI, która ma do czynienia z językiem (zwykle pisanym).
- Uczenie maszynowe zajmuje się jednym z aspektów tego: biorąc pod uwagę jakiś problem AI, który można opisać w kategoriach dyskretnych (np. z określonego zestawu działań, które z nich jest właściwe), i biorąc pod uwagę wiele informacji o świecie, dowiedzieć się, co jest „poprawnym” działaniem, bez konieczności programowania go przez programistę. Zazwyczaj jakiś zewnętrzny proces jest potrzebny, aby ocenić, czy akcja była poprawna, czy nie. W terminologii matematycznej jest to funkcja: podajesz jakieś dane wejściowe i chcesz, aby wytworzyły one właściwe wyjście, więc cały problem polega po prostu na zbudowaniu modelu tej funkcji matematycznej w jakiś automatyczny sposób. Aby dokonać rozróżnienia z AI, jeśli mogę napisać bardzo sprytny program, który ma ludzkie zachowanie, może to być AI, ale jeśli jego parametry nie są automatycznie uczone z danych, to nie jest to uczenie maszynowe.
- Głębokie uczenie jest jednym z rodzajów uczenia maszynowego, które jest teraz bardzo popularne. Obejmuje on szczególny rodzaj modelu matematycznego, o którym można myśleć jako o kompozycji prostych bloków (kompozycji funkcji) pewnego typu, i w którym niektóre z tych bloków można dostosować, aby lepiej przewidzieć ostateczny wynik.
Jaka jest różnica między uczeniem maszynowym a statystyką?
Ten artykuł próbuje odpowiedzieć na to pytanie. Autor pisze, że statystyka to uczenie maszynowe z przedziałami ufności dla przewidywanych lub szacowanych wielkości. Mam tendencję do nie zgadzania się, ponieważ zbudowałem przyjazne dla inżynierów przedziały ufności, które nie wymagają żadnej wiedzy matematycznej ani statystycznej.
3. Nauka o danych kontra uczenie maszynowe
Uczenie maszynowe i statystyka są częścią nauki o danych. Słowo uczenie się w uczeniu maszynowym oznacza, że algorytmy zależą od pewnych danych, używanych jako zestaw treningowy, w celu dostrojenia niektórych parametrów modelu lub algorytmu. Obejmuje to wiele technik, takich jak regresja, naiwna Bayes czy nadzorowana klasteryzacja. Jednak nie wszystkie techniki pasują do tej kategorii. Na przykład, klasteryzacja nienadzorowana – technika statystyczna i nauka o danych – ma na celu wykrycie skupisk i struktur skupisk bez żadnej wiedzy a-priori lub zestawu treningowego, aby pomóc algorytmowi klasyfikacji. Do oznaczania znalezionych klastrów potrzebny jest człowiek. Niektóre techniki są hybrydowe, takie jak klasyfikacja częściowo nadzorowana. Niektóre techniki wykrywania wzorców lub szacowania gęstości mieszczą się w tej kategorii.
Data science to znacznie więcej niż uczenie maszynowe. Dane, w nauce o danych, mogą lub nie mogą pochodzić z maszyny lub procesu mechanicznego (dane ankietowe mogą być zbierane ręcznie, badania kliniczne obejmują szczególny rodzaj małych danych) i może nie mieć nic wspólnego z uczeniem się, jak właśnie omówiłem. Główna różnica polega jednak na tym, że nauka o danych obejmuje całe spektrum przetwarzania danych, a nie tylko aspekty algorytmiczne czy statystyczne. W szczególności, nauka o danych obejmuje również
- integrację danych
- architekturę rozproszoną
- automatyzację uczenia maszynowego
- wizualizację danych
- tablice i BI
- inżynierię danych
- wdrożenie w trybie produkcyjnym
- automatyzację, decyzje oparte na danych
Oczywiście, w wielu organizacjach naukowcy zajmujący się danymi skupiają się tylko na jednej części tego procesu. Aby przeczytać o niektórych z moich oryginalnych wkładów w naukę o danych, kliknij tutaj.
Follow @analyticbridge
Aby nie przegapić tego typu treści w przyszłości, zapisz się do naszego newslettera. Aby znaleźć powiązane artykuły tego samego autora, kliknij tutaj lub odwiedź stronę www.VincentGranville.com. Śledź mnie na LinkedIn, lub odwiedź moją starą stronę internetową tutaj. Inne przydatne zasoby:
Dodaj komentarz