Verschil tussen Machine Learning, Data Science, AI, Deep Learning en Statistiek – Data Science Central
On januari 1, 2022 by adminIn dit artikel verduidelijk ik de verschillende rollen van de data scientist, en hoe data science zich verhoudt tot en overlapt met verwante vakgebieden zoals machine learning, deep learning, AI, statistiek, IoT, operations research, en toegepaste wiskunde. Aangezien data science een brede discipline is, begin ik met het beschrijven van de verschillende soorten data scientists die je in elke zakelijke setting kunt tegenkomen: misschien ontdek je zelfs dat je zelf een data scientist bent, zonder dat je het weet. Zoals in elke wetenschappelijke discipline kunnen datawetenschappers technieken lenen uit verwante disciplines, hoewel we ons eigen arsenaal hebben ontwikkeld, met name technieken en algoritmen om zeer grote ongestructureerde datasets op geautomatiseerde wijze te verwerken, zelfs zonder menselijke interactie, om transacties in realtime uit te voeren of om voorspellingen te doen.
1. Verschillende soorten datawetenschappers
Om te beginnen en wat historisch perspectief te krijgen, kunt u mijn artikel lezen over 9 soorten datawetenschappers, gepubliceerd in 2014, of mijn artikel waarin ik datawetenschap vergelijk met 16 analytische disciplines, ook gepubliceerd in 2014.
De volgende artikelen, gepubliceerd in dezelfde periode, zijn nog steeds nuttig:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Meer recent (augustus 2016) besprak Ajit Jaokar Type A (Analytics) versus Type B (Bouwer) data scientist:
- De Type A Data Scientist kan goed genoeg coderen om met data te werken, maar is niet per se een expert. De Type A data scientist kan een expert zijn in experimenteel ontwerp, voorspellingen, modellering, statistische inferentie, of andere zaken die typisch worden onderwezen in statistiekafdelingen. Over het algemeen is het werkproduct van een data scientist echter niet “p-waarden en betrouwbaarheidsintervallen” zoals de academische statistiek soms lijkt te suggereren (en zoals het soms is voor traditionele statistici die bijvoorbeeld in de farmaceutische industrie werken). Bij Google staan datawetenschappers van type A bekend als statisticus, kwantitatief analist, Decision Support Engineering-analist of datawetenschapper, en waarschijnlijk nog een paar andere namen.
- Datawetenschappers van type B: De B staat voor Building. Datawetenschappers van het type B hebben dezelfde statistische achtergrond als datawetenschappers van het type A, maar ze kunnen ook heel goed coderen en zijn mogelijk opgeleid tot software-ingenieur. De Data Scientist Type B is vooral geïnteresseerd in het gebruik van data “in productie”. Ze bouwen modellen die interacteren met gebruikers, vaak het serveren van aanbevelingen (producten, mensen die je misschien kent, advertenties, films, zoekresultaten). Bron: klik hier.
Ik heb ook geschreven over de ABCD’s van bedrijfsprocesoptimalisatie, waarbij D staat voor data science, C voor computer science, B voor business science, en A voor analytics science. Data science kan al dan niet codering of wiskundige praktijk inhouden, zoals je kunt lezen in mijn artikel over low-level versus high-level data science. In een startup dragen datawetenschappers over het algemeen verschillende petten, zoals leidinggevende, data miner, data engineer of architect, onderzoeker, statisticus, modeler (zoals in voorspellende modellering) of ontwikkelaar.
Hoewel de data scientist over het algemeen wordt afgeschilderd als een coder met ervaring in R, Python, SQL, Hadoop en statistiek, is dit slechts het topje van de ijsberg, populair gemaakt door datakampen die zich richten op het onderwijzen van enkele elementen van data science. Maar net zoals een laborant zich natuurkundige kan noemen, is de echte natuurkundige veel meer dan dat, en zijn haar expertisedomeinen gevarieerd: astronomie, mathematische fysica, kernfysica (wat grenst aan scheikunde), mechanica, elektrotechniek, signaalverwerking (ook een subdomein van data science) en nog veel meer. Hetzelfde kan worden gezegd over datawetenschappers: de gebieden zijn zo gevarieerd als bio-informatica, informatietechnologie, simulaties en kwaliteitscontrole, computational finance, epidemiologie, industriële engineering, en zelfs getaltheorie.
In mijn geval heb ik me de laatste 10 jaar gespecialiseerd in machine-to-machine en device-to-device communicatie, het ontwikkelen van systemen om grote datasets automatisch te verwerken, om geautomatiseerde transacties uit te voeren: bijvoorbeeld het kopen van internetverkeer of het automatisch genereren van inhoud. Het houdt in dat algoritmen worden ontwikkeld die werken met ongestructureerde gegevens, en het bevindt zich op het kruispunt van AI (kunstmatige intelligentie), IoT (internet van dingen) en datawetenschap. Dit wordt deep data science genoemd. Het is relatief wiskunde-vrij, en er komt relatief weinig codering bij kijken (meestal API’s), maar het is behoorlijk data-intensief (inclusief het bouwen van datasystemen) en gebaseerd op gloednieuwe statistische technologie die speciaal voor deze context is ontworpen.
Voorheen werkte ik aan het in real time opsporen van fraude met creditcards. Eerder in mijn loopbaan (rond 1990) heb ik gewerkt aan teledetectietechnologie voor beelden, onder meer om patronen (of vormen of kenmerken, bijvoorbeeld meren) in satellietbeelden te identificeren en beeldsegmentatie uit te voeren: in die tijd werd mijn onderzoek bestempeld als computationele statistiek, maar de mensen die precies hetzelfde deden in de computerwetenschappelijke afdeling naast de deur van mijn thuisuniversiteit, noemden hun onderzoek kunstmatige intelligentie. Vandaag zou het data science of kunstmatige intelligentie worden genoemd, met als subdomeinen signaalverwerking, computervisie of IoT.
Ook kunnen data scientists overal in de levenscyclus van data science-projecten worden gevonden, in de fase van het verzamelen van gegevens, of de verkennende fase van gegevens, helemaal tot aan statistische modellering en onderhoud van bestaande systemen.
2. Machine Learning versus Deep Learning
Voordat we dieper ingaan op het verband tussen data science en machine learning, laten we kort machine learning en deep learning bespreken. Machine learning is een reeks algoritmen die trainen op een dataset om voorspellingen te doen of acties te ondernemen om bepaalde systemen te optimaliseren. Gesuperviseerde classificatiealgoritmen worden bijvoorbeeld gebruikt om potentiële klanten te classificeren in goede of slechte vooruitzichten, voor leningsdoeleinden, op basis van historische gegevens. Voor een bepaalde taak (bv. clustering onder toezicht) worden uiteenlopende technieken gebruikt: naïeve Bayes, SVM, neurale netten, ensembles, associatieregels, beslisbomen, logistische regressie, of een combinatie van vele. Voor een gedetailleerde lijst van algoritmen, klik hier. Voor een lijst van machine learning problemen, klik hier.
Dit alles is een deelverzameling van data science. Wanneer deze algoritmen worden geautomatiseerd, zoals bij automatische besturing of bestuurderloze auto’s, wordt het AI genoemd, en meer specifiek, deep learning. Klik hier voor een ander artikel waarin machinaal leren wordt vergeleken met diep leren. Als de verzamelde gegevens afkomstig zijn van sensoren en als ze via het internet worden doorgegeven, dan is het machine learning of data science of deep learning toegepast op IoT.
Sommigen hebben een andere definitie voor deep learning. Zij beschouwen deep learning als neurale netwerken (een techniek voor machinaal leren) met een diepere laag. Deze vraag werd onlangs op Quora gesteld, en hieronder volgt een meer gedetailleerde uitleg (bron: Quora)
- AI (kunstmatige intelligentie) is een subgebied van de computerwetenschap, dat in de jaren zestig van de vorige eeuw is ontstaan, en het hield (houdt) zich bezig met het oplossen van taken die gemakkelijk zijn voor mensen, maar moeilijk voor computers. In het bijzonder zou een zogenaamde Sterke AI een systeem zijn dat alles kan doen wat een mens kan (misschien zonder zuiver fysieke dingen). Dit is vrij algemeen, en omvat allerlei taken, zoals plannen, zich verplaatsen in de wereld, voorwerpen en geluiden herkennen, spreken, vertalen, sociale of zakelijke transacties uitvoeren, creatief werk verrichten (kunst of poëzie maken), enz.
- NLP (Natural language processing) is gewoon het deel van AI dat te maken heeft met taal (meestal geschreven).
- Machine-leren heeft betrekking op een aspect hiervan: gegeven een AI-probleem dat in discrete termen kan worden beschreven (bv. uit een bepaalde reeks acties, welke is de juiste), en gegeven een heleboel informatie over de wereld, uitzoeken wat de “juiste” actie is, zonder dat de programmeur dit erin hoeft te programmeren. Gewoonlijk is er een proces van buitenaf nodig om te beoordelen of de actie juist was of niet. In wiskundige termen is het een functie: je voert een bepaalde input in, en je wilt dat die de juiste output produceert, dus het hele probleem is eenvoudigweg om op een automatische manier een model van deze wiskundige functie te bouwen. Om een onderscheid te maken met AI: als ik een heel slim programma kan schrijven dat menselijk gedrag vertoont, kan het AI zijn, maar tenzij de parameters automatisch uit gegevens worden geleerd, is het geen machinaal leren.
- Diep leren is een vorm van machinaal leren die nu heel populair is. Het gaat om een bepaald soort wiskundig model dat kan worden gezien als een samenstelling van eenvoudige blokken (functiesamenstelling) van een bepaald type, en waarbij sommige van deze blokken kunnen worden aangepast om de uiteindelijke uitkomst beter te voorspellen.
Wat is het verschil tussen machine learning en statistiek?
Dit artikel probeert de vraag te beantwoorden. De auteur schrijft dat statistiek machinaal leren is met betrouwbaarheidsintervallen voor de grootheden die worden voorspeld of geschat. Ik ben geneigd het daar niet mee eens te zijn, omdat ik ingenieursvriendelijke betrouwbaarheidsintervallen heb gebouwd die geen wiskundige of statistische kennis vereisen.
3. Data Science versus Machine Learning
Machine-leren en statistiek zijn onderdeel van data science. Het woord leren in machine learning betekent dat de algoritmen afhankelijk zijn van bepaalde gegevens, gebruikt als een trainingsset, om bepaalde model- of algoritmeparameters fijn af te stellen. Dit omvat vele technieken zoals regressie, naïeve Bayes of clustering onder toezicht. Maar niet alle technieken passen in deze categorie. Zo is clustering zonder toezicht – een statistische en datawetenschappelijke techniek – gericht op het detecteren van clusters en clusterstructuren zonder enige a-priori kennis of trainingsset om het classificatiealgoritme te helpen. Er is een mens nodig om de gevonden clusters te labelen. Sommige technieken zijn hybride, zoals semi-gesuperviseerde classificatie. Sommige technieken voor patroonherkenning of dichtheidsschatting passen in deze categorie.
Data science is echter veel meer dan machine learning. Data, in data science, kunnen al dan niet afkomstig zijn van een machine of een mechanisch proces (enquêtegegevens kunnen handmatig worden verzameld, bij klinische proeven gaat het om een specifiek type kleine gegevens) en het heeft misschien niets te maken met leren, zoals ik zojuist heb besproken. Maar het belangrijkste verschil is het feit dat gegevenswetenschap het hele spectrum van gegevensverwerking bestrijkt, niet alleen de algoritmische of statistische aspecten. In het bijzonder omvat data science ook
- data-integratie
- gedistribueerde architectuur
- automatisering van machine learning
- datavisualisatie
- dashboards en BI
- data engineering
- implementatie in productiemodus
- geautomatiseerd, data-driven beslissingen
In veel organisaties richten data scientists zich natuurlijk op slechts één deel van dit proces. Om meer te lezen over een aantal van mijn oorspronkelijke bijdragen aan data science, klik hier.
Follow @analyticbridge
Om dit soort content in de toekomst niet meer te missen, kunt u zich abonneren op onze nieuwsbrief. Voor gerelateerde artikelen van dezelfde auteur, klik hier of bezoek www.VincentGranville.com. Volg me op LinkedIn, of bezoek mijn oude webpagina hier. Andere nuttige bronnen:
Geef een antwoord