Forskellen mellem maskinlæring, datalogi, AI, dyb læring og statistik – Data Science Central
On januar 1, 2022 by adminI denne artikel forklarer jeg de forskellige roller for dataloger, og hvordan datalogi kan sammenlignes og overlapper med beslægtede områder som maskinlæring, dyb læring, AI, statistik, IoT, operationsforskning og anvendt matematik. Da datavidenskab er en bred disciplin, starter jeg med at beskrive de forskellige typer datavidenskabsfolk, som man kan støde på i enhver virksomhedssituation: Måske opdager du endda, at du selv er datavidenskabsmand, uden at du ved det. Som i enhver videnskabelig disciplin kan datavidenskabsfolk låne teknikker fra beslægtede discipliner, selv om vi har udviklet vores eget arsenal, især teknikker og algoritmer til at håndtere meget store ustrukturerede datasæt på automatiserede måder, selv uden menneskelig interaktion, til at udføre transaktioner i realtid eller til at foretage forudsigelser.
1. Forskellige typer dataloger
For at komme i gang og få et historisk perspektiv kan du læse min artikel om 9 typer dataloger, der blev offentliggjort i 2014, eller min artikel, hvor jeg sammenligner datalogi med 16 analytiske discipliner, der også blev offentliggjort i 2014.
De følgende artikler, der blev offentliggjort i samme periode, er stadig nyttige:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Men senest (august 2016) diskuterede Ajit Jaokar type A (Analytics) versus type B (Builder) data scientist:
- Type A Data Scientist kan kode godt nok til at arbejde med data, men er ikke nødvendigvis en ekspert. Type A-datavidenskabsmanden kan være ekspert i eksperimentelt design, prognoser, modellering, statistisk inferens eller andre ting, der typisk undervises i statistiske afdelinger. Generelt set er dataforskerens arbejdsprodukt dog ikke “p-værdier og konfidensintervaller”, som akademisk statistik nogle gange synes at antyde (og som det nogle gange er tilfældet for traditionelle statistikere, der f.eks. arbejder i medicinalindustrien). Hos Google er type A-datavidenskabsfolk kendt som statistikere, kvantitative analytikere, analytikere inden for beslutningsstøtte eller datavidenskabsfolk og sandsynligvis et par stykker mere.
- Type B-datavidenskabsmand: B’et står for Building. Type B Data Scientists deler en vis statistisk baggrund med Type A, men de er også meget stærke kodere og kan være uddannede softwareingeniører. Type B Data Scientist er primært interesseret i at bruge data “i produktion”. De opbygger modeller, der interagerer med brugerne og ofte serverer anbefalinger (produkter, personer, du måske kender, annoncer, film, søgeresultater). Kilde: Klik her.
Jeg skrev også om ABCD’erne for optimering af forretningsprocesser, hvor D står for data science, C for computer science, B for business science og A for analytics science. Data science kan eller kan ikke involvere kodning eller matematisk praksis, som du kan læse i min artikel om data science på lavt niveau versus data science på højt niveau. I en startup har datavidenskabsfolk generelt flere hatte på, f.eks. som leder, dataminer, datatekniker eller -arkitekt, forsker, statistiker, modellør (som i prædiktiv modellering) eller udvikler.
Mens datavidenskabsmanden generelt fremstilles som en koder med erfaring i R, Python, SQL, Hadoop og statistik, er dette kun toppen af isbjerget, hvilket er gjort populært af datacamps, der fokuserer på at undervise i nogle elementer af datavidenskab. Men ligesom en laborant kan kalde sig fysiker, er den rigtige fysiker meget mere end det, og hendes ekspertiseområder er mange forskellige: astronomi, matematisk fysik, kernefysik (som er på grænsen til kemi), mekanik, elektroteknik, signalbehandling (også et underområde af datavidenskab) og mange flere. Det samme kan man sige om dataloger: områderne er så forskellige som bioinformatik, informationsteknologi, simuleringer og kvalitetskontrol, computational finance, epidemiologi, industriteknik og endda talteori.
I mit tilfælde har jeg i de sidste 10 år specialiseret mig i kommunikation mellem maskiner og enheder og mellem enheder og har udviklet systemer til automatisk behandling af store datasæt med henblik på at udføre automatiserede transaktioner: f.eks. køb af internettrafik eller automatisk generering af indhold. Det indebærer udvikling af algoritmer, der arbejder med ustrukturerede data, og det ligger i krydsfeltet mellem AI (kunstig intelligens), IoT (Internet of things) og datalogi. Dette betegnes som dyb datavidenskab. Det er relativt matematikfrit, og det indebærer relativt lidt kodning (hovedsagelig API’er), men det er ret dataintensivt (herunder opbygning af datasystemer) og baseret på helt ny statistisk teknologi, der er udviklet specifikt til denne sammenhæng.
Forinden arbejdede jeg med detektering af kreditkortsvindel i realtid. Tidligere i min karriere (ca. 1990) arbejdede jeg med teknologi til fjernsøgning af billeder, bl.a. for at identificere mønstre (eller former eller træk, f.eks. søer) i satellitbilleder og for at foretage billedsegmentering: på det tidspunkt blev min forskning betegnet som beregningsstatistik, men de folk, der gjorde nøjagtig det samme på datalogiafdelingen ved siden af på mit hjemuniversitet, kaldte deres forskning for kunstig intelligens. I dag ville det blive kaldt datalogi eller kunstig intelligens, idet underområderne er signalbehandling, computervision eller IoT.
Dataloger kan også findes overalt i datalogiprojekternes livscyklus, i dataindsamlingsfasen eller den dataeksplorative fase, helt op til statistisk modellering og vedligeholdelse af eksisterende systemer.
2. Maskinlæring versus dyb læring
Hvor vi går dybere ned i forbindelsen mellem datavidenskab og maskinlæring, skal vi kort diskutere maskinlæring og dyb læring. Maskinlæring er et sæt algoritmer, der trænes på et datasæt for at foretage forudsigelser eller foretage handlinger med henblik på at optimere nogle systemer. F.eks. bruges superviserede klassifikationsalgoritmer til at klassificere potentielle kunder i gode eller dårlige udsigter med henblik på lån baseret på historiske data. De teknikker, der anvendes til en given opgave (f.eks. overvåget klyngedannelse), er forskellige: naive Bayes, SVM, neurale net, ensembler, associationsregler, beslutningstræer, logistisk regression eller en kombination af mange af dem. For en detaljeret liste over algoritmer, klik her. For en liste over maskinlæringsproblemer, klik her.
Alt dette er en delmængde af datalogi. Når disse algoritmer automatiseres, som i automatiseret pilotering eller førerløse biler, kaldes det AI, og mere specifikt deep learning. Klik her for at læse en anden artikel, der sammenligner maskinlæring med deep learning. Hvis de indsamlede data kommer fra sensorer, og hvis de overføres via internettet, er der tale om maskinlæring eller datavidenskab eller deep learning anvendt på IoT.
Nogle mennesker har en anden definition på deep learning. De betragter deep learning som neurale netværk (en maskinlæringsteknik) med et dybere lag. Spørgsmålet blev stillet på Quora for nylig, og nedenfor er en mere detaljeret forklaring (kilde: Quora)
- AI (Artificial intelligence) er et underområde inden for datalogi, der blev skabt i 1960’erne, og det var (er) beskæftiget med at løse opgaver, der er lette for mennesker, men svære for computere. Især vil en såkaldt stærk AI være et system, der kan gøre alt hvad et menneske kan (måske uden rent fysiske ting). Dette er ret generisk og omfatter alle slags opgaver, f.eks. planlægning, at bevæge sig rundt i verden, genkende objekter og lyde, tale, oversætte, udføre sociale eller forretningsmæssige transaktioner, kreativt arbejde (lave kunst eller poesi) osv.
- NLP (Natural language processing) er simpelthen den del af AI, der har med sprog (normalt skrevet) at gøre.
- Maskinlæring beskæftiger sig med et aspekt af dette: givet et AI-problem, der kan beskrives i diskrete termer (f.eks. ud af et bestemt sæt handlinger, hvilken er den rigtige), og givet en masse oplysninger om verden, skal man finde ud af, hvad der er den “rigtige” handling, uden at programmøren skal programmere den. Typisk er der behov for en ekstern proces for at bedømme, om handlingen var korrekt eller ej. I matematiske termer er det en funktion: man indfører nogle input, og man ønsker, at den skal producere det rigtige output, så hele problemet består simpelthen i at opbygge en model af denne matematiske funktion på en eller anden automatisk måde. For at skelne til AI kan jeg sige, at hvis jeg kan skrive et meget smart program, der har en menneskelignende adfærd, kan det være AI, men medmindre dets parametre automatisk læres ud fra data, er det ikke maskinlæring.
- Dybdegående læring er en form for maskinlæring, der er meget populær nu. Det drejer sig om en særlig form for matematisk model, der kan opfattes som en sammensætning af simple blokke (funktionssammensætning) af en bestemt type, og hvor nogle af disse blokke kan justeres for bedre at forudsige det endelige resultat.
Hvad er forskellen mellem maskinlæring og statistik?
Denne artikel forsøger at besvare spørgsmålet. Forfatteren skriver, at statistik er maskinlæring med konfidensintervaller for de størrelser, der forudsiges eller estimeres. Jeg er tilbøjelig til at være uenig, da jeg har bygget ingeniørvenlige konfidensintervaller, der ikke kræver nogen matematisk eller statistisk viden.
3. Datavidenskab versus maskinlæring
Maskinlæring og statistik er en del af datavidenskab. Ordet læring i maskinlæring betyder, at algoritmerne er afhængige af nogle data, der bruges som et træningssæt, til at finjustere nogle model- eller algoritmeparametre. Dette omfatter mange teknikker som f.eks. regression, naive Bayes eller supervised clustering. Men det er ikke alle teknikker, der falder ind under denne kategori. F.eks. har uovervåget clustering – en statistisk og datalogisk teknik – til formål at finde klynger og klyngestrukturer uden forudgående viden eller træningssæt, der kan hjælpe klassifikationsalgoritmen. Det er nødvendigt med et menneske til at mærke de fundne klynger. Nogle teknikker er hybride, f.eks. semi-supervised klassifikation. Nogle mønsterdetekterings- eller tæthedsvurderingsmetoder hører ind under denne kategori.
Datavidenskab er dog meget mere end maskinlæring. Data, i datalogi, kan eller kan ikke komme fra en maskine eller mekanisk proces (undersøgelsesdata kan være indsamlet manuelt, kliniske forsøg involverer en bestemt type små data), og det har måske intet at gøre med læring, som jeg lige har diskuteret. Men den væsentligste forskel er, at datavidenskab dækker hele spektret af databehandling og ikke kun de algoritmiske eller statistiske aspekter. Navnlig dækker datavidenskab også
- dataintegration
- distribueret arkitektur
- automatiseret maskinlæring
- datavisualisering
- dashboards og BI
- datateknik
- udrulning i produktionstilstand
- automatiseret, datadrevne beslutninger
Naturligvis fokuserer dataloger i mange organisationer kun på en del af denne proces. Hvis du vil læse om nogle af mine oprindelige bidrag til datavidenskab, kan du klikke her.
Følg @analyticbridge
For ikke at gå glip af denne type indhold i fremtiden kan du abonnere på vores nyhedsbrev. For relaterede artikler fra samme forfatter, klik her eller besøg www.VincentGranville.com. Følg mig på på LinkedIn, eller besøg min gamle webside her. Andre nyttige ressourcer:
Skriv et svar