Skillnaden mellan maskininlärning, datavetenskap, AI, djupinlärning och statistik – Data Science Central
On januari 1, 2022 by adminI den här artikeln klargör jag de olika rollerna för datavetare och hur datavetenskap jämför och överlappar med relaterade områden som maskininlärning, djupinlärning, AI, statistik, IoT, operationsforskning och tillämpad matematik. Eftersom datavetenskap är en bred disciplin börjar jag med att beskriva de olika typer av datavetare som man kan stöta på i alla företagsmiljöer: du kanske till och med upptäcker att du själv är en datavetare, utan att veta om det. Som i alla vetenskapliga discipliner kan datavetare låna tekniker från närliggande discipliner, även om vi har utvecklat vår egen arsenal, särskilt tekniker och algoritmer för att hantera mycket stora ostrukturerade datamängder på ett automatiserat sätt, även utan mänsklig interaktion, för att utföra transaktioner i realtid eller för att göra förutsägelser.
1. Olika typer av datavetare
För att komma igång och få ett historiskt perspektiv kan du läsa min artikel om 9 typer av datavetare, publicerad 2014, eller min artikel där jag jämför datavetenskap med 16 analytiska discipliner, också publicerad 2014.
De följande artiklarna, som publicerades under samma tidsperiod, är fortfarande användbara:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Nyligen (augusti 2016) diskuterade Ajit Jaokar typ A (Analytics) versus typ B (Builder) data scientist:
- Data Scientist av typ A kan koda tillräckligt bra för att arbeta med data, men är inte nödvändigtvis en expert. Dataforskaren av typ A kan vara expert på experimentell utformning, prognoser, modellering, statistisk inferens eller andra saker som vanligtvis lärs ut på statistikavdelningar. Generellt sett är dock en datavetenskapsmans arbetsprodukt inte ”p-värden och konfidensintervall” som akademisk statistik ibland tycks antyda (och som det ibland är för traditionella statistiker som arbetar inom läkemedelsindustrin, till exempel). På Google kallas datavetare av typ A på olika sätt för statistiker, kvantitativ analytiker, analytiker för beslutsstödsteknik eller datavetare, och förmodligen några fler.
- Datavetare av typ B: B står för Building. Datavetare av typ B har samma statistiska bakgrund som datavetare av typ A, men de är också mycket duktiga kodare och kan vara utbildade programvaruingenjörer. Dataforskare av typ B är främst intresserade av att använda data ”i produktion”. De bygger modeller som interagerar med användarna, ofta med rekommendationer (produkter, personer som du kanske känner, annonser, filmer, sökresultat). Källa: klicka här.
Jag skrev också om ABCD:s för optimering av affärsprocesser där D står för datavetenskap, C för datavetenskap, B för affärsvetenskap och A för analysvetenskap. Datavetenskap kan eller behöver inte innefatta kodning eller matematisk praktik, vilket du kan läsa i min artikel om datavetenskap på låg nivå kontra datavetenskap på hög nivå. I ett nystartat företag har datavetare i allmänhet flera hattar på sig, t.ex. chef, dataminerare, datatekniker eller -arkitekt, forskare, statistiker, modellerare (som i prediktiv modellering) eller utvecklare.
Men även om datavetaren i allmänhet framställs som en kodare med erfarenhet av R, Python, SQL, Hadoop och statistik är detta bara toppen av isberget, vilket har gjorts populärt genom dataläger med inriktning på att lära ut vissa delar av datavetenskapen. Men precis som en laboratorietekniker kan kalla sig fysiker är den riktiga fysikern mycket mer än så, och hennes expertområden är varierande: astronomi, matematisk fysik, kärnfysik (som gränsar till kemi), mekanik, elektroteknik, signalbehandling (som också är ett delområde inom datavetenskap) och många fler. Samma sak kan sägas om datavetare: områdena är så varierande som bioinformatik, informationsteknik, simuleringar och kvalitetskontroll, datafinansiering, epidemiologi, industriteknik och till och med talteori.
I mitt fall har jag under de senaste tio åren specialiserat mig på kommunikation mellan maskiner och enheter och mellan enheter, och utvecklat system för att automatiskt bearbeta stora datamängder, för att utföra automatiserade transaktioner: t.ex. köp av internettrafik eller automatisk generering av innehåll. Det innebär att utveckla algoritmer som arbetar med ostrukturerade data, och det ligger i skärningspunkten mellan AI (artificiell intelligens), IoT (sakernas internet) och datavetenskap. Detta kallas djup datavetenskap. Det är relativt matematikfritt och innebär relativt lite kodning (mestadels API:er), men det är ganska dataintensivt (inklusive uppbyggnad av datasystem) och bygger på helt ny statistisk teknik som utformats särskilt för detta sammanhang.
Förut arbetade jag med upptäckt av kreditkortsbedrägerier i realtid. Tidigare i min karriär (omkring 1990) arbetade jag med teknik för fjärranalys av bilder, bland annat för att identifiera mönster (eller former eller funktioner, till exempel sjöar) i satellitbilder och för att utföra bildsegmentering: på den tiden betecknades min forskning som beräkningsstatistik, men de personer som gjorde exakt samma sak på datavetenskapliga institutionen bredvid på mitt hemuniversitet kallade sin forskning för artificiell intelligens. I dag skulle det kallas datavetenskap eller artificiell intelligens, med underområden som signalbehandling, datorseende eller sakernas internet.
Dataforskare kan också hittas var som helst i datavetenskapsprojektens livscykel, på datainsamlingsstadiet, eller datautforskningsstadiet, ända upp till statistisk modellering och underhåll av befintliga system.
2. Maskininlärning kontra djupinlärning
För att gräva djupare i kopplingen mellan datavetenskap och maskininlärning ska vi kort diskutera maskininlärning och djupinlärning. Maskininlärning är en uppsättning algoritmer som tränas på en datamängd för att göra förutsägelser eller vidta åtgärder för att optimera vissa system. Till exempel används övervakade klassificeringsalgoritmer för att klassificera potentiella kunder i goda eller dåliga utsikter, för låneändamål, baserat på historiska data. De tekniker som används för en viss uppgift (t.ex. övervakad klustring) varierar: naive Bayes, SVM, neurala nät, ensembler, associationsregler, beslutsträd, logistisk regression eller en kombination av flera. För en detaljerad förteckning över algoritmer, klicka här. För en förteckning över problem med maskininlärning, klicka här.
Alt detta är en delmängd av datavetenskap. När dessa algoritmer automatiseras, som i automatiserad styrning eller förarlösa bilar, kallas det AI, och mer specifikt djupinlärning. Klicka här för en annan artikel som jämför maskininlärning med djupinlärning. Om de insamlade uppgifterna kommer från sensorer och om de överförs via Internet är det maskininlärning eller datavetenskap eller djupinlärning tillämpad på IoT.
Vissa personer har en annan definition av djupinlärning. De betraktar djupinlärning som neurala nätverk (en teknik för maskininlärning) med ett djupare lager. Frågan ställdes nyligen på Quora och nedan finns en mer detaljerad förklaring (källa: Quora)
- AI (Artificiell intelligens) är ett delområde inom datavetenskapen som skapades på 1960-talet och som sysslade (sysslar) med att lösa uppgifter som är lätta för människor, men svåra för datorer. I synnerhet skulle en så kallad stark AI vara ett system som kan göra allt som en människa kan göra (kanske utan rent fysiska saker). Detta är ganska generiskt och omfattar alla typer av uppgifter, t.ex. planera, förflytta sig i världen, känna igen föremål och ljud, tala, översätta, utföra sociala eller affärsmässiga transaktioner, kreativt arbete (göra konst eller poesi) osv.
- NLP (Natural language processing) är helt enkelt den del av AI som har att göra med språk (vanligen skrivet).
- Maskininlärning handlar om en aspekt av detta: givet ett AI-problem som kan beskrivas i diskreta termer (t.ex. vilken av en viss uppsättning åtgärder är den rätta), och givet en hel del information om världen, räkna ut vilken som är den ”rätta” åtgärden, utan att programmeraren behöver programmera in den. Vanligtvis behövs någon extern process för att bedöma om åtgärden var korrekt eller inte. I matematiska termer är det en funktion: man matar in en viss input och vill att den ska ge rätt output, så hela problemet är helt enkelt att bygga upp en modell av denna matematiska funktion på något automatiskt sätt. Om jag kan skriva ett mycket smart program som har ett människoliknande beteende kan det vara artificiell intelligens, men om dess parametrar inte lärs in automatiskt från data är det inte maskininlärning.
- Djupinlärning är en typ av maskininlärning som är mycket populär nu. Det handlar om en särskild typ av matematisk modell som kan ses som en sammansättning av enkla block (funktionssammansättning) av en viss typ, och där vissa av dessa block kan justeras för att bättre förutsäga slutresultatet.
Vad är skillnaden mellan maskininlärning och statistik?
Denna artikel försöker besvara frågan. Författaren skriver att statistik är maskininlärning med konfidensintervall för de kvantiteter som förutsägs eller uppskattas. Jag tenderar att inte hålla med, eftersom jag har byggt ingenjörsvänliga konfidensintervall som inte kräver några matematiska eller statistiska kunskaper.
3. Datavetenskap kontra maskininlärning
Maskinininlärning och statistik är en del av datavetenskap. Ordet inlärning i maskininlärning innebär att algoritmerna är beroende av vissa data, som används som en träningsuppsättning, för att finjustera vissa modell- eller algoritmparametrar. Detta omfattar många tekniker som regression, naive Bayes eller övervakad klustring. Men alla tekniker passar inte in i denna kategori. Oövervakad klusterbildning – en statistisk och datavetenskaplig teknik – syftar till exempel till att upptäcka kluster och klusterstrukturer utan någon a priori kunskap eller träningsuppsättning för att hjälpa klassificeringsalgoritmen. Det krävs en människa för att märka de kluster som hittas. Vissa tekniker är hybridtekniker, t.ex. halvövervakad klassificering. Vissa tekniker för mönsterdetektering eller densitetsuppskattning passar in i denna kategori.
Datavetenskap är dock mycket mer än maskininlärning. Data, inom datavetenskap, kan komma eller inte komma från en maskin eller mekanisk process (enkätdata kan samlas in manuellt, kliniska prövningar inbegriper en särskild typ av små data) och det kan ha ingenting att göra med inlärning som jag just har diskuterat. Men den största skillnaden är att datavetenskap omfattar hela spektrumet av databehandling, inte bara de algoritmiska eller statistiska aspekterna. I synnerhet täcker datavetenskap också
- dataintegration
- distribuerad arkitektur
- automatisering av maskininlärning
- datavisualisering
- datablad och BI
- datateknik
- utplacering i produktionsläge
- automatiserad, datadrivna beslut
I många organisationer fokuserar datavetare förstås bara på en del av denna process. För att läsa om några av mina ursprungliga bidrag till datavetenskap, klicka här.
Följ @analyticbridge
För att inte missa den här typen av innehåll i framtiden, prenumerera på vårt nyhetsbrev. För relaterade artiklar från samma författare, klicka här eller besök www.VincentGranville.com. Följ mig på på LinkedIn, eller besök min gamla webbsida här. Andra användbara resurser:
Lämna ett svar