DeepMind presenterade idag ett nytt multimodalt AI-system som kan utföra mer än 600 olika uppgifter.
Dubbad Gato, det är utan tvekan det mest imponerande allt-i-ett maskininlärningskit som världen har sett hittills.
Enligt en DeepMind blogginlägg:
Agenten, som vi refererar till som Gato, fungerar som en multimodal, multi-task, multi-förkroppsligande generalistpolicy. Samma nätverk med samma vikter kan spela Atari, bildtexter, chatta, stapla block med en riktig robotarm och mycket mer, och bestämma utifrån dess sammanhang om text, ledmoment, knapptryckningar eller andra polletter ska matas ut.

Och även om det återstår att se exakt hur bra det kommer att göra när forskare och användare utanför DeepMind-labben får tag på det, verkar Gato vara allt som GPT-3 önskar att det kunde vara och mer.
Här är varför det gör mig ledsen: GPT-3 är en storspråkig modell (LLM) producerad av OpenAI, världens mest välfinansierade företag för artificiell allmän intelligens (AGI).
Innan vi kan jämföra GPT-3 och Gato måste vi dock förstå var både OpenAI och DeepMind kommer ifrån som företag.
OpenAI är Elon Musks idé, den har miljarder i stöd från Microsoft, och den amerikanska regeringen kan i princip bry sig mindre om vad den gör när det kommer till reglering och tillsyn.
Tänk på att OpenAI’s enda syfte är att utveckla och kontrollera en AGI (det är en AI som kan göra och lära sig allt som en människa kan, med samma tillgång), är det lite skrämmande att allt företaget lyckats producera är en riktigt fancy LLM.
Missförstå mig inte, GPT-3 är imponerande. I själva verket är den utan tvekan lika imponerande som DeepMinds Gato, men den bedömningen kräver en viss nyans.
OpenAI har gått LLM-vägen på sin väg till AGI av en enkel anledning: ingen vet hur man får AGI att fungera.
Precis som det tog lite tid mellan upptäckten av brand och uppfinningen av förbränningsmotorn, kommer det inte att ske över en natt att ta reda på hur man går från djupinlärning till AGI.
GPT-3 är ett exempel på en AI som åtminstone kan göra något som verkar mänskligt: den genererar text.
Vad DeepMind har gjort med Gato är, ja, ungefär samma sak. Det har tagits något som fungerar mycket som en LLM och förvandlat det till en illusionist som kan mer än 600 former av prestidigitalisering.
Som Mike Cook, från forskningskollektivet Knives and Paintbrushes, berättade nyligen TechCrunchs Kyle Wiggers:
Det låter spännande att AI:n kan göra alla dessa uppgifter som låter väldigt olika, för för oss låter det som att skriva text är väldigt annorlunda än att styra en robot.
Men i verkligheten skiljer det sig inte så mycket från GPT-3 som förstår skillnaden mellan vanlig engelsk text och Python-kod.
Därmed inte sagt att detta är lätt, men för en utomstående observatör kan det låta som att AI också kan göra en kopp te eller lätt lära sig ytterligare tio eller femtio andra uppgifter, och det kan den inte göra.
I grund och botten är Gato och GPT-3 båda robusta AI-system, men inget av dem är kapabla till allmän intelligens.
Här är mitt problem: Såvida du inte spelar på AGI som växer fram som ett resultat av någon slumpmässig tur – filmen Kortslutning kommer att tänka på — det är förmodligen dags för alla att omvärdera sina tidslinjer på AGI.
Jag skulle inte säga “aldrig”, för det är ett av vetenskapens enda förbannade ord. Men detta gör att det verkar som att AGI inte kommer att hända under våra liv.
DeepMind har arbetat med AGI i över ett decennium, och OpenAI sedan 2015. Och ingen av dem har kunnat ta itu med det allra första problemet på vägen mot att lösa AGI: att bygga en AI som kan lära sig nya saker utan träning.
Jag tror att Gato kan vara världens mest avancerade multimodala AI-system. Men jag tror också att DeepMind har tagit samma sak återvändsgränd för AGI-koncept att OpenAI har och bara gjort det mer säljbart.
Slutgiltiga tankar: Det DeepMind har gjort är anmärkningsvärt och kommer förmodligen att tjäna företaget mycket pengar.
Om jag är VD för Alphabet (DeepMinds moderbolag) så snurrar jag antingen ut Gato som en ren produkt, eller så driver jag DeepMind till mer utveckling än forskning.
Gato kan ha potential att prestera mer lukrativt på konsumentmarknaden än Alexa, Siri eller Google Assistant (med rätt marknadsföring och tillämpliga användningsfall).
Men Gato och GPT-3 är inga mer genomförbara ingångspunkter för AGI än de ovan nämnda virtuella assistenterna.
Gatos förmåga att utföra flera uppgifter är mer som en videospelskonsol som kan lagra 600 olika spel, än att det är som ett spel du kan spela på 600 olika sätt. Det är inte en allmän AI, det är ett gäng förtränade, smala modeller buntade snyggt.
Det är inte dåligt, om det är det du letar efter. Men det finns helt enkelt ingenting i Gatos ackompanjemang uppsats att indikera detta är till och med en blick i rätt riktning för AGI, än mindre ett språngbräda.
Vid någon tidpunkt kommer den goodwill och det kapital som företag som DeepMind och OpenAI har genererat genom sin stålsynta insisterande på att AGI var precis runt hörnet behöva visa även den minsta utdelning.
#DeepMinds #nya #Gato #får #mig #att #frukta #att #människor #aldrig #kommer #att #uppnå #AGI