Googles bildgenerator konkurrerar med DALL-E i shiba inu-ritning – TechCrunch

Googles bildgenerator konkurrerar med DALL-E i shiba inu-ritning – TechCrunch

AI-världen funderar fortfarande på hur man ska hantera den fantastiska uppvisningen av skicklighet det vill säga DALL-E 2:s förmåga att rita/måla/föreställa precis vad som helst… men OpenAI är inte den enda som arbetar med något sådant. Google Research har skyndat sig att publicera en liknande modell som den har arbetat med – som den hävdar är ännu bättre.

Imagen (förstår det?) är en text-till-bild-diffusionsbaserad generator byggd på stora transformatorspråkmodeller som… okej, låt oss sakta ner och packa upp det snabbt.

Text-till-bild-modeller tar textinmatningar som “en hund på en cykel” och producerar en motsvarande bild, något som har gjorts i flera år men nyligen har sett enorma hopp i kvalitet och tillgänglighet.

En del av det är att använda diffusionstekniker, som i princip börjar med en ren brusbild och sakta förfinar den bit för bit tills modellen tror att den inte kan få den att se ut mer som en hund på cykel än vad den redan gör. Detta var en förbättring jämfört med topp-till-botten-generatorer som kunde få det lustigt fel vid första gissning, och andra som lätt kunde ledas vilse.

Den andra delen är förbättrad språkförståelse genom stora språkmodeller genom att använda transformatormetoden, de tekniska aspekterna av vilka jag inte kommer (och kan) gå in på här, men det och några andra nya framsteg har lett till övertygande språkmodeller som GPT-3 och andra.

Bildkrediter: Google Research

Imagen börjar med att generera en liten (64×64 pixlar) bild och sedan görs två “superupplösningar” på den för att få upp den till 1024×1024. Detta är dock inte som normal uppskalning, eftersom AI-superupplösning skapar nya detaljer i harmoni med den mindre bilden, med originalet som grund.

Säg till exempel att du har en hund på en cykel och hundens öga är 3 pixlar tvärs över i den första bilden. Inte mycket utrymme för uttryck! Men på den andra bilden är den 12 pixlar tvärs över. Varifrån kommer detaljerna som behövs för detta? Tja, AI:n vet hur en hunds öga ser ut, så den genererar fler detaljer när den ritar. Sedan händer detta igen när ögat är klart igen, men med 48 pixlar tvärs över. Men inte vid något tillfälle behövde AI bara dra 48 pixlar av hundögat ur sin … låt oss säga magiska påse. Som många konstnärer började det med motsvarande en grov skiss, fyllde i den i en studie och gick sedan till stan på den sista duken.

Detta är inte oöverträffat, och faktiskt använder konstnärer som arbetar med AI-modeller redan den här tekniken för att skapa bitar som är mycket större än vad AI kan hantera på en gång. Om du delar upp en duk i flera delar och superupplöser dem alla separat, slutar du med något mycket större och mer intrikat detaljerat; du kan till och med göra det upprepade gånger. Ett intressant exempel från en artist jag känner:

De framsteg som Googles forskare hävdar med Imagen är flera. De säger att befintliga textmodeller kan användas för textkodningsdelen och att deras kvalitet är viktigare än att bara öka visuell trohet. Det är intuitivt vettigt, eftersom en detaljerad bild av nonsens definitivt är värre än en lite mindre detaljerad bild av exakt det du bad om.

Till exempel i papper när de beskriver Imagen, jämför de resultaten för det och DALL-E 2 gör “en panda som gör latte art.” I alla de senares bilder är det latte art av en panda; i de flesta av Imagens är det en panda som gör konsten. (Ingen av dem kunde göra en häst som rider till en astronaut, vilket visar motsatsen i alla försök. Det är ett arbete som pågår.)

Datorgenererade bilder av pandor som gör eller är lattekonst.

Bildkrediter: Google Research

I Googles tester kom Imagen före i tester av mänsklig utvärdering, både på noggrannhet och trohet. Detta är uppenbarligen ganska subjektivt, men att ens matcha den upplevda kvaliteten på DALL-E 2, som fram till idag ansågs vara ett stort steg före allt annat, är ganska imponerande. Jag ska bara tillägga att även om det är ganska bra, kommer ingen av dessa bilder (från någon generator) att tåla mer än en översiktlig granskning innan folk märker att de genereras eller har allvarliga misstankar.

OpenAI är dock ett eller två steg före Google på ett par sätt. DALL-E 2 är mer än ett forskningsuppsats, det är en privat beta med människor som använder den, precis som de använde sin föregångare och GPT-2 och 3. Ironiskt nog har företaget med “öppen” i sitt namn fokuserat på att produktisera sin text -till-bild forskning, medan den fantastiskt lönsamma internetjätten ännu inte har försökt det.

Det är mer än tydligt av det val som DALL-E 2:s forskare gjorde, att kurera utbildningsdataset i förväg och ta bort allt innehåll som kan bryta mot deras egna riktlinjer. Modellen kunde inte göra något NSFW om den försökte. Googles team använde dock några stora datamängder som är kända för att innehålla olämpligt material. I ett insiktsfullt avsnitt på Imagen-webbplatsen som beskriver “Begränsningar och samhällelig påverkan”, skriver forskarna:

Nedströms tillämpningar av text-till-bild-modeller är varierande och kan påverka samhället på komplexa sätt. De potentiella riskerna för missbruk väcker farhågor angående ansvarsfull öppen källa för kod och demos. För närvarande har vi beslutat att inte släppa kod eller en offentlig demo.

Datakraven för text-till-bild-modeller har fått forskare att förlita sig starkt på stora, mestadels okurerade, webbskrapade datamängder. Även om detta tillvägagångssätt har möjliggjort snabba algoritmiska framsteg under de senaste åren, återspeglar datauppsättningar av denna karaktär ofta sociala stereotyper, förtryckande åsikter och nedsättande, eller på annat sätt skadliga, associationer till marginaliserade identitetsgrupper. Medan en delmängd av vår träningsdata filtrerades för att ta bort brus och oönskat innehåll, såsom pornografiska bilder och giftigt språk, använde vi också LAION-400M-dataset som är känt för att innehålla ett brett utbud av olämpligt innehåll inklusive pornografiska bilder, rasistiska förtal och skadliga sociala stereotyper. Imagen förlitar sig på textkodare som tränats på okurerad data i webbskala, och ärver därmed de sociala fördomar och begränsningar som finns hos stora språkmodeller. Som sådan finns det en risk att Imagen har kodat skadliga stereotyper och representationer, vilket styr vårt beslut att inte släppa Imagen för allmänt bruk utan ytterligare skyddsåtgärder på plats

Även om vissa kanske tjatar på det här och säger att Google är rädd att dess AI kanske inte är tillräckligt politiskt korrekt, är det en ohälsosam och kortsiktig syn. En AI-modell är bara så bra som den data den är tränad på, och inte alla lag kan lägga den tid och ansträngning det kan ta för att ta bort de riktigt hemska saker som dessa skrapor plockar upp när de sätter ihop flera miljoner bilder eller flera miljarder- orddatauppsättningar.

Sådana fördomar är tänkta att dyka upp under forskningsprocessen, vilket avslöjar hur systemen fungerar och ger en ohämmad testplats för att identifiera dessa och andra begränsningar. Hur skulle vi annars veta att en AI inte kan rita frisyrer som är vanliga bland svarta människor – frisyrer alla barn kan rita? Eller att när du uppmanas att skriva berättelser om arbetsmiljöer, gör AI alltid chefen till en man? I dessa fall fungerar en AI-modell perfekt och som designad – den har framgångsrikt lärt sig de fördomar som genomsyrar media som den är utbildad på. Inte olikt människor!

Men även om avlärning av systemisk fördomar är ett livslångt projekt för många människor, har en AI det lättare och dess skapare kan ta bort innehållet som fick den att bete sig illa från början. En dag kanske det kommer att behövas en AI för att skriva i stil med en rasistisk, sexistisk förståsigpåare från 50-talet, men för närvarande är fördelarna med att inkludera den informationen små och riskerna stora.

I alla fall är Imagen, liksom de andra, fortfarande tydligt i experimentfasen, inte redo att anställas på annat än ett strikt mänskligt övervakat sätt. När Google börjar göra sina funktioner mer tillgängliga är jag säker på att vi kommer att lära oss mer om hur och varför det fungerar.


#Googles #bildgenerator #konkurrerar #med #DALLE #shiba #inuritning #TechCrunch

Leave a Comment

Your email address will not be published.