Alibaba Cloud går inn med betydelig kapital i en ny retning innen kunstig intelligens, der målet er å etterligne virkeligheten bedre enn det tradisjonelle språkmodeller klarer.
Bakgrunnen er at såkalte store språkmodeller, som i hovedsak er trent på tekst, i økende grad blir sett på som begrenset når AI skal forstå og forutsi hendelser i den fysiske verden. Utviklere retter derfor mer oppmerksomhet mot det som omtales som world models, modeller som i større grad lærer av video og fysiske scenarier.
Alibaba kunngjorde fredag at selskapet leder en investering på 2 milliarder yuan, tilsvarende rundt 290 millioner dollar, i ShengShu. Oppstartsselskapet står bak AI-verktøyet Vidu, som genererer video fra tekst og bilder. Også TAL Education og Baidu Ventures deltar i serie B-runden. ShengShu ønsket ikke å oppgi verdsettelsen av selskapet.
Investeringen kommer rundt to måneder etter at ShengShu hentet inn over 600 millioner yuan i en tidligere finansieringsrunde fra Qiming Venture Partners og andre investorer.
Vil bygge en «generell world model»
ShengShu opplyser at den nye kapitalen skal brukes til å utvikle en «generell world model» som skal koble sammen to områder som i dag ofte behandles separat: den digitale verdenen, som spill og AI-generert video, og den fysiske verdenen, som selvkjørende biler og roboter.
Selskapet mener en slik modell, bygget på multimodale data som syn, lyd og berøring, i større grad fanger hvordan den fysiske verden faktisk fungerer enn det rene tekstbaserte språkmodeller gjør.
Gründer Zhu Jun beskriver ambisjonen slik i en uttalelse:
– Vi har som mål å koble persepsjon og handling, slik at AI-systemer bedre kan modellere og forutsi atferd i den virkelige verden på en konsistent måte, sier han.
ShengShu lanserte i januar en oppdatert modell, Vidu Q3 Pro. Ifølge rangeringer fra Artificial Analysis ligger den blant de ti beste modellene for å lage video basert på tekst og bilder.
Vidu ble lansert internasjonalt flere måneder før OpenAI gjorde sitt videoprodukt Sora bredt tilgjengelig. Kinesiske aktører som Kuaishou og ByteDance har også lansert konkurrerende verktøy for AI-generert video.
Hardere konkurranse om world models
Alibaba har den siste tiden trappet opp investeringene i selskaper som jobber med beslektet teknologi. Forrige måned ledet Alibaba og Baidu Ventures en investering på 50 millioner dollar i Tripo AI, en plattform som bruker AI til å generere digitale 3D-modeller fra fotografier. Tripo har også signalisert at de beveger seg bort fra metoder typisk brukt i språkmodeller, og utvikler sin egen world model for verktøy som er mer forankret i fysisk rom.
I september ledet Alibaba dessuten en investering på 60 millioner dollar i PixVerse. Selskapet har lansert en world model som skal gjøre det mulig å styre hvordan en video utvikler seg mens den genereres.
Alibaba, som opprinnelig ble kjent for netthandel, har samtidig lansert gratis, åpen kildekode-modeller for videoproduksjon og har også kommet med en modell som er ment å kunne brukes til å drive roboter.
Viktig for roboter og embodied AI
ShengShu opplyser at de har strategiske partnerskap med selskaper som utvikler embodied AI, altså systemer som humanoide roboter som kan samhandle med den fysiske verden. Teknologien kan ifølge selskapet brukes i industri, kommersielle miljøer og i hjemmet.
World models blir av flere framhevet som spesielt viktige for robotikk, fordi roboter trenger mer enn tekstforståelse for å kunne operere trygt og effektivt i virkelige omgivelser. Teknologiprofilen Kevin Kelly har pekt på at AI som skal nærme seg menneskelig intelligens må kombinere resonnering, forståelse av den fysiske verden og kontinuerlig læring.
Språkmodeller har gitt et kraftig løft på kunnskaps- og resonneringssiden, men gjennombrudd knyttet til forståelse av verden slik den faktisk oppfører seg, kan i stor grad avhenge av neste generasjon world models.