Nærbilde av en asiatisk jente som puster på et kaldt bilvindu og lager et tykt lag dugg på glasset. Hun tegner et smilefjes med fingeren på den duggede ruten. Hyperrealistisk, filmatisk lyssetting, detaljert vannkondens.
HappyHorse-1.0 er en toppnivå open-source AI-videogenereringsmodell med sterk støtte fra Alibaba Taotian Group, og har imponerende 15 milliarder (15B) parametere. Som en samlet Transformer-modell bryter den tradisjonelle barrierer og kan direkte generere filmatisk 1080p-video sammen med perfekt synkronisert lyd fra tekst- eller bildeprompter.
HappyHorse-1.0 støtter seks store språk naturlig: kinesisk, engelsk, japansk, koreansk, tysk og fransk. Ikke bare leverer den svært uttrykksfulle ansiktsmikrouttrykk og utrolig naturlige kroppsbevegelser, men den oppnår også ultranøyaktig flerspråklig lip-sync. Den genererer synkronisert dialog, omgivelseslyd og Foley samtidig med videorammene, noe som helt eliminerer behovet for tidkrevende ettersynkronisering. Takket være ekstrem algoritmisk optimalisering krever modellen ikke classifier-free guidance (CFG), og opprettholder topp visuell kvalitet med bare 8 denoising-trinn i rekordfart. Akkurat nå holder HappyHorse-1.0 førsteplassen i Artificial Analysis Text-to-Video Arena med en enorm Elo-score på 1333.
Hos WeryAI er HappyHorse-1.0 innen rekkevidde. En modell med 15 milliarder parametere krever vanligvis svært kraftige lokale GPU-er. Men nå trenger du ikke investere i dyr maskinvare gjennom WeryAI-plattformen. Teamet ditt kan raskt teste prompter, finjustere referansemateriale og laste ned feilfrie sluttklipp med innebygd synkronisert lyd direkte i nettleseren, slik at den kreative visjonen kan realiseres sømløst.