Zbliżenie: azjatycka dziewczyna dmucha na zimną szybę samochodu, tworząc na niej gęstą warstwę pary. Palcem rysuje uśmiechniętą buźkę na zaparowanej szybie. Hiperrealizm, filmowe oświetlenie, szczegółowa kondensacja wody.
HappyHorse-1.0 to czołowy otwartoźródłowy model AI do generowania wideo, szeroko wspierany przez Alibaba Taotian Group, z imponującą liczbą 15 miliardów (15B) parametrów. Jako zunifikowany model Transformer przełamuje tradycyjne ograniczenia i potrafi bezpośrednio generować kinowej jakości wideo 1080p wraz z idealnie zsynchronizowanym audio na podstawie promptów tekstowych lub obrazów.
HappyHorse-1.0 natywnie obsługuje sześć głównych języków: chiński, angielski, japoński, koreański, niemiecki i francuski. Oferuje nie tylko bardzo ekspresyjne mikromimiki twarzy i naturalne ruchy ciała, ale także wyjątkowo precyzyjny wielojęzyczny lip-sync. Jednocześnie z generowaniem obrazu tworzy zsynchronizowane dialogi, dźwięki otoczenia i efekty Foley, całkowicie eliminując potrzebę żmudnego postsynchronu. Dzięki skrajnej optymalizacji algorytmicznej model nie wymaga classifier-free guidance i utrzymuje najwyższą jakość obrazu przy zaledwie 8 krokach odszumiania oraz rekordowej szybkości. Obecnie HappyHorse-1.0 zajmuje pierwsze miejsce w autorytatywnej arenie text-to-video Artificial Analysis z wynikiem Elo 1333.
W WeryAI HappyHorse-1.0 jest na wyciągnięcie ręki. Tak potężny model z 15 miliardami parametrów zwykle wymaga bardzo wymagającego lokalnego GPU. Teraz jednak dzięki platformie WeryAI nie trzeba inwestować w drogi sprzęt lokalny. Zespół może szybko testować prompty w przeglądarce, dopracowywać materiały referencyjne i błyskawicznie pobierać gotowe materiały z natywnym zsynchronizowanym audio, płynnie realizując swoją wizję kreatywną.