Описание
Генерация 4-секундного видео из текста. CogVideo – это самый большой предварительно обученный трансформер для генерации видео из текста в общей области, который состоит из 9,4 миллиардов параметров. CogVideo элегантно и эффективно настраивает предварительно обученную модель генерации текста в изображение (CogView2) для генерации текста в изображение и принимает многоскоростную иерархическую стратегию обучения.
На английском: Generating a 4 seconds video from text. CogVideo is the largest pretrained transformer for text-to-video generation in the general domain, which is of 9.4 billion parameters. CogVideo elegantly and efficiently finetunes a pretrained text-to-image generative model (CogView2) for text-to-image generation, and adopts multi-frame-rate hierarchical training strategy.
Добавлено: 2022-05-29 21:00:00