Description
Генерация изображений из текста. Эта модель принимает на вход текстовый запрос и возвращает в качестве выходных данных латентное пространство VQGAN, которое затем преобразуется в изображение RGB. В конечном итоге она минимизирует расстояние между признаками изображения, созданными с помощью CLIP, и признаками входного текста, полученными с помощью CLIP.
На английском: Generating images from text. This model takes as input a text prompt, and returns as an output the VQGAN latent space, which is then transformed into an RGB image. Eventually it minimizes the distance between the CLIP generated image features and the CLIP input text features
Добавлено: 2022-07-10 21:00:00