Google представили нейросеть Imagen, создающую картины и фотореалистичные изображения из текстового описания. И она лучше DALL-E 2 [+фото]
Команда Google Brain представила нейросеть-художника, которая распознает текст с использованием больших языковых моделей, после чего выдает фотореалистичный рисунок. При этом Imagen генерирует первую картинку размером 64х64 пикселей, а затем повышает разрешениедо 256х256 и 1024х1024 точек, в процессе добавляя детали. ИИ Imagen уже превзошел DALL-E 2 по качеству картинок.
«Наше ключевое открытие заключается в том, что универсальные большие языковые модели (например, T5), предварительно обученные на текстовых массивах, удивительно эффективны при кодировании текста для синтеза изображений: увеличение размера языковой модели в Imagen значительно повышает как точность выборки, так и выравнивание изображения и текста», — заявили разработчики.
Команда Google также сообщила о всплывших этических проблемах, хотя и не вдалась в подробности о тревожном контенте, генерируемом Imagen. D Google Brain отметили, что нейросеть «кодирует несколько социальных предубеждений и стереотипов, в том числе общую предвзятость в отношении создания изображений людей с более светлыми оттенками кожи и склонность к изображениям, изображающим разные профессии, соответствующие западным гендерным стереотипам».
Все потому, что Imagen «скармливали» наборы данных из интернета без 100% предварительного отбора. А информация такого рода часто отражает «социальные стереотипы, репрессивные точки зрения и уничижительные или иным образом вредные ассоциации с маргинализованными группами идентичности». Многие обучающих данные отфильтровали для нежелательного контента. Но использовали и набор данных LAION-400M, который содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы.
Поэтому исходный код Image не представлен публике.