15.06.2022 17:28
Интернет,PRO Компании

«Сбер» научил ИИ генерировать картинки

Разработчики «Сбера» представили модель генерации изображений по текстовому описанию на русском языке: алгорим получил говорящее название Kandinsky. Нейросеть можно использовать для создания иллюстраций, рекламных материалов, цифрового дизайна зданий и промышленных предметов, а также для генерации образцов электронного искусства.

«Мы продолжаем развивать нейронные сети, которые следуют принципам трёх М — мультимодальности, мультизадачности и мультиязычности. Kandinsky — это мощный прорыв в этой сфере», — сказал Александр Ведяхин, первый заместитель председателя правления Сбербанка.

Разработки нейросети начались еще в прошлом году. В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Её параметры и код были выложены в открытый доступ, а затем был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Также в ноябре была анонсирована, а в декабе опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 млрд параметров.

В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.

Что теперь умеет модель Kandinsky? Например, она может сгенерировать изображение с произвольным соотношением сторон, создать более похожий «на правду» результат, качественно передавая различные текстуры, тени и отражения. Степень детализации больше, чем у более ранней версии модели.

Kandinsky работает в мобильном приложении «Салют», на умных устройствах Sber по запросу «Включи художника».

Нейросети, рисующие вместо человека, появились еще несколько лет назад. Их достаточно много, вопрос только в качестве готового изображения. Так, по описанию создает картинки нейросеть Disco Diffusion от Google, работает она только на английском языке. Есть сервис Artbreeder, который позволяет совместить несколько изображений между собой и получить таким образом, например, анимационного персонажа. Стоит также упомянуть  Nvidia GauGAN, EbSynth, Dream by Wombo.

Авторы: Анастасия Симакина
Тэги: Искусственный интеллект,Сбербанк
Рубрики: Наука и технологии,MTT PRO Бизнес