Как выбрать нейросеть,
которая рисует по текстовому запросу

Создание картинок по текстовым описаниям — одно из основных направлений, по которому развивается технология машинного обучения. Эта функция есть в десятках онлайн-сервисов. Многие из них доступны обычным пользователям, а не только профессиональным дизайнерам. Мы отобрали наиболее интересные, чтобы проверить, какая нейросеть рисует по текстовому запросу лучше других.

Содержание
  1. Совет эксперта: какую нейросеть выбрать, чтобы нарисовать арт в художественном стиле по тексту?
  2. Как выбрать нужный сервис?
  3. Какие есть варианты?
  4. Резюмируем: в чем преимущества и недостатки нейросетей, которые рисуют картинки по запросу
  5. Отвечаем на часто задаваемые вопросы

Как выбрать нужный сервис?

Онлайн-сервисы на базе искусственного интеллекта различаются по своим возможностям. Учитывайте, насколько соответствуют особенности и возможности того или иного веб-приложения вашим предпочтениям и задачам.

Как выбрать ИИ

Какие есть варианты?

Теперь разберем конкретные веб-приложения, в которых нейросеть рисует картинки по тексту. Для каждого решения в подборке мы приложим созданную иллюстрацию. Так вы лично убедитесь в преимуществах и недостатках конкретной модели ИИ.

Интерфейс сервиса напоминает графический редактор. Задания вводятся текстом по-английски, можно загружать референсные изображения. Поддерживаются негативные промты — перечисления особенностей, которых не должно быть на результате. Можно задавать соотношение сторон кадра и указывать, сколько картинок необходимо создавать за раз.

Доступно 16 стилей — пиксель-арт, оригами, цифровая живопись, аниме, поделка из пластилина и другие. Предусмотрен режим редактирования. В нем также можно компоновать сгенерированные картинки по отдельным слоям. После регистрации предоставляется 100 бесплатных кредитов. Баланс восстанавливается с течением времени.

Генерация изображения в DreamStudio

Генерация с промтом «Cat as a Portrait of Mona Lisa» («Кот как портрет Моны Лизы»), стилизация отключена. ИИ попытался создать картину, которая висит на стене в раме. Алгоритм неправильно кадрировал изображение. Оно не похоже на полотно Леонардо да Винчи и имеет артефакты.

В этом случае онлайн-сервис является дополнением мобильного приложения. В нем есть выбор соотношения сторон, поддержка референсов и галерея с работами других пользователей. На сайте искусственный интеллект рисует по словам и в фиксированном разрешении. Есть несколько десятков стилей: сепия, поделки из бумаги и глины, граффити, стикеры и другие.

Можно редактировать полученную графику при помощи повторных генераций. Их количество не ограничивается, однако часть вариантов дизайна предоставляется по подписке (от $9,99 в месяц). Она же открывает создание видеороликов.

Генерация изображения в Dream by WOMBO

Картинка, созданная по запросу «Giant Dragonfly» («Гигантская стрекоза»), стиль «HDR v3». ИИ приделал насекомому лишнюю пару крыльев, но органично вписал их в анатомию.

Логотип Stable Diffusion

Stable Diffusion

Система развивается как проект с открытым исходным кодом. Любой желающий может создать сборку с индивидуальными настройками, запустить ее на собственном оборудовании и обучить на нужном контенте. Также существует несколько официальных и сторонних решений. Благодаря этому пользователю не обязательно покупать мощный компьютер и изучать тонкости настройки ПО. Однако для доступа к готовым сборкам от других разработчиков нужно пройти регистрацию.

В онлайн-версии в сутки предоставляется 10 кредитов. В ней есть более 25 стилей (карикатура, сюрреализм, футуризм и многие другие), встроенный редактор и поддержка негативных запросов, но только на английском языке.

Генерация изображения в Stable Diffusion

Промт «Rabbit Makes Pizza» («Кролик готовит пиццу») со стилем «Фэнтези-арт». Животное скорее сидит на пицце, а не занимается готовкой. На фоне другая пицца загорелась.

Логотип Шедеврум

Шедеврум

Система на базе модели YandexGPT. На сайте есть нейросеть для рисования по словам, там можно генерировать до пяти картинок в день. В мобильной версии это ограничение снято. Также в ней доступно создание клипов с анимацией, текстов и обработка существующих картинок. ИИ понимает русскоязычные промты.

Генерация изображения в Шедеврум

Генерация по запросу «Утка идет с ружьем по болоту». Птица получилась самой обычной и у нее нет ружья. Заметны мелкие артефакты на одной из лап и на хвосте.

Логотип Playground

Playground

Бесплатно создает до 50 изображений в сутки. Задание вводится в текстовой форме на английском, опционально можно добавить картинку. Изначально доступно три пресета — без стилизации, реалистичные портреты и фантастические миры. Предусмотрены исключающие запросы, выбор соотношения сторон и количества генерируемых изображений (от одного до восьми), а также редактирование.

Генерация изображения в Playground

Иллюстрация создана по промту «Lion Plays Chess» («Лев играет в шахматы»). Выбран стиль «Fantasy Worlds». На мелких объектах по всему кадру заметны незначительные артефакты, но серьезных ошибок ИИ не допустил.

На сайте представлена нейросеть, которая рисует фото по запросу с текстом на английском. За раз выдает девять вариантов, под ними находится список картинок, которые делали другие пользователи по похожему промту. Таким образом ИИ дает подсказку по формулировкам запросов — их можно копировать из работ в этой подборке. Есть три стилизации: картина, фото и рисунок. Функционал доступен без регистрации и число генераций не ограничивается.

Генерация изображения в Craiyon

ИИ подготовил изображение по промту «Pigeon Postman With a Letter» («Голубь-почтальон с письмом»), стиль — картина. Заметны многочисленные искажения. Птица не похожа на почтальона и у нее нет письма.

Онлайн-приложение от Сбера, созданное на основе модели Кандинский. Умеет генерировать изображения и короткие видео по текстам и референсной графике. Распознает русскоязычные описания. Предустановлено 17 стилей (киберпанк, Малевич, Пикассо, аниме и другие), можно делать и настраивать собственные.

Генерация изображения в Fusion Brain

Иллюстрация по запросу «Кот чинит телевизор» с активированным стилем «Детальное фото». Кот просто сидит рядом с печатной платой. В кадре нет телевизора.

Сервис с несколькими онлайн-редакторами и генераторами картинок, у них есть мобильные версии. Промты вводятся по-английски. Можно указывать форму кадра — квадратную, вертикальную или горизонтальную. Оформление задается четырьмя опциями: стилем (аниме, фэнтези, неоновый панк), палитрой, освещением и композицией. Поддерживаются исключающие описания. Предоставляется 18 кредитов, которые постепенно восстанавливаются.

Генерация изображения в Pixlr

Изображение по описанию «Elephant Sells Dishes» («Слон продает тарелки»). Выбраны стиль «Fantasy Art», пастельные цвета, драматическое освещение и широкоугольная композиция. На картинке есть мелкие искажения, а ее содержание не совсем соответствует запросу.

Многофункциональный сервис и мобильная программа для работы с графикой. В отдельном разделе ИИ рисует арты по словам на английском. Можно активировать любой из 22 стилей — киберпанк, винтаж, аниме, фотография и прочие. В сутки предоставляется 20 генераций.

Генерация изображения в Freepik

Генерация с промтом «Snake Plumber Fixing a Pipe» («Змея-сантехник чинит трубу») и без стилизации. ИИ исказил анатомию животного, а трубы проложены хаотично. К тому же змея ничего не ремонтирует.

Веб-приложение предлагает свыше 100 видов стилизации: манга, иллюстрации детских книг, арт-деко, гротеск, винтажные постеры и другие. Можно создавать по 3 картинки в день бесплатно. Задания для ИИ вводятся по-английски.

Генерация изображения в DeepAI

Генерация с промтом «Fox Feeds Mouse» («Лиса кормит мышь») в стиле древнеегипетской живописи. На картине есть артефакты и небольшие абстрактные фигуры. ИИ примерно сымитировал выбранный дизайн, не добавил мышь и сделал три лисы вместо одной.

Резюмируем: в чем преимущества и недостатки нейросетей, которые рисуют картинки по запросу

Мы проверили, как ИИ рисует картины по словам онлайн. В последнее время заметно явное улучшение в работе AI. Теперь алгоритмы в большинстве своем не искажают анатомию, а незначительные ошибки можно игнорировать или исправлять вручную. Хуже дело обстоит с точностью интерпретации запросов. Нейронным сетям не всегда удается понять, чего от них хочет пользователь. Чтобы добиться нужного результата, приходится экспериментировать с формулировками и запускать несколько генераций подряд. Промты почти всегда нужно вводить по-английски — исключением здесь будут российские системы.

Решения, которые мы протестировали, можно использовать бесплатно. Этого достаточно для личных проектов. Профессионалам-одиночкам, небольшим командам и компаниям лучше присмотреться к платным тарифам. Так они избавятся от ежедневных ограничения на количество генераций и получат дополнительные опции. Если работа онлайн вас не устраивает, присмотритесь к версиям того же ПО для мобильных устройств.

Отвечаем на часто задаваемые вопросы

Какие данные и метаданные сохраняются при генерации изображения?
Запрос и готовый контент могут сохраняться во внутренней базе и использоваться в процессе самообучения генеративной модели. В самом графическом файле теги, копирайты и другие метаданные обычно не заполняются.
Как ИИ справляется с запросами, содержащими сложные или редкие термины?
ИИ может посчитать, что пользователь опечатался. Система проигнорирует термин или заменит его на слово со схожим написанием.
Влияет ли длина текстового запроса на качество и детализацию изображения?
Это зависит от формулировок промта и алгоритмов конкретной нейросети. В одних случаях дополнительные характеристики обрабатываются правильно и на картинке появляются нужные детали. В других — ИИ неверно определяет зависимости между словами.
Комментарии (0)
Прокомментируйте первым!
Смотреть ещё
Оставить комментарий:
Введено символов: 0 из 1000
Антиспам:
=
Alt