Нейросеть Stable Diffusion: разбираемся в тонкостях работы ИИ

stable diffusion нейросеть

Stable Diffusion — нейросеть, которая считается одним из самых продвинутых решений в сегменте искусственного интеллекта. Эта система предназначена для генерации изображений. Благодаря тому, что она развивается как проект с открытым исходным кодом, ее может использовать в повседневной работе любой желающий. В статье мы расскажем, как это сделать.

Содержание
  1. Технические характеристики
  2. Старт работы: где найти и как установить
    1. NKMD Stable Diffusion GUI
    2. DiffusionBee
    3. Easy Diffusion
    4. Облегченный вариант: телеграм
  3. Stable Diffusion гайд: как настроить десктопный AI?
    1. Предварительные настройки
    2. Работа с генерацией через текстовый промт
  4. Песик в космосе: показываем на примерах, как работать с изображениями
    1. Генерирование с нуля
    2. Работа с запросами про стили известных художников
    3. Мелкие детали: как ИИ заменяет объекты и дорисовывает фон
    4. Используем референс: как дополнить набросок
    5. Анимирование
  5. Для чего нужны модели?
  6. Подведем итоги
  7. Часто задаваемые вопросы

Редактируйте результат генерации за 1 клик в ФотоМАСТЕР

  • Улучшайте качество изображений
  • Убирайте точечные и более мелкие дефекты
  • Меняйте фон на готовом изображении

Технические характеристики

Лицензия: CreativeML Open RAIL-M
Версии: онлайн, десктоп, мобильная
Системные требования: видеокарта от NVIDIA с минимум 6,9 ГБ памяти, от 8 ГБ ОЗУ и 10 ГБ свободного пространства на накопителе (рекомендуется устанавливать на SSD)
Количество понимаемых языков: 2 (японский и английский)
Разработчик: STABILITY AI LTD
Доступ: свободный
Регистрация: не требуется
Платные опции: ускоренная обработка запросов


Плюсы:
  • Можно самостоятельно менять системные параметры
  • Доступна на всех платформах
  • Можно обучать на собственном контенте
Минусы:
  • Оригинальная версия сложна в настройке и установке
  • Не поддерживает русский язык
  • Требует мощного компьютера

Старт работы: где найти и как установить

Разработчики Стабле Диффузион взяли курс на максимальную доступность. Нейронная сеть распространяется в виде программных библиотек на Python (один из языков программирования). Их можно скачать, установить и настроить из репозитория на GitHub. Ссылка на него находится на официальном сайте.

Такой способ имеет много недостатков. Сборка из исходного кода требует специальных знаний и опыта. Для работы системы нужен мощный ПК и около 100 ГБ пространства на жестком диске. Можно обойтись значительно меньшим хранилищем, но тогда пострадает качество генерации. Наконец, все команды придется подавать через командную строку.

По этим причинам во многих случаях лучше брать другие модификации ИИ (в виде онлайн-сервисов, мобильных или десктопных приложений). Такой софт имеет понятный графический интерфейс. Некоторые решения производят вычисления не локально, а на удаленных серверах. Вам не придется покупать в свой компьютер мощную видеокарту и вместительный SSD.

NKMD Stable Diffusion GUI

Оффлайн-модификация ИИ для Windows. Все вычисления выполняются на ПК пользователя, поэтому понадобится достаточно мощное железо и видеокарта от NVIDIA. Поддержка адаптеров от AMD пока заявлена как экспериментальная функция, а решения от Intel не упоминаются вовсе.

Эту версию Stable Diffusion скачать можно со страницы на Itch.io. Она распространяется бесплатно. Нужно кликнуть «Скачать сейчас». Далее сервис предложит вознаградить разработчиков. Вы можете отправить произвольную сумму или перейти к загрузке (опция «Нет спасибо, давайте сразу к скачиванию»).

stable diffusion скачать

Доступно два архива: только само приложение или программа вместе с обученными моделями SD 1.5. Лучше выбрать второй вариант. После скачивания архив желательно распаковать в корневой каталог диска. Из других папок программа иногда не запускается.

NKMD Stable Diffusion GUI

Запустите файл StableDiffusionGui.exe из папки с ИИ. В левой части окна расположены параметры генерации. Например, там можно вводить текстовые запросы, добавлять референсное изображение, указывать разрешение и прочее. Кнопка со стрелкой, указывающей вниз на фоне монитора (справа наверху), позволяет проверять обновления и устанавливать дополнительные компоненты. Значок шестеренки открывает настройки самой программы. В них можно указать папку для создаваемых картинок.

Стабле Диффузион

DiffusionBee

Десктопная версия Stable Diffusion для генерации изображений на компьютерах Apple. Программа для Windows пока находится в разработке. При скачивании обратите внимание на конфигурацию своего оборудования. Существуют отдельные версии для компьютеров на базе процессоров Intel и собственных решений Apple (М1 и М2).

DiffusionBee

Интерфейс и процесс создания максимально упрощены. Поддерживается создание графики по текстам и референсам (разделы «Text To Image» и «Image to Image» соответственно). В настройках доступны разрешение, точность обработки запросов и количество шагов генерации.

Easy Diffusion

Мультиплатформенное приложение с ИИ. Существуют версии для Windows, Linux и macOS. Процесс установки для операционной системы от Microsoft стандартный, а на Linux и macOS нужно распаковать архив с программой. Затем запустите в терминале файл start.sh.

Easy Diffusion

В качестве графической оболочки в этом случае используется браузер. При запуске программы открывается страница с несколькими вкладками. В «Generate» можно давать словесные описания желаемых результатов и подгружать референсы. «Settings» отвечает за параметры приложения. Например, можно активировать звуковые оповещения и переключать генерацию на графическом или центральном процессоре. В «Help & Community» находятся ссылки на документацию и официальные аккаунты в Discord, Reddit и GitHub. Наконец, «Model tools» позволяет самостоятельно обучать ИИ.

Облегченный вариант: Телеграм

Системой можно пользоваться без установки. Существует модификация Stable Diffusion AI Online и различные боты в Telegram. Мессенджер используется в качестве интерфейса. Необходимо открыть соответствующий канал и запустить чат-бота. Команды подаются при помощи кнопок меню и строки для сообщений. Перед тем сгенерировать картинку, бот может предложить подписаться на один или несколько рекламных каналов разработчиков.

Stable Diffusion AI Online

Обычно предоставляется некоторое количество бесплатных генераций. Когда лимит будет исчерпан, придется оформить подписку или купить внутреннюю валюту. Таким же способом открываются платные опции: повышенное разрешение, дополнительные модели ИИ и прочее.

Stable Diffusion гайд: как настроить десктопный AI?

Предварительные настройки

Количество и названия параметров могут несколько отличаться в зависимости от конкретной модификации. Например, в Telegram-версии настройки часто ограничиваются разрешением и количеством шагов генерации. В десктоп и онлайн-приложениях можно встретить опции:

  • Base Image — референсная иллюстрация. ИИ попытается определить общую стилистику и основные объекты на добавленном рисунке. Затем использует эту информацию при создании. Например, если на референсе была собака крупным планом в центре кадра, это же животное будет изображено на финальной работе.
    Оригинальное фото Сгенерированная в Stable Diffusion картинка

    ИИ стилизовал оригинальный снимок под поделку из пластилина

  • Amount Of Image To Generate — количество создаваемых изображений. Алгоритм выдаст несколько результатов, из которых можно выбрать более удачный.
  • Generation Steps — число шагов генерации. Чем их больше, тем качественнее результат, но это также увеличивает длительность обработки.
  • Prompt Guidance — коэффициент указывает, насколько точно ИИ должен следовать формулировке задачи (чтобы на рисунке была именно лошадь, а не ракета). Алгоритмы пока еще не совершенны, поэтому ошибок и произвольных интерпретаций запросов избежать не получится.
  • Seed — цифровой ключ, который берется в математических моделях для генерации. При создании нескольких иллюстраций в одной стилистике лучше использовать фиксированное значение, иначе результаты будут менее предсказуемыми.
  • Resolution — разрешение. Обычно минимальное значение составляет 512х512, а максимальное — 2048х2048 пикселей. Чем оно выше, тем дольше обрабатывается задание.
  • Sampler — алгоритм выборки. Задает шаблон исходных данных математической модели. По умолчанию используется DPM++ 2M Karras. Он обеспечивает достаточно высокое качество и не отнимает много времени.
  • Seamless или Tileable — создает «обычное» или повторяющееся изображение. Режим Tileable нужен для генерации узоров или текстур.
  • Symmetric — симметричность иллюстрации. В зависимости от выбранного режима ключевые элементы могут повторяться в соответствующих частях кадра. Например, лошадь может находиться слева и справа. симметричность иллюстрации

Работа с генерацией через текстовый промт

Основным источником исходных данных для генератора служит текстовое описание. Через него система узнает, какой результат нужен пользователю. ИИ в целом неплохо понимает обычную письменную речь. Тем не менее приходится учитывать несколько особенностей:

  1. Запросы нужно вводить по-английски. Если добавить русскоязычный текст, никаких предупреждений не появится, но результат будет непредсказуемым.
  2. Лучше использовать краткие тезисные описания, которые отражают основную идею («собака летит на ракете», «лось едет на мотоцикле»). Лишние детали и длинные тексты могут запутать алгоритм. Например, если ввести «заяц скачет по лужайке с цветами, играет на балалайке и поет песни», ИИ может создать рисунок, на котором будет поляна и музыкальный инструмент, раскрашенный цветами. Генерация фото нейросетью по текстовому запросу

    Генерация по запросу «Moose Rides a Motorcycle» («Лось едет на мотоцикле»).

    сгенерировать необычного зайца в нейросети

    Генерация по запросу «A Hare Jumps on a Lawn With Flowers, Plays the Balalaika and Sings Songs» («Заяц скачет по лужайке с цветами, играет на балалайке и поет песни»)

  3. В параметре «Negative Prompt» можно перечислить объекты или характеристики, которых не должно быть на картинке. Например, если требуется фото лося без рогов.

Песик в космосе: показываем на примерах, как работать с изображениями

Пришло время узнать, как пользоваться Stable Diffusion. Мы рассмотрим несколько основных способов на примере онлайн-сервиса DreamStudio — в его основе лежит тот же ИИ.

Генерирование с нуля

Запрос «Dog Flies on a Rocket in Space» («собака летит на ракете в космосе»). Создавалось 4 изображения с соотношением сторон 16:9 без стилизации.

собака летит на ракете собака в космосе полет собаки в космосе генерирование фото с нуля по текстовому запросу
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее

Во всех вариантах ИИ неплохо справился с анатомией животного. Место действия (космос) также узнается. Ракета присутствует на первом и втором рисунке, но то, что собака на ней летит, можно отдаленно понять только на первом. Правда, лапы почему-то пририсованы к корпусу ракеты.

Работа с запросами про стили известных художников

Промт «Dog in Space, Style of Raphael's Painting» — «Собака в космосе, стиль картин Рафаэля».

нейросеть рисует в стиле картин Рафаэля собака космонавт нейросеть нарисовать собаку в космосе нейросеть копирует стиль итальянского художника
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее

В этом случае нейросеть более точно реализовала запрос, но есть хорошо заметные артефакты. Например, на втором изображении у собаки нет одной из передних лап, а на четвертом — в левом верхнем углу появилась часть иллюминатора или деталь скафандра. На некоторых иллюстрациях можно заметить небольшую обработку под рисунок красками, но со стилем итальянского художника никакого сходства.

Другой: «Dog in Space, style of a Picasso painting» — «Собака в космосе, стиль картин Пикассо».

стиль картин Пикассо нейросеть иммитирует стиль Пикасо картины Пикасо нейросеть стилизация рисунков нейросетью
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее

Любители искусства сразу поймут, что эти рисунки не имеют никакого отношения к работам Пикассо. Однако здесь стилизация хорошо заметна.

Мелкие детали: как ИИ заменяет объекты и дорисовывает фон

В качестве исходного изображения использовался один из результатов предыдущих генераций. Запрос: «Add Few Planets and Green Nebula» («добавить несколько планет и зеленую туманность»).

ИИ заменяет объекты ИИ дорисовывает фон Stable Diffusion онлайн бесплатно нейросеть Stable Diffusion
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее

Появилось больше планет, но не зеленая туманность. За нее можно принять небольшое облачко с диффузией над головой собаки на втором изображении. Стали заметнее искажения анатомии.

Используем референс: как дополнить набросок

Использовался один из предыдущих результатов. Вводился промт: «Add Cat Near the Dog» («Добавить кота рядом с собакой»).

Нейросеть с многофункциональным инструментарием анимировать фото в нейросети нейросеть дополнила набросок добавить элементы на фото в Stable Diffusion онлайн бесплатно
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее
мини-фото в галерее

Алгоритм сохранил стилистику и содержание референса. Появилось много артефактов, а кот присутствует только на третьем изображении.

Анимирование

Не так давно разработчики представили разновидность системы, предназначенную для генерации видео. Эту версию Stable Diffusion онлайн бесплатно пока не попробовать, функция все еще тестируются. Немногочисленные сервисы работают по подписке. Нейросеть с соответствующим инструментарием придется устанавливать на компьютер, а все команды вводить через консоль.

Для чего нужны модели?

Модели содержат наборы определенных настроек или переключают библиотеки с материалами для обучения ИИ. Применительно к модификациям Stable Diffusion модели задают стилизацию. Изначально система придерживается реалистичного дизайна. Посмотрим, как поменяются результаты для запроса «Dog in Space» («Собака в космосе») на примере веб-версии.

SAI-anime

SAI-anime. Изображение выполнено в мультяшной рисовке и без грубых ошибок.

Artstyle-Graffiti

Artstyle-Graffiti. Результат напоминает смесь граффити и рисовки в стиле комиксов.

Game-Cyberpunk Game

Game-Cyberpunk Game. Палитра и содержание соответствуют киберпанку, но
на изображении собака находится не в космосе.

Papercraft-Collage

Papercraft-Collage. Изображение напоминает рисунок, а не коллаж из цветной бумаги.
Есть артефакты на морде собаки и скафандре.

Подведем итоги

Теперь вы знаете, как установить Stable Diffusion и какие результаты выдает этот ИИ с разными режимами и запросами. Новичкам и неспециалистам лучше воспользоваться онлайн-версиями или Telegram-ботами. Более продвинутым пользователям могут подойти десктопные приложения. Если есть мощный ПК и вас не пугает командная строка в качестве интерфейса, попробуйте собрать нейросеть из исходного кода и настроить ее самостоятельно.

Часто задаваемые вопросы

Как пользоваться Stable Diffusion в России?
Можно сделать собственную сборку из исходного кода, воспользоваться сторонними модификациями, онлайн- или мобильными версиями.
Как установить нейросеть через Python?
Сначала ознакомьтесь с официальной документацией разработчиков в GitHub. Далее установите Python и Git — они понадобятся для скачивания и сборки приложения. Обратите внимание на номера нужных версий — они указаны в документации. Скачайте и распакуйте архивы с самим ИИ. Откройте файл (также упоминается в документах), который запускает процесс сборки и дождитесь завершения процесса.
Как Stable Diffusion работает через Телеграм?
Мессенджер используется в качестве интерфейса. Команды подаются в текстовом виде через строку для сообщений или при помощи кнопок меню. Генерация выполняется на серверах, благодаря чему мощность вашего устройства (можно использовать даже смартфон) не имеет значения.
Комментарии (0)
Прокомментируйте первым!
Смотреть ещё
Оставить комментарий:
Введено символов: 0 из 1000
Антиспам:
=
Alt