Как работает генерация изображений искусственным интеллектом

  • 1949
  • 9
  • 18 января, 2023
  • читать 10 мин
Мария Ломинская Content Manager в Hillel IT School

Оглавление

Сила искусственного интеллекта теперь доступна всем, у кого есть смартфон.

Могущественный инструмент оказался в нашем распоряжении — предложите ему всего несколько слов, и он создаст оригинальную сцену, основанную на вашем описании.

Результаты могут быть удивительными: четкими, красивыми, фантастическими, а иногда и жутко реалистичными. Но они также могут быть неестественными и гротескными: искаженные лица, нелепые уличные знаки и искаженная архитектура.

Как это работает?

Во-первых, исследователи загружают в компьютерную систему сотни миллионов изображений, обычно взятых из интернета.

Изображения, которые вы видите здесь, представляют собой небольшую выборку.

Подборка изображений

Каждое изображение связано с сопровождающим его описанием, так компьютер учится определять отношения между изображениями и словами.

Описание каждого изображения

Допустим, вы хотите сгенерировать изображение таксы. После обработки изображений и соответствующего текста модель ИИ начинает связывать слова «такса» с визуальным представлением таксы.

Одно из подходящих изображений

Описание в базе данных: Джон Ф. Кеннеди со щенком таксы, Джон Кеннеди, Кеннеди, Молодой Джон Кеннеди, собаки, собака, такса, винтаж такса.

Модель хороша настолько, насколько хороши ее обучающие данные. На результат может влиять субъективность пользователей интернета и их представление о мире, например, если гуглить «генеральный директор», большинством изображений в выдаче будут фотографии пожилых мужчин.

Итак, мы хотим сгенерировать таксу в космосе, играющую на гитаре, и чтобы изображение было в стиле витража.

ИИ создает внутреннюю карту понятий, преобразовывая изображения и тексты в числа и присваивая некоторым ассоциациям более высокую вероятность (например, при игре на гитаре часто используются руки).

Хотя ИИ, возможно, никогда не сталкивался с таким изображением, теперь он обучен интерпретировать базу данных слов и изображений для создания такого изображения.

Затем исследователи добавляют «шум» или визуальный беспорядок к набору данных изображений. Визуальный шум — это набор случайных точек или пикселей, похожий на телевизионные помехи. Этот беспорядок действует как наложение, скрывая исходное изображение.

Исследователи добавляют все больше и больше шума, чтобы научить модель распознавать, что это базовое изображение все еще содержит таксу. Это называют диффузионной моделью машинного обучения, и ее используют самые популярные генераторы преобразования текста в изображение.

Затем ИИ учится вычитать шум, чтобы превратить сильно затемненное изображение в четкое. Со временем ИИ настолько хорошо «очищает» изображения от шума, что может создавать картинку по описанию, из чистого шума.

Наложение шума

Генерация начинается с визуальной статики, а не с изображения чего-то конкретного. Теперь модель использует предоставленную человеком подсказку для создания исходного изображения. Модель вспоминает образы и понятия, связанные со словами в подсказке, и начинает вычитать статические помехи.

Однако ИИ не идеален, и результаты могут быть случайными.

Сгенерированное в разных стилях изображение

Как и многие передовые технологии, произведения искусства, созданные искусственным интеллектом, поднимают множество запутанных юридических, этических и моральных вопросов. Необработанные данные, используемые для обучения моделей, берут из интернета, в результате чего генераторы изображений повторяют многие предубеждения и стереотипы, встречающиеся в интернете.

Наборы данных, используемые для обучения, также часто включают изображения, защищенные авторским правом. Это возмущает некоторых художников и фотографов, чьи работы используются без их разрешения или компенсации.

Это перевод статьи Washington Post. В первоисточнике наглядно показан принцип работы ИИ и можно даже создать разные иллюстрации в разных стилях.

Связанные с ИИ проблемы

Так что поговорим о неоднозначности инструмента.

В начале 2023 года художники подали иск против авторов нейросетей Midjourney и Stable Diffusion.

Истцы утверждают, что разработчики нейросетей использовали миллиарды взятых из интернета без согласия их авторов изображений, а также что способность нейросетей, таких как Stable Diffusion, «наводнить рынок практически неограниченным количеством изображений, нарушающих авторские права, нанесет необратимый ущерб рынку искусства и художников».

Впрочем, в исковом требовании указано, что «нейросети хранят сжатые копии изображений» и «рекомбинируют их между собой», что не совсем так, как мы выяснили выше.

Стремительное за последний год развитие нейросетей, их доступность и популярность, вызывает опасение художественного сообщества.

Например, художница Холли Менгерт узнала, что пользователь Reddit настроил нейросеть Stable Diffusion так, чтобы воссоздать стиль художницы, еще и открыл доступ всем желающим к этой модели.

Работа художницы Холли Менгерт (слева) и изображения, созданные с помощью Stable Diffusion в ее стиле (справа), источник: waxy.org

А пока художники сообщества ArtStation протестуют после того, как на платформе начали появляться изображения, созданные ИИ. Протестующие обеспокоены тем, что искусство, созданное ИИ, является производным от труда людей-художников и часто использует их работу без указания авторства или компенсации.

Изображения «No AI Art», размещенные художниками, стали доминировать в разделе трендов ArtStation после того, как платформа отказалась запрещать произведения искусства, созданные AI

Нарушают ли нейросети закон об авторском праве?

Пока что нет судебных прецедентов, и вся сфера остается в серой зоне законов.

В целом существуют такие вопросы:

  • Кому принадлежат авторские права на результаты генеративной модели ИИ?
  • Имеет ли владелец авторских прав на входные данные, используемые для обучения ИИ, какие-либо юридические права на модель или контент, который она создает?

И вообще, нужно ли вводить юридические ограничения в отношении сбора данных?

Независимо от ответов на эти юридические вопросы, различные игроки в области генеративного ИИ уже готовятся к будущему.

Компании, зарабатывающие миллионы на этой технологии, укрепляют свои позиции: неоднократно заявляют, что все, что они делают, законно. Правообладатели занимают свои собственные предварительные позиции.

Так, фотоагентство и банк изображений Getty Images недавно запретил созданные ИИ картинки из-за потенциального правового риска для клиентов, в то время как торговая организация музыкальной индустрии RIAA заявила, что ИИ музыкальные микшеры и экстракторы нарушают авторские права участников.

Однако первый выстрел в войне за авторские права на ИИ был совершен, когда был подан первый коллективный иск против Microsoft, GitHub и OpenAI. Истцы обвиняют все три компании в сознательном воспроизведении открытого исходного кода с помощью помощника по кодированию AI Copilot, но без надлежащих лицензий.

Иск может создать прецедент для всей области генеративного ИИ.

Рекомендуем публикацию по теме

Укр Рус