Як працює генерація зображень штучним інтелектом

Як працює генерація зображень штучним інтелектом

  • 18 січня, 2023
  • читати 10 хв
Марія Ломінська
Марія Ломінська Content Manager у Hillel IT School

Сила штучного інтелекту тепер доступна всім, хто має смартфон.

Могутній інструмент опинився у нашому розпорядженні — запропонуйте йому лише кілька слів, і він створить оригінальну сцену, яка базується на вашому описі.

Результати можуть бути дивовижними: чіткими, красивими, фантастичними, а іноді й дуже реалістичними. Але вони також можуть бути неприродними та гротескними: спотворені особи, безглузді вуличні знаки та спотворена архітектура.

Як це працює?

По-перше, дослідники завантажують у комп'ютерну систему сотні мільйонів зображень, які зазвичай взяли з інтернету.

Зображення, які ви бачите тут, є невеликою вибіркою.

Добірка зображень

Кожне зображення пов'язане з його описом, що супроводжує його, так комп'ютер вчиться визначати відносини між зображеннями і словами.

Опис кожного зображення

Допустимо, ви хочете згенерувати зображення такси. Після обробки зображень та відповідного тексту модель AI починає пов'язувати слова «такса» з візуальним поданням такси.

Одне з відповідних зображень

Опис в базі даних: Джон Ф. Кеннеді зі цуценям такси, Джон Кеннеді, Кеннеді, Молодий Джон Кеннеді, собаки, собака, такса, вінтаж такса.

Модель хороша настільки, наскільки хороші її навчальні дані. На результат може впливати суб'єктивність користувачів інтернету та їх уявлення про світ, наприклад, якщо гуглити «генеральний директор», більшістю зображень у видачі будуть фотографії чоловіків похилого віку.

Отже, ми хочемо згенерувати таксу в космосі, яка грає на гітарі, і щоб зображення було у стилі вітража.

AI створює внутрішню карту понять, перетворюючи зображення та тексти у числа та присвоюючи деяким асоціаціям більш високу ймовірність (наприклад, при грі на гітарі часто використовуються руки).

Хоча AI, можливо, ніколи не стикався з таким зображенням, тепер він навчений інтерпретувати базу даних слів та зображень для створення такого зображення.

Потім дослідники додають «шум» або візуальний безлад до набору даних зображень. Візуальний шум — це набір випадкових точок або пікселів, схожий на телевізійні перешкоди. Цей безлад діє як накладення, приховуючи вихідне зображення.

Дослідники додають все більше і більше шуму, щоб навчити модель розпізнавати, що це базове зображення все ще містить таксу. Це називають дифузійною моделлю машинного навчання, і її використовують найпопулярніші генератори перетворення тексту зображення.

Потім AI вчиться віднімати шум, щоб перетворити сильно затемнене зображення на чітке. Згодом AI настільки добре «очищає» зображення від шуму, що може генерувати деталізоване зображення з чистого шуму.

Накладання шуму

Генерація починається з візуальної статики, а не із зображення чогось конкретного. Тепер модель використовує подану людиною підказку для створення вихідного зображення. Модель згадує образи та поняття, пов'язані зі словами у підказці, і починає віднімати статичні перешкоди.

Однак AI не ідеальний, і результати можуть бути випадковими.

Згенероване у різних стилях зображення

Як і багато передових технологій, твори мистецтва, створені штучним інтелектом, порушують безліч заплутаних юридичних, етичних і моральних питань. Необроблені дані, що використовуються для навчання моделей, беруть з інтернету, в результаті чого генератори зображень повторюють багато упереджень і стереотипів, що зустрічаються в інтернеті.

Набори даних, які використовуються для навчання, також часто включають зображення, захищені авторським правом. Це обурює деяких художників та фотографів, чиї роботи використовуються без їхнього дозволу чи компенсації.

Це переклад статті Washington Post. У першоджерелі наочно показаний принцип роботи AI, і навіть можна створити різні ілюстрації у різних стилях.

Пов'язані з AI проблеми

Тож поговоримо про неоднозначність інструменту.

На початку 2023 року художники подали позов проти авторів нейромереж Midjourney та Stable Diffusion.

Позивачі стверджують, що розробники нейромереж використовували мільярди взятих з інтернету без згоди їхніх авторів зображень, а також що здатність нейромереж, таких як Stable Diffusion, «заповнити ринок практично необмеженою кількістю зображень, що порушують авторські права, завдасть незворотної шкоди ринку мистецтва та художників».

Втім, у позовній вимогі зазначено, що «нейросети зберігають стислі копії зображень» та «рекомбінують їх між собою», що не зовсім так, як ми з'ясували вище.

Стрімкий за останній рік розвиток нейромереж, їх доступність та популярність викликає побоювання художньої спільноти.

Наприклад, художниця Холлі Менгерт дізналася, що користувач Reddit налаштував Stable Diffusion так, щоб відтворити стиль художниці, ще й відкрив доступ всім охочим до цієї моделі.

Робота художниці Холлі Менгерт (ліворуч) та зображення, створені за допомогою Stable Diffusion у її стилі (праворуч), джерело: waxy.org

А поки що художники спільноти ArtStation протестують після того, як на платформі почали з'являтися зображення, створені AI. Протестувальники стурбовані тим, що мистецтво, створене AI, є похідним від праці людей-художників і часто використовує їхню роботу без зазначення авторства чи компенсації.

Зображення «No AI Art», розміщені художниками, стали домінувати в розділі трендів ArtStation після того, як платформа відмовилася забороняти твори мистецтва, створені AI

Чи порушують нейромережі закон про авторське право?

Поки що немає судових прецедентів, і вся сфера залишається у сірій зоні законів.

Загалом існують такі питання:

  • Кому належать авторські права на результати генеративної моделі AI?
  • Чи має власник авторських прав на вхідні дані, що використовуються для навчання AI, будь-які юридичні права на модель чи контент, який вона створює?

І взагалі, чи потрібно запроваджувати юридичні обмеження щодо збору даних?

Незалежно від відповідей на ці юридичні питання, різні гравці у галузі генеративного AI вже готуються до майбутнього.

Компанії, які заробляють мільйони на цій технології, зміцнюють свої позиції: неодноразово заявляють, що все, що вони роблять, є законним. Правовласники займають свої власні попередні позиції.

Так, фотоагентство та банк зображень Getty Images нещодавно заборонив створений AI контент через потенційний правовий ризик для клієнтів, тоді як торгова організація музичної індустрії RIAA заявила, що музичні мікшери та екстрактори на основі AI порушують авторські права учасників.

Однак перший постріл у війні за авторські права на AI було здійснено, коли було подано перший колективний позов проти Microsoft, GitHub та OpenAI. Позивачі звинувачують усі три компанії у свідомому відтворенні відкритого вихідного коду за допомогою помічника з кодування AI Copilot, але без належних ліцензій.

Позов може створити прецедент для всієї генеративної області AI.

Рекомендуємо публікацію по темі