Порушення авторських прав у мистецтві штучного інтелекту

0
1077

Оскільки творчі інструменти штучного інтелекту набувають широкого розповсюдження, питання авторського права на творіння штучного інтелекту також займає центральне місце. Але в той час як фанати авторського права одержимі питанням авторства, проблема, яка привертає більше уваги художників, це порушення авторських прав.

Навчання штучного інтелекту здійснюється на основі даних. У випадку графічних інструментів, таких як Imagen, Stable Diffusion, DALL·E та MidJourney, навчальні набори складаються з терабайтів зображень, включаючи фотографії, картини, малюнки, логотипи та будь-що інше з графічним представленням. Деякі художники скаржаться на те, що ці моделі (і супутня комерціалізація) будуються на спині людей-митців, фотографів і дизайнерів, які не бачать жодної вигоди від цих бізнес-моделей. На деяких форумах і чатах мова стає дуже жвавою, часто вживаються такі терміни, як «крадіжка» та «експлуатація». Отже, це порушення авторських прав? Художники та фотографи з усього світу збираються подати до суду на OpenAI і Google?

Це питання складається з двох частин: фази введення та фази виходу.

Вхідні дані

Вибух у вдосконаленні інструментів штучного інтелекту стався завдяки двом важливим подіям, по-перше, вдосконаленню та різноманітності моделей навчання, але, що найважливіше, доступності великих наборів навчальних даних. Перше джерело творів походить із відкритого доступу або творів, що є суспільним надбанням, це джерела, які ліцензуються відповідно до дозволених ліцензій, таких як Creative Commons ( приклад тут), або це твори, які є суспільним надбанням (приклад тут ). Але, звичайно, кількість таких наборів даних обмежена, тому дослідники можуть мати доступ до багатьох інших наборів даних, деякі навіть безкоштовні (списки тут і тут).

Але дослідники також можуть спробувати отримати зображення з найбільшого сховища зображень у світі: Інтернету. Чи можуть вони це зробити? Зростає визнання того, що збирання даних (в даному випадку у формі зображень) дозволено авторським правом як добросовісне використання або добросовысне ведення справ. Найперше джерело винятків для навчання штучного інтелекту можна знайти в Сполучених Штатах у справі Google Books. Це була тривала суперечка між Гільдією авторів і Google щодо сканування книг для служби Google Print (пізніше перейменованої на Google Book Search). Після тривалої боротьби, пов’язаної з мировими угодами та апеляціями, суд вирішив, що сканування Google було добросовісним використанням, трансформаційний характер сканування відіграв важливу роль у рішенні, а також той факт, що копіювання не вплине на ринок продажів книг онлайн, метою бази даних Google було зробити роботи доступними для бібліотек, а також надати фрагменти в результатах пошуку.

Хоча Google Books не займається спеціально машинним навчанням, це багато в чому схоже на те, що відбувається під час більшості тренінгів машинного навчання, існує копіювання великої кількості творів для створення чогось іншого.

У ЄС Директива про єдиний цифровий ринок також відкрила двері для більш широкого впровадження аналізу тексту та даних. У статті 3 Директиви встановлюється новий виняток щодо авторського права на «відтворення та витяги, зроблені дослідницькими організаціями та установами культурної спадщини з метою проведення, з метою наукового дослідження, аналізу тексту та даних творів або інших об’єктів, які вони мають законний доступ». Стаття 4 поширює цей дозвіл на комерційні організації з будь-якою метою, якщо вони мають законний доступ до твору, а також дає власникам прав можливість відмовитися від цього винятку.

Кінцевим результатом вищезазначеного є те, що велика кількість комерційних організацій, які працюють як у США, так і в Європі, можуть отримувати зображення з Інтернету з метою інтелектуального аналізу даних, і вони можуть відтворювати та видобувати такі матеріали. Крім того, інші країни, такі як Великобританія та Японія, мають подібні винятки.

Це означає, що ми можемо припустити, що переважна більшість машинного навчання є законною, якщо говорити про відкриті дані, зображення у суспільному надбанні та винятки з аналізу даних. Хоча можна уявити, що деякі дані збираються та використовуються незаконно, я не можу уявити, що найбільші організації, залучені до ШІ, порушують закон у цьому відношенні.

Виведення

Якщо припустити, що багато вхідних даних, які надходять у навчання ШІ, є законними, то що буде на виході? Чи може твір, створений ШІ, навченим на існуючих творах, порушувати авторські права?

На це питання складніше відповісти, і це цілком може залежати від того, що відбувається під час і після навчання, а також від того, як генеруються результати, тому ми повинні більш детально розглянути методи машинного навчання. По-перше, велике застереження: очевидно, я не фахівець з ML, і хоча я читав багато базової літератури протягом кількох років, я розумію, як любитель, якщо я неправильно представляю технологію, це моя власна вина, і буде радий виправити будь-які помилки. Звичайно, я надто спрощу деякі речі.

Основна ідея креативного штучного інтелекту полягає в тому, щоб навчити систему таким чином, щоб вона могла генерувати результати, які статистично нагадують їхні навчальні дані, іншими словами, щоб генерувати поезію, ви навчаєте ШІ віршами, якщо ви хочете, щоб він генерував обличчя, ви тренуєте його на обличчях. Існують різні моделі генеративного штучного інтелекту, але двома основними є генеративні змагальні мережі (GAN) і дифузійні моделі.

GAN — це модель, яка використовує двох агентів, налаштованих один проти одного (отже, є змагальність), щоб отримати кращі результати. Є генератор, який генерує вихідні дані на основі навчального набору даних, і є дискримінатор, який порівнює згенерований вихід із навчальними даними, щоб визначити, чи схожий він на них, а якщо ні, то він відкидається на користь резуьтата, які нагадують вхідні дані.

Відносно довгий час GAN були королями машинного навчання, оскільки їм вдавалося виробляти певні прийнятні результати (перегляньте всіх цих котів, яких не існує . Але GAN мають обмеження, дискримінатор може бути занадто хорошим, тому жоден вихід не пройде оцінку, або генератор може навчитися виробляти лише обмежений тип виходу, який пройде дискримінатор.

Найуспішніші останні приклади штучного інтелекту, такі як Imagen, DALL·E 2, Stable Diffusion і MidJourney, використовують модель дифузії, яка, як повідомляється, дає чудові результати. Дифузія працює, приймаючи вхідні дані, наприклад зображення, а потім спотворюючи їх, додаючи до них шум. Навчання відбувається, навчаючи нейронну мережу збирати їх знову, повертаючи процес пошкодження .

Найважливіший висновок з точки зору юридичного аналізу полягає в тому, що генеративний ШІ не відтворює вхідні дані точно, навіть якщо ви запитуєте конкретні. Наприклад, я попросив MidJourney створити «Зоряну ніч» Вінсента Ван Гога. Результат був такий:

Це схоже, але це не те саме, це майже так, ніби штучний інтелект малює це з пам’яті, що певним чином так і є, він реконструює те, як виглядає «Зоряна ніч».

Крім того, розробники цих інструментів усвідомлюють потенційні підводні камені створення точних копій творів мистецтва в своїх навчальних наборах даних. OpenAI визнав, що це була проблема в деяких попередніх ітераціях програми, і тепер вони відфільтровують конкретні випадки цього. Відповідно до OpenAI, це відбувалося здебільшого із зображеннями низької якості, які було легше запам’ятати для нейронної мережі, а також були зображення, які мали багато повторів у наборах даних. Вони пом’якшили це, навчивши систему розпізнавати дублікати, і DALL·E більше не повторює зображення.

Отже, якщо немає прямого порушення, і системи не відтворюють твори повністю, чи існує ймовірність порушення авторських прав? Більшість людей генерували підказки про художників, які давно померли, і чиї роботи знаходяться у відкритому доступі. Тож штучний інтелект легко створюватиме твори в стилі Ван Гога, Рембрандта, Анрі Руссо, Гогена, Матісса тощо. Просто введіть ім’я художника у підказку та навіть конкретний твір мистецтва, який ви хочете відтворити, і ШІ відтворить. Але ці роботи знаходяться у відкритому доступі, тому це нікого не цікавить. А як щодо художників, які ще живі, і їхні твори захищені авторським правом?

Тут справи йдуть складніше. Зрозуміло, що творити мистецтво можна в стилі живого художника. [Редагувати примітку: я видалив мисленнєвий експеримент за допомогою живого художника].

Проблема в тому, що стиль і «вигляд і відчуття» не захищаються авторським правом. Звичайно, зображення явно навіяно його роботою, але було б натяжкою сказати, що воно порушує авторські права. Доказом цього є те, що якщо ви зайдете в будь-яке сховище цифрового мистецтва та пошукаєте живого художника, ви знайдете сотні зображень художників-людей, які посилаються на роботи живих авторів (див., наприклад, на Bēhance та ArtStation ).

Авторське право захищає вираження ідеї, а не саму ідею (відома дихотомія ідея/вираз). На мою думку, художнику буде важко успішно подати позов про порушення авторських прав, оскільки його стиль не захищений, і, як згадувалося вище, малоймовірно, що інструмент ШІ відтворить твір дослівно (чи можете ви використовувати дослівно для зображень? Я відволікаюся).

Найкращий випадок проти інструменту штучного інтелекту може бути, коли він відтворює добре відомого персонажа, скажімо, Дарта Вейдера , Маріо або Пікачу, або зображення Грута та Малюка Йоди. Але в той час як я міг легко розцінити це як потенційне порушення існуючого персонажа, малоймовірно, що власник авторських прав буде переслідувати це, якщо для цього немає вагомих причин. Малоймовірно, що особа чи компанія зробить ці речі комерційно доступними, і в цьому сенсі це нічим не відрізнятиметься від усіх порушень, які вже існують в Інтернеті людьми.

Висновки

Ця публікація в блозі лише дряпає поверхню конфліктів, які мають відбутися щодо ШІ та авторського права. Я впевнений, що в якийсь момент художник спробує подати до суду на одну з компаній, які працюють у цій сфері, за порушення авторських прав. Якщо припустити, що фаза введення в порядку, а набори даних, які використовуються, є законними, більшість позовів про порушення можуть завершитися на фазі виведення. І саме тут я не думаю, що буде суттєве відтворення, яке б виправдовувало порушення авторських прав. Навпаки, сама технологія закодована, щоб спробувати уникнути такого прямого порушення.

Тож ми побачимо, як люди намагаються сперечатися про стилі, і тут рішення може повністю залежати від особливостей випадку. Я не впевнений, що суд визнає порушення, але це ще рано.

А поки я залишаю вам фото лам у стилі «Поцілунку» Клімта.

 

 

 Andres Guadamuz 

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь