VNews.com.ua

OpenAI уничтожила 100 000 книг, по которым тренировали GPT-3. Причастные тоже куда-то исчезли

Май 08
21:04 2024

Компания OpenAI удалила два огромных набора данных «books1» и «books2», которые использовались для обучения модели GPT-3.

Об этом сообщил Business Insider, ссылаясь на материалы судебного иска Authors Guild.

Суть иска

Юристы Authors Guild заявили, что наборы данных GPT-3, вероятно, содержали «более 100 000 опубликованных книг». Таким образом OpenAI использовал защищенные авторским правом материалы для обучения моделей ИИ.

Справка. Authors Guild — старейшая (создана в 1912 году) и самая авторитетная профессиональная организация писателей США. Занимается защитой свободы слова и  авторских прав.

В течение нескольких месяцев Authors Guild просила OpenAI предоставить информацию об использованных наборах данных. Сначала компания отказывала, мотивируя это положениями о конфиденциальности Но потом вообще оказалось, что она удалила все копии данных.

Высококачественные учебные данные являются важной частью мощных моделей ИИ. Для построения этих моделей OpenAI и другие компании используют данные из Интернета, в том числе и книги.

Многие компании, которые создали эту информацию, хотят получать деньги за предоставление информации этим новым продуктам ИИ. Технологические компании не хотят, чтобы их заставляли платить. Сейчас этот спор решается в суде по нескольким искам.

100 000 книг — 16% учебных данных GPT-3

В техническом документе 2020 года OpenAI описал наборы данных books1 и books2 как «корпус книг из Интернета» и заявил, что в целом это 16% учебных данных, которые были использованы при создании GPT-3.

В документе также говорится, что «books1» и «books2» вместе содержали 67 миллиардов токенов, или примерно 50 миллиардов слов.

OpenAI прекратила использовать «books1» и «books2» для обучения моделей в конце 2021 года В середине 2022 года их удалили — из-за «непригодности для использования».

Также в документах говорится о том, что двое исследователей, которые создали наборы данных «books1» и «books2», больше не работают в OpenAI. OpenAI отказывается раскрывать информацию о них, хотя и Authors Guild настаивает на этом.

OpenAI обратился в суд с просьбой сохранить имена сотрудников, а также информацию о наборах данных.

«Модели, которые сегодня используют ChatGPT и наш API, не были созданы с использованием этих наборов данных», — говорится в заявлении OpenAI во вторник.

Напомним, была история, когда ИИ-исследовательница и экс-менеджер Amazon Вивиан Гадери обвиняла бывшего работодателя в нарушении требований по авторскому праву.

В марте директор ее команды поставил задачу — найти причины, почему Amazon не достигает своих целей по качеству поиска Alexa. В разговоре он порекомендовал для улучшения результатов игнорировать политику авторского права. Директор попросил обратить внимание на конкурентов со словами «все так делают».

Share

Статьи по теме

Последние новости

Фермеры из пяти областей могут получить помощь: детали

Читать всю статью

Наши партнёры

UA.TODAY - Украина Сегодня UA.TODAY

Всегда на пути к успеху: EA-LOGISTIC – ваш проводник в международных грузоперевозках.