Google подтвердила, что обучает ИИ-чатбот Bard на «заимствованных» веб-данных
Все, что вы публиковали в интернете, может быть использовано для обучения искусственного интеллекта Google.
Согласно обновлению в политике конфиденциальности Google от 1 июля, ее различные службы (такие, как Bard, Cloud и Переводчик) могут использовать для обучения общедоступные данные, собранные из интернета.
«В нашей политике конфиденциальности уже давно было указано, что Google использует общедоступную информацию из Интернета для обучения языковых моделей для таких сервисов, как Google Translate. Последнее обновление просто добавляет в список более новые службы, такие как Bard», — сказала представительница Google Криста Малдун.
Google в политике отмечает, что использует информацию для улучшения услуг и разработки новых продуктов, функций и технологий, которые «приносят пользу обществу».
Главные обновления касаются того, что теперь компания будет использовать информацию не для языковых моделей, а для моделей искусственного интеллекта – это дает Google несколько больше свободы и возможность создавать ИИ-системы на основе наших публичных данных.
В документе не указано, как компания планирует предотвращать нарушение авторских прав, когда такие материалы попадут в пул данных. Большинство общедоступных веб-сайтов используют политику, запрещающую скрейпинг (или сбор данных) для обучения языковых моделей и ИИ-инструментов.
Некоторые законы и рост конкуренции привели к тому, что производители популярных генеративных систем искусственного интеллекта, такие как OpenAI, становятся чрезвычайно «хитрыми», когда речь идет о том, откуда они взяли данные. Однако юридически использование данных таким видом программ еще не урегулировано, что уже спровоцировало судебные процессы и подтолкнуло законодателей некоторых стран взяться за разработку документов, которые будут строго контролировать процесс.
Также возникает вопрос, как эти данные обрабатываются и есть ли гарантия того, что они не всплывут где-нибудь в другом месте во время сбоя в работе.
Тем временем Twitter и Reddit — две социальные платформы, содержащие огромное количество общедоступной информации — недавно приняли решительные меры, чтобы попытаться помешать другим компаниям свободно собирать их данные. Изменения ценообразования API и ограничения, наложенные на платформы, сообщества встретили протестами.
Google впервые презентовала Bard в феврале, и по сравнению с конкурентами (Bing и ChatGPT) он как-то сильно не отличался – разве что демонстрацией с ложными ответами, повлекшей за собой резкое падение акций компании. В мае Google отменила список ожидания для чат-бота – тестовую версию могли опробовать пользователи 180 стран (Украины в списке нет).