Сообщается, что OpenAI и Google использовали транскрипции видео YouTube для обучения своих моделей искусственного интеллекта.

По данным The New York Times, OpenAI и Google обучали свои модели ИИ на тексте, расшифрованном из видеороликов YouTube, что потенциально нарушает авторские права авторов. В отчете, в котором описывается, на что пошли OpenAI, Google и Meta, чтобы максимизировать объем данных, которые они могут передать своим ИИ, цитируются многочисленные люди, знакомые с практикой компаний. Это произошло всего через несколько дней после того, как генеральный директор YouTube Нил Мохан заявил в интервью Bloomberg Originals, что предполагаемое использование OpenAI видео YouTube для обучения своего нового генератора текста в видео Sora противоречит политике платформы.

По данным NYT, OpenAI использовала свой инструмент распознавания речи Whisper для расшифровки более миллиона часов видео с YouTube, которые затем использовались для обучения GPT-4. Ранее издание The Information сообщало, что OpenAI использовала видео и подкасты YouTube для обучения двух систем искусственного интеллекта. Сообщается, что среди членов этой команды был президент OpenAI Грег Брокман. Согласно правилам Google, «несанкционированное копирование или загрузка контента YouTube» не допускается, сообщил NYT Мэтт Брайант, представитель Google, также заявив, что компания не знала о таком использовании OpenAI.

В отчете, однако, утверждается, что в Google были люди, которые знали об OpenAI, но не предприняли никаких действий, поскольку Google использовала видео на YouTube для обучения своих собственных моделей ИИ. Google сообщил NYT, что делает это только с видео от авторов, которые согласились на это. Engadget обратился к Google и OpenAI за комментариями.

В отчете NYT также утверждается, что в июне 2023 года Google попросил команду внести изменения в свою политику конфиденциальности, чтобы более широко охватить использование общедоступного контента, включая Google Docs и Google Sheets, для обучения своих моделей и продуктов искусственного интеллекта. Изменения, которые, по словам Google, были внесены для ясности, были опубликованы в июле. Брайант сообщил NYT, что этот тип данных используется только с разрешения пользователей, которые согласились участвовать в экспериментальных тестах функций Google, и что компания «не начинала обучение дополнительным типам данных на основе этого изменения языка». Это изменение добавило Барда в качестве примера того, для чего могут быть использованы эти данные.

Исправление, 6 апреля 2024 г., 15:45 по восточноевропейскому времени. Первоначально в этой статье говорилось, что Google обновил свою политику конфиденциальности в июне 2022 года. Фактически обновление политики было сделано в 2023 году. Приносим извинения за ошибку.