Скандал с ИИ: нейросети обучали на чужом контенте

В США разгорается скандал вокруг ИИ: стало известно, что компании Apple, Nvidia и Anthropic использовали расшифровки видеороликов с YouTube без разрешения для обучения своих моделей искусственного интеллекта. По данным издания The Information, текстовые данные из YouTube активно применялись для улучшения алгоритмов ИИ, что вызвало обеспокоенность в отношении авторских прав и этических норм.

Раскрытие этой информации ставит под сомнение методы обучения ИИ, используемые ведущими технологическими компаниями. Использование данных без согласия правообладателей может повлечь за собой юридические последствия и вызывает вопросы о соблюдении прав интеллектуальной собственности.

YouTube, принадлежащий Google, предоставляет доступ к огромному количеству видеоматериалов, которые включают в себя различные образовательные, развлекательные и информационные материалы. Текстовые расшифровки этих видео представляют собой ценный ресурс для обучения ИИ, так как они содержат разговорные и тематически разнообразные данные. Однако использование этих данных без разрешения нарушает принципы добросовестного использования и может быть расценено как незаконное присвоение контента.

Apple, Nvidia и Anthropic не предоставили комментариев по поводу этой информации, но такие действия могут привести к пересмотру подходов к обучению ИИ в технологической отрасли. Правообладатели призывают к разработке прозрачных и законных методов обучения ИИ, которые будут учитывать интересы всех участников процесса, включая создателей контента, поскольку сейчас ИИ фактически паразитирует на авторах контента. При этом подход: «А что вы нам сделаете, мы вас и спрашивать не будем» вряд ли сработает в долгосрочной перспективе, поскольку у создателей контента теряется стимул его создавать, а без созданного людьми нейросети не смогут сгенерировать ничего нового, лишь многократно перекомпилируя один и тот же контент, на котором их обучили.