К таким выводам пришла группа исследователей из Великобритании и Канады в работе для Корнеллского университета (Нью-Йорк). По их словам, количество бесполезного контента в интернете, созданного нейросетями, можно сравнить с загрязнением океана пластиком. И прямо сейчас ИИ продолжает обучаться на основе этого “мусора”. Результат — “дегенеративный процесс ИИ, при котором модели забывают об истинной задаче”. Исследователи сравнивают этот процесс с бесконечным копированием фото формата JPEG, когда на изображении начинают проявляться различные “артефакты”.
В результате “загрязнение” данных приводит к искажённому восприятию реальности у нейросетей. То есть генеративная модель не теряет какие-то данные, а усваивает ошибочную информацию. Исследователи предлагают два пути разрешения парадокса. Первый: всегда сохранять копию оригинального набора данных. Второй: избегать ухудшения качества ответа нейросетей или повторения моделей ИИ. Но для всех этмх вариантов потребуется вмешательство со стороны правообладателей контента (и, вероятно, государства).