/ Source

Интересное исследование — из его результатов следует, что модель Meta Llama 3.1 70B способна воспроизводить до 42% текста первой книги о Гарри Поттере дословно, что значительно превышает аналогичные показатели других моделей. Для сравнения, более ранняя модель Llama 1 65B воспроизводила лишь 4,4% текста той же книги.

Исследователи из Стэнфорда, Корнелла и Университета Западной Вирджинии проанализировали пять открытых моделей на предмет запоминания текстов из коллекции Books3, используемой для обучения. Оказалось, что модели лучше всего запоминают популярные книги — “Гарри Поттер”, “Хоббит”, “1984” Оруэлла — и значительно хуже малоизвестные произведения.

Исследование подрывает заявления AI-компаний о том, что их модели лишь “изучают паттерны”, а не копируют контент. Результаты показывают, что для некоторых произведений запоминание — не редкое исключение, а системная особенность. Аргументы относительно fair use таким образом становятся несколько нерелевантными.

Парадокс ситуации в том, что открытые модели становятся более уязвимыми для судебных исков именно из-за своей прозрачности — исследователи могут точно измерить степень запоминания. Закрытые модели от OpenAI, Anthropic и Google могут иметь аналогичные проблемы, но доказать это сложнее.