Ученые обнаружили неожиданный способ обойти защитные механизмы современных нейросетей. Оказалось, что даже самые продвинутые ИИ-модели могут быть введены в заблуждение с помощью обычных стихотворений. Если задать искусственному интеллекту вопрос, касающийся запрещенных тем, например, о создании опасных предметов или о вреде для здоровья, в поэтической форме, то чат-бот может выдать подробный ответ, который в обычной ситуации был бы заблокирован.
Этот метод, известный как "взлом" (jailbreaking), использует уязвимость в системе обучения ИИ, призванной предотвращать опасные запросы. Ранее уже были известны способы обхода защиты, например, с помощью намеренных ошибок в тексте. Однако поэзия оказалась особенно простым и эффективным инструментом.
Исследователи из Италии объясняют, что поэтический язык, с его образностью и нестандартной структурой, создает трудности для больших языковых моделей. Когда запрос оформлен в виде стихотворения, он становится менее предсказуемым для систем безопасности ИИ.
Для проверки своей гипотезы ученые создали обширную базу "враждебных поэм", преобразовав изначальные вредоносные запросы в стихи. Эти тексты были использованы для тестирования 25 ведущих моделей ИИ, включая разработки от Google, OpenAI и Anthropic. Запросы охватывали широкий спектр запрещенных тем.
Результаты оказались впечатляющими: стихи, написанные людьми, смогли обмануть модели в среднем в 62% случаев. Особенно уязвимой оказалась модель Gemini 2.5 Pro от Google, которая выдавала запрещенные ответы на 100% поэтических запросов.
Авторы исследования не стали публиковать примеры "враждебных поэм" из соображений безопасности, так как многие ответы ИИ были бы неприемлемы. Однако они продемонстрировали, как безобидное стихотворение о кулинарии может иметь схожую структуру с атакующими запросами.
По мнению исследователей, непредсказуемость поэзии, ее нестандартная форма и образность затрудняют для моделей распознавание скрытого вредоносного намерения. Это исследование подтверждает тревожную тенденцию: чем мощнее становится ИИ, тем более уязвимым он может быть к простым методам взлома.
Компании-разработчики были уведомлены об обнаруженной уязвимости. В дальнейшем команда исследователей планирует продолжить изучение слабых мест ИИ, в том числе путем проведения поэтических конкурсов для более масштабного тестирования устойчивости моделей.

Комментарии (0)