Атака на мультимодальные нейронки

На днях вышла занятная статья. Я надеюсь, многие помнят про adversarial атаки, когда на картинку панды накладывали шум и нейронка распознавала ее как гиббона или когда из-за наклейки банан распознавался как тостер. Так вот, в статье сделали что-то подобное для мультимодальных GPT (которые понимают не только текст, но и картинки): на изображение или звук накладывается наклейка или шум, и нейронка выполняет дополнительные действия: всегда упоминает корову, вставляет вредоносную ссылку в ответ, представляет себя пиратом и т.д. Рекомендую посмотреть хотя бы картинки с примерами.

Связанные посты