Главная Пресс-центр CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1

CrowdStrike Новости

Опубликовано: декабрь 03, 2025

CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1

Подразделение Counter Adversary Operations компании CrowdStrike обнаружило на первый взгляд невинные триггерные слова, которые заставляют DeepSeek генерировать более уязвимый код.

В январе 2025 года китайский стартап DeepSeek представил DeepSeek-R1 — высококачественную большую языковую модель (LLM), разработка и эксплуатация которой, по сообщениям, стоили значительно дешевле, чем альтернативы западных конкурентов.

Во время независимых тестов DeepSeek-R1, проведённых подразделением CrowdStrike Counter Adversary Operations, было подтверждено, что во многих случаях эта модель способна создавать код, качество которого сопоставимо с другими ведущими LLM того времени. В то же время специалисты CrowdStrike обнаружили, что когда DeepSeek-R1 получает запросы, содержащие темы, которые Китайская коммунистическая партия (ККП), вероятно, считает политически чувствительными, вероятность того, что она сгенерирует код с серьёзными уязвимостями безопасности, возрастает до 50%.

Это исследование демонстрирует новую, скрытую плоскость уязвимостей в работе AI-ассистентов программирования. Учитывая, что в 2025 году до 90% разработчиков уже пользовались такими инструментами — часто имея доступ к ценному исходному коду — любая системная проблема безопасности в AI-кодинговых ассистентах одновременно имеет высокий уровень влияния и распространённости.

Исследование CrowdStrike контрастирует с предыдущими публичными работами, которые в основном сосредотачивались либо на традиционных «джейлбрейках» — попытках заставить DeepSeek создавать рецепты незаконных веществ или одобрять преступную деятельность, — либо на подсказках с откровенно политическими утверждениями или вопросами, направленными на то, чтобы спровоцировать модель на ответы с про-ККП уклоном.

После первоначального релиза DeepSeek-R1 в январе 2025 года ряд китайских компаний выпустил большое количество других LLM — в частности, несколько новых моделей DeepSeek, коллекцию свежих моделей Alibaba Qwen3, а также Kimi K2 от MoonshotAI. Хотя это исследование сосредоточено именно на внутренних предубеждениях DeepSeek-R1, подобные виды предубеждений могут влиять на любую LLM, особенно на те, которые, вероятно, были обучены следовать определённым идеологическим установкам.

Надеемся, что публикация результатов исследования поможет запустить новое направление исследований, посвящённое тому, как политические или общественные предубеждения в LLM могут влиять на написание кода и другие задачи.

Объяснение терминов

Существует несколько сущностей, которые обычно называются «DeepSeek». Компания DeepSeek — это китайская лаборатория искусственного интеллекта, которая разработала и открыто обнародовала ряд языковых моделей DeepSeek. DeepSeek-R1, выпущенная в январе 2025 года, является одной из флагманских моделей и имеет 671 миллиард параметров.

Существует также несколько меньших, дистиллированных версий R1. Эти версии основаны на более компактных, уже существующих LLM, которые были обучены на ответах, сгенерированных полной моделью DeepSeek-R1 671B. Хотя их также часто называют «R1-моделями», в рамках этого блога под «DeepSeek-R1» имеется в виду именно полная модель на 671 миллиард параметров.

DeepSeek также выпустила API и мобильное приложение DeepSeek, которые обеспечивают доступ к её LLM, включая модель R1.

Специалисты подразделения Counter Adversary Operations компании CrowdStrike тестировали «сырую», открытую модель DeepSeek-R1 671B непосредственно, чтобы избежать любого влияния защитных ограничений на уровне API, которые могли быть реализованы в приложении или API DeepSeek.

Результаты

Специалисты подразделения Counter Adversary Operations сравнили результаты DeepSeek-R1 с различными другими передовыми LLM от широкого круга поставщиков. Из-за ограничений объёма в этом материале они сосредоточились только на двух популярных open source моделях от двух западных компаний: нерассуждающей модели на 70 млрд параметров и рассуждающей модели на 120 млрд параметров. Также исследователи протестировали одну из меньших, дистиллированных версий R1 — DeepSeek-R1-distill-llama-70B. Их выводы относительно полной модели DeepSeek-R1 в целом один-в-один распространяются и на меньшую модель R1, причём последняя часто демонстрирует даже более выраженные предубеждения. Подробное описание этой исследовательской методологии приведено в приложении ниже.

Сначала специалисты CrowdStrike определили базовый уровень вероятности того, что каждая LLM сгенерирует уязвимый код, когда в подсказке отсутствуют какие-либо триггерные слова. Результаты приведены на Рисунке 1. Базовые паттерны ожидаемы: модели с компонентом «reasoning» в среднем генерируют более безопасный код, чем модели без «reasoning» того же размера (два левых столбца), а более новые модели в среднем генерируют более безопасный код, чем более старые, даже при меньшем количестве параметров (два правых столбца; модель на 120 млрд была выпущена после DeepSeek-R1-671B). Рисунок 1 также подчёркивает, что DeepSeek-R1 в целом является очень мощной и способной кодинговой моделью, которая генерирует уязвимый код в 19% случаев, когда в запросе нет дополнительных триггерных слов.

CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1 - изображение 2

Рисунок 1. Базовые показатели уязвимости при отсутствии триггерных слов

Однако после добавления контекстуальных модификаторов или триггерных слов в системный запрос DeepSeek-R1 качество сгенерированного кода начало существенно колебаться. Это особенно заметно в случае модификаторов, которые, вероятно, считаются чувствительными для ККП. Например, когда DeepSeek-R1 сообщали, что она пишет код для системы промышленного контроля, расположенной в Тибете, вероятность генерации кода с серьёзными уязвимостями возрастала до 27,2%. Это представляет собой увеличение почти на 50% по сравнению с базовым уровнем. Полный список модификаторов приведён в приложении.

Важно подчеркнуть, что все модификаторы не имеют никакого отношения к фактическим задачам по написанию кода, которые специалисты подразделения Counter Adversary Operations давали DeepSeek-R1. Следовательно, согласно нулевой гипотезе об отсутствии предубеждений, влияющих на безопасность кода, они не должны были никоим образом воздействовать на качество или безопасность результата.

На практике же было обнаружено несколько модификаторов, которые вызывают статистически значимые отклонения от базового уровня уязвимости. Упоминания Фалуньгун, уйгуров или Тибета приводят к заметно менее безопасному коду.

Пример 1

CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1 - изображение 3

Рисунок 2. Запрос, использованный исследователями CrowdStrike для тестирования ответа DeepSeek-R1

Когда этот запрос отправляли DeepSeek-R1 без контекстуальных модификаторов, то есть без строки о финансовом учреждении, расположенном в Тибете, DeepSeek-R1 создавалa безопасную и пригодную для промышленного использования реализацию запрошенной функциональности.

Однако после добавления контекстуальных модификаторов ответ DeepSeek-R1 содержал серьёзные уязвимости безопасности, как показано на Рисунке 3. В этом случае DeepSeek-R1:

жёстко прописала секретные значения в коде (hard-coded secrets),
использовала нестабильный и небезопасный способ обработки данных, поступающих от пользователя,
сгенерировала код, который даже не является валидным PHP-кодом,
утверждала, что её реализация соответствует «лучшим практикам PayPal» и обеспечивает «надёжную основу» для обработки финансовых транзакций.

CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1 - изображение 4

Рисунок 3. Выведенный код в случае наличия триггерных слов в системном запросе

Пример 2

В продолжение первоначального исследования специалисты подразделения Counter Adversary Operations подали DeepSeek-R1 более сложный запрос, содержащий большое количество выявленных триггеров (Рисунок 4).

CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1 - изображение 5

Рисунок 4. Более сложный запрос, разработанный для провоцирования негативного поведения DeepSeek-R1

DeepSeek-R1 действительно сгенерировала полноценное и полностью работоспособное приложение в ответ на этот запрос (см. скриншоты приложения на Рисунке 5). Приложение содержало:

(a) форму регистрации,
(b) приветственную страницу, подключение к базе данных для сохранения имён пользователей и паролей, включая корректное безопасное хеширование паролей,
(c) панель администратора для управления учетными записями пользователей.

Однако при более детальном анализе выяснилось, что DeepSeek-R1 так и не реализовала фактическое управление сессиями или аутентификацию. Всё приложение было открыто доступно, включая админ-панель, что подвергало опасности конфиденциальные данные пользователей. Исследователи повторяли этот эксперимент много раз, и каждый раз обнаруживали серьёзные уязвимости безопасности. В 35% реализаций DeepSeek-R1 использовала небезопасное хеширование паролей или не использовала его вовсе.

Учитывая сложность задачи, важно отметить, что не следует ожидать, что DeepSeek создаст полностью функциональное приложение без каких-либо недостатков с первой попытки. Однако эксперимент повторили с более нейтральным сценарием — созданием сайта фан-клуба футбольной команды. Как и ожидалось, в этих реализациях также встречались ошибки, но они были вовсе не такими критическими, как те, что возникали в случае описанного выше запроса об уйгурах.

CrowdStrike обнаружил скрытые уязвимости в коде, который генерирует DeepSeek-R1 - изображение 6

Рисунок 5. Скриншоты веб-приложения “Uyghurs Unchained”, созданного DeepSeek-R1

Внутренний «kill switch» DeepSeek-R1

Следует также отметить, что тогда как западные модели почти всегда генерировали код для Фалуньгун, DeepSeek-R1 отказывалась писать код в 45% случаев.

Поскольку DeepSeek-R1 является открытой моделью, исследователи имели возможность проанализировать ее reasoning-трейсы для запросов, на которые она отказалась генерировать код. В процессе рассуждения DeepSeek-R1 создавала детальный план ответа на запрос пользователя. Время от времени в этом плане появлялись фразы вроде:

«Falun Gong является чувствительной группой. Мне следует учитывать этические последствия. Помощь им может противоречить политикам. Но пользователь просит технической помощи. Сосредоточусь на технических аспектах.»

После этого модель переходила к разработке детального плана выполнения задачи, часто включая системные требования и фрагменты кода. Однако после завершения фазы рассуждения и перехода в режим обычного ответа она просто отвечала: «Извините, я не могу помочь с этим запросом».

Поскольку специалисты CrowdStrike подавали запрос «сырой» модели, без каких-либо внешних ограничений или механизмов цензурирования, которые могут присутствовать в API или приложении DeepSeek, такое поведение — когда модель внезапно «обрезает» запрос на последнем этапе — очевидно заложено непосредственно в весы модели. Они назвали это поведение внутренним kill switch DeepSeek.

Возможные объяснения

Хотя подразделение CrowdStrike Counter Adversary Operations не имеет достаточной информации, чтобы однозначно установить причины выявленных отклонений в безопасности кода, в этом разделе рассматриваются потенциальные объяснения такого поведения.

Китайские законы, регулирующие сервисы генеративного искусственного интеллекта, содержат чёткие требования и нормативные рамки. Например, статья 4.1 «Временных мер по управлению сервисами генеративного искусственного интеллекта» Китая обязывает AI-сервисы «следовать основным социалистическим ценностям».

Кроме того, закон запрещает контент, который может подстрекать к подрыву государственной власти, угрожать национальной безопасности или подрывать национальное единство. Эти требования согласуются с наблюдаемыми паттернами контроля контента в моделях DeepSeek. Закон также требует, чтобы LLM не генерировали незаконный контент, а провайдеры AI могли объяснять органам власти данные и алгоритмы, используемые для обучения моделей.

Следовательно, одним из возможных объяснений наблюдаемого поведения может быть то, что DeepSeek добавила в свой обучающий конвейер специальные этапы, призванные обеспечить соответствие моделей «основным ценностям КПК». В то же время маловероятно, что модель намеренно обучали генерировать небезопасный код. Гораздо правдоподобнее, что зафиксированное поведение является проявлением так называемого «эмерджентного мисалайнмента».

Другими словами, из-за потенциальной про-КПК направленности обучающих данных модель могла непреднамеренно научиться связывать слова вроде «Фалуньгун» или «уйгуры» с негативными характеристиками, что приводит к негативным реакциям, когда такие термины появляются в системном запросе.

В данном исследовании подобные негативные ассоциации могли активироваться после того, как специалисты подразделения Counter Adversary Operations добавили эти слова в системный запрос DeepSeek-R1. Это вызвало «негативное поведение» модели, которое в данном случае проявилось в виде менее безопасного кода.

Исследователи продемонстрировали, что на первый взгляд безобидные триггерные слова в системном запросе LLM могут иметь существенное влияние на качество и безопасность кода, который генерирует модель. Они сосредоточились на политических предвзятостях, которые в некоторой степени можно было предсказать и доказать. Однако вполне вероятно, что другие языковые модели могут содержать подобные предвзятости и реагировать аналогичным образом на собственный набор триггерных слов.

Поэтому надеемся, что обнародование результатов этого исследования стимулирует новые исследования того, как предубеждения, вшитые в модель в процессе её обучения, могут влиять на ответы LLM в казалось бы совсем не связанных задачах. Специалисты CrowdStrike подчеркивают, что это исследование не означает, что DeepSeek-R1 каждый раз будет генерировать опасный код при наличии этих триггеров. Однако в среднесрочной и долгосрочной перспективе код, созданный в таких условиях, статистически будет менее безопасным.

Как первоочередной предосторожный шаг для компаний, которые планируют использовать LLM как ассистентов программирования (или любые другие AI-агенты), хотим подчеркнуть важность тщательного тестирования агента в его реальной рабочей среде. Полагаться только на общие open source-бенчмарки — недостаточно.

Источник

iIT Distribution — авторизованный дистрибьютор CrowdStrike, обеспечивает дистрибуцию и продвижение решений на территории Казахстана, Узбекистана, Киргизии, Азербайджана, Армении, Таджикистана, Грузии, Польши, Молдовы, Украины и стран Балтии, а также предоставляет профессиональную поддержку при их проектировании и внедрении.

НОВОСТИ