События 1
Ru
События 1
Результат поиска:
EMBERSim: большая база данных для ускоренного поиска сходств в анализе вредоносного ПО- image 1

EMBERSim: большая база данных для ускоренного поиска сходств в анализе вредоносного ПО

Cходство двоичного кода (BCS) является важной составляющей тренировки моделей машинного обучения (ML) для эффективного анализа больших объемов телеметрии кибербезопасности. Однако, исторически BCS сосредотачивалась на поиске сходств среди среди примеров вредоносного ПО, а не среди безопасных данных, что ограничивает ее эффективность. Команда исследователей CrowdStrike выпустила EMBERSim — набор данных BCS, расширяющий существующий набор данных EMBER с помощью расширенных тегов данных и нового алгоритма совместного появления сходства листков, который учитывает как безопасные, так и вредоносные бинарные файлы. Этот инновационный подход к квалификации сходства в кибербезопасности улучшает результаты BCS в ML-моделях, демонстрируя, что EMBERSim имеет потенциал улучшить обнаружение вредоносного ПО и позволить дальнейшие исследования в этой ключевой области.

Цель исследования

Основная цель исследования Crowdstrike заключается в преодолении ограничений BCS для улучшения выявления вредоносного ПО и содействия дальнейшим исследованиям в этой сфере. Исследование базируется на существующем наборе данных EMBER, который включает в себя Portable Executable (PE) файлы, содержащие функции и теги для классификации вредоносного ПО.

Новый набор данных EMBERSim

EMBERSim — это набор данных для BCS-исследований, который расширяет метаданные семейства вредоносных программ (FAM) в оригинальном наборе данных EMBER с помощью информации о сходстве, классе (CLASS) и поведении (BEH) вредоносных программ, а также дополнительных тегов семейства (FAM). Расширенный список тегов определяется с помощью алгоритма совместного появления.

Классификатор и оценка

Crowdstrike является первой, кто перепрофилировал классификатор вредоносных программ XGBoost для количественной оценки парного сходства на листовом уровне. Компания предлагает новую схему оценки эффективности предложенной техники сходства листьев, используя методы Top-K Selection и Relevance @ K. Этот метод был сравнен с методом вычисления сходства в кибербезопасности (ssdeep), и было подтверждено, что сходство листьев является лучшей альтернативой.

Описание метаданных и тегов

Для каждого образца в EMBER использовались его SHA256 для запроса VirusTotal (VT) и запуска AVClass v2 для получения тегов с соответствующими коэффициентами уверенности. AVClass предоставляет статистику совместного появления для пар тегов, что позволяет обогащать набор тегов вредоносных образцов в EMBER путем добавления совпадающих тегов выше определенного порога частоты. Цель этого обогащения — возможность найти образцы с общими характеристиками, даже если они принадлежат к разным семействам.

Метод Leaf Prediction Similarity

С использованием обученной ансамблевой модели деревьев решений (в нашем случае XGBoost) мы определяем сходство двух образцов как сходство их листьев в контексте этой модели. Этот метод применим к любому типу ансамбля деревьев, но в экспериментах были использованы XGBoost. Сходство вычисляется как доля деревьев, в которых оба образца попадают в один и тот же листовой узел.

Оценка Релевантность @ К

Crowdstrike провела еще одну оценку, которая включает проверку релевантности полученных результатов в сценарии обогащения тегов. Для оценки Relevance @ K использовалось ранжирование тегов, которое определяет релевантность полученных образцов. Оценка происходит по релевантности образцов и различным механизмам оценки, таким как EM, IoU и NES.

Анализ показал, что метод сходства листьев превосходит ssdeep и достигает лучших результатов для обоих типов запросов — как вредных, так и безопасных. Результаты оценки подтвердили эффективность этого подхода в выявлении и различении вредных и безопасных образцов.

Вывод

Анализ показал, что метод сходства листьев превосходит ssdeep и достигает лучших результатов для обоих типов запросов — как вредных, так и безопасных. Результаты оценки подтвердили эффективность этого подхода в выявлении и различении вредных и безопасных образцов.

Новости

Текущие новости по вашей теме

Все новости
Объявление об инвестициях серии C: от пионера симуляции атак до лидера в валидации экспозиций атак
Picus Security Новости
Объявление об инвестициях серии C: от пионера симуляции атак до лидера в валидац ...

CrowdStrike приобретает Adaptive Shield для обеспечения комплексного управления безопасностью SaaS
CrowdStrike Новости
CrowdStrike приобретает Adaptive Shield для обеспечения комплексного управления ...

Новая версия LogRhythm SIEM 7.14
Новости
Новая версия LogRhythm SIEM 7.14

В условиях, когда все больше организаций требуют от команд безопасности делать ...

Все новости