СРАВНИТЕЛЬНЫЙ АНАЛИЗ ПОДХОДОВ К ИДЕНТИФИКАЦИИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

Ксения И. Салахутдинова, Владислав В. Малков, Ирина Е. Кривцова

Аннотация


Целью исследования ставится тестирование различных известных библиотек градиентного бустинга деревьев решений применительно к задаче идентификации программного обеспечения в условиях ограниченного набора исполняемых файлов различных версий одной программы в обучаемой выборке. Обосновывается важность аудита программного обеспечения для бизнес-процессов. В работе рассмотрены средства контроля установленного программного обеспечения на персональные компьютеры пользователей автоматизированных систем. Обоснованы недостатки таких программных решений с примерами обхода их алгоритмов идентификации программ и представлен разработанный подход по идентификации исполняемых файлов при помощи алгоритма машинного обучения – градиентный бустинг деревьев решений на основе библиотек XGBoost, LightGBM, CatBoost. Проведен эксперимент по идентификации исполняемых файлов с помощью XGBoost, LightGBM. На основе бикубической меры качества кластеризации был выполнен сравнительный анализ полученных результатов с предложенным авторами ранее подходом к идентификации программ на основе библиотеки CatBoost, а также с результатами, представленными в других исследованиях. Полученные результаты свидетельствуют, что разработанный подход позволяет выявить нарушения установленной политики безопасности при обработке информации в автоматизированных системах.


Ключевые слова


информационная безопасность, идентификация программ, машинное обучение, градиентный бустинг деревьев решений, XGBoost, LightGBM

Полный текст:

PDF

Литература


1. Williams S.P., Hardy J.A., Holgate C.A. Information security governance practices in critical infrastructure organizations: a socio-technical and institutional logic perspective // Electronic Markets. 2013. V. 23. N 4. P. 341–351.

2. Salakhutdinova K.I., Krivtsova I.E., Lebedev I.S., Sukhoparov M.E. An Approach to Selecting an Informative Feature in Software Identification // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2018, Vol. 11118. P. 318–327.

3. Krivtsova I.E., Lebedev I.S., Salakhutdinova K.I. Identification of Executable Files on the basis of Statistical Criteria // Proceedings of the 20th Conference of Open Innovations Association FRUCT. 2017. P. 202–208.

4. Салахутдинова К.И., Лебедев И.С., Кривцова И.Е., Сухопаров М.Е. Исследование влияния выбора признака и коэффициента (ratio) при формировании сигнатуры в задаче по идентификации программ // Проблемы информационной безопасности. Компьютерные системы. 2018. № 1. С. 136–141. URL: http://jisp.ru/article/issledovanie-vliyaniya-vybora-priznaka-i-koeffitsienta-ratio-pri-formirovanii-signatury-v-zadache-po-identifikatsii-programm/ (дата обращения: 29.01.2019).

5. Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Алгоритм градиентного бустинга деревьев решений в задаче идентификации программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 6(118). С. 1016–1022.doi: 10.17586/2226-1494-2018-18-6-1016-1022. URL:https://ntv.ifmo.ru/en/article/18236/algoritm_gradientnogo_bustinga_derevev_resheniy__v_zadache_identifikacii_programmnogo_obespecheniya.htm (дата обращения: 29.01.2019).

6. Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Реализация параллельного алгоритма предсказания в методе градиентного бустинга деревьев решений // Вестник ЮурГУ. 2011. № 37 (254). С. 82–89.

7. CatBoost GitHub [Электронный ресурс]. URL: https://github.com/catboost (дата обращения: 29.01.2019).

8. XGBoost GitHub [Электронный ресурс]. URL: https://github.com/dmlc/xgboost (дата обращения: 09.02.2019).

9. Китов В.В. Исследование точности метода градиентного бустинга со случайными поворотами // Статистика и экономика. 2016. № 4. С. 22–26.

10. LightGBM GitHub [Электронный ресурс]. URL: https://github.com/Microsoft/LightGBM (дата обращения: 02.02.2019).

11. Кафтанников И.Л., Парасич А.В. Особенности применения деревьев решений в задачах классификации // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». 2015. № 3(15). С. 26–32.

12. Bagga A., Baldwin B. Cross-Document EventCoreference: Annotations, Experiments, and Observations // Proc. ACL-99 Workshop on Coreference and Its Applications. 1998. C. 1–8.

13. Антонов А. Е., Федулов А. С. Идентификация типа файла на основе структурного анализа//Прикладная информатика. 2013. № 2(44). С. 68–77.

14. Kornblum J. D. Identifying almost identical files using context triggered piecewise hashing // Digital Investigation. 2006. Vol. 3. P. 91–97.

15. Ebringer T., Sun L., Boztas S. A Fast Randomness Test that Preserves Local Detail // Proceedings of the 18th Virus Bulletin International Conference — United Kingdom: Virus Bulletin Ltd. 2008. P. 34–42.




DOI: http://dx.doi.org/10.26583/bit.2019.2.04

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.