ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING - Проблемы Информационных Технологий

ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING - Проблемы Информационных Технологий

ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING - Проблемы Информационных Технологий

ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING - Проблемы Информационных Технологий

ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING - Проблемы Информационных Технологий
ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING - Проблемы Информационных Технологий
НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК АЗЕРБАЙДЖАНА

№2, 2015

ВЫЯВЛЕНИЕ СВЯЗАННЫХ С ТЕРРОРИЗМОМ СТАТЕЙ В ЭЛЕКТРОННОМ ГОСУДАРСТВЕ С ПОМОЩЬЮ МЕТОДОВ TEXT MINING

Алыгулиев Рамиз М., Нифталиева Гюнай Я.

В статье предложен метод, основанный на text mining-технологии, предназначенный для выявления статей, связанных с терроризмом в среде электронного государства. Предложенный метод состоит из нескольких этапов: 1) создание словаря, состоящего из терминов, связанных с терроризмом; 2) создание семантической сети слов; 3) морфологический анализ слов; 4) первичная фильтрация документов; 5) определение семантической близости между словами с использованием семантической сети слов; 6) определение семантической близости между предложениями; 7) определение семантической близости между документами; 8) классификация документов. Для определения связи между словами, предложениями и документами были введены гибридные меры близости. Для идентификации документов, связанных с терроризмом, был предложен гибридный метод классификации, состоящий из линейной комбинации методов kNN, Байеса и нового предложенного метода Рамиз-Гюнай (стр.41-52).

Ключевые слова: электронное государство, безопасность электронного государства, терроризм, text mining, гибридная мера близости, метод кNN, модифицированный метод Байеса, метод Рамиз-Гюнай, гибридный метод классификации.
DOI : 10.25045/jpit.v06.i2.04
Литература
  • Alruily M., Ayesh A., Al-Marghilani A. Using self organizing map to cluster arabic crime documents / Proceedings of the International Multiconference on Computer Science and Information Technology, Wisla, Poland, 18–20 October, 2010, pp.357–363.
  • Bsoul Q., Salim J., Zakaria L.Q. An intelligent document clustering approach to detect crime patterns // Procedia Technology, 2013, vol.11, pp.1181-1187.
  • Choi D., Ko B., Kim H., Kim H. Text analysis for detecting terrorism-related articles on the web // Journal of Network and Computer Applications, 2014, vol.38, pp.16-21.
  • Ku C.-H., Leroy G. A crime reports analysis system to identify related crimes // Journal of the American Society for Information Science and Technology, 2011, vol.62, no.8, pp.1533–1547.
  • Ku C.-H., Leroy G. A decision support system: automated crime report analysis and classification for e-government // Government Information Quarterly, 2014, vol.31, no.4, pp.534–544.
  • Yildiz M. E-government research: reviewing the literature, limitations, and ways forward // Government Information Quarterly, 2007, vol.24, no.3, pp.646–665.
  • Zhao J.J., Zhao S.Y., Zhao S.Y. Opportunities and threats: security assessment of state e-government websites // Government Information Quarterly, 2010, vol.27, no.1, pp.49-56.
  • Wimmer M., Codagnone C., Janssen M. Future e-government research: 13 research themes identified in the eGovRTD2020 project / Proceedings of the 41st Hawaii International Conference on System Sciences, Hawaii, USA, 7–10 January, 2008, pp.1–11.
  • Linders D. From e-government to we-government: defining a typology for citizen coproduction in the age of social media // Government Information Quarterly, 2012, vol.29, no.4, pp.446–454.
  • Алыгулиев Р.М. Роль технологии интеллектуального анализа текстов в обеспечении национальной безопасности // Проблемы Информационных Технологий, 2013, №1, с.38–43.
  • Aggarwal C.C., Zhai C.X. Mining text data. Springer New York Dordrecht Heidelberg London.
  • www.idc.com
  • Miller G.A. WordNet: a lexical database for English // Communications on the ACM, 1995, vol.38, no.11, pp.39-41.
  • Wu Z., Palmer M. Verb semantics and lexical selection / Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, New Mexico, USA, 27–30 June, 1994, pp.133–138.
  • Keselj V., Peng F., Cercone N., Thomas C. N-gram based author profiles for authorship attribution / Proceedings of the Conference of the Pacific Association for Computational Linguistics, Nova Scotia, Canada, August 22–25, 2003, pp.255–264.
  • Last M., Markov A., Kandel A., Multi-lingual detection of terrorist content on the web // Lecture Notes in Computer Science, 2006, vol.3917, pp.16–30.
  • Shapira B., Last M., Elovici Y., Kandel A., Zaafrany O. Using data mining techniques for detecting terror-related activities on the web // Journal of Information Warfare, 2003, vol.3, no.1, pp.17–28.
  • Sharef N.M., Martin T. Evolving fuzzy grammar for crime texts categorization //Applied Soft Computing, 2015, vol.28, pp.175–187.
  • ru.wikipedia.org/wiki/Коэффициент_Симпсона#cite_note-2
  • Abdi A., Idris N., Alguliev R.M., Aliguliyev R.M. Automatic summarization assessment through a combination of semantic and syntactic information for intelligent educational systems // Information Processing & Management, 2015, vol.51, no.4, pp.340–358.
  • Lin D. An information-theoretic definition of similarity / Proceedings of the Fifteenth International Conference on Machine Learning, 1998, pp.296–304.
  • Zhao L., Wu L., Huang X. Using query expansion in graph-based approach for query-focused multi-document summarization // Information Processing & Management, 2009, vol.45, no.1, pp.35–41.
  • Alguliev R.M., Aliguliyev R.M., Mehdiyev C.A. Sentence selection for generic document summarization using an adaptive differential evolution algorithm // Swarm and Evolutionary Computation, 2011, vol.1, no.4, pp.213–222.
  • Aliguliyev R.M. A new sentence similarity measure and sentence based extractive technique for automatic text summarization // Expert Systems with Applications, 2009, vol.36, no.4, pp.7764–7772.
  • Li Y., McLean D., Bandar Z.A., O’shea J.D., Crockett K. Sentence similarity based on semantic nets and corpus statistics // IEEE Transactions on Knowledge and Data Engineering, 2006, vol.18, no.8, pp.1138–1150.
  • Aliguliyev R.M. Effective summarization method of text documents / Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence, France, September 19-22, 2005, pp.264–271.
  • Devroye L., Gyorfi L., Lugosi G. A probabilistic theory of pattern recognition, Springer, 1996.