СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON - Проблемы Информационных Технологий

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON - Проблемы Информационных Технологий

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON - Проблемы Информационных Технологий

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON - Проблемы Информационных Технологий

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON - Проблемы Информационных Технологий
СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON - Проблемы Информационных Технологий
НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК АЗЕРБАЙДЖАНА

№2, 2021

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ K-MEANS, K-MEANS++ И MINI BATCH K-MEANS В СРЕДЕ PYTHON

Ахмедов Эльтон Я.

В этой статье обсуждается применение алгоритма k-средних и его модификации к наборам данных различных измерений в среде Python. При этом были изучены текущее состояние, возможности, недостатки, проблемы традиционного алгоритма кластеризации k-средних и его модификаций и даны предложения по их решению. Алгоритм k-средних ++ устраняет недостаток случайного выбора начальных центров традиционным методом k-средних. Используя мини-пакетный алгоритм k-средних, большие данные анализировались путем их разделения на пакеты, что ускоряло процесс анализа больших и сложных данных. Был предложен гибридный метод PCA и локтя, чтобы уменьшить размерность во время кластеризации данных и найти оптимальное количество кластеров. Чтобы оценить эффективность этого подхода, алгоритмы были протестированы на нескольких наборах данных разного размера. Результаты эксперимента показали, что предложенный подход более эффективен при кластеризации больших данных. Предлагаемый гибридный метод PCA и локтя создает новые возможности для решения задач, требующих больших вычислительных ресурсов в процессе анализа больших многомерных данных (стр.119-128).

Ключевые слова: интеллектуальный анализ данных, кластеризация, k-means, k-means++, mini batch k-means, elbow, PCA
DOI : 10.25045/jpit.v12.i2.11
Литература
  • Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, 2011, 744 p.
  • Sanse K., Sharma M. Clustering methods for Big data analysis // International Journal of Advanced Research in Computer Engineering & Technology, 2015, vol.4, no.3, pp.642-648.
  • Chen C.L.P., Zhang C-Y. Data-ıntensıve applıcatıons, challenges, technıques and technologıes: a survey on bıg data // Information Sciences, 2014, vol.275, pp.314-347.
  • Alguliyev R.M, Aliguliyev R.M., Sukhostat L.V. Parallel batch k-means for Big data clustering // Computers & Industrial Engineering, 2021, vol.152.
  • Aliguliyev R.M., Hajırahimova M.Sh., Aliyeva A.Sh. Biġ Data-nın aktual elmi-nazari problemlari // Informasiya Jamiyyati Problemlari, 2016, no.2, pp.37-49.
  • Alguliyev R., Aliguliyev R., Bagirov A., Karimov R. Batch clustering algorithm for big data sets / 2016 IEEE 10th International Conference on Application of Information and Communication Technologies, 2016, pp.79-82.
  • Alguliyev R.M., Aliguliyev R.M., Sukhostat L.V. Weighted consensus clustering and its application to big data // Expert Systems with Applications, 2020, vol.150.
  • Alguliyev R.M., Aliguliyev R.M., Sukhostat L.V. Efficient algorithm for big data clustering on single machine // CAAI Transactions on Intelligence Technology, 2020, vol.5, no.1, pp.9-14.
  • Alıguliyev R., Tahirzada Sh. “Boyuk hajmli fardi malumatların analizi uchun iterativ chakili k-means algoritmi” / “Informasiya tahlukasizliyinin aktual multidissiplinar elmi-praktiki problemlari” V respublika konfransı, 29 noyabr 2019-ju il.