PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ - İnformasiya Texnologiyaları Problemləri

PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ - İnformasiya Texnologiyaları Problemləri

PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ - İnformasiya Texnologiyaları Problemləri

PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ - İnformasiya Texnologiyaları Problemləri

PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ - İnformasiya Texnologiyaları Problemləri
PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ - İnformasiya Texnologiyaları Problemləri
AZƏRBAYCAN MİLLİ ELMLƏR AKADEMİYASI

№2, 2021

PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ

Əhmədov Elton

Məqalədə k-means alqortitmi və onun modifikasiyalarının Python mühitində müxtəlif ölçülü verilənlərə tətbiqi məsələlərinə baxılır. Eyni zamanda ənənəvi k-means klasterləşdirmə alqoritmi və onun modifikasıyalarının mövcud vəziyyəti, imkanları, çatışmazlıqları, meydana çıxan problemlər tədqiq edilmiş və onların həlli üçün təkliflər verilmişdir. k-means++  alqoritmi vasitəsilə ənənəvi k-means metodunun başlanğıc mərkəzlərin təsadüfi seçilməsi çatışmazlığı aradan qaldırılmışdır. Mini batch k-means alqoritmi vasitəsilə böyük verilənlər  paketlərə bölünməklə analiz edilmişdir ki, bu da böyük həcmli, kompleks verilənlərin analiz prosesini sürətləndirmişdir. Verilənlərin klasterləşdirilməsi zamanı ölçünün azaldılması və klasterlərin optimal sayının tapılması üçün hibrid PCA və elbow  metodu təklif edilmişdir. Bu yanaşmanın effektivliyinin qiymətləndirilməsi üçün alqoritmlər müxtəlif ölçülü bir neçə verilənlər çoxluğu üzərində sınaqdan keçirilmişdir. Alqoritmlərin effektivliyinin qiymətləndirilməsi üçün siluet və Devis-Boldin indekslərindən istifadə edilmişdir. Eksperimentin nəticəsi göstərmişdir ki, təklif olunan yanaşma böyük ölçülü verilənlərin klasterləşdirilməsində daha effektivdir. Təklif edilən hibrid PCA və elbow metodu  irihəcmli, çoxölçülü verilənlərin emal prosesində böyük hesablama resursları tələb edən məsələlərin həllinə yeni imkanlar yaradır (səh.119-128).

Açar sözlər: data mining, klasterləşdirmə, k-means, k-means++, mini batch k-means, elbow, PCA.
DOI : 10.25045/jpit.v12.i2.11
Ədəbiyyat
  • Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, 2011, 744 p.
  • Sanse K., Sharma M. Clustering methods for Big data analysis // International Journal of Advanced Research in Computer Engineering & Technology, 2015, vol.4, no.3, pp.642-648.
  • Chen C.L.P., Zhang C-Y. Data-ıntensıve applıcatıons, challenges, technıques and technologıes: a survey on bıg data // Information Sciences, 2014, vol.275, pp.314-347.
  • Alguliyev R.M, Aliguliyev R.M., Sukhostat L.V. Parallel batch k-means for Big data clustering // Computers & Industrial Engineering, 2021, vol.152.
  • Aliguliyev R.M., Hajırahimova M.Sh., Aliyeva A.Sh. Biġ Data-nın aktual elmi-nazari problemlari // Informasiya Jamiyyati Problemlari, 2016, no.2, pp.37-49.
  • Alguliyev R., Aliguliyev R., Bagirov A., Karimov R. Batch clustering algorithm for big data sets / 2016 IEEE 10th International Conference on Application of Information and Communication Technologies, 2016, pp.79-82.
  • Alguliyev R.M., Aliguliyev R.M., Sukhostat L.V. Weighted consensus clustering and its application to big data // Expert Systems with Applications, 2020, vol.150.
  • Alguliyev R.M., Aliguliyev R.M., Sukhostat L.V. Efficient algorithm for big data clustering on single machine // CAAI Transactions on Intelligence Technology, 2020, vol.5, no.1, pp.9-14.
  • Alıguliyev R., Tahirzada Sh. “Boyuk hajmli fardi malumatların analizi uchun iterativ chakili k-means algoritmi” / “Informasiya tahlukasizliyinin aktual multidissiplinar elmi-praktiki problemlari” V respublika konfransı, 29 noyabr 2019-ju il.