№2, 2021
PYTHON MÜHİTİNDƏ K-MEANS, K-MEANS++ VƏ MİNİ BATCH K-MEANS ALQORİTMLƏRİNİN MÜQAYİSƏLİ ANALİZİ
Məqalədə k-means alqortitmi və onun modifikasiyalarının Python mühitində müxtəlif ölçülü verilənlərə tətbiqi məsələlərinə baxılır. Eyni zamanda ənənəvi k-means klasterləşdirmə alqoritmi və onun modifikasıyalarının mövcud vəziyyəti, imkanları, çatışmazlıqları, meydana çıxan problemlər tədqiq edilmiş və onların həlli üçün təkliflər verilmişdir. k-means++ alqoritmi vasitəsilə ənənəvi k-means metodunun başlanğıc mərkəzlərin təsadüfi seçilməsi çatışmazlığı aradan qaldırılmışdır. Mini batch k-means alqoritmi vasitəsilə böyük verilənlər paketlərə bölünməklə analiz edilmişdir ki, bu da böyük həcmli, kompleks verilənlərin analiz prosesini sürətləndirmişdir. Verilənlərin klasterləşdirilməsi zamanı ölçünün azaldılması və klasterlərin optimal sayının tapılması üçün hibrid PCA və elbow metodu təklif edilmişdir. Bu yanaşmanın effektivliyinin qiymətləndirilməsi üçün alqoritmlər müxtəlif ölçülü bir neçə verilənlər çoxluğu üzərində sınaqdan keçirilmişdir. Alqoritmlərin effektivliyinin qiymətləndirilməsi üçün siluet və Devis-Boldin indekslərindən istifadə edilmişdir. Eksperimentin nəticəsi göstərmişdir ki, təklif olunan yanaşma böyük ölçülü verilənlərin klasterləşdirilməsində daha effektivdir. Təklif edilən hibrid PCA və elbow metodu irihəcmli, çoxölçülü verilənlərin emal prosesində böyük hesablama resursları tələb edən məsələlərin həllinə yeni imkanlar yaradır (səh.119-128).
- Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, 2011, 744 p.
- Sanse K., Sharma M. Clustering methods for Big data analysis // International Journal of Advanced Research in Computer Engineering & Technology, 2015, vol.4, no.3, pp.642-648.
- Chen C.L.P., Zhang C-Y. Data-ıntensıve applıcatıons, challenges, technıques and technologıes: a survey on bıg data // Information Sciences, 2014, vol.275, pp.314-347.
- Alguliyev R.M, Aliguliyev R.M., Sukhostat L.V. Parallel batch k-means for Big data clustering // Computers & Industrial Engineering, 2021, vol.152.
- Aliguliyev R.M., Hajırahimova M.Sh., Aliyeva A.Sh. Biġ Data-nın aktual elmi-nazari problemlari // Informasiya Jamiyyati Problemlari, 2016, no.2, pp.37-49.
- Alguliyev R., Aliguliyev R., Bagirov A., Karimov R. Batch clustering algorithm for big data sets / 2016 IEEE 10th International Conference on Application of Information and Communication Technologies, 2016, pp.79-82.
- Alguliyev R.M., Aliguliyev R.M., Sukhostat L.V. Weighted consensus clustering and its application to big data // Expert Systems with Applications, 2020, vol.150.
- Alguliyev R.M., Aliguliyev R.M., Sukhostat L.V. Efficient algorithm for big data clustering on single machine // CAAI Transactions on Intelligence Technology, 2020, vol.5, no.1, pp.9-14.
- Alıguliyev R., Tahirzada Sh. “Boyuk hajmli fardi malumatların analizi uchun iterativ chakili k-means algoritmi” / “Informasiya tahlukasizliyinin aktual multidissiplinar elmi-praktiki problemlari” V respublika konfransı, 29 noyabr 2019-ju il.