विभागीय क्लस्टरिंग वि श्रेणीबद्ध

क्लस्टरिंग हे डेटाचे विश्लेषण आणि समान डेटाच्या गटांमध्ये विभाजित करण्यासाठी मशीन शिक्षण तंत्र आहे. हे समूह किंवा तत्सम डेटाचे समूह क्लस्टर म्हणून ओळखले जातात. क्लस्टर विश्लेषण क्लस्टरिंग अल्गोरिदमकडे पाहते जे आपोआप क्लस्टर ओळखू शकतात. श्रेणीबद्ध आणि विभाजन हे क्लस्टरिंग अल्गोरिदमचे असे दोन वर्ग आहेत. श्रेणीबद्ध क्लस्टरिंग अल्गोरिदम क्लस्टरच्या पदानुक्रमात डेटा खंडित करतात. विभागीय अल्गोरिदम सेट केलेल्या डेटाला परस्पर असंतुलन विभाजनांमध्ये विभाजित करतात.

श्रेणीबद्ध क्लस्टरिंग म्हणजे काय?

श्रेणीबद्ध क्लस्टरिंग अल्गोरिदम मोठ्या क्लॉस्टरमध्ये एकतर विलीनीकरण किंवा मोठ्या क्लस्टर्सला लहानमध्ये विभाजित करण्याच्या चक्रची पुनरावृत्ती करतात. एकतर, हे डेंडोग्राम नावाच्या क्लस्टर्सचे श्रेणीबद्ध उत्पादन करते. एग्लॉमेरेटिव्ह क्लस्टरिंग स्ट्रॅटेजी मोठ्या लोकांमध्ये क्लस्टर विलीन करण्याच्या तळाशी अप पध्दतीचा वापर करते, तर विभाजित क्लस्टरिंग स्ट्रॅटेजी लहान व्यक्तींमध्ये विभाजित होण्याच्या टॉप-डाऊन पध्दतीचा वापर करते. थोडक्यात, कोणत्या मोठ्या / लहान क्लस्टर्स विलीन / विभाजित करण्यासाठी वापरले जातात हे ठरवण्यासाठी लोभी दृष्टिकोनाचा वापर केला जातो. युक्लिडियन अंतर, मॅनहॅटन अंतर आणि कोसाइन समानता ही संख्यात्मक डेटासाठी समानतेची सर्वात सामान्यपणे वापरली जाणारी मेट्रिक्स आहे. संख्यात्मक डेटासाठी, हॅमिंग अंतर सारख्या मेट्रिक्सचा वापर केला जातो. हे लक्षात घेणे महत्वाचे आहे की श्रेणीबद्ध क्लस्टरिंगसाठी वास्तविक निरीक्षणे (उदाहरणे) आवश्यक नाहीत, कारण केवळ अंतराचे मेट्रिक्स पुरेसे आहेत. डेंडोग्राम हे क्लस्टर्सचे दृश्य प्रतिनिधित्व आहे, जे श्रेणीक्रम अगदी स्पष्टपणे दर्शवितो. डेंडोग्राम ज्या स्तरावर कापला गेला त्यानुसार वापरकर्त्यास भिन्न क्लस्टरिंग मिळू शकते.

विभागीय क्लस्टरिंग म्हणजे काय?

विभागीय क्लस्टरिंग अल्गोरिदम विविध विभाजने व्युत्पन्न करतात आणि नंतर काही निकषांद्वारे त्यांचे मूल्यांकन करतात. प्रत्येक घटकाला परस्पर विशेष क्लस्टर्समध्ये नेमके एक ठेवले जाते म्हणून त्यांना नॉनहिएरॅरिकल असेही म्हटले जाते. क्लस्टर्सचा फक्त एक सेट म्हणजे टिपिकल पार्टिशनल क्लस्टरिंग अल्गोरिदमचे आउटपुट असल्यामुळे वापरकर्त्यास इच्छित क्लस्टरची संख्या (सामान्यतः के म्हणतात) आवश्यक असते. सर्वात सामान्यतः वापरल्या जाणार्‍या विभागीय क्लस्टरिंग अल्गोरिदम म्हणजे के-म्हणजे क्लस्टरिंग अल्गोरिदम. वापरकर्त्यास प्रारंभ करण्यापूर्वी क्लस्टरची संख्या (के) प्रदान करणे आवश्यक आहे आणि अल्गोरिदम प्रथम के विभाजनाची केंद्रे (किंवा सेंटरॉईड्स) आरंभ करते. थोडक्यात, के-म्हणजे क्लस्टरिंग अल्गोरिदम नंतर विद्यमान केंद्रांवर आधारित सदस्यांची नेमणूक करते आणि विद्यमान सदस्यांच्या आधारावर पुनर्मूल्यांकन केंद्रे. एक विशिष्ट इंट्रा-क्लस्टर समानता उद्देश कार्य आणि इंटर-क्लस्टर भिन्नता वस्तुनिष्ठ कार्य ऑप्टिमाइझ केल्याशिवाय या दोन चरणांची पुनरावृत्ती केली जात नाही. म्हणूनच, विभागीय क्लस्टरिंग अल्गोरिदमांकडून गुणवत्तापूर्ण निकाल मिळविण्याकरिता केंद्रांची शहाणे इनीशीलायझेशन ही एक महत्वाची बाब आहे.

श्रेणीबद्ध आणि विभागीय क्लस्टरिंगमध्ये काय फरक आहे?

श्रेणीबद्ध आणि विभागीय क्लस्टरिंगमध्ये चालू वेळ, गृहीतके, इनपुट पॅरामीटर्स आणि परिणामी क्लस्टरमध्ये मुख्य फरक आहेत. सामान्यत: विभागीय क्लस्टरिंग श्रेणीबद्ध क्लस्टरिंगपेक्षा वेगवान आहे. श्रेणीबद्ध क्लस्टरिंगला केवळ समानता उपाय आवश्यक आहे, तर विभागीय क्लस्टरिंगमध्ये क्लस्टरची संख्या आणि प्रारंभिक केंद्रे यासारखी मजबूत धारणा आवश्यक आहेत. श्रेणीबद्ध क्लस्टरिंगला कोणत्याही इनपुट पॅरामीटर्सची आवश्यकता नसते, तर विभागीय क्लस्टरिंग अल्गोरिदमांना चालू होण्यास क्लस्टरची संख्या आवश्यक असते. श्रेणीबद्ध क्लस्टरिंग क्लस्टर्सचे बरेच अधिक अर्थपूर्ण आणि व्यक्तिपरक विभागण परत करते परंतु विभाजनात्मक क्लस्टरिंगचा परिणाम के के क्लस्टरमध्ये होतो. श्रेणीबद्ध डेटा क्लस्टरिंग अल्गोरिदम जोपर्यंत एक समानता उपाय त्यानुसार परिभाषित करता येईल तोपर्यंत वर्गीकृत डेटासाठी अधिक योग्य आहेत.