अनुशंसित, 2020

संपादक की पसंद

वर्गीकरण और प्रतिगमन के बीच अंतर

वर्गीकरण और प्रतिगमन दो प्रमुख पूर्वानुमान समस्याएं हैं जो आमतौर पर डेटा माइनिंग में निपटी जाती हैं। प्रिडिक्टिव मॉडलिंग नए डेटा की भविष्यवाणी करने के लिए ऐतिहासिक डेटा का उपयोग करके एक मॉडल या फ़ंक्शन विकसित करने की तकनीक है। वर्गीकरण और प्रतिगमन के बीच महत्वपूर्ण अंतर यह है कि वर्गीकरण कुछ असतत लेबल के लिए इनपुट डेटा ऑब्जेक्ट को मैप करता है। दूसरी ओर, प्रतिगमन निरंतर वास्तविक मूल्यों के लिए इनपुट डेटा ऑब्जेक्ट को मैप करता है।

तुलना चार्ट

तुलना के लिए आधारवर्गीकरणवापसी
बुनियादी
मॉडल या फ़ंक्शंस की खोज जहां वस्तुओं की मैपिंग पूर्वनिर्धारित कक्षाओं में की जाती है।एक तैयार मॉडल जिसमें वस्तुओं का मानचित्रण मूल्यों में किया जाता है।
की भविष्यवाणी को शामिल करता हैअसतत माननिरंतर मूल्य
एल्गोरिदमनिर्णय वृक्ष, लॉजिस्टिक प्रतिगमन, आदि।प्रतिगमन वृक्ष (रैंडम वन), रैखिक प्रतिगमन, आदि।
पूर्वानुमानित डेटा की प्रकृतिअक्रमितआदेश दिया
गणना की विधिमापने की सटीकताजड़ का माप वर्ग त्रुटि

वर्गीकरण की परिभाषा

वर्गीकरण एक मॉडल (फ़ंक्शन) को खोजने या खोजने की प्रक्रिया है जो डेटा को कई श्रेणीबद्ध वर्गों में अलग करने में मदद करता है। वर्गीकरण में, समस्या की समूह सदस्यता की पहचान की जाती है, जिसका अर्थ है कि डेटा को कुछ मापदंडों के अनुसार अलग-अलग लेबल के अंतर्गत वर्गीकृत किया जाता है और फिर डेटा के लिए लेबल की भविष्यवाणी की जाती है।

व्युत्पन्न मॉडल को "IF-THEN" नियमों, निर्णय पेड़ों या तंत्रिका नेटवर्क, आदि के रूप में प्रदर्शित किया जा सकता है। एक निर्णय पेड़ मूल रूप से एक प्रवाह-चार्ट है जो एक पेड़ की संरचना जैसा दिखता है, जहां प्रत्येक आंतरिक नोड एक विशेषता पर एक परीक्षण दर्शाते हैं, और इसकी शाखाएं परीक्षण के परिणाम को दिखाती हैं। वर्गीकरण प्रक्रिया उन समस्याओं से निपटती है जहां डेटा को दो या अधिक असतत लेबल में विभाजित किया जा सकता है, दूसरे शब्दों में, दो या दो से अधिक निराशाजनक सेट।

आइए एक उदाहरण लेते हैं, मान लें कि हम कुछ मापदंडों के आधार पर कुछ क्षेत्रों में बारिश की संभावना का अनुमान लगाना चाहते हैं। फिर दो लेबल बारिश होगी और कोई बारिश नहीं होगी जिसके तहत विभिन्न क्षेत्रों को वर्गीकृत किया जा सकता है।

प्रतिगमन की परिभाषा

प्रतिगमन कक्षाओं का उपयोग करने के बजाय निरंतर वास्तविक मूल्यों में डेटा को अलग करने के लिए एक मॉडल या फ़ंक्शन खोजने की प्रक्रिया है। गणितीय रूप से, प्रतिगमन समस्या के साथ, व्यक्ति न्यूनतम त्रुटि विचलन के साथ फ़ंक्शन सन्निकटन को खोजने का प्रयास कर रहा है। प्रतिगमन में, डेटा संख्यात्मक निर्भरता को अलग करने के लिए भविष्यवाणी की जाती है।

रिग्रेशन एनालिसिस एक सांख्यिकीय मॉडल है, जिसका उपयोग लेबल के बजाय संख्यात्मक डेटा की भविष्यवाणी करने के लिए किया जाता है। यह उपलब्ध आंकड़ों या ऐतिहासिक डेटा के आधार पर वितरण आंदोलन की पहचान कर सकता है।

चलिए इसी तरह के उदाहरण को प्रतिगमन में भी लेते हैं, जहां हम कुछ मापदंडों की मदद से कुछ विशेष क्षेत्रों में बारिश की संभावना पा रहे हैं। इस मामले में, बारिश से जुड़ी संभावना है। यहां हम बारिश के भीतर के क्षेत्रों को वर्गीकृत नहीं कर रहे हैं और न ही बारिश के लेबल के बजाय हम उन्हें उनकी सम्बद्धता के साथ वर्गीकृत कर रहे हैं।

वर्गीकरण और प्रतिगमन के बीच महत्वपूर्ण अंतर

  1. वर्गीकरण प्रक्रिया एक फ़ंक्शन को मॉडल करती है जिसके माध्यम से डेटा असतत वर्ग लेबल में भविष्यवाणी की जाती है। दूसरी ओर, प्रतिगमन एक मॉडल बनाने की प्रक्रिया है जो निरंतर मात्रा का अनुमान लगाता है।
  2. वर्गीकरण एल्गोरिदम में निर्णय ट्री, लॉजिस्टिक रिग्रेशन आदि शामिल होते हैं। इसके विपरीत, रिग्रेशन ट्री (जैसे रैंडम वन) और लीनियर रिग्रेशन प्रतिगमन एल्गोरिदम के उदाहरण हैं।
  3. वर्गीकरण अनियंत्रित डेटा की भविष्यवाणी करता है जबकि प्रतिगमन डेटा का आदेश देता है।
  4. रूट माध्य वर्ग त्रुटि का उपयोग करके प्रतिगमन का मूल्यांकन किया जा सकता है। इसके विपरीत, सटीकता का मापन करके वर्गीकरण का मूल्यांकन किया जाता है।

निष्कर्ष

वर्गीकरण तकनीक भविष्य कहनेवाला मॉडल या फ़ंक्शन प्रदान करती है जो ऐतिहासिक डेटा की सहायता से असतत श्रेणियों या लेबल में नए डेटा की भविष्यवाणी करता है। इसके विपरीत, प्रतिगमन विधि निरंतर-मूल्यवान कार्यों को मॉडल करती है जिसका अर्थ है कि यह निरंतर संख्यात्मक डेटा में डेटा की भविष्यवाणी करता है।

Top