रेखीय प्रतिगमन की मूल बातें। प्रतिगमन समीकरण गुणांक सहसंबंध और प्रतिगमन विश्लेषण दिखाता है

प्रतिगमन विश्लेषण एक सांख्यिकीय शोध पद्धति है जो आपको एक या अधिक स्वतंत्र चर पर एक पैरामीटर की निर्भरता दिखाने की अनुमति देती है। प्री-कंप्यूटर युग में, इसका अनुप्रयोग काफी कठिन था, खासकर जब यह बड़ी मात्रा में डेटा की बात आती थी। आज, एक्सेल में रिग्रेशन बनाना सीखकर, आप कुछ ही मिनटों में जटिल सांख्यिकीय समस्याओं को हल कर सकते हैं। अर्थशास्त्र के क्षेत्र से विशिष्ट उदाहरण नीचे दिए गए हैं।

प्रतिगमन प्रकार

इस अवधारणा को ही 1886 में गणित में पेश किया गया था। प्रतिगमन होता है:

  • रैखिक;
  • परवलयिक;
  • बिजली कानून;
  • घातीय;
  • अतिपरवलिक;
  • सांकेतिक;
  • लघुगणक

उदाहरण 1

आइए हम 6 औद्योगिक उद्यमों में औसत वेतन पर नौकरी छोड़ने वाले कर्मचारियों की संख्या की निर्भरता को निर्धारित करने की समस्या पर विचार करें।

कार्य। छह उद्यमों ने औसत मासिक वेतन और स्वेच्छा से नौकरी छोड़ने वाले कर्मचारियों की संख्या का विश्लेषण किया। सारणीबद्ध रूप में, हमारे पास है:

इस्तीफा देने वालों की संख्या

वेतन

30,000 रूबल

35,000 रूबल

40,000 रूबल

45,000 रूबल

50,000 रूबल

55,000 रूबल

60,000 रूबल

6 उद्यमों में औसत वेतन पर छोड़े गए कर्मचारियों की संख्या की निर्भरता निर्धारित करने की समस्या के लिए, प्रतिगमन मॉडल में समीकरण Y = a 0 + a 1 x 1 + ... + akxk का रूप है, जहां xi हैं चरों को प्रभावित करने वाले, ai प्रतिगमन गुणांक हैं, और ak कारकों की संख्या है।

इस कार्य के लिए, Y छोड़ने वाले कर्मचारियों का संकेतक है, और प्रभावित करने वाला कारक वेतन है, जिसे हम X से निरूपित करते हैं।

एक्सेल टेबल प्रोसेसर की क्षमताओं का उपयोग करना

एक्सेल में रिग्रेशन विश्लेषण मौजूदा सारणीबद्ध डेटा में अंतर्निहित कार्यों के आवेदन से पहले होना चाहिए। हालांकि, इन उद्देश्यों के लिए बहुत उपयोगी "विश्लेषण पैकेज" ऐड-इन का उपयोग करना बेहतर है। इसे सक्रिय करने के लिए आपको चाहिए:

  • "फ़ाइल" टैब से "पैरामीटर" अनुभाग पर जाएं;
  • खुलने वाली विंडो में, "ऐड-इन्स" लाइन का चयन करें;
  • "कंट्रोल" लाइन के दाईं ओर नीचे स्थित "गो" बटन पर क्लिक करें;
  • "विश्लेषण पैकेज" नाम के आगे एक टिक लगाएं और "ओके" पर क्लिक करके अपने कार्यों की पुष्टि करें।

यदि सब कुछ सही ढंग से किया जाता है, तो आवश्यक बटन "एक्सेल" वर्कशीट के ऊपर स्थित "डेटा" टैब के दाईं ओर दिखाई देगा।

एक्सेल में

अब जब हमारे पास अर्थमितीय गणना करने के लिए सभी आवश्यक आभासी उपकरण उपलब्ध हैं, तो हम अपनी समस्या को हल करना शुरू कर सकते हैं। इसके लिए:

  • "डेटा विश्लेषण" बटन पर क्लिक करें;
  • खुलने वाली विंडो में, "रिग्रेशन" बटन पर क्लिक करें;
  • दिखाई देने वाले टैब में, Y (छोड़ने वाले कर्मचारियों की संख्या) और X (उनका वेतन) के लिए मानों की श्रेणी दर्ज करें;
  • हम "ओके" बटन दबाकर अपने कार्यों की पुष्टि करते हैं।

परिणामस्वरूप, प्रोग्राम स्वचालित रूप से स्प्रैडशीट प्रोसेसर की नई शीट को प्रतिगमन विश्लेषण डेटा के साथ भर देगा। ध्यान दें! एक्सेल में उस स्थान को स्वतंत्र रूप से परिभाषित करने की क्षमता है जिसे आप इस उद्देश्य के लिए पसंद करते हैं। उदाहरण के लिए, यह वही शीट हो सकती है जिसमें Y और X मान हों, या यहां तक ​​कि इस तरह के डेटा को संग्रहीत करने के लिए विशेष रूप से डिज़ाइन की गई एक नई कार्यपुस्तिका भी हो सकती है।

आर-स्क्वायर के लिए प्रतिगमन परिणामों का विश्लेषण

एक्सेल में, प्रश्न में उदाहरण के डेटा को संसाधित करने के दौरान प्राप्त डेटा इस प्रकार है:

सबसे पहले आपको आर-स्क्वायर की वैल्यू पर ध्यान देना चाहिए। यह निर्धारण के गुणांक का प्रतिनिधित्व करता है। इस उदाहरण में, आर-वर्ग = 0.755 (75.5%), अर्थात्, मॉडल के परिकलित पैरामीटर 75.5% द्वारा माने गए मापदंडों के बीच संबंध की व्याख्या करते हैं। निर्धारण गुणांक का मान जितना अधिक होता है, उतना ही अधिक चुना हुआ मॉडल किसी विशिष्ट कार्य के लिए अधिक उपयुक्त माना जाता है। ऐसा माना जाता है कि यह वास्तविक स्थिति का सही वर्णन करता है जब R-वर्ग मान 0.8 से ऊपर होता है। यदि R-वर्ग<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

बाधाओं का विश्लेषण

संख्या 64.1428 दर्शाती है कि यदि हम जिस मॉडल पर विचार कर रहे हैं उसमें सभी चर xi शून्य हैं, तो Y का मान क्या होगा। दूसरे शब्दों में, यह तर्क दिया जा सकता है कि विश्लेषण किए गए पैरामीटर का मूल्य अन्य कारकों से प्रभावित होता है जो किसी विशेष मॉडल में वर्णित नहीं हैं।

सेल B18 में स्थित अगला गुणांक -0.16285, Y पर चर X के प्रभाव के महत्व को दर्शाता है। इसका मतलब है कि माना मॉडल के भीतर कर्मचारियों का औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वाले लोगों की संख्या को प्रभावित करता है। , यानी, इसके प्रभाव की डिग्री बिल्कुल छोटी है। एक "-" चिन्ह इंगित करता है कि गुणांक ऋणात्मक है। यह स्पष्ट है, क्योंकि हर कोई जानता है कि उद्यम में वेतन जितना अधिक होता है, उतने ही कम लोग रोजगार अनुबंध को समाप्त करने या छोड़ने की इच्छा व्यक्त करते हैं।

बहु - प्रतिगमन

इस शब्द को फॉर्म के कई स्वतंत्र चर के साथ एक बाधा समीकरण के रूप में समझा जाता है:

y = f (x 1 + x 2 +… x m) + , जहां y एक प्रभावी संकेतक (आश्रित चर) है, और x 1, x 2,… x m संकेतक-कारक (स्वतंत्र चर) हैं।

पैरामीटर अनुमान

एकाधिक प्रतिगमन (MR) के लिए, यह कम से कम वर्गों (OLS) की विधि का उपयोग करके किया जाता है। Y = a + b 1 x 1 +… + b m x m + के रूप के रैखिक समीकरणों के लिए हम सामान्य समीकरणों की एक प्रणाली का निर्माण करते हैं (नीचे देखें)

विधि के सिद्धांत को समझने के लिए, दो-कारक मामले पर विचार करें। तब हमारे पास सूत्र द्वारा वर्णित स्थिति होती है

यहाँ से हमें मिलता है:

जहां सूचकांक में परिलक्षित संबंधित विशेषता का प्रसरण है।

OLS को मानकीकृत पैमाने पर MR समीकरण पर लागू किया जाता है। इस मामले में, हमें समीकरण मिलता है:

जहाँ t y, t x 1,… t xm मानकीकृत चर हैं जिनके लिए माध्य मान 0 के बराबर हैं; β मैं मानकीकृत प्रतिगमन गुणांक हैं और मानक विचलन 1 है।

ध्यान दें कि इस मामले में सभी β i को सामान्यीकृत और केंद्रीकृत के रूप में निर्दिष्ट किया गया है, इसलिए एक दूसरे के साथ उनकी तुलना को सही और मान्य माना जाता है। इसके अलावा, यह βi के सबसे छोटे मूल्यों वाले कारकों को छोड़कर, कारकों को फ़िल्टर करने के लिए प्रथागत है।

एक रेखीय प्रतिगमन समीकरण का उपयोग करने में समस्या

मान लीजिए कि आपके पास पिछले 8 महीनों में किसी विशिष्ट उत्पाद N के लिए मूल्य गतिकी की तालिका है। 1850 रूबल / टी की कीमत पर अपने बैच को खरीदने की सलाह पर निर्णय लेना आवश्यक है।

माह संख्या

महीने का नाम

उत्पाद की कीमत नहीं

1750 रूबल प्रति टन

1755 रूबल प्रति टन

1767 रूबल प्रति टन

1760 रूबल प्रति टन

1770 रूबल प्रति टन

1790 रूबल प्रति टन

1810 रूबल प्रति टन

1840 रूबल प्रति टन

एक्सेल स्प्रेडशीट प्रोसेसर में इस समस्या को हल करने के लिए, आपको ऊपर प्रस्तुत उदाहरण से पहले से ज्ञात डेटा विश्लेषण टूल का उपयोग करने की आवश्यकता है। अगला, "रिग्रेशन" अनुभाग चुनें और पैरामीटर सेट करें। यह याद रखना चाहिए कि "इनपुट अंतराल Y" फ़ील्ड में, आश्रित चर के लिए मानों की एक श्रेणी दर्ज की जानी चाहिए (इस मामले में, वर्ष के विशिष्ट महीनों में उत्पाद की कीमत), और "इनपुट" में अंतराल X" - स्वतंत्र चर (माह की संख्या) के लिए। हम "ओके" पर क्लिक करके कार्यों की पुष्टि करते हैं। एक नई शीट पर (यदि ऐसा संकेत दिया गया था) तो हमें प्रतिगमन के लिए डेटा मिलता है।

हम उनका उपयोग y = ax + b के रूप में एक रैखिक समीकरण बनाने के लिए करते हैं, जहां महीने की संख्या के नाम के साथ रेखा के गुणांक और प्रतिगमन विश्लेषण अधिनियम के परिणामों के साथ शीट से गुणांक और रेखाएं "Y-चौराहे" पैरामीटर ए और बी के रूप में। इस प्रकार, समस्या 3 के लिए रैखिक समाश्रयण समीकरण (SD) को इस प्रकार लिखा जाता है:

उत्पाद की कीमत एन = 11.714 * माह संख्या + 1727.54।

या बीजीय संकेतन में

वाई = 11.714 एक्स + 1727.54

परिणामों का विश्लेषण

यह तय करने के लिए कि प्राप्त रैखिक प्रतिगमन समीकरण पर्याप्त है, एकाधिक सहसंबंध और निर्धारण गुणांक का उपयोग किया जाता है, साथ ही फिशर का परीक्षण और छात्र का टी परीक्षण। प्रतिगमन परिणामों के साथ एक्सेल तालिका में, उन्हें क्रमशः एकाधिक आर, आर-वर्ग, एफ-सांख्यिकी और टी-सांख्यिकी कहा जाता है।

केएमसी आर स्वतंत्र और आश्रित चर के बीच संभाव्य संबंध की निकटता का आकलन करना संभव बनाता है। इसका उच्च मूल्य चर "महीना संख्या" और "उत्पाद मूल्य एन प्रति टन रूबल में" के बीच काफी मजबूत संबंध को इंगित करता है। हालाँकि, इस संबंध की प्रकृति अज्ञात बनी हुई है।

निर्धारण गुणांक का वर्ग R2 (RI) कुल प्रसार के अनुपात की एक संख्यात्मक विशेषता है और प्रयोगात्मक डेटा के किस भाग के प्रसार को दर्शाता है, अर्थात। आश्रित चर के मान रैखिक प्रतिगमन समीकरण से मेल खाते हैं। विचाराधीन समस्या में, यह मान 84.8% है, अर्थात्, प्राप्त एसडी द्वारा सांख्यिकीय डेटा को उच्च स्तर की सटीकता के साथ वर्णित किया गया है।

एफ-सांख्यिकी, जिसे फिशर परीक्षण भी कहा जाता है, का उपयोग रैखिक संबंध के महत्व का आकलन करने के लिए किया जाता है, इसके अस्तित्व की परिकल्पना का खंडन या पुष्टि करता है।

(छात्र का मानदंड) एक रैखिक संबंध के अज्ञात या मुक्त शब्द के साथ गुणांक के महत्व का आकलन करने में मदद करता है। यदि t-मानदंड का मान> t करोड़, तो रैखिक समीकरण के मुक्त पद के महत्व की परिकल्पना को खारिज कर दिया जाता है।

एक्सेल टूल्स का उपयोग करके एक फ्री टर्म के लिए मानी गई समस्या में, यह प्राप्त किया गया था कि t = 169.20903, और p = 2.89E-12, यानी, हमारे पास एक शून्य संभावना है कि फ्री टर्म के महत्व के बारे में सही परिकल्पना होगी अस्वीकार कर दिया। अज्ञात t = 5.79405, और p = 0.001158 पर गुणांक के लिए। दूसरे शब्दों में, अज्ञात के साथ गुणांक के महत्व के बारे में सही परिकल्पना के खारिज होने की संभावना 0.12% है।

इस प्रकार, यह तर्क दिया जा सकता है कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है।

शेयरों का एक ब्लॉक खरीदने की समीचीनता की समस्या

एक्सेल में मल्टीपल रिग्रेशन एक ही डेटा एनालिसिस टूल का उपयोग करके किया जाता है। आइए एक विशिष्ट लागू समस्या पर विचार करें।

कंपनी "एनएनएन" के प्रबंधन को जेएससी "एमएमएम" में 20% हिस्सेदारी खरीदने की सलाह पर निर्णय लेना चाहिए। पैकेज (जेवी) की लागत 70 मिलियन अमेरिकी डॉलर है। एनएनएन विशेषज्ञों ने इसी तरह के लेनदेन पर डेटा एकत्र किया है। लाखों अमेरिकी डॉलर में व्यक्त किए गए ऐसे मापदंडों द्वारा शेयरों के ब्लॉक के मूल्य का मूल्यांकन करने का निर्णय लिया गया, जैसे:

  • देय खाते (वीके);
  • वार्षिक कारोबार की मात्रा (VO);
  • प्राप्य खाते (वीडी);
  • अचल संपत्तियों की लागत (एसओएफ)।

इसके अलावा, पैरामीटर हजारों अमेरिकी डॉलर में उद्यम (V3 P) का वेतन बकाया है।

एक्सेल स्प्रेडशीट समाधान

सबसे पहले, आपको प्रारंभिक डेटा की एक तालिका बनाने की आवश्यकता है। यह इस तरह दिख रहा है:

  • "डेटा विश्लेषण" विंडो को कॉल करें;
  • "प्रतिगमन" अनुभाग का चयन करें;
  • कॉलम जी से आश्रित चर के मूल्यों की श्रेणी "इनपुट अंतराल वाई" बॉक्स में दर्ज की गई है;
  • "इनपुट अंतराल एक्स" विंडो के दाईं ओर लाल तीर वाले आइकन पर क्लिक करें और शीट पर कॉलम बी, सी, डी, एफ से सभी मानों की श्रेणी का चयन करें।

"नई वर्कशीट" आइटम की जाँच करें और "ओके" पर क्लिक करें।

किसी दिए गए कार्य के लिए प्रतिगमन विश्लेषण प्राप्त करें।

परिणामों और निष्कर्षों का अध्ययन

हम एक्सेल स्प्रेडशीट शीट पर ऊपर प्रस्तुत गोल डेटा से प्रतिगमन समीकरण "एकत्र" करते हैं:

एसपी = 0.103 * एसओएफ + 0.541 * वीओ - 0.031 * वीके + 0.405 * वीडी + 0.691 * वीजेडपी - 265.844।

अधिक परिचित गणितीय रूप में, इसे इस प्रकार लिखा जा सकता है:

y = 0.103 * x1 + 0.541 * x2 - 0.031 * x3 + 0.405 * x4 + 0.691 * x5 - 265.844

JSC "MMM" के लिए डेटा तालिका में प्रस्तुत किया गया है:

उन्हें प्रतिगमन समीकरण में प्रतिस्थापित करते हुए, आंकड़ा 64.72 मिलियन अमेरिकी डॉलर है। इसका मतलब है कि जेएससी "एमएमएम" के शेयर नहीं खरीदे जाने चाहिए, क्योंकि उनका मूल्य 70 मिलियन अमेरिकी डॉलर अधिक है।

जैसा कि आप देख सकते हैं, एक्सेल स्प्रेडशीट प्रोसेसर और रिग्रेशन समीकरण के उपयोग ने एक बहुत ही विशिष्ट लेनदेन की उपयुक्तता के बारे में एक सूचित निर्णय लेना संभव बना दिया है।

अब आप जानते हैं कि प्रतिगमन क्या है। ऊपर चर्चा किए गए एक्सेल में उदाहरण आपको अर्थमिति के क्षेत्र में व्यावहारिक समस्याओं को हल करने में मदद करेंगे।

प्रतिगमन अनुपात

- अंग्रेज़ीगुणांक, प्रतिगमन; जर्मनप्रतिगमन आश्रित y और स्वतंत्र चर x के बीच संबंध की विशेषताओं में से एक। के.पी. यह दर्शाता है कि यदि चर x अपने किसी एक परिवर्तन से बदलता है तो y द्वारा लिया गया मान कितनी इकाइयों से बढ़ जाता है। ज्यामितीय के.पी. सीधी रेखा y का ढाल है।

एंटीनाज़ी। समाजशास्त्र का विश्वकोश, 2009

देखें कि "REGRESSION RATIO" अन्य शब्दकोशों में क्या है:

    प्रतिगमन गुणांक- - [एल.जी. सुमेंको। सूचना प्रौद्योगिकी का अंग्रेजी रूसी शब्दकोश। एम।: जीपी टीएसएनआईआईएस, 2003।] सामान्य एन रिग्रेशन गुणांक में विषय सूचना प्रौद्योगिकी ... तकनीकी अनुवादक की मार्गदर्शिका

    प्रतिगमन गुणांक- 35. प्रतिगमन गुणांक प्रतिगमन विश्लेषण मॉडल का एक पैरामीटर स्रोत: GOST 24026 80: अनुसंधान परीक्षण। एक प्रयोग की योजना बनाना। शब्द और परिभाषाएं …

    प्रतिगमन गुणांक- समाश्रयण समीकरण में स्वतंत्र चर का गुणांक ... समाजशास्त्रीय सांख्यिकी का शब्दकोश

    प्रतिगमन अनुपात- अंग्रेज़ी। गुणांक, प्रतिगमन; जर्मन प्रतिगमन आश्रित y और स्वतंत्र चर x के बीच संबंध की विशेषताओं में से एक। के.पी. से पता चलता है कि y द्वारा स्वीकार किया गया मान कितनी इकाइयों से बढ़ता है यदि चर x बदल जाता है ... ... समाजशास्त्र का व्याख्यात्मक शब्दकोश

    नमूना प्रतिगमन गुणांक- 2.44. नमूना प्रतिगमन गुणांक वक्र या प्रतिगमन सतह के समीकरण में एक चर का गुणांक स्रोत: GOST R 50779.10 2000: सांख्यिकीय तरीके। संभाव्यता और बुनियादी आँकड़े। शब्द और परिभाषाएं … मानक और तकनीकी दस्तावेज की शर्तों की शब्दकोश-संदर्भ पुस्तक

    आंशिक प्रतिगमन गुणांकएक सांख्यिकीय उपाय है जो उस स्थिति में निर्भर चर पर स्वतंत्र चर के प्रभाव की डिग्री को दर्शाता है जहां मॉडल में अन्य सभी चर का पारस्परिक प्रभाव शोधकर्ता के नियंत्रण में है ... समाजशास्त्रीय शब्दकोश

    प्रतिगमन, वजन- प्रतिगमन गुणांक का पर्यायवाची ... मनोविज्ञान का व्याख्यात्मक शब्दकोश

    वंशानुक्रम अनुपात- एक विशेषता के कुल फेनोटाइपिक भिन्नता में आनुवंशिक परिवर्तनशीलता के सापेक्ष हिस्से का संकेतक। आर्थिक रूप से उपयोगी लक्षणों की आनुवंशिकता का आकलन करने के लिए सबसे सामान्य तरीके: जहां h2 आनुवंशिकता का गुणांक है; आर इंट्राक्लास ... ... फार्म जानवरों के प्रजनन, आनुवंशिकी और प्रजनन में प्रयुक्त नियम और परिभाषाएं

    - (आर वर्ग) माना निर्भरता मॉडल, यानी व्याख्यात्मक चर द्वारा समझाया गया आश्रित चर के विचरण का अनुपात है। अधिक सटीक रूप से, यह एक इकाई शून्य से अस्पष्टीकृत विचरण का अनुपात है (मॉडल की यादृच्छिक त्रुटि का विचरण, या सशर्त ... विकिपीडिया

    प्रतीपगमन समीकरण में स्वतंत्र चर का गुणांक। इसलिए, उदाहरण के लिए, यादृच्छिक चर Y और X को जोड़ने वाले रैखिक प्रतिगमन समीकरण में, R. k. B0 और b1 बराबर हैं: जहां r X और Y का सहसंबंध गुणांक है। आर के अनुमानों की गणना (चयनित ... ... गणित का विश्वकोश

पुस्तकें

  • अर्थमिति का परिचय (सीडीपीसी), यानोवस्की लियोनिद पेट्रोविच, बुकहोवेट्स एलेक्सी जॉर्जीविच। अर्थमिति के मूल सिद्धांत और एक आयामी समय श्रृंखला के सांख्यिकीय विश्लेषण दिए गए हैं। शास्त्रीय जोड़ी और कई प्रतिगमन, शास्त्रीय और सामान्यीकृत तरीकों पर बहुत ध्यान दिया जाता है ...
  • स्पीड रीडिंग। प्रभावी प्रशिक्षक (सीडीपीसी)। कार्यक्रम उन उपयोगकर्ताओं को संबोधित किया जाता है जो कम से कम समय में गति पढ़ने की तकनीक में महारत हासिल करना चाहते हैं। पाठ्यक्रम "सिद्धांत - अभ्यास" सिद्धांत के अनुसार संरचित है। सैद्धांतिक सामग्री और व्यावहारिक ...

दो अध्ययन की गई विशेषताओं के बीच एक रैखिक प्रकार के कनेक्शन के साथ, सहसंबंधों की गणना के अलावा, प्रतिगमन गुणांक की गणना लागू की जाती है।

एक सीधी रेखा के सहसंबंध के मामले में, एक विशेषता में प्रत्येक परिवर्तन दूसरी विशेषता में एक अच्छी तरह से परिभाषित परिवर्तन से मेल खाता है। हालाँकि, सहसंबंध गुणांक इस संबंध को केवल सापेक्ष शब्दों में - एक इकाई के अंशों में दर्शाता है। समाश्रयण विश्लेषण की सहायता से संबंध का यह मान नामित इकाइयों में प्राप्त किया जाता है। माप की प्रति इकाई में दूसरा परिवर्तन होने पर पहला संकेत औसतन जिस राशि से बदलता है उसे प्रतिगमन गुणांक कहा जाता है।

सहसंबंध के विपरीत, प्रतिगमन विश्लेषण व्यापक जानकारी देता है, क्योंकि दो प्रतिगमन गुणांक की गणना करके आरएक्स / वाईतथा आरयू / एक्सपहली विशेषता की दूसरे पर निर्भरता और दूसरी पर पहली पर निर्भरता दोनों को निर्धारित करना संभव है। एक समीकरण का उपयोग करते हुए एक प्रतिगमन संबंध की अभिव्यक्ति एक विशेषता के एक निश्चित मूल्य को दूसरी विशेषता के मूल्य को स्थापित करने की अनुमति देती है।

प्रतीपगमन गुणांक R सहसंबंध गुणांक का गुणनफल है और प्रत्येक विशेषता के लिए परिकलित मानक विचलन का अनुपात है। इसकी गणना सूत्र द्वारा की जाती है

जहाँ, R प्रतिगमन गुणांक है; एसएक्स पहली विशेषता का मानक विचलन है, जो दूसरे में परिवर्तन के कारण बदलता है; SУ - दूसरी विशेषता का मानक विचलन उस परिवर्तन के कारण जिसमें पहली विशेषता बदल जाती है; r इन विशेषताओं के बीच सहसंबंध गुणांक है; एक्स - फ़ंक्शन; वाई-तर्क।

यह सूत्र x के मान का परिमाण निर्धारित करता है जब y माप की प्रति इकाई बदलता है। यदि एक रिवर्स गणना आवश्यक है, तो आप y का मान पा सकते हैं जब x सूत्र का उपयोग करके माप की प्रति इकाई बदलता है:


इस मामले में, एक विशेषता को दूसरे परिवर्तनों के संबंध में बदलने में सक्रिय भूमिका, पिछले सूत्र की तुलना में, तर्क एक फ़ंक्शन बन जाता है और इसके विपरीत। नामित व्यंजक में SX और SY स्वीकार किए जाते हैं।

आर और आर के मूल्यों के बीच एक स्पष्ट संबंध है, इस तथ्य में व्यक्त किया गया है कि y में प्रतिगमन x और x में प्रतिगमन y का गुणनफल सहसंबंध गुणांक के वर्ग के बराबर है, अर्थात।

आरएक्स / वाई * आरई / एक्स = आर 2

यह इंगित करता है कि सहसंबंध गुणांक किसी दिए गए नमूने के प्रतिगमन गुणांक के दोनों मूल्यों का ज्यामितीय माध्य है। इस सूत्र का उपयोग गणनाओं की शुद्धता की जांच के लिए किया जा सकता है।

गणना मशीनों पर डिजिटल सामग्री को संसाधित करते समय, विस्तृत प्रतिगमन गुणांक सूत्रों का उपयोग किया जा सकता है:

आर या


प्रतिगमन गुणांक के लिए, इसकी प्रतिनिधित्व त्रुटि की गणना की जा सकती है। प्रतिगमन गुणांक त्रुटि द्विघात अनुपात के अनुपात से गुणा किए गए सहसंबंध गुणांक त्रुटि के बराबर है:

प्रतिगमन गुणांक की विश्वसनीयता की कसौटी की गणना सामान्य सूत्र का उपयोग करके की जाती है:

नतीजतन, यह सहसंबंध गुणांक की विश्वसनीयता की कसौटी के बराबर है:

tR मान की विश्वसनीयता = n - 2 पर विद्यार्थी की तालिका के अनुसार स्थापित की जाती है, जहाँ n प्रेक्षण युग्मों की संख्या है।

वक्रतापूर्ण प्रतिगमन।

प्रतिगमन, घुमावदार... कोई भी गैर-रेखीय प्रतिगमन जिसमें एक चर (y) में परिवर्तन के लिए प्रतिगमन समीकरण t के कार्य के रूप में दूसरे (x) में बदलता है, द्विघात, घन, या एक उच्च क्रम समीकरण है। हालांकि यह गणितीय रूप से एक प्रतिगमन समीकरण प्राप्त करना संभव है जो वक्र पर प्रत्येक झुकाव को फिट करेगा, इनमें से अधिकतर गड़बड़ी नमूनाकरण या माप त्रुटियों के परिणामस्वरूप होती है, और इस तरह के "पूर्ण" फिट कुछ भी नहीं करते हैं। यह निर्धारित करना हमेशा आसान नहीं होता है कि एक वक्रीय प्रतिगमन एक डेटासेट में फिट बैठता है या नहीं, हालांकि सांख्यिकीय परीक्षण यह निर्धारित करने के लिए मौजूद हैं कि क्या समीकरण की प्रत्येक उच्च शक्ति उस डेटासेट के फिट होने की डिग्री को महत्वपूर्ण रूप से बढ़ाती है।

कर्व फिटिंग उसी तरह से की जाती है जैसे स्ट्रेट लाइन फिटिंग में कम से कम वर्ग विधि का उपयोग किया जाता है। प्रतिगमन रेखा को सहसंबंध क्षेत्र के प्रत्येक बिंदु पर वर्ग दूरी के योग के न्यूनतम योग की शर्त को पूरा करना चाहिए। इस स्थिति में, समीकरण (1) में, y x j के वास्तविक मानों से चयनित वक्रीय संबंध के समीकरण का उपयोग करके निर्धारित फ़ंक्शन का परिकलित मान है। उदाहरण के लिए, यदि कनेक्शन का अनुमान लगाने के लिए दूसरे क्रम के परवलय को चुना जाता है, तो y = a + bx + cx2, (14)। और वक्र पर स्थित एक बिंदु और संबंधित के लिए सहसंबंध क्षेत्र के दिए गए बिंदु के बीच का अंतर तर्क को समीकरण (3) के समान yj = yj (a + bx + cx2) के रूप में लिखा जा सकता है (15) इस मामले में, सहसंबंध क्षेत्र के प्रत्येक बिंदु से वर्ग दूरी का योग नई प्रतिगमन रेखा में दूसरे क्रम के परवलय के मामले का रूप होगा: S 2 = yj 2 = 2 (16) इस योग की न्यूनतम शर्त के आधार पर, a, b और c के संबंध में S 2 का आंशिक व्युत्पन्न शून्य के बराबर है . आवश्यक परिवर्तन करने के बाद, हमें ए, बी और सी निर्धारित करने के लिए तीन अज्ञात के साथ तीन समीकरणों की एक प्रणाली प्राप्त होती है। , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2.yx2 = a x 2 + b x 3 + c x4। (17)। ए, बी और सी के समीकरणों की प्रणाली को हल करते हुए, हम प्रतिगमन गुणांक के संख्यात्मक मान पाते हैं। मान y, x, x2, yx, yx2, x3, x4। सीधे उत्पादन माप से पाए जाते हैं। वक्रीय निर्भरता के साथ संबंध की जकड़न का अनुमान सैद्धांतिक सहसंबंध अनुपात xy है, जो दो भिन्नताओं के अनुपात का वर्गमूल है: फ़ंक्शन के परिकलित मानों y "j के विचलन का माध्य वर्ग p2 मान y के अंकगणितीय माध्य मान Y से विचलन के माध्य वर्ग के लिए पाया गया प्रतिगमन समीकरण के अनुसार yj फ़ंक्शन के वास्तविक मानों का इसके अंकगणितीय माध्य मान से: xу = (р2 / y2) 1/2 = ((y "j - Y) 2 / (yj - Y) 2) 1/2 (18) वर्ग सहसंबंध अनुपात xy2 तर्क x की परिवर्तनशीलता के कारण आश्रित चर у की कुल परिवर्तनशीलता के हिस्से को दर्शाता है। इस सूचक को निर्धारण का गुणांक कहा जाता है। सहसंबंध गुणांक के विपरीत, सहसंबंध अनुपात का मान 0 से 1 तक केवल सकारात्मक मान ले सकता है। एक कनेक्शन की अनुपस्थिति में, सहसंबंध अनुपात शून्य है, एक कार्यात्मक कनेक्शन की उपस्थिति में, यह बराबर है एक, और अलग-अलग जकड़न के प्रतिगमन कनेक्शन की उपस्थिति में, सहसंबंध अनुपात शून्य और एक के बीच के मूल्यों पर ले जाता है ... प्रतिगमन विश्लेषण में वक्र के प्रकार की पसंद का बहुत महत्व है, क्योंकि सन्निकटन की सटीकता और संबंध की जकड़न के सांख्यिकीय अनुमान चयनित संबंध के प्रकार पर निर्भर करते हैं। वक्र प्रकार चुनने का सबसे सरल तरीका सहसंबंध क्षेत्रों का निर्माण करना और इन क्षेत्रों में बिंदुओं के स्थान के आधार पर उपयुक्त प्रकार के प्रतिगमन समीकरणों का चयन करना है। प्रतिगमन विश्लेषण के तरीके आपको जटिल प्रकार के मापदंडों के परस्पर संबंध के लिए प्रतिगमन गुणांक के संख्यात्मक मूल्यों को खोजने की अनुमति देते हैं, उदाहरण के लिए, उच्च डिग्री के बहुपदों द्वारा। अक्सर, विचाराधीन प्रक्रिया या घटना की भौतिक प्रकृति के आधार पर वक्र के आकार का निर्धारण किया जा सकता है। इस घटना में तेजी से बदलती प्रक्रियाओं का वर्णन करने के लिए उच्च डिग्री के बहुपदों का उपयोग करना समझ में आता है कि इन प्रक्रियाओं के पैरामीटर में उतार-चढ़ाव की सीमाएं महत्वपूर्ण हैं। जैसा कि धातुकर्म प्रक्रिया के अनुसंधान के लिए लागू होता है, यह निचले क्रम के घटता का उपयोग करने के लिए पर्याप्त है, उदाहरण के लिए, दूसरे क्रम का परवलय। इस वक्र में एक चरम हो सकता है, जैसा कि अभ्यास ने दिखाया है, धातुकर्म प्रक्रिया की विभिन्न विशेषताओं का वर्णन करने के लिए पर्याप्त है। जोड़ीवार सहसंबंध संबंध के मापदंडों की गणना के परिणाम विश्वसनीय होंगे और व्यावहारिक मूल्य के होंगे यदि उपयोग की गई जानकारी प्रक्रिया के अन्य सभी मापदंडों की स्थिरता के साथ तर्क के उतार-चढ़ाव की विस्तृत श्रृंखला की स्थितियों के लिए प्राप्त की गई थी। नतीजतन, मापदंडों के जोड़ी सहसंबंध संबंध का अध्ययन करने के तरीकों का उपयोग केवल व्यावहारिक समस्याओं को हल करने के लिए किया जा सकता है, जब विश्लेषण किए गए तर्क को छोड़कर, फ़ंक्शन पर अन्य गंभीर प्रभावों की अनुपस्थिति में विश्वास होता है। उत्पादन की स्थिति में, इस तरह से लंबे समय तक प्रक्रिया को अंजाम देना असंभव है। हालाँकि, यदि हमारे पास प्रक्रिया के मुख्य मापदंडों के बारे में जानकारी है जो इसके परिणामों को प्रभावित करते हैं, तो इन मापदंडों के प्रभाव को गणितीय रूप से समाप्त किया जा सकता है और हमारे लिए फ़ंक्शन और रुचि के तर्क के बीच संबंध को "शुद्ध रूप" में अलग किया जा सकता है। ऐसे रिश्ते को निजी या व्यक्तिगत कहा जाता है। इसे निर्धारित करने के लिए, एकाधिक प्रतिगमन विधि का उपयोग किया जाता है।

सहसंबंध अनुपात।

सहसंबंध अनुपात और सहसंबंध सूचकांक संख्यात्मक विशेषताएं हैं जो एक यादृच्छिक चर की अवधारणा से निकटता से संबंधित हैं, या बल्कि यादृच्छिक चर की एक प्रणाली से संबंधित हैं। इसलिए, उनके अर्थ और भूमिका को पेश करने और परिभाषित करने के लिए, यादृच्छिक चर की एक प्रणाली और उनमें निहित कुछ गुणों की अवधारणा को स्पष्ट करना आवश्यक है।

एक निश्चित घटना का वर्णन करने वाले दो या दो से अधिक यादृच्छिक चर को एक प्रणाली या यादृच्छिक चर का एक जटिल कहा जाता है।

कई यादृच्छिक चरों की प्रणाली X, Y, Z,…, W को आमतौर पर (X, Y, Z,…, W) द्वारा दर्शाया जाता है।

उदाहरण के लिए, एक विमान पर एक बिंदु का वर्णन एक निर्देशांक द्वारा नहीं, बल्कि दो द्वारा किया जाता है, लेकिन अंतरिक्ष में - यहां तक ​​​​कि तीन द्वारा भी।

कई यादृच्छिक चर की एक प्रणाली के गुण सिस्टम में शामिल व्यक्तिगत यादृच्छिक चर के गुणों तक सीमित नहीं हैं, बल्कि यादृच्छिक चर के बीच पारस्परिक कनेक्शन (निर्भरता) भी शामिल हैं। इसलिए, यादृच्छिक चर की एक प्रणाली का अध्ययन करते समय, किसी को प्रकृति और निर्भरता की डिग्री पर ध्यान देना चाहिए। यह निर्भरता कम या ज्यादा स्पष्ट, कम या ज्यादा करीब हो सकती है। और अन्य मामलों में, यादृच्छिक चर व्यावहारिक रूप से स्वतंत्र हो जाते हैं।

एक यादृच्छिक चर Y को एक यादृच्छिक चर X से स्वतंत्र कहा जाता है यदि एक यादृच्छिक चर Y का वितरण नियम इस बात पर निर्भर नहीं करता है कि X ने क्या मान लिया है।

यह ध्यान दिया जाना चाहिए कि यादृच्छिक चर की निर्भरता और स्वतंत्रता हमेशा एक पारस्परिक घटना है: यदि वाई एक्स पर निर्भर नहीं है, तो एक्स का मूल्य वाई पर निर्भर नहीं करता है। इसे ध्यान में रखते हुए, हम निम्नलिखित परिभाषा दे सकते हैं यादृच्छिक चर की स्वतंत्रता।

यादृच्छिक चर X और Y स्वतंत्र कहलाते हैं यदि उनमें से प्रत्येक का वितरण नियम इस पर निर्भर नहीं करता है कि दूसरे ने क्या मूल्य लिया है। अन्यथा, मात्राएँ X और Y आश्रित कहलाती हैं।

एक यादृच्छिक चर का वितरण कानून कोई भी संबंध है जो एक यादृच्छिक चर के संभावित मूल्यों और संबंधित संभावनाओं के बीच संबंध स्थापित करता है।

यादृच्छिक चरों की "निर्भरता" की अवधारणा, जिसका उपयोग संभाव्यता के सिद्धांत में किया जाता है, मात्राओं की "निर्भरता" की सामान्य अवधारणा से कुछ अलग है, जिसका उपयोग गणित में किया जाता है। तो, "निर्भरता" के तहत गणितज्ञ का अर्थ केवल एक प्रकार की निर्भरता है - पूर्ण, कठोर, तथाकथित कार्यात्मक निर्भरता। दो मात्राएँ X और Y क्रियात्मक रूप से आश्रित कहलाती हैं, यदि उनमें से एक का मूल्य जानने के बाद, दूसरे के मूल्य का सही-सही निर्धारण करना संभव हो।

संभाव्यता के सिद्धांत में, थोड़ा अलग प्रकार की निर्भरता है - संभाव्य निर्भरता। यदि Y का मान एक संभाव्य निर्भरता द्वारा X के मान से संबंधित है, तो, X का मान जानने के बाद, Y के मान को सटीक रूप से इंगित करना असंभव है, लेकिन आप इसके वितरण कानून को इंगित कर सकते हैं कि मूल्य किस मूल्य पर निर्भर करता है एक्स लिया है।

संभाव्य निर्भरता कमोबेश करीब हो सकती है; जैसे-जैसे संभाव्य निर्भरता की निकटता बढ़ती है, यह कार्यात्मक रूप से अधिक से अधिक पहुंचती है। इस प्रकार, कार्यात्मक निर्भरता को निकटतम संभाव्यता निर्भरता के चरम, सीमित मामले के रूप में माना जा सकता है। एक और चरम मामला यादृच्छिक चर की पूर्ण स्वतंत्रता है। इन दो चरम मामलों के बीच संभाव्य निर्भरता के सभी क्रम हैं - सबसे मजबूत से सबसे कमजोर तक।

यादृच्छिक चर के बीच संभाव्य संबंध अक्सर व्यवहार में सामने आते हैं। यदि यादृच्छिक चर X और Y एक संभाव्य संबंध में हैं, तो इसका मतलब यह नहीं है कि X के मान में परिवर्तन के साथ, Y का मान बिल्कुल निश्चित तरीके से बदल जाता है; इसका अर्थ केवल यह है कि X के मान में परिवर्तन के साथ, Y का मान भी परिवर्तित हो जाता है (X में वृद्धि के साथ वृद्धि या कमी)। यह प्रवृत्ति केवल सामान्य शब्दों में देखी जाती है, और प्रत्येक व्यक्तिगत मामले में इससे विचलन संभव है।

अपने अध्ययन के दौरान, छात्रों को अक्सर कई तरह के समीकरणों का सामना करना पड़ता है। उनमें से एक - प्रतिगमन समीकरण - इस लेख में चर्चा की गई है। इस प्रकार के समीकरण का उपयोग विशेष रूप से गणितीय मापदंडों के बीच संबंधों की विशेषताओं का वर्णन करने के लिए किया जाता है। इस प्रकार की समानता का उपयोग सांख्यिकी और अर्थमिति में किया जाता है।

प्रतिगमन को परिभाषित करना

गणित में, प्रतिगमन का अर्थ एक मात्रा है जो डेटा के एक सेट के औसत मूल्य की किसी अन्य मात्रा के मूल्यों पर निर्भरता का वर्णन करता है। समाश्रयण समीकरण, किसी विशेष विशेषता के फलन के रूप में, किसी अन्य विशेषता के माध्य को दर्शाता है। प्रतिगमन फ़ंक्शन में एक साधारण समीकरण y = x का रूप होता है, जिसमें y आश्रित चर होता है, और x स्वतंत्र (विशेषता-कारक) होता है। वास्तव में, समाश्रयण को y = f (x) के रूप में व्यक्त किया जाता है।

चरों के बीच संबंध कितने प्रकार के होते हैं

सामान्य तौर पर, दो विपरीत प्रकार के संबंध होते हैं: सहसंबंध और प्रतिगमन।

पहले सशर्त चर की समानता की विशेषता है। इस मामले में, यह निश्चित रूप से ज्ञात नहीं है कि कौन सा चर दूसरे पर निर्भर करता है।

यदि चरों और शर्तों के बीच कोई समानता नहीं है, तो कहते हैं कि कौन सा चर व्याख्यात्मक है और कौन सा आश्रित है, तो हम दूसरे प्रकार के संबंध की उपस्थिति के बारे में बात कर सकते हैं। एक रैखिक प्रतिगमन समीकरण बनाने के लिए, यह पता लगाना आवश्यक होगा कि किस प्रकार का संबंध देखा जाता है।

प्रतिगमन प्रकार

आज, प्रतिगमन के 7 अलग-अलग प्रकार हैं: अतिपरवलयिक, रैखिक, बहु, अरेखीय, युग्मित, व्युत्क्रम, लघुगणकीय रूप से रैखिक।

अतिशयोक्तिपूर्ण, रैखिक और लघुगणक

एक रेखीय प्रतिगमन समीकरण का उपयोग आँकड़ों में एक समीकरण के मापदंडों को स्पष्ट रूप से समझाने के लिए किया जाता है। यह y = c + m * x + E जैसा दिखता है। अतिपरवलयिक समीकरण में एक नियमित अतिपरवलय y = c + m / x + E का रूप होता है। लघुगणकीय रैखिक समीकरण एक लघुगणकीय फलन का उपयोग करके संबंध को व्यक्त करता है: y = में c + m * में x + में E।

एकाधिक और अरेखीय

दो और जटिल प्रकार के प्रतिगमन बहु और गैर-रेखीय हैं। बहु समाश्रयण समीकरण फ़ंक्शन y = f (x 1, x 2 ... x c) + E द्वारा व्यक्त किया जाता है। इस स्थिति में, y आश्रित चर है, और x व्याख्यात्मक है। चर ई स्टोकेस्टिक है और समीकरण में अन्य कारकों के प्रभाव को शामिल करता है। गैर-रेखीय प्रतिगमन समीकरण थोड़ा विवादास्पद है। एक ओर, यह ध्यान में रखे गए संकेतकों के संबंध में रैखिक नहीं है, लेकिन दूसरी ओर, संकेतकों के आकलन की भूमिका में, यह रैखिक है।

उलटा और युग्मित प्रतिगमन

व्युत्क्रम एक प्रकार का कार्य है जिसे एक रैखिक रूप में परिवर्तित करने की आवश्यकता होती है। सबसे पारंपरिक अनुप्रयोगों में, यह एक फ़ंक्शन y = 1 / c + m * x + E का रूप लेता है। युग्मित प्रतिगमन समीकरण डेटा के बीच संबंध को y = f (x) + E के एक फ़ंक्शन के रूप में प्रदर्शित करता है। उसी तरह जैसे अन्य समीकरणों में, y x पर निर्भर करता है, और E एक स्टोकेस्टिक पैरामीटर है।

सहसंबंध अवधारणा

यह एक संकेतक है जो दो घटनाओं या प्रक्रियाओं के बीच संबंध के अस्तित्व को प्रदर्शित करता है। रिश्ते की ताकत को सहसंबंध गुणांक के रूप में व्यक्त किया जाता है। इसका मान अंतराल [-1; +1] के भीतर उतार-चढ़ाव करता है। एक नकारात्मक संकेतक प्रतिक्रिया की उपस्थिति को इंगित करता है, एक सकारात्मक संकेतक एक प्रत्यक्ष को इंगित करता है। यदि गुणांक 0 के बराबर मान लेता है, तो कोई संबंध नहीं है। मान 1 के जितना करीब होगा - मापदंडों के बीच संबंध उतना ही मजबूत होगा, 0 के करीब - कमजोर।

तरीकों

सहसंबंध पैरामीट्रिक विधियां रिश्ते की निकटता का आकलन कर सकती हैं। उनका उपयोग वितरण अनुमान के आधार पर सामान्य वितरण कानून का पालन करने वाले मापदंडों का अध्ययन करने के लिए किया जाता है।

रैखिक प्रतिगमन समीकरण के पैरामीटर निर्भरता के प्रकार, प्रतिगमन समीकरण के कार्य की पहचान करने और चयनित संबंध सूत्र के संकेतकों का मूल्यांकन करने के लिए आवश्यक हैं। एक लिंक की पहचान के लिए एक विधि के रूप में सहसंबंध क्षेत्र का उपयोग किया जाता है। इसके लिए, सभी मौजूदा डेटा को ग्राफिक रूप से प्रदर्शित किया जाना चाहिए। एक आयताकार 2डी समन्वय प्रणाली में, सभी ज्ञात डेटा को प्लॉट किया जाना चाहिए। इस प्रकार सहसंबंध क्षेत्र का निर्माण होता है। वर्णन करने वाले कारक का मान भुज के साथ चिह्नित किया जाता है, जबकि आश्रित कारक के मान कोऑर्डिनेट के साथ चिह्नित किया जाता है। यदि मापदंडों के बीच एक कार्यात्मक संबंध है, तो उन्हें एक पंक्ति के रूप में पंक्तिबद्ध किया जाता है।

यदि ऐसे डेटा का सहसंबंध गुणांक 30% से कम है, तो हम संचार की लगभग पूर्ण अनुपस्थिति के बारे में बात कर सकते हैं। यदि यह 30% और 70% के बीच है, तो यह औसत घनत्व के लिंक की उपस्थिति को इंगित करता है। 100% संकेतक कार्यात्मक कनेक्शन का प्रमाण है।

एक गैर-रेखीय प्रतिगमन समीकरण, एक रैखिक की तरह, एक सहसंबंध सूचकांक (R) के साथ पूरक होना चाहिए।

एकाधिक प्रतिगमन के लिए सहसंबंध

निर्धारण का गुणांक बहु सहसंबंध के वर्ग का एक माप है। वह अध्ययन की गई विशेषता के साथ संकेतकों के प्रस्तुत परिसर के बीच संबंधों की जकड़न की बात करता है। वह परिणाम पर मापदंडों के प्रभाव की प्रकृति के बारे में भी बात कर सकता है। इस सूचक का उपयोग करके बहु प्रतिगमन समीकरण का अनुमान लगाया जाता है।

बहु सहसंबंध के सूचकांक की गणना करने के लिए, इसके सूचकांक की गणना करना आवश्यक है।

कम से कम वर्ग विधि

यह विधि प्रतिगमन कारकों का अनुमान लगाने का एक तरीका है। इसका सार फ़ंक्शन पर कारक की निर्भरता के कारण प्राप्त वर्ग विचलन के योग को कम करने में निहित है।

इस पद्धति का उपयोग करके एक युग्मित रैखिक प्रतिगमन समीकरण का अनुमान लगाया जा सकता है। इस प्रकार के समीकरणों का उपयोग युग्मित रैखिक संबंध के संकेतकों के बीच पता लगाने के मामले में किया जाता है।

समीकरण पैरामीटर

रैखिक प्रतिगमन फ़ंक्शन के प्रत्येक पैरामीटर का एक विशिष्ट अर्थ होता है। युग्मित रैखिक प्रतिगमन समीकरण में दो पैरामीटर होते हैं: c और m। पैरामीटर m फ़ंक्शन y के अंतिम संकेतक में औसत परिवर्तन दिखाता है, जो एक पारंपरिक इकाई द्वारा चर x में कमी (वृद्धि) के अधीन है। यदि चर x शून्य है, तो फ़ंक्शन पैरामीटर c के बराबर है। यदि चर x शून्य नहीं है, तो गुणनखंड c का कोई आर्थिक अर्थ नहीं है। फ़ंक्शन पर एकमात्र प्रभाव कारक c से पहले का संकेत है। यदि कोई ऋण है, तो हम कारक की तुलना में परिणाम में विलंबित परिवर्तन के बारे में कह सकते हैं। यदि कोई प्लस है, तो यह परिणाम में त्वरित परिवर्तन को इंगित करता है।

प्रतिगमन समीकरण के मान को बदलने वाले प्रत्येक पैरामीटर को एक समीकरण के माध्यम से व्यक्त किया जा सकता है। उदाहरण के लिए, गुणनखंड c का रूप c = y - tx है।

समूहीकृत डेटा

समस्या की स्थितियां हैं जिसमें सभी सूचनाओं को विशेषता x के अनुसार समूहीकृत किया जाता है, लेकिन साथ ही, एक निश्चित समूह के लिए, आश्रित संकेतक के संबंधित औसत मूल्यों को इंगित किया जाता है। इस मामले में, औसत मान यह दर्शाता है कि x के आधार पर संकेतक कैसे बदलता है। इस प्रकार, समूहीकृत जानकारी प्रतिगमन समीकरण को खोजने में मदद करती है। इसका उपयोग संबंध विश्लेषण के रूप में किया जाता है। हालांकि, इस पद्धति की अपनी कमियां हैं। दुर्भाग्य से, औसत अक्सर बाहरी उतार-चढ़ाव के अधीन होते हैं। ये उतार-चढ़ाव रिश्ते की नियमितता का प्रतिबिंब नहीं हैं, वे केवल इसके "शोर" को छुपाते हैं। औसत रैखिक प्रतिगमन समीकरण की तुलना में बहुत खराब संबंध पैटर्न दिखाते हैं। हालांकि, उन्हें समीकरण खोजने के लिए आधार के रूप में इस्तेमाल किया जा सकता है। किसी व्यक्ति की आबादी के आकार को संबंधित औसत से गुणा करके, आप समूह के भीतर y का योग प्राप्त कर सकते हैं। इसके बाद, आपको प्राप्त सभी राशियों को बाहर निकालने और अंतिम संकेतक y खोजने की आवश्यकता है। राशि xy के संकेतक के साथ गणना करना थोड़ा अधिक कठिन है। इस घटना में कि अंतराल छोटा है, परंपरागत रूप से सभी इकाइयों (समूह के भीतर) के लिए एक्स एक्सपोनेंट को समान लेना संभव है। x और y के गुणनफल का योग ज्ञात करने के लिए आपको इसे y के योग से गुणा करना चाहिए। इसके अलावा, सभी राशियों को एक साथ खटखटाया जाता है और कुल राशि xy प्राप्त होती है।

एकाधिक जोड़ीदार प्रतिगमन समीकरण: एक लिंक के महत्व का आकलन

जैसा कि पहले चर्चा की गई है, बहु समाश्रयण में y = f (x 1, x 2,…, x m) + E के रूप का एक फलन होता है। अक्सर, इस तरह के समीकरण का उपयोग किसी उत्पाद की आपूर्ति और मांग की समस्या को हल करने के लिए किया जाता है, पुनर्खरीद किए गए शेयरों पर ब्याज आय, और उत्पादन लागत फ़ंक्शन के कारणों और प्रकार का अध्ययन करता है। यह व्यापक रूप से व्यापक आर्थिक अध्ययनों और गणनाओं में भी सक्रिय रूप से उपयोग किया जाता है, लेकिन सूक्ष्मअर्थशास्त्र के स्तर पर, इस तरह के समीकरण का उपयोग अक्सर कम किया जाता है।

एकाधिक प्रतिगमन का मुख्य कार्य एक डेटा मॉडल का निर्माण करना है जिसमें बड़ी मात्रा में जानकारी होती है ताकि यह निर्धारित किया जा सके कि प्रत्येक कारक व्यक्तिगत रूप से और उनकी सामान्य समग्रता में उस संकेतक पर क्या प्रभाव डालता है जिसे मॉडलिंग करने की आवश्यकता है और इसके गुणांक। प्रतिगमन समीकरण विभिन्न प्रकार के मूल्यों पर ले सकता है। इसी समय, संबंध का आकलन करने के लिए आमतौर पर दो प्रकार के कार्यों का उपयोग किया जाता है: रैखिक और अरेखीय।

एक रैखिक फलन को ऐसे संबंध के रूप में दर्शाया गया है: y = a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m। इस मामले में, a2, a m को "शुद्ध" प्रतिगमन के गुणांक माना जाता है। वे अन्य संकेतकों के स्थिर मूल्य की स्थिति के साथ, एक इकाई द्वारा प्रत्येक संबंधित पैरामीटर x में परिवर्तन (कमी या वृद्धि) के साथ पैरामीटर y में औसत परिवर्तन को चिह्नित करने के लिए आवश्यक हैं।

उदाहरण के लिए, अरैखिक समीकरणों में घात फलन y = ax 1 b1 x 2 b2 ... x m bm का रूप होता है। इस मामले में, संकेतक बी 1, बी 2 ..... बीएम - को लोच गुणांक कहा जाता है, वे प्रदर्शित करते हैं कि संबंधित संकेतक x में 1% की वृद्धि (कमी) के साथ परिणाम कैसे बदलेगा (कितने%) और अन्य कारकों के एक स्थिर संकेतक के साथ।

एकाधिक प्रतिगमन का निर्माण करते समय किन कारकों पर विचार किया जाना चाहिए

एकाधिक प्रतिगमन को सही ढंग से बनाने के लिए, यह पता लगाना आवश्यक है कि किन कारकों पर विशेष ध्यान दिया जाना चाहिए।

आर्थिक कारकों और मॉडल के बीच संबंधों की प्रकृति की एक निश्चित समझ होना आवश्यक है। जिन कारकों को शामिल करने की आवश्यकता होगी उन्हें निम्नलिखित मानदंडों को पूरा करना होगा:

  • मात्रात्मक होना चाहिए। किसी वस्तु की गुणवत्ता का वर्णन करने वाले कारक का उपयोग करने के लिए, किसी भी मामले में, इसकी मात्रा निर्धारित की जानी चाहिए।
  • कारकों, या एक कार्यात्मक संबंध का कोई अंतर्संबंध नहीं होना चाहिए। इस तरह की कार्रवाइयां अक्सर अपरिवर्तनीय परिणाम देती हैं - सामान्य समीकरणों की प्रणाली बिना शर्त हो जाती है, और इसके लिए इसकी अविश्वसनीयता और अस्पष्ट अनुमान शामिल होते हैं।
  • यदि एक बड़ा सहसंबंध संकेतक है, तो संकेतक के अंतिम परिणाम पर कारकों के पृथक प्रभाव का पता लगाने का कोई तरीका नहीं है, इसलिए, गुणांक अनिर्वचनीय हो जाते हैं।

निर्माण के तरीके

आप समीकरण के लिए कारकों का चयन कैसे कर सकते हैं, यह समझाने के लिए असंख्य तरीके और तकनीकें हैं। हालाँकि, ये सभी विधियाँ सहसंबंध संकेतक का उपयोग करके गुणांक के चयन पर आधारित हैं। उनमें से हैं:

  • बहिष्करण विधि।
  • शामिल करने की विधि।
  • प्रतिगमन विश्लेषण चरण दर चरण।

पहली विधि में कुल सेट से सभी गुणांक को फ़िल्टर करना शामिल है। दूसरी विधि में कई अतिरिक्त कारकों की शुरूआत शामिल है। खैर, तीसरा उन कारकों का उन्मूलन है जो पहले समीकरण पर लागू किए गए थे। इनमें से प्रत्येक विधि को अस्तित्व का अधिकार है। उनके पास अपने पक्ष और विपक्ष हैं, लेकिन वे सभी अपने तरीके से अनावश्यक संकेतकों को छानने के मुद्दे को हल कर सकते हैं। एक नियम के रूप में, प्रत्येक व्यक्तिगत विधि द्वारा प्राप्त परिणाम काफी करीब हैं।

बहुभिन्नरूपी विश्लेषण के तरीके

कारकों के निर्धारण के ऐसे तरीके परस्पर संबंधित विशेषताओं के व्यक्तिगत संयोजनों पर विचार पर आधारित हैं। इनमें विभेदक विश्लेषण, चेहरा पहचान, प्रमुख घटक विश्लेषण और क्लस्टर विश्लेषण शामिल हैं। इसके अलावा, कारक विश्लेषण भी है, लेकिन यह घटकों की विधि के विकास के परिणामस्वरूप दिखाई दिया। वे सभी कुछ परिस्थितियों में, कुछ शर्तों और कारकों के तहत लागू होते हैं।

पिछली पोस्टों में, विश्लेषण का ध्यान अक्सर एक संख्यात्मक चर पर रहा है, जैसे म्यूचुअल फंड रिटर्न, वेब पेज लोड समय, या शीतल पेय की खपत। इस और निम्नलिखित नोट्स में, हम एक या अधिक अन्य संख्यात्मक चर के मूल्यों के आधार पर एक संख्यात्मक चर के मूल्यों की भविष्यवाणी करने के तरीकों पर विचार करेंगे।

सामग्री को क्रॉस-कटिंग उदाहरण के साथ चित्रित किया जाएगा। एक कपड़े की दुकान में बिक्री की मात्रा का पूर्वानुमान।डिस्काउंट कपड़ों की दुकानों की सूरजमुखी श्रृंखला 25 वर्षों से लगातार विस्तार कर रही है। हालांकि, कंपनी के पास वर्तमान में नए आउटलेट्स का चयन करने के लिए एक व्यवस्थित दृष्टिकोण नहीं है। जिस स्थान पर कंपनी एक नया स्टोर खोलने का इरादा रखती है, वह व्यक्तिपरक विचारों के आधार पर निर्धारित किया जाता है। चयन मानदंड अनुकूल किराये की स्थिति या स्टोर के आदर्श स्थान के प्रबंधक के विचार हैं। कल्पना कीजिए कि आप विशेष परियोजनाओं और योजना विभाग के प्रमुख हैं। आपको नए स्टोर खोलने के लिए एक रणनीतिक योजना विकसित करने का काम सौंपा गया है। इस योजना में नए खुले स्टोरों की वार्षिक बिक्री का पूर्वानुमान शामिल होना चाहिए। आप मानते हैं कि बिक्री की जगह सीधे राजस्व की राशि से संबंधित है, और आप इस तथ्य को अपनी निर्णय लेने की प्रक्रिया में ध्यान में रखना चाहते हैं। आप एक सांख्यिकीय मॉडल कैसे विकसित करते हैं जो नए स्टोर आकार के आधार पर वार्षिक बिक्री की भविष्यवाणी करता है?

आमतौर पर, प्रतिगमन विश्लेषण का उपयोग एक चर के मूल्यों की भविष्यवाणी करने के लिए किया जाता है। इसका लक्ष्य एक सांख्यिकीय मॉडल विकसित करना है जो कम से कम एक स्वतंत्र या व्याख्यात्मक चर के मूल्यों से आश्रित चर, या प्रतिक्रिया के मूल्यों की भविष्यवाणी करता है। इस पोस्ट में, हम साधारण रेखीय प्रतिगमन को देखेंगे, एक सांख्यिकीय तकनीक जो आश्रित चर के मूल्यों की भविष्यवाणी करती है। यूस्वतंत्र चर के मूल्यों से एक्स... निम्नलिखित नोट्स स्वतंत्र चर के मूल्यों की भविष्यवाणी करने के लिए डिज़ाइन किए गए कई प्रतिगमन मॉडल का वर्णन करेंगे यूकई आश्रित चर के मूल्यों से ( एक्स 1, एक्स 2, ..., एक्स के).

प्रारूप में नोट डाउनलोड करें या प्रारूप में उदाहरण

प्रतिगमन मॉडल के प्रकार

कहाँ पे ρ 1 - स्वत: सहसंबंध गुणांक; अगर ρ 1 = 0 (कोई स्वत: सहसंबंध नहीं), डी 2; अगर ρ 1 1 (सकारात्मक ऑटोसहसंबंध), डी 0; अगर ρ 1 = -1 (ऋणात्मक स्वसहसंबंध), डी ≈ 4.

व्यवहार में, डर्बिन-वाटसन परीक्षण का अनुप्रयोग मूल्य की तुलना पर आधारित है डीमहत्वपूर्ण सैद्धांतिक मूल्यों के साथ घ लतथा डी यूप्रेक्षणों की दी गई संख्या के लिए एन, मॉडल के स्वतंत्र चर की संख्या (सरल रैखिक प्रतिगमन के लिए = 1) और महत्व स्तर α। अगर डी< d L , यादृच्छिक विचलन की स्वतंत्रता की परिकल्पना को खारिज कर दिया गया है (इसलिए, एक सकारात्मक ऑटोसहसंबंध है); अगर डी> डी यू, परिकल्पना को अस्वीकार नहीं किया जाता है (अर्थात, कोई स्वतःसंबंध नहीं है); अगर घ ल< D < d U , निर्णय लेने के लिए पर्याप्त आधार नहीं है। जब परिकलित मान डी 2 से अधिक है, फिर के साथ घ लतथा डी यूगुणांक की तुलना स्वयं नहीं की जाती है डी, और व्यंजक (4 - डी).

एक्सेल में डर्बिन-वाटसन आँकड़ों की गणना करने के लिए, आइए हम अंजीर में नीचे की तालिका देखें। 14 शेष को वापस लेना... अभिव्यक्ति में अंश (10) की गणना फ़ंक्शन = SUMKVRAZN (array1; array2), और हर = SUMKV (सरणी) (चित्र 16) का उपयोग करके की जाती है।

चावल। 16. डर्बिन-वाटसन आँकड़ों की गणना के लिए सूत्र

हमारे उदाहरण में डी= 0.883। मुख्य प्रश्न यह है कि - डर्बिन-वाटसन आंकड़े के किस मूल्य को इतना छोटा माना जाना चाहिए कि यह निष्कर्ष निकाला जा सके कि एक सकारात्मक ऑटोसहसंबंध है? महत्वपूर्ण मूल्यों के साथ डी मान को सहसंबंधित करना आवश्यक है ( घ लतथा डी यू) प्रेक्षणों की संख्या के आधार पर एनऔर महत्व स्तर α (चित्र। 17)।

चावल। 17. डर्बिन-वाटसन आँकड़ों के महत्वपूर्ण मूल्य (तालिका का टुकड़ा)

इस प्रकार, होम डिलीवरी स्टोर में बिक्री की मात्रा की समस्या में, एक स्वतंत्र चर है ( = 1), 15 अवलोकन ( एन= 15) और महत्व स्तर α = 0.05। इसलिये, घ ल= 1.08 और डीयू= 1.36. जहां तक ​​कि डी = 0,883 < घ ल= 1.08, अवशेषों के बीच एक सकारात्मक स्वत: सहसंबंध है, कम से कम वर्ग विधि का उपयोग नहीं किया जा सकता है।

परीक्षण ढलान और सहसंबंध परिकल्पना

उपरोक्त प्रतिगमन का उपयोग केवल पूर्वानुमान के लिए किया गया था। प्रतिगमन गुणांक निर्धारित करने और एक चर के मूल्य की भविष्यवाणी करने के लिए यूचर के दिए गए मान के लिए एक्सकम से कम वर्ग की विधि का उपयोग किया गया था। इसके अलावा, हमने अनुमान के मूल माध्य वर्ग त्रुटि और मिश्रित सहसंबंध गुणांक को देखा। यदि अवशेषों का विश्लेषण पुष्टि करता है कि कम से कम वर्ग विधि की प्रयोज्यता की शर्तों का उल्लंघन नहीं किया गया है, और नमूना डेटा के आधार पर सरल रैखिक प्रतिगमन मॉडल पर्याप्त है, तो यह तर्क दिया जा सकता है कि सामान्य में चर के बीच एक रैखिक संबंध है आबादी।

आवेदनटी - ढलान के लिए मानदंड।यह जाँच कर कि क्या जनसंख्या β 1 का ढलान शून्य के बराबर है, यह निर्धारित करना संभव है कि चरों के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं एक्सतथा यू... यदि इस परिकल्पना को खारिज कर दिया जाता है, तो यह तर्क दिया जा सकता है कि चरों के बीच एक्सतथा यूएक रैखिक संबंध है। शून्य और वैकल्पिक परिकल्पनाएं निम्नानुसार तैयार की जाती हैं: एच 0: β 1 = 0 (कोई रैखिक निर्भरता नहीं है), एच 1: β 1 0 (एक रैखिक निर्भरता है)। परिभाषा से टी-सांख्यिकी ढलान अनुमान के मूल-माध्य-वर्ग त्रुटि से विभाजित जनसंख्या के नमूना ढलान और काल्पनिक ढलान के बीच के अंतर के बराबर है:

(11) टी = (बी 1 β 1 ) / एस बी 1

कहाँ पे बी 1 क्या नमूना डेटा के आधार पर प्रतिगमन रेखा का ढलान है, β1 सामान्य जनसंख्या की सीधी रेखा का काल्पनिक ढलान है, , और परीक्षण के आँकड़े टीयह है टी-वितरण के साथ एन - 2स्वतंत्रता का दर्जा।

आइए देखें कि α = 0.05 के साथ स्टोर आकार और वार्षिक बिक्री के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं। टी- मानदंड का उपयोग करते समय अन्य मापदंडों के साथ प्रदर्शित किया जाता है विश्लेषण पैकेज(विकल्प वापसी) विश्लेषण पैक का पूरा परिणाम अंजीर में दिखाया गया है। 4, टी-सांख्यिकी से संबंधित एक टुकड़ा अंजीर में दिखाया गया है। अठारह

चावल। 18. आवेदन परिणाम टी

दुकानों की संख्या के बाद से एन= 14 (चित्र 3 देखें), क्रांतिक मान टीα = 0.05 के महत्व स्तर पर सांख्यिकी सूत्र द्वारा पाई जा सकती है: टी ली= छात्र। ओबीआर (0.025; 12) = -2.1788, जहां 0.025 महत्व स्तर का आधा है, और 12 = एन – 2; टी यू= छात्र। ओबीआर (0.975; 12) = +2.1788।

जहां तक ​​कि टी-सांख्यिकी = 10.64> टी यू= 2.1788 (चित्र 19), शून्य परिकल्पना एच 0भटक जाता है। दूसरी ओर, आर-के लिए मूल्य एक्स= 10.6411, सूत्र द्वारा परिकलित = 1-छात्र। DIST (D3; 12; TRUE), लगभग शून्य के बराबर है, इसलिए परिकल्पना एच 0फिर से भटक जाता है। यह तथ्य कि आर-वैल्यू लगभग शून्य के बराबर का मतलब है कि अगर स्टोर के आकार और वार्षिक बिक्री के बीच कोई वास्तविक रैखिक संबंध नहीं था, तो रैखिक प्रतिगमन का उपयोग करके इसका पता लगाना लगभग असंभव होगा। इसलिए, दुकानों में औसत वार्षिक बिक्री और उनके आकार के बीच सांख्यिकीय रूप से महत्वपूर्ण रैखिक संबंध है।

चावल। 19. सामान्य जनसंख्या के ढलान के बारे में परिकल्पना का परीक्षण 0.05 और 12 डिग्री स्वतंत्रता के महत्व स्तर पर करना

आवेदनएफ - ढलान के लिए मानदंड।सरल रेखीय प्रतिगमन की ढलान परिकल्पना के परीक्षण के लिए एक वैकल्पिक दृष्टिकोण का उपयोग करना है एफ-मानदंड। याद करें कि एफ- मानदंड का उपयोग दो भिन्नताओं के बीच संबंध का परीक्षण करने के लिए किया जाता है (विवरण देखें)। ढलान की परिकल्पना का परीक्षण करते समय, यादृच्छिक त्रुटियों का माप त्रुटि विचरण (स्वतंत्रता की डिग्री की संख्या से विभाजित चुकता त्रुटियों का योग) है, इसलिए एफ-मानदंड प्रतिगमन द्वारा समझाए गए विचरण के अनुपात का उपयोग करता है (अर्थात, मान एसएसआरस्वतंत्र चर की संख्या से विभाजित ), त्रुटियों के प्रसरण के लिए ( एमएसई = एस वाईएक्स 2 ).

परिभाषा से एफ-सांख्यिकी प्रतिगमन (MSR) के कारण विचलन के माध्य वर्ग के बराबर है, जो त्रुटि के विचरण (MSE) से विभाजित है: एफ = एमएसआर/ एमएसई, कहाँ पे एमएसआर =एसएसआर / , एमएसई =एसएसई/(एन- के - 1), के- प्रतिगमन मॉडल में स्वतंत्र चर की संख्या। टेस्ट आँकड़े एफयह है एफ-वितरण के साथ तथा एन- कश्मीर - 1स्वतंत्रता का दर्जा।

किसी दिए गए महत्व स्तर α के लिए, निर्णय नियम निम्नानुसार तैयार किया जाता है: यदि एफ> एफयूशून्य परिकल्पना अस्वीकृत की जाती है; अन्यथा, इसे अस्वीकार नहीं किया जाता है। विचरण के विश्लेषण की सारांश तालिका के रूप में प्रस्तुत किए गए परिणाम अंजीर में दिखाए गए हैं। बीस.

चावल। 20. प्रतिगमन गुणांक के सांख्यिकीय महत्व के बारे में परिकल्पना का परीक्षण करने के लिए विचरण तालिका का विश्लेषण

वैसे ही टी-मानदंड एफ-मानदंड उपयोग किए जाने पर तालिका में प्रदर्शित होता है विश्लेषण पैकेज(विकल्प वापसी) काम का पूरी तरह से परिणाम विश्लेषण पैकेजचित्र में दिखाए गए हैं। 4, से संबंधित एक टुकड़ा एफ-सांख्यिकी - अंजीर में। 21.

चावल। 21. आवेदन परिणाम एफएक्सेल विश्लेषण पैकेज का उपयोग करके प्राप्त मानदंड

F आँकड़ा 113.23 है और आर-मान शून्य के करीब (सेल .) महत्वएफ) यदि महत्व स्तर α 0.05 है, तो महत्वपूर्ण मान निर्धारित करें एफ-एक और 12 डिग्री स्वतंत्रता के साथ वितरण सूत्र द्वारा दिया जा सकता है एफ यू= एफ। ओबीआर (1-0.05; 1; 12) = 4.7472 (चित्र 22)। जहां तक ​​कि एफ = 113,23 > एफ यू= 4.7472, और आर-मान 0 . के करीब< 0,05, нулевая гипотеза एच 0विचलन, अर्थात्। स्टोर का आकार इसकी वार्षिक बिक्री से निकटता से संबंधित है।

चावल। 22. स्वतंत्रता के एक और 12 डिग्री के साथ, 0.05 के महत्व स्तर पर सामान्य जनसंख्या के ढलान के बारे में परिकल्पना का परीक्षण करना

कॉन्फिडेंस इंटरवल जिसमें ढलान β 1 है।चर के बीच एक रैखिक संबंध के अस्तित्व के बारे में परिकल्पना का परीक्षण करने के लिए, आप ढलान β 1 युक्त एक आत्मविश्वास अंतराल बना सकते हैं और सुनिश्चित कर सकते हैं कि काल्पनिक मान β 1 = 0 इस अंतराल से संबंधित है। आत्मविश्वास अंतराल का केंद्र ढलान β 1 वाला नमूना ढलान है बी 1 , और इसकी सीमाएँ मात्राएँ हैं बी 1 ±टी नहीं –2 एस बी 1

जैसा कि अंजीर में दिखाया गया है। अठारह, बी 1 = +1,670, एन = 14, एस बी 1 = 0,157. टी 12 = छात्र। ओबीआर (0.975; 12) = 2.1788। इसलिये, बी 1 ±टी नहीं –2 एस बी 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, या + 1.328 ≤ β 1 ≤ +2.012। इस प्रकार, 0.95 की संभावना के साथ सामान्य आबादी का ढलान +1.328 से +2.012 (यानी, $ 1,328,000 से $ 2,012,000) की सीमा में है। चूंकि ये मान शून्य से अधिक हैं, वार्षिक बिक्री और स्टोर क्षेत्र के बीच सांख्यिकीय रूप से महत्वपूर्ण रैखिक संबंध है। यदि विश्वास अंतराल में शून्य होता है, तो चरों के बीच कोई निर्भरता नहीं होगी। इसके अलावा, विश्वास अंतराल का मतलब है कि प्रत्येक स्टोर क्षेत्र में 1000 वर्ग मीटर की वृद्धि। $ 1,328,000 से $ 2,012,000 की औसत बिक्री में वृद्धि का परिणाम है।

प्रयोगटी सहसंबंध गुणांक के लिए मानदंड।सहसंबंध गुणांक पेश किया गया था आर, जो दो संख्यात्मक चर के बीच संबंध का एक उपाय है। इसका उपयोग यह स्थापित करने के लिए किया जा सकता है कि दो चर के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं। आइए हम प्रतीक द्वारा दोनों चरों की सामान्य आबादी के बीच सहसंबंध गुणांक को निरूपित करें। शून्य और वैकल्पिक परिकल्पनाएँ निम्नानुसार तैयार की जाती हैं: एच 0: = 0 (कोई संबंध नहीं), एच 1: 0 (एक सहसंबंध है)। एक सहसंबंध के अस्तित्व के लिए जाँच कर रहा है:

कहाँ पे आर = + , अगर बी 1 > 0, आर = – , अगर बी 1 < 0. Тестовая статистика टीयह है टी-वितरण के साथ एन - 2स्वतंत्रता का दर्जा।

दुकानों की श्रृंखला को लेकर समस्या में सूरजमुखी आर 2= 0.904, और ख 1- +1.670 (अंजीर देखें। 4)। जहां तक ​​कि ख 1> 0, वार्षिक बिक्री और स्टोर आकार के बीच सहसंबंध गुणांक है आर= + 0.904 = +0.951। शून्य परिकल्पना की जाँच करें कि इन चरों के बीच कोई संबंध नहीं है टी-सांख्यिकी:

α = 0.05 के महत्व स्तर पर, शून्य परिकल्पना को अस्वीकार कर दिया जाना चाहिए क्योंकि टी= 10.64> 2.1788। इस प्रकार, यह तर्क दिया जा सकता है कि वार्षिक बिक्री और स्टोर आकार के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है।

जनसंख्या ढलान के बारे में निष्कर्षों पर चर्चा करते समय परिकल्पना के परीक्षण के लिए विश्वास अंतराल और मानदंड का परस्पर उपयोग किया जाता है। हालांकि, सहसंबंध गुणांक वाले विश्वास अंतराल की गणना करना अधिक कठिन हो जाता है, क्योंकि आंकड़ों के नमूना वितरण के रूप में आरवास्तविक सहसंबंध गुणांक पर निर्भर करता है।

गणितीय अपेक्षा का अनुमान और व्यक्तिगत मूल्यों की भविष्यवाणी

यह खंड अपेक्षित प्रतिक्रिया के मूल्यांकन के तरीकों पर चर्चा करता है यूऔर व्यक्तिगत मूल्यों की भविष्यवाणी यूचर के दिए गए मानों पर एक्स.

एक विश्वास अंतराल का निर्माण।उदाहरण 2 में (उपरोक्त अनुभाग देखें कम से कम वर्ग विधि) प्रतिगमन समीकरण ने चर के मूल्य की भविष्यवाणी करना संभव बना दिया यू एक्स... रिटेल आउटलेट के लिए स्थान चुनने की समस्या में, एक स्टोर में 4000 वर्ग मीटर के क्षेत्र में औसत वार्षिक बिक्री। फ़ीट 7.644 मिलियन डॉलर के बराबर था. हालांकि, सामान्य जनसंख्या की गणितीय अपेक्षा का यह अनुमान बिंदुवार है. सामान्य जनसंख्या की गणितीय अपेक्षा का आकलन करने के लिए, एक विश्वास अंतराल की अवधारणा प्रस्तावित की गई थी। इसी तरह, हम अवधारणा का परिचय दे सकते हैं अपेक्षित प्रतिक्रिया के लिए विश्वास अंतरालचर के दिए गए मान के लिए एक्स:

कहाँ पे , = बी 0 + बी 1 एक्स मैं- अनुमानित मूल्य परिवर्तनशील है यूपर एक्स = एक्स मैं, एस वाईएक्स- मीन वर्ग त्रुटि को रूट करें, एन- नमूने का आकार, एक्समैं- चर का निर्धारित मूल्य एक्स, µ यू|एक्स = एक्समैं- एक चर की गणितीय अपेक्षा यूपर एक्स = एक्स मैं, एसएसएक्स =

सूत्र (13) के विश्लेषण से पता चलता है कि विश्वास अंतराल की चौड़ाई कई कारकों पर निर्भर करती है। महत्व के दिए गए स्तर पर, प्रतिगमन रेखा के चारों ओर दोलनों के आयाम में वृद्धि, जिसे रूट-माध्य-वर्ग त्रुटि का उपयोग करके मापा जाता है, अंतराल की चौड़ाई में वृद्धि की ओर जाता है। दूसरी ओर, जैसा कि अपेक्षित था, नमूना आकार में वृद्धि के साथ-साथ अंतराल का संकुचन भी होता है। इसके अलावा, अंतराल की चौड़ाई मूल्यों के आधार पर बदलती है एक्समैं... यदि चर का मान यूमात्रा के लिए अनुमानित एक्समाध्य के करीब , माध्य से दूर मूल्यों के लिए प्रतिक्रिया की भविष्यवाणी करने की तुलना में विश्वास अंतराल संकरा हो जाता है।

मान लीजिए कि किसी स्टोर के लिए स्थान चुनते समय, हम 4000 वर्ग मीटर के क्षेत्र के साथ सभी दुकानों के लिए औसत वार्षिक बिक्री के लिए 95% विश्वास अंतराल प्लॉट करना चाहते हैं। पैर:

नतीजतन, 4,000 वर्ग मीटर के क्षेत्र के साथ सभी दुकानों में औसत वार्षिक बिक्री। फीट, 95% संभावना के साथ 6.971 से 8.317 मिलियन डॉलर की सीमा में है।

अनुमानित मूल्य के लिए विश्वास अंतराल की गणना करना।चर के दिए गए मान पर प्रतिक्रिया की गणितीय अपेक्षा के लिए विश्वास अंतराल के अलावा एक्स, अनुमानित मूल्य के लिए विश्वास अंतराल को जानना अक्सर आवश्यक होता है। इस तथ्य के बावजूद कि इस विश्वास अंतराल की गणना के लिए सूत्र सूत्र (13) के समान है, इस अंतराल में अनुमानित मान होता है, पैरामीटर अनुमान नहीं। अनुमानित प्रतिक्रिया अंतराल यूएक्स = क्सीचर के एक विशिष्ट मूल्य पर एक्समैंसूत्र द्वारा निर्धारित:

मान लीजिए कि किसी स्टोर के लिए स्थान चुनते समय, हम 4000 वर्ग मीटर के क्षेत्र के साथ एक स्टोर के लिए अनुमानित वार्षिक बिक्री के लिए 95% विश्वास अंतराल प्लॉट करना चाहते हैं। पैर:

इसलिए, 4000 वर्ग मीटर के क्षेत्र के साथ एक स्टोर के लिए अनुमानित वार्षिक बिक्री की मात्रा। फीट, 95% संभावना के साथ 5.433 से 9.854 मिलियन डॉलर की सीमा में है। जैसा कि आप देख सकते हैं, प्रतिक्रिया के अनुमानित मूल्य के लिए आत्मविश्वास अंतराल इसकी गणितीय अपेक्षा के लिए आत्मविश्वास अंतराल से कहीं अधिक व्यापक है। यह इस तथ्य के कारण है कि व्यक्तिगत मूल्यों की भविष्यवाणी करने में परिवर्तनशीलता गणितीय अपेक्षा का आकलन करने की तुलना में बहुत अधिक है।

प्रतिगमन के साथ नुकसान और नैतिक मुद्दे

प्रतिगमन विश्लेषण के साथ कठिनाइयाँ:

  • कम से कम वर्ग विधि की प्रयोज्यता की शर्तों को अनदेखा करना।
  • कम से कम वर्ग विधि की प्रयोज्यता की शर्तों का गलत मूल्यांकन।
  • कम से कम वर्ग विधि की प्रयोज्यता की शर्तों का उल्लंघन होने पर वैकल्पिक तरीकों का गलत चुनाव।
  • अनुसंधान के विषय के गहन ज्ञान के बिना प्रतिगमन विश्लेषण का अनुप्रयोग।
  • व्याख्यात्मक चर की सीमा से परे प्रतिगमन का एक्सट्रपलेशन।
  • सांख्यिकीय और कारण संबंधों के बीच भ्रम।

स्प्रैडशीट्स और सांख्यिकीय सॉफ़्टवेयर को व्यापक रूप से अपनाने से कम्प्यूटेशनल समस्याएं समाप्त हो गई हैं जो प्रतिगमन विश्लेषण के उपयोग में बाधा डालती हैं। हालांकि, इससे यह तथ्य सामने आया कि जिन उपयोगकर्ताओं के पास पर्याप्त योग्यता और ज्ञान नहीं था, उन्होंने प्रतिगमन विश्लेषण का उपयोग करना शुरू कर दिया। उपयोगकर्ता वैकल्पिक तरीकों के बारे में कैसे जानते हैं, यदि उनमें से कई को कम से कम वर्ग विधि की प्रयोज्यता की शर्तों के बारे में बिल्कुल भी जानकारी नहीं है और यह नहीं पता कि उनके कार्यान्वयन को कैसे सत्यापित किया जाए?

शोधकर्ता को ग्राइंडिंग नंबरों के साथ दूर नहीं जाना चाहिए - शिफ्ट, ढलान और मिश्रित सहसंबंध गुणांक की गणना करना। उसे गहन ज्ञान की आवश्यकता है। आइए इसे पाठ्यपुस्तकों से लिए गए एक उत्कृष्ट उदाहरण से स्पष्ट करें। Anscombe ने दिखाया कि सभी चार डेटासेट अंजीर में दिखाए गए हैं। 23 में समान प्रतिगमन पैरामीटर हैं (चित्र 24)।

चावल। 23. कृत्रिम डेटा के चार सेट

चावल। 24. चार कृत्रिम डेटासेट का रिग्रेशन विश्लेषण; पूर्ण हो गया विश्लेषण पैकेज(तस्वीर को बड़ा करने के लिए तस्वीर पर क्लिक करें)

तो, प्रतिगमन विश्लेषण के दृष्टिकोण से, ये सभी डेटासेट पूरी तरह से समान हैं। यदि विश्लेषण समाप्त हो गया होता, तो हम बहुत सी उपयोगी जानकारी खो देते। यह इन डेटासेट के लिए प्लॉट किए गए स्कैटर प्लॉट (चित्र 25) और अवशिष्ट प्लॉट (चित्र 26) द्वारा प्रमाणित है।

चावल। 25. चार डेटासेट के लिए स्कैटर प्लॉट

स्कैटर प्लॉट और अवशिष्ट प्लॉट बताते हैं कि ये डेटा एक दूसरे से भिन्न हैं। एक सीधी रेखा के साथ वितरित एकमात्र सेट सेट ए है। सेट ए से गणना किए गए अवशिष्टों के प्लॉट में कोई नियमितता नहीं है। सेट बी, सी और डी के लिए भी ऐसा नहीं कहा जा सकता है। सेट बी पर आधारित स्कैटर प्लॉट एक स्पष्ट द्विघात मॉडल को प्रदर्शित करता है। इस निष्कर्ष की पुष्टि अवशेषों के ग्राफ से होती है, जिसमें एक परवलयिक आकार होता है। स्कैटर प्लॉट और अवशिष्ट प्लॉट बताते हैं कि डेटासेट बी में एक बाहरी है। इस स्थिति में, डेटासेट से बाहरी को बाहर करना और विश्लेषण को दोहराना आवश्यक है। प्रेक्षणों से बाहरी कारकों का पता लगाने और उन्हें समाप्त करने की तकनीक को प्रभाव विश्लेषण कहा जाता है। बाहरी को खत्म करने के बाद, मॉडल के पुनर्मूल्यांकन का परिणाम पूरी तरह से अलग हो सकता है। डेटासेट डी से एक स्कैटर प्लॉट उस असामान्य स्थिति को दिखाता है जिसमें अनुभवजन्य मॉडल एक व्यक्तिगत प्रतिक्रिया पर अत्यधिक निर्भर है ( एक्स 8 = 19, यू 8 = 12.5)। इस तरह के प्रतिगमन मॉडल की गणना विशेष देखभाल के साथ की जानी चाहिए। तो, बिखराव और अवशिष्ट भूखंड प्रतिगमन विश्लेषण के लिए एक आवश्यक उपकरण हैं और इसका एक अभिन्न अंग होना चाहिए। उनके बिना, प्रतिगमन विश्लेषण अविश्वसनीय है।

चावल। 26. चार डेटासेट के लिए अवशिष्ट के प्लॉट

प्रतिगमन विश्लेषण में नुकसान से कैसे बचें:

  • चरों के बीच संभावित संबंध का विश्लेषण एक्सतथा यूहमेशा स्कैटर चार्ट बनाकर शुरू करें।
  • प्रतिगमन विश्लेषण के परिणामों की व्याख्या करने से पहले प्रयोज्यता शर्तों की जाँच करें।
  • अवशिष्ट बनाम स्वतंत्र चर प्लॉट करें। यह आपको यह निर्धारित करने की अनुमति देगा कि अनुभवजन्य मॉडल अवलोकन परिणामों से कैसे मेल खाता है, और भिन्नता की स्थिरता के उल्लंघन का पता लगाने के लिए।
  • सामान्य त्रुटि धारणा का परीक्षण करने के लिए हिस्टोग्राम, स्टेम और लीफ प्लॉट, बॉक्स प्लॉट और सामान्य वितरण प्लॉट का उपयोग करें।
  • यदि कम से कम वर्ग विधि की शर्तें पूरी नहीं होती हैं, तो वैकल्पिक विधियों का उपयोग करें (उदाहरण के लिए, द्विघात या एकाधिक प्रतिगमन मॉडल)।
  • यदि कम से कम वर्ग विधि की प्रयोज्यता की शर्तें संतुष्ट हैं, तो प्रतिगमन गुणांक के सांख्यिकीय महत्व के बारे में परिकल्पना का परीक्षण करना और गणितीय अपेक्षा और अनुमानित प्रतिक्रिया मूल्य वाले आत्मविश्वास अंतराल का निर्माण करना आवश्यक है।
  • स्वतंत्र चर की सीमा के बाहर आश्रित चर के मूल्यों की भविष्यवाणी करने से बचें।
  • ध्यान रखें कि सांख्यिकीय संबंध हमेशा कारण नहीं होते हैं। याद रखें कि चरों के बीच सहसंबंध का मतलब यह नहीं है कि उनके बीच एक कारण संबंध है।

सारांश।जैसा कि ब्लॉक आरेख (चित्र 27) में दिखाया गया है, नोट सरल रैखिक प्रतिगमन मॉडल, इसकी प्रयोज्यता की शर्तों और इन शर्तों की जांच कैसे करें, का वर्णन करता है। माना टी-प्रतिगमन के ढलान के सांख्यिकीय महत्व की जाँच के लिए मानदंड। आश्रित चर के मूल्यों की भविष्यवाणी करने के लिए एक प्रतिगमन मॉडल का उपयोग किया गया था। एक खुदरा आउटलेट के लिए एक स्थान की पसंद से संबंधित एक उदाहरण माना जाता है, जिसमें स्टोर के क्षेत्र पर वार्षिक बिक्री की मात्रा की निर्भरता की जांच की जाती है। प्राप्त जानकारी से आप स्टोर के लिए अधिक सटीक रूप से स्थान का चयन कर सकते हैं और इसकी वार्षिक बिक्री का अनुमान लगा सकते हैं। निम्नलिखित नोट्स में, हम प्रतिगमन विश्लेषण के बारे में अपनी चर्चा जारी रखेंगे और कई प्रतिगमन मॉडल को भी देखेंगे।

चावल। 27. नोट का ब्लॉक डायग्राम

प्रबंधकों के लिए पुस्तक लेविन और अन्य सांख्यिकी की प्रयुक्त सामग्री। - एम।: विलियम्स, 2004 .-- पी। 792-872

यदि आश्रित चर श्रेणीबद्ध है, तो लॉजिस्टिक प्रतिगमन लागू किया जाना चाहिए।