Regresijos lygties koeficientas parodo koreliaciją ir regresijos analizę. Koreliacija ir regresija

REGRESIJAS KOEFICIENTAS

- Anglų koeficientas, regresija; vokiečių kalba Regresijoskoeffizient. Viena iš priklausomo y ir nepriklausomo kintamojo x ryšio charakteristikų. K. r. parodo, kiek vienetų padidėja y priimta reikšmė, jei kintamasis x pasikeičia vienu jo pokyčio vienetu. Geometriškai K. r. yra tiesės y nuolydis.

Antinazi. Sociologijos enciklopedija, 2009

Pažiūrėkite, kas yra „REGRESIJAS KOEFICIENTAS“ kituose žodynuose:

    regresijos koeficientas- - [L.G. Sumenko. Anglų rusų informacinių technologijų žodynas. M .: GP TsNIIS, 2003.] Temos informacinės technologijos apskritai EN regresijos koeficientas ... Techninis vertėjo vadovas

    Regresijos koeficientas- 35. Regresijos koeficientas Regresinės analizės modelio parametras Šaltinis: GOST 24026 80: Tyrimo testai. Eksperimento planavimas. Terminai ir apibrėžimai…

    regresijos koeficientas- Nepriklausomo kintamojo koeficientas regresijos lygtyje ... Sociologinės statistikos žodynas

    REGRESIJAS KOEFICIENTAS- Anglų. koeficientas, regresija; vokiečių kalba Regresijoskoeffizient. Viena iš priklausomo y ir nepriklausomo kintamojo x ryšio charakteristikų. K. r. parodo, kiek vienetų padidėja y priimta reikšmė, jei kintamasis x pasikeičia į ... ... Aiškinamasis sociologijos žodynas

    imties regresijos koeficientas- 2.44. imties regresijos koeficientas Kintamojo koeficientas regresijos kreivėje arba paviršiaus lygtyje Šaltinis: GOST R 50779.10 2000: Statistiniai metodai. Statistikos tikimybė ir pagrindai. Terminai ir apibrėžimai… Norminės ir techninės dokumentacijos terminų žodynas-žinynas

    Dalinės regresijos koeficientas- statistinis matas, rodantis nepriklausomo kintamojo įtakos priklausomam asmeniui laipsnį, kai visų kitų modelio kintamųjų tarpusavio įtaką kontroliuoja tyrėjas ... Sociologijos žodynas Socium

    REGRESIJAS, SVORIS- Regresijos koeficiento sąvokos sinonimas ... Aiškinamasis psichologijos žodynas

    PAVELDIMUMO KOEFICIENTAS– santykinės genetinio kintamumo dalies bendroje fenotipinėje požymio variacijoje rodiklis. Dažniausiai naudojami ekonomiškai naudingų požymių paveldimumo vertinimo metodai: čia h2 – paveldimumo koeficientas; r intraclass…… Ūkinių gyvūnų veisime, genetikoje ir reprodukcijoje vartojami terminai ir apibrėžimai

    - (R kvadratas) yra priklausomo kintamojo dispersijos dalis, paaiškinama nagrinėjamu priklausomybės modeliu, ty aiškinamaisiais kintamaisiais. Tiksliau, tai yra vienas atėmus nepaaiškinamos dispersijos proporciją (modelio atsitiktinės paklaidos dispersija arba sąlyginė ... ... Vikipedija

    Nepriklausomo kintamojo koeficientas regresijos lygtyje. Taigi, pavyzdžiui, tiesinės regresijos lygtyje, jungiančioje atsitiktinius dydžius Y ir X, R. k. b0 ir b1 yra lygūs: čia r yra X ir Y koreliacijos koeficientas, . Sąmatų skaičiavimas R. k. Matematinė enciklopedija

Knygos

  • Įvadas į ekonometriją (CDpc), Yanovsky Leonid Petrovich, Bukhovets Aleksejus Georgijevičius. Pateikiami ekonometrijos ir vienmačių laiko eilučių statistinės analizės pagrindai. Daug dėmesio skiriama klasikinei porinei ir daugkartinei regresijai, klasikiniams ir apibendrintiems metodams...
  • Greitasis skaitymas. Efektyvus treniruoklis (CDpc), . Programa skirta vartotojams, norintiems įsisavinti greitojo skaitymo techniką per trumpiausią įmanomą laiką. Kursas sudarytas remiantis principu „teorija – praktika“. Teorinė medžiaga ir praktinė ...

Regresinė analizė – tai statistinio tyrimo metodas, leidžiantis parodyti parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų. Ikikompiuterinėje eroje jį naudoti buvo gana sunku, ypač kai buvo kalbama apie didelius duomenų kiekius. Šiandien, išmokę sukurti regresiją programoje Excel, galite išspręsti sudėtingas statistines problemas vos per kelias minutes. Žemiau pateikiami konkretūs pavyzdžiai iš ekonomikos srities.

Regresijos rūšys

Pati sąvoka buvo įvesta į matematiką 1886 m. Regresija vyksta:

  • linijinis;
  • parabolinis;
  • galia;
  • eksponentinis;
  • hiperbolinis;
  • parodomasis;
  • logaritminis.

1 pavyzdys

Apsvarstykite problemą, kaip nustatyti išėjusių komandos narių skaičiaus priklausomybę nuo vidutinio atlyginimo 6 pramonės įmonėse.

Užduotis. Šešiose įmonėse išanalizavome vidutinį mėnesinį atlyginimą ir savo noru išvykusių darbuotojų skaičių. Lentelės pavidalu turime:

Išvykusių žmonių skaičius

Atlyginimas

30 000 rublių

35 000 rublių

40 000 rublių

45 000 rublių

50 000 rublių

55 000 rublių

60 000 rublių

Išėjusių į pensiją darbuotojų skaičiaus priklausomybės nuo vidutinio darbo užmokesčio 6 įmonėse nustatymo uždaviniui regresijos modelis turi lygtį Y = a 0 + a 1 x 1 +…+a k x k , kur x i yra įtakojantys kintamieji. , a i – regresijos koeficientai, a k – faktorių skaičius.

Šiai užduočiai Y yra išėjusių darbuotojų rodiklis, o įtakojantis veiksnys – atlyginimas, kurį žymime X.

Naudojant skaičiuoklės "Excel" galimybes

Prieš atliekant regresinę analizę programoje „Excel“, turimiems lentelės duomenims turi būti pritaikytos integruotos funkcijos. Tačiau šiems tikslams geriau naudoti labai naudingą priedą „Analysis Toolkit“. Norėdami jį suaktyvinti, jums reikia:

  • iš skirtuko „Failas“ eikite į skyrių „Parinktys“;
  • atsidariusiame lange pasirinkite eilutę „Priedai“;
  • spustelėkite mygtuką „Eiti“, esantį apačioje, dešinėje eilutės „Valdymas“ pusėje;
  • pažymėkite langelį šalia pavadinimo „Analytics Package“ ir patvirtinkite savo veiksmus spustelėdami „Gerai“.

Jei viskas bus padaryta teisingai, dešinėje skirtuko Duomenys pusėje, esančioje virš Excel darbalapio, atsiras norimas mygtukas.

programoje Excel

Dabar, kai turime visus reikiamus virtualius įrankius ekonometriniams skaičiavimams atlikti, galime pradėti spręsti savo problemą. Už tai:

  • spustelėkite mygtuką „Duomenų analizė“;
  • atsidariusiame lange spustelėkite mygtuką „Regresija“;
  • pasirodžiusiame skirtuke įveskite Y (darbuotojų, kurie išėjo iš darbo) ir X (jų atlyginimų) reikšmių diapazoną;
  • Savo veiksmus patvirtiname paspausdami mygtuką „Gerai“.

Dėl to programa automatiškai užpildys naują skaičiuoklės lapą su regresinės analizės duomenimis. Pastaba! „Excel“ turi galimybę rankiniu būdu nustatyti norimą vietą šiam tikslui. Pavyzdžiui, tai gali būti tas pats lapas, kuriame yra Y ir X reikšmės, arba net nauja darbaknygė, specialiai sukurta tokiems duomenims saugoti.

R kvadrato regresijos rezultatų analizė

Programoje „Excel“ duomenys, gauti apdorojant nagrinėjamo pavyzdžio duomenis, atrodo taip:

Visų pirma, turėtumėte atkreipti dėmesį į R kvadrato vertę. Tai yra determinacijos koeficientas. Šiame pavyzdyje R kvadratas = 0,755 (75,5%), tai yra modelio apskaičiuoti parametrai paaiškina ryšį tarp nagrinėjamų parametrų 75,5%. Kuo didesnė determinacijos koeficiento reikšmė, tuo labiau pritaikytas tam tikrai užduočiai pasirinktas modelis. Manoma, kad jis teisingai apibūdina tikrąją situaciją, kai R kvadrato reikšmė viršija 0,8. Jei R kvadratas<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Santykio analizė

Skaičius 64,1428 rodo, kokia bus Y reikšmė, jei visi mūsų svarstomo modelio kintamieji xi bus nustatyti į nulį. Kitaip tariant, galima teigti, kad analizuojamo parametro reikšmei įtakos turi ir kiti veiksniai, kurie nėra aprašyti konkrečiame modelyje.

Kitas koeficientas -0,16285, esantis langelyje B18, parodo kintamojo X įtakos svorį Y. Tai reiškia, kad vidutinis darbuotojų mėnesinis atlyginimas nagrinėjamo modelio ribose įtakoja išeinančių iš darbo skaičių, kurio svoris yra -0,16285, t.y. jo įtakos laipsnis visai mažas. „-“ ženklas rodo, kad koeficientas turi neigiamą reikšmę. Tai akivaizdu, nes visi žino, kad kuo didesnis atlyginimas įmonėje, tuo mažiau žmonių pareiškia norą nutraukti darbo sutartį ar išeiti iš darbo.

Daugkartinė regresija

Šis terminas reiškia ryšio lygtį su keliais nepriklausomais formos kintamaisiais:

y \u003d f (x 1 + x 2 + ... x m) + ε, kur y yra efektyvusis požymis (priklausomas kintamasis), o x 1 , x 2 , ... x m yra faktorių veiksniai (nepriklausomi kintamieji).

Parametrų įvertinimas

Daugkartinei regresijai (MR) ji atliekama naudojant mažiausių kvadratų metodą (OLS). Y = a + b 1 x 1 +…+b m x m + ε formos tiesinėms lygtims sudarome normaliųjų lygčių sistemą (žr. toliau)

Norėdami suprasti metodo principą, apsvarstykite dviejų veiksnių atvejį. Tada turime situaciją, aprašytą formule

Iš čia gauname:

kur σ yra atitinkamo požymio, atsispindinčio indekse, dispersija.

LSM taikomas MP lygčiai standartizuotoje skalėje. Šiuo atveju gauname lygtį:

kur t y , t x 1, … t xm yra standartizuoti kintamieji, kurių vidutinės reikšmės yra 0; β i yra standartizuoti regresijos koeficientai, o standartinis nuokrypis yra 1.

Atkreipkite dėmesį, kad visi β i šiuo atveju yra nustatyti kaip normalizuoti ir centralizuoti, todėl jų palyginimas vienas su kitu laikomas teisingu ir leistinu. Be to, įprasta filtruoti veiksnius, atmetant tuos, kurių βi reikšmės yra mažiausios.

Problema naudojant tiesinės regresijos lygtį

Tarkime, kad yra konkretaus produkto N kainų dinamikos lentelė per paskutinius 8 mėnesius. Būtina apsispręsti, ar tikslinga pirkti jos partiją už 1850 rub./t.

mėnesio numeris

mėnesio pavadinimas

Prekės kaina N

1750 rublių už toną

1755 rubliai už toną

1767 rubliai už toną

1760 rublių už toną

1770 rublių už toną

1790 rublių už toną

1810 rublių už toną

1840 rublių už toną

Norėdami išspręsti šią problemą Excel skaičiuoklėje, turite naudoti duomenų analizės įrankį, jau žinomą iš aukščiau pateikto pavyzdžio. Tada pasirinkite skyrių „Regresija“ ir nustatykite parametrus. Reikia atsiminti, kad lauke „Įvesties Y intervalas“ turi būti įvestas priklausomo kintamojo reikšmių diapazonas (šiuo atveju prekės kaina konkrečiais metų mėnesiais), o lauke „Įvestis“. X intervalas“ – nepriklausomam kintamajam (mėnesio skaičiui). Patvirtinkite veiksmą spustelėdami „Gerai“. Naujame lape (jei taip buvo nurodyta) gauname regresijos duomenis.

Remdamiesi jais, sudarome y=ax+b formos tiesinę lygtį, kur parametrai a ir b yra eilutės su mėnesio numerio pavadinimu koeficientai ir koeficientai bei eilutės „Y sankirta“ iš lapą su regresinės analizės rezultatais. Taigi 3 uždavinio tiesinės regresijos lygtis (LE) parašyta taip:

Prekės kaina N = 11.714* mėn numeris + 1727.54.

arba algebriniu žymėjimu

y = 11,714 x + 1727,54

Rezultatų analizė

Norint nuspręsti, ar gauta tiesinės regresijos lygtis yra adekvati, naudojami daugkartiniai koreliacijos koeficientai (MCC) ir determinacijos koeficientai, taip pat Fišerio testas ir Stjudento testas. „Excel“ lentelėje su regresijos rezultatais jie rodomi atitinkamai kelių R, ​​R kvadrato, F statistikos ir t statistikos pavadinimais.

KMC R leidžia įvertinti tikimybinio ryšio tarp nepriklausomų ir priklausomų kintamųjų sandarumą. Didelė jo reikšmė rodo gana stiprų ryšį tarp kintamųjų „Mėnesio skaičius“ ir „Prekių kaina N rubliais už 1 toną“. Tačiau šių santykių pobūdis lieka nežinomas.

Determinacijos koeficiento kvadratas R 2 (RI) yra skaitinė bendros sklaidos dalies charakteristika ir parodo, kurios eksperimentinių duomenų dalies sklaida, t.y. priklausomo kintamojo reikšmės atitinka tiesinės regresijos lygtį. Nagrinėjamoje užduotyje ši reikšmė lygi 84,8%, t.y. gautu SD statistinius duomenis apibūdina labai tiksliai.

F-statistika, dar vadinama Fišerio testu, naudojama tiesinio ryšio reikšmingumui įvertinti, paneigiant arba patvirtinant jo egzistavimo hipotezę.

(Studento kriterijus) padeda įvertinti koeficiento su nežinomu arba laisvuoju tiesinio ryšio nariu reikšmingumą. Jei t kriterijaus reikšmė > t cr, tai tiesinės lygties laisvojo nario nereikšmingumo hipotezė atmetama.

Nagrinėjamoje laisvojo nario uždavinyje, naudojant Excel įrankius, buvo gauta, kad t = 169,20903, o p = 2,89E-12, t.y., mes turime nulinę tikimybę, kad teisinga hipotezė apie laisvojo nario nereikšmingumą pasitvirtins. būti atmestas. Koeficientui esant nežinomam t=5,79405, o p=0,001158. Kitaip tariant, tikimybė, kad teisinga hipotezė apie koeficiento nereikšmiškumą nežinomam bus atmesta yra 0,12%.

Taigi galima teigti, kad gauta tiesinės regresijos lygtis yra adekvati.

Akcijų paketo pirkimo tikslingumo problema

Daugkartinė regresija programoje „Excel“ atliekama naudojant tą patį duomenų analizės įrankį. Apsvarstykite konkrečią taikomą problemą.

NNN vadovybė turi priimti sprendimą, ar tikslinga įsigyti 20% MMM SA akcijų. Paketo (JV) kaina yra 70 milijonų JAV dolerių. NNN specialistai surinko duomenis apie panašius sandorius. Nutarta akcijų paketo vertę vertinti pagal tokius parametrus, išreikštus milijonais JAV dolerių, kaip:

  • mokėtinos sumos (VK);
  • metinė apyvarta (VO);
  • gautinos sumos (VD);
  • ilgalaikio turto savikaina (SOF).

Be to, naudojamas parametras įmonės darbo užmokesčio įsiskolinimas (V3 P) tūkstančiais JAV dolerių.

Sprendimas naudojant „Excel“ skaičiuoklę

Pirmiausia turite sukurti pradinių duomenų lentelę. Tai atrodo taip:

  • iškviesti langą „Duomenų analizė“;
  • pasirinkite skyrių „Regresija“;
  • laukelyje „Įvesties intervalas Y“ įveskite priklausomų kintamųjų verčių diapazoną iš G stulpelio;
  • spustelėkite piktogramą su raudona rodykle lango „Įvesties intervalas X“ dešinėje ir pasirinkite visų verčių diapazoną iš lapo stulpelių B, C, D, F.

Pasirinkite „Naujas darbalapis“ ir spustelėkite „Gerai“.

Gaukite pateiktos problemos regresinę analizę.

Rezultatų nagrinėjimas ir išvados

Iš aukščiau pateiktų suapvalintų duomenų „Excel“ skaičiuoklės lape „renkame“ regresijos lygtį:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Labiau pažįstama matematine forma jis gali būti parašytas taip:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Duomenys apie UAB "MMM" pateikti lentelėje:

Pakeitę juos į regresijos lygtį, jie gauna 64,72 mln. JAV dolerių. Tai reiškia, kad UAB „MMM“ akcijų pirkti nereikėtų, nes jų 70 mln. JAV dolerių vertė yra gana pervertinta.

Kaip matote, Excel skaičiuoklės ir regresijos lygties naudojimas leido priimti pagrįstą sprendimą dėl labai konkrečios operacijos pagrįstumo.

Dabar jūs žinote, kas yra regresija. Aukščiau aptarti „Excel“ pavyzdžiai padės išspręsti praktines ekonometrijos srities problemas.

Naudojant grafinį metodą.
Šis metodas naudojamas vizualizuoti komunikacijos formą tarp tiriamų ekonominių rodiklių. Norėdami tai padaryti, grafikas nubraižytas stačiakampėje koordinačių sistemoje, atskiros gauto požymio Y reikšmės brėžiamos išilgai ordinačių ašies, o atskiros faktoriaus atributo X reikšmės - išilgai abscisių ašies.
Efektyviųjų ir faktorinių ženklų taškų aibė vadinama koreliacijos laukas.
Remiantis koreliacijos lauku, galima daryti prielaidą (bendrai populiacijai), kad ryšys tarp visų galimų X ir Y reikšmių yra tiesinis.

Tiesinės regresijos lygtis turi formą y = bx + a + ε
Čia ε yra atsitiktinė klaida (nukrypimas, perturbacija).
Atsitiktinės klaidos priežastys:
1. Reikšmingų aiškinamųjų kintamųjų neįtraukimas į regresijos modelį;
2. Kintamųjų agregavimas. Pavyzdžiui, bendro vartojimo funkcija yra bandymas bendrai išreikšti individualių asmenų sprendimų dėl išlaidų visumą. Tai tik apytikslis individualių santykių, turinčių skirtingus parametrus, apskaičiavimas.
3. Neteisingas modelio struktūros aprašymas;
4. Neteisinga funkcinė specifikacija;
5. Matavimo paklaidos.
Kadangi kiekvieno konkretaus stebėjimo i nuokrypiai ε i yra atsitiktiniai ir jų reikšmės imtyje nežinomos, tai:
1) pagal stebėjimus x i ir y i galima gauti tik parametrų α ir β įverčius
2) Regresijos modelio parametrų α ir β įverčiai yra atitinkamai a ir b reikšmės, kurios yra atsitiktinio pobūdžio, nes atitinka atsitiktinę imtį;
Tada apskaičiuota regresijos lygtis (sudaryta iš imties duomenų) atrodys taip: y = bx + a + ε, kur e i yra stebimos paklaidų ε i reikšmės (įvertinimai) ir atitinkamai b įverčiai. reikia rasti regresijos modelio parametrus α ir β.
Norėdami įvertinti parametrus α ir β – naudokite LSM (mažiausius kvadratus).
Normaliųjų lygčių sistema.

Mūsų duomenims lygčių sistema yra tokia:

10a + 356b = 49
356a + 2135b = 9485

Išreikškite a iš pirmosios lygties ir pakeiskite ją antrąja lygtimi
Gauname b = 68,16, a = 11,17

Regresijos lygtis:
y = 68,16 x - 11,17

1. Regresijos lygties parametrai.
Pavyzdys reiškia.



Pavyzdžių dispersijos.


standartinis nuokrypis

1.1. Koreliacijos koeficientas
Apskaičiuojame bendravimo artumo rodiklį. Toks rodiklis yra selektyvus tiesinės koreliacijos koeficientas, kuris apskaičiuojamas pagal formulę:

Linijinės koreliacijos koeficiento reikšmės yra nuo –1 iki +1.
Ryšiai tarp požymių gali būti silpni arba stiprūs (glaudūs). Jų kriterijai vertinami pagal Chaddock skalę:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Mūsų pavyzdyje ryšys tarp Y veiksnio X yra labai didelis ir tiesioginis.

1.2. Regresijos lygtis(regresijos lygties įvertinimas).

Tiesinės regresijos lygtis yra y = 68,16 x -11,17
Tiesinės regresijos lygties koeficientams galima suteikti ekonominę reikšmę. Regresijos lygties koeficientas rodo, kiek vienetų rezultatas pasikeis koeficientui pasikeitus 1 vienetu.
Koeficientas b = 68,16 rodo vidutinį efektyvaus rodiklio pokytį (y vienetais) didėjant arba mažėjant koeficiento x reikšmei jo matavimo vienetui. Šiame pavyzdyje, padidėjus 1 vienetu, y vidutiniškai padidėja 68,16.
Koeficientas a = -11,17 formaliai parodo numatomą y lygį, bet tik tada, jei x=0 yra artimas imties reikšmėms.
Bet jei x = 0 yra toli nuo x imties reikšmių, pažodinis aiškinimas gali lemti neteisingus rezultatus ir net jei regresijos linija tiksliai apibūdina stebimos imties reikšmes, nėra garantijos, kad tai taip pat bus atvejis ekstrapoliuojant į kairę arba į dešinę.
Pakeitus atitinkamas x reikšmes į regresijos lygtį, kiekvienam stebėjimui galima nustatyti išlygintas (numatomas) efektyvaus rodiklio y(x) reikšmes.
Ryšys tarp y ir x lemia regresijos koeficiento b ženklą (jei > 0 – tiesioginis ryšys, kitu atveju – atvirkštinis). Mūsų pavyzdyje ryšys yra tiesioginis.

1.3. elastingumo koeficientas.
Tiesioginiam veiksnių įtakos efektyviajam požymiui vertinti nepageidautina naudoti regresijos koeficientus (b pavyzdyje), jei skiriasi efektyvaus rodiklio y ir faktoriaus požymio x matavimo vienetai.
Šiems tikslams apskaičiuojami elastingumo koeficientai ir beta koeficientai. Tamprumo koeficientas randamas pagal formulę:


Rodo, kiek procentų vidutiniškai pasikeičia efektyvusis požymis y, kai veiksnio požymis x pasikeičia 1%. Jame neatsižvelgiama į veiksnių svyravimo laipsnį.
Mūsų pavyzdyje elastingumo koeficientas yra didesnis nei 1. Todėl, jei X pasikeis 1%, Y pasikeis daugiau nei 1%. Kitaip tariant, X labai paveikia Y.
Beta koeficientas parodo, kokia jo standartinio nuokrypio vertės dalimi vidutiniškai pasikeis efektyvaus požymio reikšmė, kai veiksnio požymis pasikeis jo standartinio nuokrypio reikšme, kai likusių nepriklausomų kintamųjų reikšmė fiksuota pastoviame lygyje:

Tie. x padidinus šio rodiklio standartinio nuokrypio reikšme, vidutinis Y padidės 0,9796 šio rodiklio standartinio nuokrypio.

1.4. Aproksimacijos klaida.
Įvertinkime regresijos lygties kokybę naudodami absoliučią aproksimacijos paklaidą.


Kadangi paklaida yra didesnė nei 15%, šios lygties nepageidautina naudoti kaip regresiją.

1.6. Determinacijos koeficientas.
(daugkartinio) koreliacijos koeficiento kvadratas vadinamas determinacijos koeficientu, kuris parodo rezultatinio požymio kitimo proporciją, paaiškinamą faktoriaus požymio kitimu.
Dažniausiai, pateikiant determinacijos koeficiento interpretaciją, jis išreiškiamas procentais.
R2 = 0,982 = 0,9596
tie. 95,96 % atvejų x pokyčiai lemia y pokytį. Kitaip tariant, regresijos lygties pasirinkimo tikslumas yra didelis. Likęs 4,04 % Y pokytis atsiranda dėl veiksnių, į kuriuos modelyje neatsižvelgta.

x y x2 y2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Regresijos lygties parametrų įvertinimas.
2.1. Koreliacijos koeficiento reikšmė.

Pagal Stjudento lentelę su reikšmingumo lygiu α=0,05 ir laisvės laipsniais k=7 randame t crit:
t crit = (7;0,05) = 1,895
čia m = 1 yra aiškinamųjų kintamųjų skaičius.
Jei t obs > t yra kritinis, tai gauta koreliacijos koeficiento reikšmė pripažįstama reikšminga (nulinė hipotezė, teigianti, kad koreliacijos koeficientas lygus nuliui, atmetama).
Kadangi t obl > t krit, atmetame hipotezę, kad koreliacijos koeficientas lygus 0. Kitaip tariant, koreliacijos koeficientas yra statistiškai reikšmingas
Suporuotoje tiesinėje regresijoje t 2 r = t 2 b, o tada hipotezių apie regresijos ir koreliacijos koeficientų reikšmingumą tikrinimas yra tolygus hipotezės apie tiesinės regresijos lygties reikšmingumą tikrinimui.

2.3. Regresijos koeficientų įverčių nustatymo tikslumo analizė.
Nešališkas trukdžių dispersijos įvertinimas yra vertė:


S 2 y = 94,6484 – nepaaiškinama dispersija (priklausomo kintamojo sklaidos aplink regresijos tiesę matas).
S y = 9,7287 - standartinė įverčio paklaida (standartinė regresijos paklaida).
S a - atsitiktinio dydžio standartinis nuokrypis a.


S b - atsitiktinio dydžio standartinis nuokrypis b.

2.4. Priklausomo kintamojo pasitikėjimo intervalai.
Ekonominis prognozavimas, pagrįstas sukonstruotu modeliu, daro prielaidą, kad esami kintamųjų ryšiai išsaugomi ir pradiniam laikotarpiui.
Norint numatyti gaunamo atributo priklausomą kintamąjį, būtina žinoti visų į modelį įtrauktų veiksnių nuspėjamas reikšmes.
Nuspėjamosios veiksnių reikšmės pakeičiamos į modelį ir gaunami taškiniai nuspėjamieji tiriamojo rodiklio įverčiai. (a + bx p ± ε)
kur

Apskaičiuokite ribas intervalo, kuriame bus sutelkta 95% galimų Y reikšmių su neribotu stebėjimų skaičiumi ir X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Individualūs pasikliautinieji intervalaiYtam tikra verteX.
(a + bx i ± ε)
kur

x i y = -11,17 + 68,16x i ε i ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Su 95% tikimybe galima garantuoti, kad Y reikšmė su neribotu stebėjimų skaičiumi neperžengs rastų intervalų ribų.

2.5. Hipotezių dėl tiesinės regresijos lygties koeficientų tikrinimas.
1) t-statistika. Studento kriterijus.
Patikrinkime hipotezę H 0 apie atskirų regresijos koeficientų lygybę nuliui (su alternatyva H 1 nelygi) esant reikšmingumo lygiui α=0,05.
t crit = (7;0,05) = 1,895


Kadangi 12,8866 > 1,895, regresijos koeficiento b statistinis reikšmingumas pasitvirtina (atmetame hipotezę, kad šis koeficientas lygus nuliui).


Kadangi 2,0914 > 1,895, regresijos koeficiento a statistinis reikšmingumas pasitvirtina (atmetame hipotezę, kad šis koeficientas lygus nuliui).

Regresijos lygties koeficientų pasitikėjimo intervalas.
Nustatykime regresijos koeficientų pasikliautinius intervalus, kurie su 95% patikimumu bus tokie:
(b – t crit S b; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Esant 95% tikimybei, galima teigti, kad šio parametro reikšmė bus rastame intervale.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Esant 95% tikimybei, galima teigti, kad šio parametro reikšmė bus rastame intervale.

2) F-statistika. Fisherio kriterijus.
Regresijos modelio reikšmingumas tikrinamas naudojant Fišerio F testą, kurio apskaičiuotoji reikšmė randama kaip tiriamojo rodiklio pradinių stebėjimų serijų dispersijos ir nešališko likutinės sekos dispersijos įverčio santykis. šis modelis.
Jei apskaičiuota reikšmė su lang=EN-US>n-m-1) laisvės laipsniais yra didesnė už lentelėje pateiktą reikšmę tam tikru reikšmingumo lygiu, tai modelis laikomas reikšmingu.

čia m – faktorių skaičius modelyje.
Porinės tiesinės regresijos statistinio reikšmingumo įvertinimas atliekamas pagal tokį algoritmą:
1. Pateikiama nulinė hipotezė, kad lygtis kaip visuma yra statistiškai nereikšminga: H 0: R 2 =0 esant reikšmingumo lygiui α.
2. Tada nustatykite tikrąją F kriterijaus reikšmę:


kur m=1 porinei regresijai.
3. Lentelės reikšmė nustatoma pagal Fišerio skirstymo lenteles tam tikram reikšmingumo lygiui, atsižvelgiant į tai, kad laisvės laipsnių skaičius bendrai kvadratų sumai (didesnė dispersija) yra 1, o laisvės laipsnių skaičius likutinei sumai. kvadratai (mažesnė dispersija) tiesinėje regresijoje yra n-2 .
4. Jei tikroji F kriterijaus reikšmė yra mažesnė už lentelės reikšmę, tada jie sako, kad nėra jokios priežasties atmesti nulinę hipotezę.
Priešingu atveju nulinė hipotezė atmetama ir su tikimybe (1-α) priimama alternatyvi hipotezė apie lygties kaip visumos statistinį reikšmingumą.
Kriterijaus lentelės reikšmė su laisvės laipsniais k1=1 ir k2=7, Fkp = 5,59
Kadangi faktinė F > Fkp reikšmė, determinacijos koeficientas yra statistiškai reikšmingas (Rastas regresijos lygties įvertis yra statistiškai patikimas).

Patikrinkite likučių autokoreliaciją.
Svarbi sąlyga, norint sukurti kokybinį regresijos modelį naudojant LSM, yra atsitiktinių nuokrypių reikšmių nepriklausomumas nuo visų kitų stebėjimų nuokrypių verčių. Tai užtikrina, kad nėra jokios koreliacijos tarp bet kokių nukrypimų ir ypač tarp gretimų nukrypimų.
Autokoreliacija (serijinė koreliacija) apibrėžiamas kaip koreliacija tarp stebimų matų, išdėstytų laike (laiko eilutė) arba erdvėje (kryžminė eilutė). Regresinėje analizėje, kai naudojami laiko eilučių duomenys, ir labai retai, kai naudojami skerspjūvio duomenys, regresinėje analizėje dažniausiai susiduriama su likučių (išskirtinių verčių) autokoreliacija.
Ekonominėse užduotyse tai daug dažniau teigiama autokoreliacija nei neigiama autokoreliacija. Daugeliu atvejų teigiamą autokoreliaciją sukelia kai kurių faktorių, į kuriuos modelyje neatsižvelgta, kryptinė pastovi įtaka.
Neigiama autokoreliacija iš tikrųjų reiškia, kad po teigiamo nuokrypio seka neigiamas ir atvirkščiai. Tokia situacija gali susiklostyti, jei pagal sezoninius duomenis (žiema-vasara) vertinamas toks pat gaiviųjų gėrimų paklausos ir pajamų santykis.
Tarp pagrindinės autokoreliacijos priežastys, galima išskirti šiuos dalykus:
1. Specifikacijos klaidos. Neatsižvelgus į kokį nors svarbų modelio aiškinamąjį kintamąjį arba neteisingai pasirinkus priklausomybės formą, dažniausiai atsiranda sisteminių stebėjimo taškų nukrypimų nuo regresijos linijos, o tai gali sukelti autokoreliaciją.
2. Inercija. Daugelis ekonominių rodiklių (infliacija, nedarbas, BNP ir kt.) turi tam tikrą cikliškumą, susijusį su verslo veiklos bangavimu. Todėl rodiklių pokytis neįvyksta akimirksniu, o turi tam tikrą inerciją.
3. Tinklo efektas. Daugelyje pramonės ir kitų sričių ekonominiai rodikliai į ekonominių sąlygų pokyčius reaguoja su vėlavimu (laiko uždelsimu).
4. Duomenų išlyginimas. Dažnai tam tikro ilgo laikotarpio duomenys gaunami apskaičiuojant duomenų vidurkį per juos sudarančius intervalus. Tai gali lemti tam tikrą svyravimų, egzistavusių per nagrinėjamą laikotarpį, išlyginimą, o tai savo ruožtu gali sukelti autokoreliaciją.
Autokoreliacijos pasekmės yra panašios į heteroskedastiškumo: regresijos koeficiento ir determinacijos koeficiento reikšmingumą lemiančios t ir F statistikos išvados gali būti neteisingos.

Autokoreliacijos aptikimas

1. Grafinis metodas
Yra keletas grafinio autokoreliacijos apibrėžimo parinkčių. Vienas iš jų nukrypimus e i sieja su jų gavimo momentais i. Tuo pačiu metu išilgai abscisių ašies brėžiamas arba statistinių duomenų gavimo laikas, arba stebėjimo eilės numeris, o išilgai ordinačių ašies – nuokrypiai e i (arba nukrypimų įverčiai).
Natūralu manyti, kad jei tarp nukrypimų yra tam tikras ryšys, tada vyksta autokoreliacija. Priklausomybės nebuvimas greičiausiai parodys autokoreliacijos nebuvimą.
Autokoreliacija tampa aiškesnė, jei nubraižote e i prieš e i-1 .

Durbino-Watsono testas.
Šis kriterijus yra geriausiai žinomas autokoreliacijai nustatyti.
Atliekant statistinę regresijos lygčių analizę, pradinėje stadijoje dažnai tikrinama vienos prielaidos įgyvendinamumas: sąlygos nukrypimų viena nuo kitos statistinei nepriklausomybei. Šiuo atveju tikrinamas gretimų reikšmių e i nekoreliavimas.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Nukrypimų koreliacijai analizuoti naudojama Durbin-Watson statistika:

Kritinės reikšmės d 1 ir d 2 nustatomos pagal specialias lenteles reikiamam reikšmingumo lygiui α, stebėjimų skaičiui n = 9 ir aiškinamųjų dydžių skaičiui m = 1.
Autokoreliacijos nėra, jei yra teisinga ši sąlyga:
d1< DW и d 2 < DW < 4 - d 2 .
Nesikreipiant į lenteles, galime naudoti apytikslę taisyklę ir daryti prielaidą, kad likučių autokoreliacijos nėra, jei 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Koreliacijos priklausomybių tyrimas yra pagrįstas tokių kintamųjų ryšių tyrimu, kai vieno kintamojo reikšmės gali būti laikomos priklausomu kintamuoju, „vidutiniškai“ keičiasi priklausomai nuo to, kokias reikšmes turi kitas kintamasis, laikoma priežastimi priklausomo kintamojo atžvilgiu. Šios priežasties veiksmas vykdomas sudėtingos įvairių veiksnių sąveikos sąlygomis, dėl kurių modelio pasireiškimas yra užtemdytas atsitiktinumų įtakos. Apskaičiuojant vidutines gauto požymio reikšmes tam tikrai atributo faktoriaus verčių grupei, tikimybės įtaka iš dalies pašalinama. Skaičiuojant teorinės komunikacijos linijos parametrus, jie toliau eliminuojami ir gaunamas nedviprasmiškas (formos) pokytis "y" pasikeitus faktoriui "x".

Stochastiniams ryšiams tirti plačiai naudojamas dviejų lygiagrečių eilučių palyginimo metodas, analitinės grupavimo metodas, koreliacinė analizė, regresinė analizė ir kai kurie neparametriniai metodai. Apskritai, statistikos uždavinys santykių tyrimo srityje yra ne tik kiekybiškai įvertinti jų buvimą, ryšio kryptį ir stiprumą, bet ir nustatyti faktorių charakteristikų įtakos gaunamam ryšiui formą (analitinę išraišką). Jai išspręsti naudojami koreliacinės ir regresinės analizės metodai.

1 SKYRIUS. REGRESIJOS LYGTIS: TEORINIAI PAGRINDAI

1.1. Regresijos lygtis: funkcijų esmė ir rūšys

Regresija (lot. regressio - atvirkštinis judėjimas, perėjimas nuo sudėtingesnių vystymosi formų prie mažiau sudėtingų) yra viena iš pagrindinių tikimybių teorijos ir matematinės statistikos sąvokų, išreiškianti atsitiktinio dydžio vidutinės vertės priklausomybę nuo kitas atsitiktinis dydis arba keli atsitiktiniai dydžiai. Šią koncepciją 1886 m. pristatė Francisas Galtonas.

Teorinė regresijos linija – tai linija, aplink kurią grupuojami koreliacijos lauko taškai ir kuri nurodo pagrindinę kryptį, pagrindinę ryšio tendenciją.

Teorinė regresijos linija turėtų atspindėti efektyvaus požymio "y" vidutinių verčių pokytį, kai pasikeičia veiksnio požymio "x" reikšmės, su sąlyga, kad visa kita - atsitiktinė veiksnio "x" atžvilgiu - priežastys abipusiai panaikinamos. Todėl šią tiesę reikia nubrėžti taip, kad koreliacijos lauko taškų nuokrypių suma nuo atitinkamų teorinės regresijos linijos taškų būtų lygi nuliui, o šių nuokrypių kvadratų suma būtų minimali. vertė.

y=f(x) – regresijos lygtis yra statistinio ryšio tarp kintamųjų formulė.

Tiesė plokštumoje (dviejų matmenų erdvėje) pateikiama lygtimi y=a+b*x. Išsamiau: kintamasis y gali būti išreikštas konstanta (a) ir nuolydžiu (b), padauginta iš kintamojo x. Konstanta kartais dar vadinama pertrauka, o nuolydis taip pat vadinamas regresija arba B faktoriumi.

Svarbus regresinės analizės žingsnis yra nustatyti funkcijos tipą, apibūdinantį ryšį tarp požymių. Pagrindinis pagrindas turėtų būti prasminga tiriamos priklausomybės pobūdžio, jos mechanizmo analizė. Tuo pačiu metu toli gražu ne visada įmanoma teoriškai pagrįsti kiekvieno veiksnio ryšio su veiklos rodikliu formą, nes tiriami socialiniai ir ekonominiai reiškiniai yra labai sudėtingi, o jų lygį formuojantys veiksniai yra glaudžiai persipynę ir sąveikauja. vienas su kitu. Todėl, remiantis teorine analize, dažnai galima daryti pačias bendriausias išvadas dėl santykių krypties, jo kitimo galimybės tiriamoje populiacijoje, tiesinio ryšio naudojimo teisėtumo, galimo kraštutinių vertybių buvimo. ir kt. Būtinas tokių prielaidų papildymas turėtų būti konkrečių faktinių duomenų analizė.

Apytikslę sąsajos linijos idėją galima gauti remiantis empirine regresijos linija. Empirinė regresijos linija dažniausiai yra trūkinė, turi daugiau ar mažiau reikšmingą lūžį. Tai paaiškinama tuo, kad kitų neįskaitytų veiksnių, turinčių įtakos gaunamo požymio kitimui, įtaka vidurkiu nėra pilnai kompensuojama dėl nepakankamai didelio stebėjimų skaičiaus, todėl atrankai ir pagrindimui galima naudoti empirinį ryšį. teorinės kreivės tipas, jei stebėjimų skaičius yra pakankamai didelis.

Vienas iš konkrečių tyrimų elementų yra įvairių priklausomybių lygčių palyginimas, remiantis kokybės kriterijų naudojimu empiriniams duomenims aproksimuoti konkuruojančiais modeliais Ekonominių rodiklių ryšiams charakterizuoti dažniausiai naudojami šie funkcijų tipai:

1. Linijinis:

2. Hiperbolinis:

3. Demonstracinis:

4. Parabolinis:

5. Galia:

6. Logaritminis:

7. Logistika:

Modelis su vienu aiškinamuoju ir vienu aiškinamuoju kintamuoju yra suporuotas regresijos modelis. Jei naudojami du ar daugiau aiškinamųjų (faktorinių) kintamųjų, tada kalbama apie daugialypės regresijos modelio naudojimą. Šiuo atveju kaip parinktys gali būti pasirinktos tiesinės, eksponentinės, hiperbolinės, eksponentinės ir kitų tipų funkcijos, jungiančios šiuos kintamuosius.

Norint rasti parametrus a ir b, regresijos lygtys naudoja mažiausių kvadratų metodą. Naudojant mažiausių kvadratų metodą, norint rasti tokią funkciją, kuri geriausiai atitinka empirinius duomenis, manoma, kad empirinių taškų nuokrypių kvadratas nuo teorinės regresijos linijos turėtų būti mažiausia reikšmė.

Mažiausių kvadratų metodo kriterijus gali būti parašytas taip:

Todėl mažiausių kvadratų metodo taikymas nustatant tiesės parametrus a ir b, geriausiai atitinkančią empirinius duomenis, yra sumažintas iki ekstremumo problemos.

Kalbant apie reitingus, galima padaryti tokias išvadas:

1. Mažiausių kvadratų įverčiai yra atrankos funkcijos, todėl jas lengva apskaičiuoti.

2. Mažiausių kvadratų įverčiai yra taškiniai teorinių regresijos koeficientų įverčiai.

3. Empirinė regresijos linija būtinai eina per tašką x, y.

4. Empirinės regresijos lygtis sudaroma taip, kad nuokrypių suma

.

Empirinės ir teorinės komunikacijos linijos grafinis vaizdas parodytas 1 paveiksle.


Parametras b lygtyje yra regresijos koeficientas. Jei yra tiesioginė koreliacija, regresijos koeficientas turi teigiamą reikšmę, o atvirkštinio ryšio atveju – neigiamas. Regresijos koeficientas parodo, kiek vidutiniškai pasikeičia efektyvaus požymio „y“ reikšmė, kai faktoriaus atributas „x“ pasikeičia vienu. Geometriškai regresijos koeficientas yra tiesės, vaizduojančios koreliacijos lygtį, nuolydis x ašies atžvilgiu (lygčiai

).

Daugiamatės statistinės analizės šaka, skirta priklausomybėms atkurti, vadinama regresine analize. Terminas „tiesinės regresijos analizė“ vartojamas, kai nagrinėjama funkcija tiesiškai priklauso nuo įvertintų parametrų (priklausomybė nuo nepriklausomų kintamųjų gali būti savavališka). Vertinimo teorija

nežinomi parametrai yra gerai išvystyti būtent tiesinės regresijos analizės atveju. Jei nėra tiesiškumo ir neįmanoma pereiti prie tiesinės problemos, tada, kaip taisyklė, nereikėtų tikėtis gerų savybių iš įverčių. Parodykime metodus įvairių tipų priklausomybių atveju. Jei priklausomybė turi daugianario formą (dauginamą). Jei koreliacijos skaičiavimas apibūdina dviejų kintamųjų ryšio stiprumą, tai regresinė analizė padeda nustatyti šio ryšio tipą ir leidžia numatyti vieno (priklausomo) kintamojo vertę pagal kito (nepriklausomo) kintamojo reikšmę. Norint atlikti tiesinės regresijos analizę, priklausomas kintamasis turi turėti intervalo (arba eilės) skalę. Tuo pačiu metu dvejetainė logistinė regresija atskleidžia dichotominio kintamojo priklausomybę nuo kurio nors kito kintamojo, susijusio su bet kokia skale. Tos pačios taikymo sąlygos galioja ir probit analizei. Jei priklausomasis kintamasis yra kategoriškas, bet turi daugiau nei dvi kategorijas, tai čia tinkamas metodas bus daugianarė logistinė regresija ir galima analizuoti netiesinius ryšius tarp kintamųjų, priklausančių intervalo skalei. Tam skirtas netiesinės regresijos metodas.

Esant tiesiniam dviejų tiriamų charakteristikų ryšio tipui, be koreliacijų skaičiavimo, naudojamas ir regresijos koeficiento skaičiavimas.

Tiesiosios koreliacijos ryšio atveju kiekvienas iš vieno požymio pasikeitimų atitinka tiksliai apibrėžtą kito požymio pokytį. Tačiau koreliacijos koeficientas šį ryšį parodo tik santykiniais dydžiais – vieneto trupmenomis. Regresinės analizės pagalba ši ryšio reikšmė gaunama įvardytais vienetais. Reikšmė, kuria pirmasis ženklas pasikeičia vidutiniškai, kai antrasis pasikeičia matavimo vienetu, vadinama regresijos koeficientu.

Skirtingai nuo koreliacinės analizės, regresinė analizė suteikia daugiau informacijos, nes apskaičiuojant du regresijos koeficientus Rx/y ir Ru/x galima nustatyti ir pirmojo ženklo priklausomybę nuo antrojo, ir antrojo nuo pirmojo. Regresijos ryšio išraiška naudojant lygtį leidžia nustatyti kito požymio reikšmę tam tikra vieno atributo reikšme.

Regresijos koeficientas R yra koreliacijos koeficiento ir kiekvienam požymiui apskaičiuotų standartinių nuokrypių santykio sandauga. Jis apskaičiuojamas pagal formulę

kur R - regresijos koeficientas; SX – pirmojo ženklo standartinis nuokrypis, kuris keičiasi pasikeitus antrajam; SU - antrojo ženklo standartinis nuokrypis, dėl kurio pasikeičia pirmasis ženklas; r yra šių požymių koreliacijos koeficientas; x - funkcija; y -argumentas.

Ši formulė nustato x reikšmę keičiant y matavimo vienetui. Jei jums reikia atvirkštinio skaičiavimo, galite rasti y reikšmę, kai x keičiasi vienam matavimo vienetui, naudodami formulę:


Šiuo atveju pasikeičia aktyvus vaidmuo keičiant vieną atributą kito atžvilgiu, lyginant su ankstesne formule, argumentas tampa funkcija ir atvirkščiai. SX ir SY reikšmės paimamos į pavadintą išraišką.

Tarp r ir R reikšmių yra aiškus ryšys, kuris išreiškiamas tuo, kad x regresijos iš y ir y regresijos iš x sandauga yra lygi koreliacijos koeficiento kvadratui, t.y.

Rx/y * Ry/x = r2

Tai rodo, kad koreliacijos koeficientas yra abiejų šios imties regresijos koeficientų verčių geometrinis vidurkis. Šia formule galima patikrinti skaičiavimų teisingumą.

Apdorojant skaitmeninę medžiagą skaičiavimo mašinose, galima naudoti išsamias regresijos koeficiento formules:

R arba


Regresijos koeficientui galima apskaičiuoti jo reprezentatyvumo paklaidą. Regresijos koeficiento paklaida lygi koreliacijos koeficiento paklaidai, padaugintai iš kvadratinių santykių santykio:

Regresijos koeficiento patikimumo kriterijus apskaičiuojamas pagal įprastą formulę:

dėl to jis yra lygus koreliacijos koeficiento patikimumo kriterijui:

tR reikšmės patikimumas nustatomas pagal Stjudento lentelę su  = n - 2, kur n yra stebėjimų porų skaičius.

Kreivinė regresija.

REGRESIJA, KREIVINĖ. Bet kokia netiesinė regresija, kurioje vieno kintamojo (y) pokyčių regresijos lygtis priklauso nuo t pokyčių kito (x) yra kvadratinė, kubinė arba aukštesnės eilės lygtis. Nors matematiškai visada įmanoma gauti regresijos lygtį, kuri atitiktų kiekvieną kreivės „suvingelį“, dauguma šių trikdžių atsiranda dėl atrankos ar matavimo klaidų, o toks „tobulas“ sutapimas nieko neduoda. Ne visada lengva nustatyti, ar kreivinė regresija atitinka duomenų rinkinį, nors yra statistinių testų, leidžiančių nustatyti, ar kiekviena didesnė lygties galia reikšmingai padidina to duomenų rinkinio pritaikymo greitį.

Kreivės pritaikymas atliekamas taip pat, naudojant mažiausiųjų kvadratų metodą, kaip ir tiesių linijų išlygiavimas. Regresijos linija turi atitikti minimalią atstumų kvadratų sumą iki kiekvieno koreliacijos lauko taško. Šiuo atveju (1) lygtyje y reiškia apskaičiuotą funkcijos reikšmę, nustatytą naudojant pasirinktos kreivinės jungties lygtį iš tikrųjų x j reikšmių. Pavyzdžiui, jei jungties aproksimavimui pasirinkta antros eilės parabolė, tai y = a + b x + cx2, (14) .ir skirtumas tarp kreivėje esančio taško ir koreliacijos lauko taško su atitinkamu tašku. argumentas gali būti parašytas panašiai kaip (3) lygtis yj = yj (a + bx + cx2) (15) Šiuo atveju atstumų kvadratu suma nuo kiekvieno koreliacijos lauko taško iki naujos regresijos tiesės tuo atveju antros eilės parabolė turės tokią formą: S 2 = yj 2 = 2 (16) Remiantis minimalia šios sumos sąlyga, S 2 dalinės išvestinės a, b ir c atžvilgiu yra prilygintos nuliui. Atlikę reikiamas transformacijas, gauname trijų lygčių su trimis nežinomaisiais sistemą a, b ir c nustatymui. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4 . (17). Išspręsdami a, b ir c lygčių sistemą, randame regresijos koeficientų skaitines reikšmes. Reikšmės y, x, x2, yx, yx2, x3, x4 randamos tiesiogiai iš gamybos matavimų duomenų. Ryšio sandarumo įvertinimas su kreivine priklausomybe yra teorinis koreliacijos koeficientas xy, kuris yra dviejų dispersijų santykio kvadratinė šaknis: funkcijos apskaičiuotų verčių y "j nuokrypių vidutinis kvadratas p2 pagal rastą regresijos lygtį nuo y reikšmės aritmetinės vidutinės vertės Y iki funkcijos y j tikrųjų verčių nuokrypių y2 vidurkio kvadrato nuo jos aritmetinio vidurkio: xу = ( р2 / y2 ) 1/2 = ( (y "j - Y)2 / (y j - Y)2 ) 1/2 (18) Koreliacijos santykio xу2 kvadratas rodo viso priklausomo kintamojo y kintamumo proporciją dėl x kintamumo argumentas. Šis rodiklis vadinamas determinacijos koeficientu. Skirtingai nuo koreliacijos koeficiento, koreliacijos koeficiento reikšmė gali būti tik teigiamos reikšmės nuo 0 iki 1. Jei ryšio nėra, koreliacijos koeficientas yra lygus nuliui, esant funkciniam ryšiui, lygus vienetui. , o esant skirtingo sandarumo regresiniam ryšiui, koreliacijos koeficientas įgauna reikšmes tarp nulio ir vieneto. Kreivės tipo pasirinkimas turi didelę reikšmę regresinėje analizėje, nes nuo pasirinkto ryšio tipo priklauso aproksimacijos ir statistinio ryšio glaudumo įverčių tikslumas. Paprasčiausias būdas pasirinkti kreivės tipą yra sudaryti koreliacijos laukus ir pasirinkti atitinkamus regresijos lygčių tipus pagal taškų vietą šiuose laukuose. Regresinės analizės metodai leidžia rasti skaitines regresijos koeficientų reikšmes sudėtingiems parametrų ryšių tipams, aprašytiems, pavyzdžiui, aukšto laipsnio polinomais. Dažnai kreivės tipą galima nustatyti remiantis nagrinėjamo proceso ar reiškinio fizine prigimtimi. Sparčiai besikeičiantiems procesams apibūdinti prasminga naudoti aukšto laipsnio polinomus, jei šių procesų parametrų svyravimo ribos yra reikšmingos. Kalbant apie metalurginio proceso tyrimą, pakanka naudoti žemesnės eilės kreives, pavyzdžiui, antros eilės parabolę. Ši kreivė gali turėti vieną ekstremumą, kurio, kaip parodė praktika, visiškai pakanka įvairioms metalurginio proceso savybėms apibūdinti. Porų koreliacinio ryšio parametrų skaičiavimo rezultatai būtų patikimi ir turėtų praktinės vertės, jei naudojama informacija būtų gauta esant plataus diapazono argumentų svyravimų sąlygoms su visų kitų proceso parametrų pastovumu. Todėl parametrų porinio koreliacinio ryšio tyrimo metodai gali būti naudojami sprendžiant praktines problemas tik tada, kai yra pasitikėjimo, kad funkcijai nėra kitų rimtų įtakų, išskyrus analizuojamą argumentą. Gamybos sąlygomis ilgą laiką tokiu būdu atlikti proceso neįmanoma. Tačiau jei turime informacijos apie pagrindinius proceso parametrus, turinčius įtakos jo rezultatams, tai matematiškai galima atmesti šių parametrų įtaką ir „gryna forma“ išskirti mus dominančios funkcijos ir argumento ryšį. . Toks ryšys vadinamas privačiu arba individualiu. Jai nustatyti naudojamas daugkartinės regresijos metodas.

koreliacinis ryšys.

Koreliacijos koeficientas ir koreliacijos indeksas yra skaitinės charakteristikos, glaudžiai susijusios su atsitiktinio dydžio samprata, tiksliau, su atsitiktinių dydžių sistema. Todėl norint supažindinti ir nustatyti jų reikšmę bei vaidmenį, būtina paaiškinti atsitiktinių dydžių sistemos sampratą ir kai kurias jiems būdingas savybes.

Du ar daugiau atsitiktinių dydžių, apibūdinančių kokį nors reiškinį, vadinami sistema arba atsitiktinių dydžių kompleksu.

Kelių atsitiktinių dydžių X, Y, Z, …, W sistema paprastai žymima (X, Y, Z, …, W).

Pavyzdžiui, taškas plokštumoje apibūdinamas ne viena koordinate, o dviem, o erdvėje – net trimis.

Kelių atsitiktinių dydžių sistemos savybės neapsiriboja atskirų į sistemą įtrauktų atsitiktinių dydžių savybėmis, bet apima ir tarpusavio ryšius (priklausomybes) tarp atsitiktinių dydžių. Todėl tiriant atsitiktinių dydžių sistemą reikėtų atkreipti dėmesį į priklausomybės pobūdį ir laipsnį. Ši priklausomybė gali būti daugiau ar mažiau ryški, daugiau ar mažiau artima. O kitais atvejais atsitiktiniai dydžiai pasirodo esą praktiškai nepriklausomi.

Atsitiktinis dydis Y vadinamas nepriklausomu nuo atsitiktinio dydžio X, jei atsitiktinio dydžio Y pasiskirstymo dėsnis nepriklauso nuo kintamojo X reikšmės.

Pažymėtina, kad atsitiktinių dydžių priklausomybė ir nepriklausomybė visada yra abipusis reiškinys: jei Y nepriklauso nuo X, tai X reikšmė nepriklauso nuo Y. Atsižvelgdami į tai, galime pateikti tokį dydžių nepriklausomumo apibrėžimą. atsitiktiniai dydžiai.

Atsitiktiniai dydžiai X ir Y vadinami nepriklausomais, jei kiekvieno iš jų pasiskirstymo dėsnis nepriklauso nuo to, kokią reikšmę įgavo kitas. Kitu atveju dydžiai X ir Y vadinami priklausomais.

Atsitiktinio dydžio pasiskirstymo dėsnis yra bet koks ryšys, nustatantis ryšį tarp galimų atsitiktinio dydžio dydžių ir atitinkamų tikimybių.

Tikimybių teorijoje vartojama atsitiktinių dydžių „priklausomybės“ sąvoka šiek tiek skiriasi nuo įprastos matematikoje vartojamos kintamųjų „priklausomybės“ sąvokos. Taigi matematikas „priklausomybe“ reiškia tik vieną priklausomybės rūšį – visišką, standžią, vadinamąją funkcinę priklausomybę. Du dydžiai X ir Y vadinami funkciškai priklausomais, jei žinant vieno iš jų reikšmę galima tiksliai nustatyti kito reikšmę.

Tikimybių teorijoje yra šiek tiek kitoks priklausomybės tipas – tikimybinė priklausomybė. Jei Y reikšmė su X reikšme siejama tikimybine priklausomybe, tai žinant X reikšmę, neįmanoma tiksliai nurodyti Y reikšmės, tačiau galima nurodyti jos pasiskirstymo dėsnį, priklausomai nuo to, kokią reikšmę turi reikšmė. iš X paėmė.

Tikimybinė priklausomybė gali būti daugiau ar mažiau artima; didėjant tikimybinės priklausomybės sandarumui, ji vis labiau artėja prie funkcinės. Taigi funkcinė priklausomybė gali būti laikoma kraštutiniu, ribojančiu artimiausios tikimybinės priklausomybės atveju. Kitas kraštutinis atvejis yra visiška atsitiktinių dydžių nepriklausomybė. Tarp šių dviejų kraštutinių atvejų yra visos tikimybinės priklausomybės gradacijos – nuo ​​stipriausios iki silpniausios.

Praktikoje dažnai susiduriama su tikimybine priklausomybe tarp atsitiktinių dydžių. Jeigu atsitiktiniai dydžiai X ir Y yra tikimybinėje priklausomybėje, tai nereiškia, kad pasikeitus X reikšmei, Y reikšmė kinta gana apibrėžtu būdu; tai tiesiog reiškia, kad keičiantis X, Y taip pat linkęs keistis (padidėti arba mažėti, kai X didėja). Ši tendencija pastebima tik bendrais bruožais ir kiekvienu atskiru atveju galimi nukrypimai nuo jos.