Tiesinės regresijos pagrindai. Regresijos lygties koeficientas rodo koreliaciją ir regresijos analizę

Regresinė analizė – tai statistinio tyrimo metodas, leidžiantis parodyti parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų. Ikikompiuterinėje eroje jį naudoti buvo gana sunku, ypač kai buvo kalbama apie didelius duomenų kiekius. Šiandien, išmokę sukurti regresiją programoje „Excel“, galite vos per kelias minutes išspręsti sudėtingas statistines problemas. Žemiau pateikiami konkretūs pavyzdžiai iš ekonomikos srities.

Regresijos rūšys

Pati sąvoka buvo įvesta į matematiką 1886 m. Regresija vyksta:

  • linijinis;
  • parabolinis;
  • galia;
  • eksponentinis;
  • hiperbolinis;
  • parodomasis;
  • logaritminis.

1 pavyzdys

Apsvarstykite problemą, kaip nustatyti išėjusių komandos narių skaičiaus priklausomybę nuo vidutinio atlyginimo 6 pramonės įmonėse.

Užduotis. Šešiose įmonėse išanalizavome vidutinį mėnesinį atlyginimą ir savo noru išvykusių darbuotojų skaičių. Lentelės pavidalu turime:

Išvykusių žmonių skaičius

Atlyginimas

30 000 rublių

35 000 rublių

40 000 rublių

45 000 rublių

50 000 rublių

55 000 rublių

60 000 rublių

Išėjusių į pensiją darbuotojų skaičiaus priklausomybės nuo vidutinio darbo užmokesčio 6 įmonėse nustatymo problemai regresijos modelis turi lygtį Y = a 0 + a 1 x 1 +…+akxk , kur xi yra įtakojantys kintamieji. , ai yra regresijos koeficientai, ak yra veiksnių skaičius.

Šiai užduočiai Y yra išėjusių darbuotojų rodiklis, o įtakojantis veiksnys – atlyginimas, kurį žymime X.

Naudojant skaičiuoklės "Excel" galimybes

Prieš atliekant regresinę analizę programoje „Excel“, turimiems lentelės duomenims turi būti pritaikytos integruotos funkcijos. Tačiau šiems tikslams geriau naudoti labai naudingą priedą „Analysis Toolkit“. Norėdami jį suaktyvinti, jums reikia:

  • iš skirtuko „Failas“ eikite į skyrių „Parinktys“;
  • atsidariusiame lange pasirinkite eilutę „Priedai“;
  • spustelėkite mygtuką „Eiti“, esantį apačioje, dešinėje eilutės „Valdymas“ pusėje;
  • pažymėkite langelį šalia pavadinimo „Analytics Package“ ir patvirtinkite savo veiksmus spustelėdami „Gerai“.

Jei viskas bus padaryta teisingai, dešinėje skirtuko Duomenys pusėje, esančioje virš Excel darbalapio, atsiras norimas mygtukas.

programoje Excel

Dabar, kai turime visus reikiamus virtualius įrankius ekonometriniams skaičiavimams atlikti, galime pradėti spręsti savo problemą. Už tai:

  • spustelėkite mygtuką „Duomenų analizė“;
  • atsidariusiame lange spustelėkite mygtuką „Regresija“;
  • pasirodžiusiame skirtuke įveskite Y (darbuotojų, kurie išėjo iš darbo) ir X (jų atlyginimų) reikšmių diapazoną;
  • Savo veiksmus patvirtiname paspausdami mygtuką „Gerai“.

Dėl to programa automatiškai užpildys naują skaičiuoklės lapą su regresinės analizės duomenimis. Pastaba! „Excel“ turi galimybę rankiniu būdu nustatyti norimą vietą šiam tikslui. Pavyzdžiui, tai gali būti tas pats lapas, kuriame yra Y ir X reikšmės, arba net nauja darbaknygė, specialiai sukurta tokiems duomenims saugoti.

R kvadrato regresijos rezultatų analizė

Programoje „Excel“ duomenys, gauti apdorojant nagrinėjamo pavyzdžio duomenis, atrodo taip:

Visų pirma, turėtumėte atkreipti dėmesį į R kvadrato vertę. Tai yra determinacijos koeficientas. Šiame pavyzdyje R kvadratas = 0,755 (75,5%), tai yra modelio apskaičiuoti parametrai paaiškina ryšį tarp nagrinėjamų parametrų 75,5%. Kuo didesnė determinacijos koeficiento reikšmė, tuo labiau pritaikytas tam tikrai užduočiai pasirinktas modelis. Manoma, kad jis teisingai apibūdina tikrąją situaciją, kai R kvadrato reikšmė viršija 0,8. Jei R kvadratas<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Santykio analizė

Skaičius 64,1428 rodo, kokia bus Y reikšmė, jei visi mūsų svarstomo modelio kintamieji xi bus nustatyti į nulį. Kitaip tariant, galima teigti, kad analizuojamo parametro reikšmei įtakos turi ir kiti veiksniai, kurie nėra aprašyti konkrečiame modelyje.

Kitas koeficientas -0,16285, esantis langelyje B18, parodo kintamojo X įtakos Y svorį. Tai reiškia, kad vidutinis darbuotojų mėnesinis atlyginimas nagrinėjamame modelyje įtakoja išeinančių iš darbo su -0,16285 svoriu, t. jo įtakos laipsnis visai mažas. „-“ ženklas rodo, kad koeficientas turi neigiamą reikšmę. Tai akivaizdu, nes visi žino, kad kuo didesnis atlyginimas įmonėje, tuo mažiau žmonių pareiškia norą nutraukti darbo sutartį ar išeiti iš darbo.

Daugkartinė regresija

Šis terminas reiškia ryšio lygtį su keliais nepriklausomais formos kintamaisiais:

y \u003d f (x 1 + x 2 + ... x m) + ε, kur y yra efektyvusis požymis (priklausomas kintamasis), o x 1 , x 2 , ... x m yra faktorių veiksniai (nepriklausomi kintamieji).

Parametrų įvertinimas

Daugkartinei regresijai (MR) ji atliekama naudojant mažiausių kvadratų metodą (OLS). Y = a + b 1 x 1 +…+b m x m + ε formos tiesinėms lygtims sudarome normaliųjų lygčių sistemą (žr. toliau)

Norėdami suprasti metodo principą, apsvarstykite dviejų veiksnių atvejį. Tada turime situaciją, aprašytą formule

Iš čia gauname:

kur σ yra atitinkamo požymio, atsispindinčio indekse, dispersija.

LSM taikomas MP lygčiai standartizuotoje skalėje. Šiuo atveju gauname lygtį:

kur t y , t x 1, … t xm yra standartizuoti kintamieji, kurių vidutinės reikšmės yra 0; β i yra standartizuoti regresijos koeficientai, o standartinis nuokrypis yra 1.

Atkreipkite dėmesį, kad visi β i šiuo atveju yra nustatyti kaip normalizuoti ir centralizuoti, todėl jų palyginimas vienas su kitu laikomas teisingu ir leistinu. Be to, įprasta filtruoti veiksnius, atmetant tuos, kurių βi reikšmės yra mažiausios.

Problema naudojant tiesinės regresijos lygtį

Tarkime, kad yra konkretaus produkto N kainų dinamikos lentelė per paskutinius 8 mėnesius. Būtina apsispręsti, ar tikslinga pirkti jos partiją už 1850 rub./t.

mėnesio numeris

mėnesio pavadinimas

Prekės kaina N

1750 rublių už toną

1755 rubliai už toną

1767 rubliai už toną

1760 rublių už toną

1770 rublių už toną

1790 rublių už toną

1810 rublių už toną

1840 rublių už toną

Norėdami išspręsti šią problemą Excel skaičiuoklėje, turite naudoti duomenų analizės įrankį, jau žinomą iš aukščiau pateikto pavyzdžio. Tada pasirinkite skyrių „Regresija“ ir nustatykite parametrus. Reikia atsiminti, kad lauke „Įvesties Y intervalas“ turi būti įvestas priklausomo kintamojo reikšmių diapazonas (šiuo atveju prekės kaina konkrečiais metų mėnesiais), o lauke „Įvestis“. X intervalas“ – nepriklausomam kintamajam (mėnesio skaičiui). Patvirtinkite veiksmą spustelėdami „Gerai“. Naujame lape (jei taip buvo nurodyta) gauname regresijos duomenis.

Remdamiesi jais, sudarome y=ax+b formos tiesinę lygtį, kur parametrai a ir b yra eilutės su mėnesio numerio pavadinimu koeficientai ir koeficientai bei eilutės „Y sankirta“ iš lapą su regresinės analizės rezultatais. Taigi 3 uždavinio tiesinės regresijos lygtis (LE) parašyta taip:

Prekės kaina N = 11.714* mėn numeris + 1727.54.

arba algebriniu žymėjimu

y = 11,714 x + 1727,54

Rezultatų analizė

Norint nuspręsti, ar gauta tiesinės regresijos lygtis yra adekvati, naudojami daugybiniai koreliacijos koeficientai (MCC) ir determinacijos koeficientai, taip pat Fišerio testas ir Stjudento testas. „Excel“ lentelėje su regresijos rezultatais jie rodomi atitinkamai kelių R, ​​R kvadrato, F statistikos ir t statistikos pavadinimais.

KMC R leidžia įvertinti tikimybinio ryšio tarp nepriklausomų ir priklausomų kintamųjų sandarumą. Didelė jo reikšmė rodo gana stiprų ryšį tarp kintamųjų „Mėnesio skaičius“ ir „Prekių kaina N rubliais už 1 toną“. Tačiau šių santykių pobūdis lieka nežinomas.

Determinacijos koeficiento kvadratas R 2 (RI) yra skaitinė bendros sklaidos dalies charakteristika ir parodo, kurios eksperimentinių duomenų dalies sklaida, t.y. priklausomo kintamojo reikšmės atitinka tiesinės regresijos lygtį. Nagrinėjamoje užduotyje ši reikšmė lygi 84,8%, t.y. gautu SD statistinius duomenis aprašo labai tiksliai.

F-statistika, dar vadinama Fišerio testu, naudojama tiesinio ryšio reikšmingumui įvertinti, paneigiant arba patvirtinant jo egzistavimo hipotezę.

(Studento kriterijus) padeda įvertinti koeficiento su nežinomu arba laisvuoju tiesinio ryšio nariu reikšmingumą. Jei t kriterijaus reikšmė > t cr, tai tiesinės lygties laisvojo nario nereikšmingumo hipotezė atmetama.

Nagrinėjamoje laisvojo nario užduotyje, naudojant Excel įrankius, buvo gauta, kad t = 169,20903, o p = 2,89E-12, ty turime nulinę tikimybę, kad bus teisinga hipotezė apie laisvojo nario nereikšmingumą. būti atmestas. Koeficientui esant nežinomam t=5,79405, o p=0,001158. Kitaip tariant, tikimybė, kad teisinga hipotezė apie koeficiento nereikšmiškumą nežinomam bus atmesta yra 0,12%.

Taigi galima teigti, kad gauta tiesinės regresijos lygtis yra adekvati.

Akcijų paketo pirkimo tikslingumo problema

Daugkartinė regresija programoje „Excel“ atliekama naudojant tą patį duomenų analizės įrankį. Apsvarstykite konkrečią taikomą problemą.

NNN vadovybė turi priimti sprendimą, ar tikslinga įsigyti 20% MMM SA akcijų. Paketo (JV) kaina yra 70 milijonų JAV dolerių. NNN specialistai surinko duomenis apie panašius sandorius. Nutarta akcijų paketo vertę vertinti pagal tokius parametrus, išreikštus milijonais JAV dolerių, kaip:

  • mokėtinos sumos (VK);
  • metinė apyvarta (VO);
  • gautinos sumos (VD);
  • ilgalaikio turto savikaina (SOF).

Be to, naudojamas parametras įmonės darbo užmokesčio įsiskolinimas (V3 P) tūkstančiais JAV dolerių.

Sprendimas naudojant „Excel“ skaičiuoklę

Pirmiausia turite sukurti pradinių duomenų lentelę. Tai atrodo taip:

  • iškviesti langą „Duomenų analizė“;
  • pasirinkite skyrių „Regresija“;
  • laukelyje „Įvesties intervalas Y“ įveskite priklausomų kintamųjų verčių diapazoną iš G stulpelio;
  • spustelėkite piktogramą su raudona rodykle lango „Įvesties intervalas X“ dešinėje ir pasirinkite visų verčių diapazoną iš lapo stulpelių B, C, D, F.

Pasirinkite „Naujas darbalapis“ ir spustelėkite „Gerai“.

Gaukite pateiktos problemos regresinę analizę.

Rezultatų nagrinėjimas ir išvados

Iš aukščiau pateiktų suapvalintų duomenų „Excel“ skaičiuoklės lape „renkame“ regresijos lygtį:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Labiau pažįstama matematine forma jis gali būti parašytas taip:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Duomenys apie UAB "MMM" pateikti lentelėje:

Pakeitę juos į regresijos lygtį, jie gauna 64,72 mln. JAV dolerių. Tai reiškia, kad UAB „MMM“ akcijos neturėtų būti perkamos, nes jų 70 mln. JAV dolerių vertė yra pervertinta.

Kaip matote, Excel skaičiuoklės ir regresijos lygties naudojimas leido priimti pagrįstą sprendimą dėl labai konkrečios operacijos pagrįstumo.

Dabar jūs žinote, kas yra regresija. Aukščiau aptarti „Excel“ pavyzdžiai padės išspręsti praktines ekonometrijos srities problemas.

REGRESIJOS KOEFICIENTAS

- Anglų koeficientas, regresija; vokiečių kalba Regresijoskoeffizient. Viena iš priklausomo y ir nepriklausomo kintamojo x ryšio charakteristikų. K. r. parodo, kiek vienetų padidėja y priimta reikšmė, jei kintamasis x pasikeičia vienu jo pokyčio vienetu. Geometriškai K. r. yra tiesės y nuolydis.

Antinazi. Sociologijos enciklopedija, 2009

Pažiūrėkite, kas yra „REGRESIJAS KOEFICIENTAS“ kituose žodynuose:

    regresijos koeficientas- - [L.G. Sumenko. Anglų rusų informacinių technologijų žodynas. M .: GP TsNIIS, 2003.] Temos informacinės technologijos apskritai EN regresijos koeficientas ... Techninis vertėjo vadovas

    Regresijos koeficientas- 35. Regresijos koeficientas Regresinės analizės modelio parametras Šaltinis: GOST 24026 80: Tyrimo testai. Eksperimento planavimas. Terminai ir apibrėžimai…

    regresijos koeficientas- Nepriklausomo kintamojo koeficientas regresijos lygtyje ... Sociologinės statistikos žodynas

    REGRESIJOS KOEFICIENTAS- Anglų. koeficientas, regresija; vokiečių kalba Regresijoskoeffizient. Viena iš priklausomo y ir nepriklausomo kintamojo x ryšio charakteristikų. K. r. parodo, kiek vienetų padidėja y priimta reikšmė, jei kintamasis x pasikeičia į ... ... Aiškinamasis sociologijos žodynas

    imties regresijos koeficientas- 2.44. imties regresijos koeficientas Kintamojo koeficientas regresijos kreivėje arba paviršiaus lygtyje Šaltinis: GOST R 50779.10 2000: Statistiniai metodai. Statistikos tikimybė ir pagrindai. Terminai ir apibrėžimai… Norminės ir techninės dokumentacijos terminų žodynas-žinynas

    Dalinės regresijos koeficientas- statistinis matas, rodantis nepriklausomo kintamojo įtakos priklausomam asmeniui laipsnį, kai visų kitų modelio kintamųjų tarpusavio įtaką kontroliuoja tyrėjas ... Sociologijos žodynas Socium

    REGRESIJAS, SVORIS- Regresijos koeficiento sąvokos sinonimas ... Aiškinamasis psichologijos žodynas

    PAVELDIMUMO KOEFICIENTAS– santykinės genetinio kintamumo dalies bendroje fenotipinėje požymio variacijoje rodiklis. Dažniausiai naudojami ekonomiškai naudingų požymių paveldimumo vertinimo metodai: čia h2 – paveldimumo koeficientas; r intraclass…… Ūkinių gyvūnų veisime, genetikoje ir reprodukcijoje vartojami terminai ir apibrėžimai

    - (R kvadratas) yra priklausomo kintamojo dispersijos dalis, paaiškinama nagrinėjamu priklausomybės modeliu, ty aiškinamaisiais kintamaisiais. Tiksliau, tai yra vienas atėmus nepaaiškinamos dispersijos proporciją (modelio atsitiktinės paklaidos dispersija arba sąlyginė ... ... Vikipedija

    Nepriklausomo kintamojo koeficientas regresijos lygtyje. Taigi, pavyzdžiui, tiesinės regresijos lygtyje, jungiančioje atsitiktinius dydžius Y ir X, R. k. b0 ir b1 yra lygūs: čia r yra X ir Y koreliacijos koeficientas, . Sąmatų skaičiavimas R. k. Matematinė enciklopedija

Knygos

  • Įvadas į ekonometriją (CDpc), Yanovsky Leonid Petrovich, Bukhovets Aleksejus Georgijevičius. Pateikiami ekonometrijos ir vienmačių laiko eilučių statistinės analizės pagrindai. Daug dėmesio skiriama klasikinei porinei ir daugkartinei regresijai, klasikiniams ir apibendrintiems metodams...
  • Greitasis skaitymas. Efektyvus treniruoklis (CDpc), . Programa skirta vartotojams, norintiems įsisavinti greitojo skaitymo techniką per trumpiausią įmanomą laiką. Kursas sudarytas remiantis principu „teorija – praktika“. Teorinė medžiaga ir praktinė ...

Esant tiesiniam dviejų tiriamų charakteristikų ryšio tipui, be koreliacijų skaičiavimo, naudojamas ir regresijos koeficiento skaičiavimas.

Esant tiesiniam koreliacijos ryšiui, kiekvienas iš vieno požymio pasikeitimų atitinka tiksliai apibrėžtą kito požymio pokytį. Tačiau koreliacijos koeficientas šį ryšį parodo tik santykiniais dydžiais – vieneto dalimis. Regresinės analizės pagalba ši ryšio reikšmė gaunama įvardytais vienetais. Reikšmė, kuria pirmasis ženklas pasikeičia vidutiniškai pasikeitus antrajam matavimo vienetu, vadinama regresijos koeficientu.

Skirtingai nuo koreliacinės analizės, regresinė analizė suteikia daugiau informacijos, nes apskaičiuojant du regresijos koeficientus Rx/y Ir Ru/x galima nustatyti ir pirmojo ženklo priklausomybę nuo antrojo, ir antrojo nuo pirmojo. Regresijos ryšio išraiška naudojant lygtį leidžia nustatyti kito požymio reikšmę tam tikra vieno atributo reikšme.

Regresijos koeficientas R yra koreliacijos koeficiento ir standartinių nuokrypių santykio sandauga, apskaičiuota kiekvienam požymiui. Jis apskaičiuojamas pagal formulę

kur R - regresijos koeficientas; SX – pirmojo ženklo standartinis nuokrypis, kuris keičiasi pasikeitus antrajam; SU - antrojo ženklo standartinis nuokrypis, dėl kurio pasikeičia pirmasis ženklas; r yra šių požymių koreliacijos koeficientas; x - funkcija; y -argumentas.

Ši formulė nustato x reikšmę keičiant y matavimo vienetui. Jei jums reikia atvirkštinio skaičiavimo, galite rasti y reikšmę, kai x keičiasi vienam matavimo vienetui, naudodami formulę:


Šiuo atveju pasikeičia aktyvus vaidmuo keičiant vieną atributą kito atžvilgiu, lyginant su ankstesne formule, argumentas tampa funkcija ir atvirkščiai. SX ir SY reikšmės paimamos į pavadintą išraišką.

Tarp r ir R reikšmių yra aiškus ryšys, kuris išreiškiamas tuo, kad x regresijos iš y ir y regresijos iš x sandauga yra lygi koreliacijos koeficiento kvadratui, t.y.

Rx/y * Ry/x = r2

Tai rodo, kad koreliacijos koeficientas yra abiejų šios imties regresijos koeficientų verčių geometrinis vidurkis. Šia formule galima patikrinti skaičiavimų teisingumą.

Apdorojant skaitmeninę medžiagą skaičiavimo mašinose, galima naudoti išsamias regresijos koeficiento formules:

R arba


Regresijos koeficientui galima apskaičiuoti jo reprezentatyvumo paklaidą. Regresijos koeficiento paklaida lygi koreliacijos koeficiento paklaidai, padaugintai iš kvadratinių santykių santykio:

Regresijos koeficiento patikimumo kriterijus apskaičiuojamas pagal įprastą formulę:

dėl to jis yra lygus koreliacijos koeficiento patikimumo kriterijui:

tR reikšmės patikimumas nustatomas pagal Stjudento lentelę su  = n - 2, kur n yra stebėjimų porų skaičius.

Kreivinė regresija.

REGRESIJA, KREIVINĖ. Bet kokia netiesinė regresija, kurioje vieno kintamojo (y) pokyčių regresijos lygtis priklauso nuo t pokyčių kito (x) yra kvadratinė, kubinė arba aukštesnės eilės lygtis. Nors matematiškai visada įmanoma gauti regresijos lygtį, kuri atitiktų kiekvieną kreivės „suvingelį“, dauguma šių trikdžių atsiranda dėl atrankos ar matavimo klaidų, o toks „tobulas“ sutapimas nieko neduoda. Ne visada lengva nustatyti, ar kreivinė regresija tinka duomenų rinkiniui, nors yra statistinių testų, leidžiančių nustatyti, ar kiekviena didesnė lygties galia reikšmingai padidina to duomenų rinkinio pritaikymo greitį.

Kreivės pritaikymas atliekamas taip pat, naudojant mažiausiųjų kvadratų metodą, kaip ir tiesių linijų išlygiavimas. Regresijos linija turi atitikti minimalią atstumų kvadratų sumą iki kiekvieno koreliacijos lauko taško. Šiuo atveju (1) lygtyje y reiškia apskaičiuotą funkcijos reikšmę, nustatytą naudojant pasirinktos kreivinės jungties lygtį iš tikrųjų x j reikšmių. Pavyzdžiui, jei santykio aproksimavimui pasirinkta antros eilės parabolė, tai y = a + bx + cx2, (14) .ir skirtumas tarp kreivėje esančio taško ir koreliacijos lauko taško su atitinkamu tašku. argumentas gali būti parašytas panašiai kaip (3) lygtis yj = yj (a + bx + cx2) (15) Šiuo atveju atstumų kvadratu suma nuo kiekvieno koreliacijos lauko taško iki naujos regresijos tiesės tuo atveju antros eilės parabolė turės tokią formą: S 2 = yj 2 = 2 (16) Remiantis minimalia šios sumos sąlyga, S 2 dalinės išvestinės a, b ir c atžvilgiu yra prilygintos nuliui. Atlikę reikiamas transformacijas, gauname trijų lygčių su trimis nežinomaisiais sistemą a, b ir c nustatymui. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4 . (17). Išspręsdami a, b ir c lygčių sistemą, randame regresijos koeficientų skaitines reikšmes. Reikšmės y, x, x2, yx, yx2, x3, x4 randamos tiesiogiai iš gamybos matavimų duomenų. Ryšio sandarumo įvertinimas su kreivine priklausomybe yra teorinis koreliacijos koeficientas xy, kuris yra dviejų dispersijų santykio kvadratinė šaknis: funkcijos apskaičiuotų verčių y "j nuokrypių vidutinis kvadratas p2 pagal rastą regresijos lygtį nuo y reikšmės aritmetinės vidurkio vertės Y iki funkcijos yj tikrųjų verčių nuokrypių y2 vidurkio kvadrato nuo jos aritmetinio vidurkio: xу = ( р2 / y2 ) 1/2 = ( (y "j - Y)2 / (yj - Y)2 ) 1/2 (18) Koreliacijos santykio xу2 kvadratas rodo viso priklausomo kintamojo y kintamumo proporciją dėl x kintamumo argumentas. Šis rodiklis vadinamas determinacijos koeficientu. Skirtingai nuo koreliacijos koeficiento, koreliacijos koeficiento reikšmė gali būti tik teigiamos reikšmės nuo 0 iki 1. Jei ryšio nėra, koreliacijos koeficientas yra lygus nuliui, esant funkciniam ryšiui, lygus vienetui. , o esant skirtingo sandarumo regresiniam ryšiui, koreliacijos koeficientas įgyja reikšmes tarp nulio ir vieneto. Kreivės tipo pasirinkimas turi didelę reikšmę regresinėje analizėje, nes nuo pasirinkto ryšio tipo priklauso aproksimacijos ir statistinio ryšio glaudumo įverčių tikslumas. Paprasčiausias būdas pasirinkti kreivės tipą yra sudaryti koreliacijos laukus ir pasirinkti atitinkamus regresijos lygčių tipus pagal taškų vietą šiuose laukuose. Regresinės analizės metodai leidžia rasti regresijos koeficientų skaitines reikšmes sudėtingiems parametrų ryšių tipams, aprašytiems, pavyzdžiui, aukšto laipsnio polinomais. Dažnai kreivės tipą galima nustatyti remiantis nagrinėjamo proceso ar reiškinio fizine prigimtimi. Sparčiai besikeičiantiems procesams aprašyti prasminga naudoti aukšto laipsnio polinomus, jei šių procesų parametrų svyravimo ribos yra reikšmingos. Kalbant apie metalurginio proceso tyrimą, pakanka naudoti žemesnės eilės kreives, pavyzdžiui, antros eilės parabolę. Ši kreivė gali turėti vieną ekstremumą, kurio, kaip parodė praktika, visiškai pakanka įvairioms metalurginio proceso savybėms apibūdinti. Porų koreliacinio ryšio parametrų skaičiavimo rezultatai būtų patikimi ir turėtų praktinės vertės, jei naudojama informacija būtų gauta esant plataus diapazono argumentų svyravimų sąlygoms su visų kitų proceso parametrų pastovumu. Todėl parametrų porų koreliacinio ryšio tyrimo metodai gali būti naudojami sprendžiant praktines problemas tik tada, kai yra pasitikėjimo, kad funkcijai nėra kitų rimtų įtakų, išskyrus analizuojamą argumentą. Gamybos sąlygomis ilgą laiką tokiu būdu atlikti proceso neįmanoma. Tačiau jei turime informacijos apie pagrindinius proceso parametrus, turinčius įtakos jo rezultatams, tai matematiškai galima atmesti šių parametrų įtaką ir „gryna forma“ išskirti mus dominančios funkcijos ir argumento ryšį. . Toks ryšys vadinamas privačiu arba individualiu. Jai nustatyti naudojamas daugkartinės regresijos metodas.

koreliacinis ryšys.

Koreliacijos koeficientas ir koreliacijos indeksas yra skaitinės charakteristikos, glaudžiai susijusios su atsitiktinio dydžio samprata, tiksliau, su atsitiktinių dydžių sistema. Todėl norint supažindinti ir nustatyti jų reikšmę bei vaidmenį, būtina paaiškinti atsitiktinių dydžių sistemos sampratą ir kai kurias jiems būdingas savybes.

Du ar daugiau atsitiktinių dydžių, apibūdinančių kokį nors reiškinį, vadinami sistema arba atsitiktinių dydžių kompleksu.

Kelių atsitiktinių dydžių sistema X, Y, Z, …, W paprastai žymima (X, Y, Z, …, W).

Pavyzdžiui, taškas plokštumoje apibūdinamas ne viena koordinate, o dviem, o erdvėje – net trimis.

Kelių atsitiktinių dydžių sistemos savybės neapsiriboja atskirų į sistemą įtrauktų atsitiktinių dydžių savybėmis, bet apima ir tarpusavio ryšius (priklausomybes) tarp atsitiktinių dydžių. Todėl tiriant atsitiktinių dydžių sistemą reikėtų atkreipti dėmesį į priklausomybės pobūdį ir laipsnį. Ši priklausomybė gali būti daugiau ar mažiau ryški, daugiau ar mažiau artima. O kitais atvejais atsitiktiniai dydžiai pasirodo esą praktiškai nepriklausomi.

Atsitiktinis dydis Y vadinamas nepriklausomu nuo atsitiktinio dydžio X, jei atsitiktinio dydžio Y pasiskirstymo dėsnis nepriklauso nuo kintamojo X reikšmės.

Pažymėtina, kad atsitiktinių dydžių priklausomybė ir nepriklausomybė visada yra abipusis reiškinys: jei Y nepriklauso nuo X, tai X reikšmė nepriklauso nuo Y. Atsižvelgdami į tai, galime pateikti tokį dydžių nepriklausomumo apibrėžimą. atsitiktiniai dydžiai.

Atsitiktiniai dydžiai X ir Y vadinami nepriklausomais, jei kiekvieno iš jų pasiskirstymo dėsnis nepriklauso nuo to, kokią reikšmę įgavo kitas. Kitu atveju dydžiai X ir Y vadinami priklausomais.

Atsitiktinio dydžio pasiskirstymo dėsnis yra bet koks ryšys, nustatantis ryšį tarp galimų atsitiktinio dydžio dydžių ir atitinkamų tikimybių.

Tikimybių teorijoje vartojama atsitiktinių dydžių „priklausomybės“ sąvoka šiek tiek skiriasi nuo įprastos matematikoje vartojamos kintamųjų „priklausomybės“ sąvokos. Taigi matematikas „priklausomybe“ reiškia tik vieną priklausomybės rūšį – visišką, standžią, vadinamąją funkcinę priklausomybę. Du dydžiai X ir Y vadinami funkciškai priklausomais, jei žinant vieno iš jų reikšmę galima tiksliai nustatyti kito reikšmę.

Tikimybių teorijoje yra šiek tiek kitoks priklausomybės tipas – tikimybinė priklausomybė. Jei Y reikšmė su X reikšme siejama tikimybine priklausomybe, tai žinant X reikšmę, neįmanoma tiksliai nurodyti Y reikšmės, tačiau galima nurodyti jos pasiskirstymo dėsnį, priklausomai nuo to, kokią reikšmę turi reikšmė. iš X paėmė.

Tikimybinė priklausomybė gali būti daugiau ar mažiau artima; didėjant tikimybinės priklausomybės sandarumui, ji vis labiau artėja prie funkcinės. Taigi funkcinė priklausomybė gali būti laikoma kraštutiniu, ribojančiu artimiausios tikimybinės priklausomybės atveju. Kitas kraštutinis atvejis yra visiška atsitiktinių dydžių nepriklausomybė. Tarp šių dviejų kraštutinių atvejų yra visos tikimybinės priklausomybės gradacijos – nuo ​​stipriausios iki silpniausios.

Praktikoje dažnai susiduriama su tikimybine priklausomybe tarp atsitiktinių dydžių. Jei atsitiktiniai dydžiai X ir Y yra tikimybinėje priklausomybėje, tai nereiškia, kad pasikeitus X reikšmei, Y reikšmė kinta gana apibrėžtu būdu; tai tiesiog reiškia, kad keičiantis X, Y taip pat linkęs keistis (padidėti arba mažėti, kai X didėja). Ši tendencija pastebima tik bendrais bruožais ir kiekvienu atskiru atveju galimi nukrypimai nuo jos.

Studijų metu studentai labai dažnai susiduria su įvairiomis lygtimis. Viena iš jų – regresijos lygtis – nagrinėjama šiame straipsnyje. Šio tipo lygtis naudojama specialiai matematinių parametrų ryšio charakteristikoms apibūdinti. Šis lygybės tipas naudojamas statistikoje ir ekonometrijoje.

Regresijos apibrėžimas

Matematikoje regresija suprantama kaip tam tikras dydis, apibūdinantis duomenų rinkinio vidutinės vertės priklausomybę nuo kito dydžio verčių. Regresijos lygtis, kaip tam tikros ypatybės funkcija, rodo vidutinę kitos savybės reikšmę. Regresijos funkcija yra paprastos lygties y \u003d x forma, kurioje y veikia kaip priklausomas kintamasis, o x yra nepriklausomas kintamasis (ypatybės faktorius). Tiesą sakant, regresija išreiškiama y = f (x).

Kokie yra ryšių tarp kintamųjų tipai

Apskritai išskiriami du priešingi santykių tipai: koreliacija ir regresija.

Pirmajam būdinga sąlyginių kintamųjų lygybė. Šiuo atveju nėra tiksliai žinoma, kuris kintamasis priklauso nuo kito.

Jei tarp kintamųjų nėra lygybės, o sąlygos sako, kuris kintamasis yra aiškinamasis, o kuris priklausomas, tada galime kalbėti apie antrojo tipo ryšio buvimą. Norint sudaryti tiesinės regresijos lygtį, reikės išsiaiškinti, kokio tipo ryšys yra stebimas.

Regresijų rūšys

Iki šiol yra 7 skirtingi regresijos tipai: hiperbolinė, tiesinė, daugkartinė, netiesinė, porinė, atvirkštinė, logaritminė tiesinė.

Hiperbolinis, tiesinis ir logaritminis

Tiesinės regresijos lygtis naudojama statistikoje, siekiant aiškiai paaiškinti lygties parametrus. Atrodo, kad y = c + m * x + E. Hiperbolinė lygtis yra taisyklinga hiperbolė y \u003d c + m / x + E. Logaritmiškai tiesinė lygtis išreiškia ryšį naudojant logaritminę funkciją: In y \u003d In c + m * In x + In E.

Daugialypis ir nelinijinis

Dvi sudėtingesnės regresijos rūšys yra daugybinės ir nelinijinės. Daugialypės regresijos lygtis išreiškiama funkcija y \u003d f (x 1, x 2 ... x c) + E. Šioje situacijoje y yra priklausomasis kintamasis, o x yra aiškinamasis kintamasis. Kintamasis E yra stochastinis ir apima kitų lygties veiksnių įtaką. Netiesinės regresijos lygtis yra šiek tiek nenuosekli. Viena vertus, atsižvelgiant į rodiklius, į kuriuos atsižvelgiama, jis nėra tiesinis, o iš kitos pusės, vertinant rodiklius, jis yra linijinis.

Atvirkštinė ir porinė regresija

Atvirkštinė yra tam tikra funkcija, kurią reikia konvertuoti į tiesinę formą. Tradiciškiausiose taikomosiose programose ji turi funkcijos y \u003d 1 / c + m * x + E formą. Porinės regresijos lygtis rodo ryšį tarp duomenų kaip y = f(x) + E funkciją. Kaip ir kitos lygtys, y priklauso nuo x, o E yra stochastinis parametras.

Koreliacijos samprata

Tai rodiklis, parodantis ryšį tarp dviejų reiškinių ar procesų. Ryšio stiprumas išreiškiamas koreliacijos koeficientu. Jo reikšmė svyruoja intervale [-1;+1]. Neigiamas indikatorius rodo grįžtamojo ryšio buvimą, teigiamas - tiesioginį. Jei koeficientas įgyja reikšmę, lygią 0, tada ryšio nėra. Kuo reikšmė arčiau 1 – tuo stipresnis ryšys tarp parametrų, kuo arčiau 0 – tuo silpnesnis.

Metodai

Koreliacijos parametriniai metodai gali įvertinti ryšio sandarumą. Jie naudojami pasiskirstymo įverčių pagrindu tiriant parametrus, kurie paklūsta normaliojo skirstinio dėsniui.

Tiesinės regresijos lygties parametrai būtini norint nustatyti priklausomybės tipą, regresijos lygties funkciją ir įvertinti pasirinktos ryšio formulės rodiklius. Koreliacijos laukas naudojamas kaip ryšio nustatymo metodas. Norėdami tai padaryti, visi esami duomenys turi būti pavaizduoti grafiškai. Stačiakampėje dvimatėje koordinačių sistemoje visi žinomi duomenys turi būti nubraižyti. Taip susidaro koreliacijos laukas. Aprašomojo koeficiento reikšmė pažymėta išilgai abscisės, o priklausomo koeficiento reikšmės – išilgai ordinatės. Jei tarp parametrų yra funkcinis ryšys, jie išrikiuojami linijos pavidalu.

Jei tokių duomenų koreliacijos koeficientas yra mažesnis nei 30%, galime kalbėti apie beveik visišką ryšio nebuvimą. Jei jis yra nuo 30% iki 70%, tai rodo, kad yra vidutinio glaudumo saitų. 100% indikatorius rodo funkcinį ryšį.

Netiesinė regresijos lygtis, kaip ir tiesinė, turi būti papildyta koreliacijos indeksu (R).

Daugialypės regresijos koreliacija

Determinacijos koeficientas yra daugialypės koreliacijos kvadrato rodiklis. Jis kalba apie pateikto rodiklių rinkinio santykio su tiriama savybe sandarumą. Taip pat galima kalbėti apie parametrų įtakos rezultatui pobūdį. Daugialypės regresijos lygtis įvertinama naudojant šį rodiklį.

Norint apskaičiuoti daugialypės koreliacijos indeksą, būtina apskaičiuoti jo indeksą.

Mažiausio kvadrato metodas

Šis metodas yra regresijos faktorių įvertinimo būdas. Jo esmė yra sumažinti kvadratinių nuokrypių sumą, gautą dėl faktoriaus priklausomybės nuo funkcijos.

Suporuota tiesinės regresijos lygtis gali būti įvertinta naudojant tokį metodą. Šio tipo lygtys naudojamos tuo atveju, kai aptinkami suporuoto tiesinio ryšio rodikliai.

Lygčių parinktys

Kiekvienas tiesinės regresijos funkcijos parametras turi tam tikrą reikšmę. Suporuotoje tiesinės regresijos lygtyje yra du parametrai: c ir m. Parametras t rodo vidutinį funkcijos y galutinio rodiklio pokytį, atsižvelgiant į kintamojo x sumažėjimą (padidėjimą) vienu sutartiniu vienetu. Jei kintamasis x lygus nuliui, tai funkcija lygi parametrui c. Jei kintamasis x nėra nulis, tai veiksnys c neturi ekonominės prasmės. Vienintelė įtaka funkcijai yra ženklas prieš veiksnį c. Jei yra minusas, galime pasakyti apie lėtą rezultato pokytį, palyginti su koeficientu. Jei yra pliusas, tai rodo pagreitintą rezultato pasikeitimą.

Kiekvienas parametras, kuris keičia regresijos lygties reikšmę, gali būti išreikštas lygtimi. Pavyzdžiui, koeficientas c turi formą c = y - mx.

Sugrupuoti duomenys

Yra tokios užduoties sąlygos, kai visa informacija sugrupuojama pagal požymį x, tačiau tuo pačiu tam tikrai grupei nurodomos atitinkamos vidutinės priklausomo rodiklio reikšmės. Šiuo atveju vidutinės reikšmės apibūdina, kaip rodiklis priklauso nuo x. Taigi sugrupuota informacija padeda rasti regresijos lygtį. Jis naudojamas kaip santykių analizė. Tačiau šis metodas turi savo trūkumų. Deja, vidurkiai dažnai priklauso nuo išorinių svyravimų. Šie svyravimai nėra santykių šablonų atspindys, jie tiesiog užmaskuoja jo „triukšmą“. Vidurkis rodo santykių modelius daug blogiau nei tiesinės regresijos lygtis. Tačiau jie gali būti naudojami kaip pagrindas ieškant lygties. Padauginę tam tikros populiacijos dydį iš atitinkamo vidurkio, galite gauti y sumą grupėje. Toliau reikia išmušti visas gautas sumas ir rasti galutinį rodiklį y. Šiek tiek sunkiau atlikti skaičiavimus su sumos rodikliu xy. Jei intervalai yra maži, rodiklį x galime sąlyginai priimti visiems vienetams (grupėje) vienodai. Padauginkite jį iš y sumos, kad rastumėte x ir y sandaugų sumą. Toliau visos sumos sumaišomos ir gaunama bendra suma xy.

Kelių porų lygčių regresija: santykių svarbos įvertinimas

Kaip aptarta anksčiau, daugkartinė regresija turi formos y \u003d f (x 1, x 2, ..., x m) + E funkciją. Dažniausiai tokia lygtis naudojama sprendžiant produkto pasiūlos ir paklausos, palūkanų pajamų už perkamas akcijas problemą, tiriant gamybos kaštų funkcijos priežastis ir tipą. Ji taip pat aktyviai naudojama atliekant įvairiausius makroekonominius tyrimus ir skaičiavimus, tačiau mikroekonomikos lygmenyje tokia lygtis naudojama kiek rečiau.

Daugialypės regresijos pagrindinis uždavinys – sukurti duomenų modelį, kuriame būtų didžiulis informacijos kiekis, siekiant toliau nustatyti, kokią įtaką kiekvienas veiksnys atskirai ir visumoje turi modeliuojamam rodikliui ir jo koeficientams. Regresijos lygtis gali įgauti įvairias reikšmes. Šiuo atveju ryšiui įvertinti dažniausiai naudojamos dviejų tipų funkcijos: tiesinės ir netiesinės.

Tiesinė funkcija pavaizduota tokio ryšio forma: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Šiuo atveju a2, a m laikomi „grynosios“ regresijos koeficientais. Jie reikalingi apibūdinti vidutinį parametro y pokytį, pasikeitus (sumažėjus arba padidėjus) kiekvienam atitinkamam parametrui x vienu vienetu, esant stabilios kitų rodiklių reikšmės sąlygai.

Netiesinės lygtys turi, pavyzdžiui, laipsnio funkcijos formą y=ax 1 b1 x 2 b2 ...x m bm . Šiuo atveju rodikliai b 1, b 2 ..... bm - vadinami elastingumo koeficientais, jie parodo kaip pasikeis rezultatas (kiek%) padidėjus (sumažėjus) atitinkamam rodikliui x 1%. ir su stabiliu kitų veiksnių rodikliu.

Į kokius veiksnius reikia atsižvelgti kuriant daugybinę regresiją

Norint teisingai sukonstruoti daugybinę regresiją, būtina išsiaiškinti, į kuriuos veiksnius reikėtų atkreipti ypatingą dėmesį.

Būtina šiek tiek suprasti ekonominių veiksnių ir modeliuojamo ryšio pobūdį. Įtrauktini veiksniai turi atitikti šiuos kriterijus:

  • Turi būti išmatuojamas. Norint panaudoti objekto kokybę apibūdinantį veiksnį, bet kuriuo atveju jam turėtų būti suteikta kiekybinė forma.
  • Neturėtų būti jokių veiksnių tarpusavio koreliacijos ar funkcinio ryšio. Tokie veiksmai dažniausiai sukelia negrįžtamus padarinius - įprastų lygčių sistema tampa besąlyginė, o tai reiškia jos nepatikimumą ir neaiškius įvertinimus.
  • Esant didžiuliam koreliacijos rodikliui, nėra galimybės išsiaiškinti izoliuotos veiksnių įtakos galutiniam rodiklio rezultatui, todėl koeficientai tampa neinterpretuojami.

Statybos metodai

Yra daugybė metodų ir būdų, kaip paaiškinti, kaip pasirinkti lygties veiksnius. Tačiau visi šie metodai yra pagrįsti koeficientų parinkimu naudojant koreliacijos indeksą. Tarp jų yra:

  • Išskyrimo metodas.
  • Įjunkite metodą.
  • Pakopinė regresinė analizė.

Pirmasis metodas apima visų koeficientų atskyrimą iš suvestinės aibės. Antrasis metodas apima daugelio papildomų veiksnių įvedimą. Na, trečiasis yra veiksnių, kurie anksčiau buvo taikomi lygčiai, pašalinimas. Kiekvienas iš šių metodų turi teisę egzistuoti. Jie turi savo pliusų ir minusų, tačiau gali savaip išspręsti nereikalingų rodiklių atrankos klausimą. Paprastai kiekvienu atskiru metodu gauti rezultatai yra gana artimi.

Daugiamatės analizės metodai

Tokie faktorių nustatymo metodai yra pagrįsti atskirų tarpusavyje susijusių požymių derinių svarstymu. Tai apima diskriminacinę analizę, modelio atpažinimą, pagrindinių komponentų analizę ir klasterių analizę. Be to, yra ir faktorinė analizė, tačiau ji atsirado sukūrus komponentinį metodą. Visi jie taikomi tam tikromis aplinkybėmis, esant tam tikroms sąlygoms ir veiksniams.

Ankstesnėse pastabose daugiausia dėmesio buvo skiriama vienam skaitiniam kintamajam, pavyzdžiui, investicinių fondų grąžai, tinklalapio įkėlimo laikui arba gaiviųjų gėrimų vartojimui. Šioje ir tolesnėse pastabose mes apsvarstysime skaitinio kintamojo reikšmių prognozavimo būdus, atsižvelgiant į vieno ar kelių kitų skaitmeninių kintamųjų vertes.

Medžiaga bus iliustruota pavyzdžiu. Pardavimų apimties prognozavimas drabužių parduotuvėje. Nuolaidų drabužių parduotuvių tinklas „Sunflowers“ nuolat plečiasi jau 25 metus. Tačiau bendrovė šiuo metu neturi sistemingo požiūrio į naujų prekybos vietų pasirinkimą. Vieta, kurioje įmonė ketina atidaryti naują parduotuvę, nustatoma remiantis subjektyviais sumetimais. Atrankos kriterijai – palankios nuomos sąlygos arba vadovo idėja apie idealią parduotuvės vietą. Įsivaizduokite, kad esate Specialiųjų projektų ir planavimo skyriaus vedėjas. Jums buvo pavesta parengti strateginį naujų parduotuvių atidarymo planą. Šiame plane turėtų būti numatyta metinių pardavimų naujai atidarytose parduotuvėse prognozė. Manote, kad ploto pardavimas yra tiesiogiai susijęs su pajamomis, ir norite į tai atsižvelgti priimant sprendimus. Kaip sukurti statistinį modelį, kuris prognozuoja metinius pardavimus pagal naujos parduotuvės dydį?

Paprastai regresinė analizė naudojama kintamojo reikšmėms numatyti. Jo tikslas yra sukurti statistinį modelį, kuris numatytų priklausomo kintamojo arba atsako reikšmes iš bent vieno nepriklausomo arba aiškinamojo kintamojo reikšmių. Šioje pastaboje mes apsvarstysime paprastą tiesinę regresiją - statistinį metodą, leidžiantį numatyti priklausomo kintamojo reikšmes. Y pagal nepriklausomo kintamojo reikšmes X. Šiose pastabose bus aprašytas daugialypės regresijos modelis, sukurtas numatyti nepriklausomo kintamojo reikšmes Y kelių priklausomų kintamųjų reikšmėmis ( X 1 , X 2 , …, X k).

Atsisiųskite pastabą formatu arba formatu, pavyzdžius formatu

Regresijos modelių tipai

kur ρ 1 yra autokoreliacijos koeficientas; jeigu ρ 1 = 0 (be autokoreliacijos), D≈ 2; jeigu ρ 1 ≈ 1 (teigiama autokoreliacija), D≈ 0; jeigu ρ 1 = -1 (neigiama autokoreliacija), D ≈ 4.

Praktikoje Durbin-Watson kriterijaus taikymas grindžiamas vertės palyginimu D su kritinėmis teorinėmis vertybėmis d L Ir d U tam tikram stebėjimų skaičiui n, modelio nepriklausomų kintamųjų skaičius k(paprastai tiesinei regresijai k= 1) ir reikšmingumo lygis α. Jeigu D< d L , atsitiktinių nukrypimų nepriklausomumo hipotezė atmetama (taigi, yra teigiama autokoreliacija); jeigu D > dU, hipotezė neatmetama (tai yra, nėra autokoreliacijos); jeigu d L< D < d U nėra pakankamai priežasčių priimti sprendimą. Kai apskaičiuota vertė D viršija 2, tada d L Ir d U lyginamas ne pats koeficientas D, ir išraiška (4 – D).

Norėdami apskaičiuoti Durbin-Watson statistiką programoje „Excel“, kreipiamės į apatinę lentelę Fig. keturiolika Likučio išėmimas. Išraiškos (10) skaitiklis apskaičiuojamas naudojant funkciją = SUMMQDIFF(masyvas1, masyvas2), o vardiklis = SUMMQ(masyvas) (16 pav.).

Ryžiai. 16. Durbin-Watson statistikos skaičiavimo formulės

Mūsų pavyzdyje D= 0,883. Pagrindinis klausimas yra toks: kokia Durbin-Watson statistikos reikšmė turėtų būti laikoma pakankamai maža, kad būtų galima daryti išvadą, kad yra teigiama autokoreliacija? Būtina koreliuoti D reikšmę su kritinėmis reikšmėmis ( d L Ir d U) priklausomai nuo stebėjimų skaičiaus n ir reikšmingumo lygis α (17 pav.).

Ryžiai. 17. Durbin-Watson statistikos kritinės reikšmės (lentelės fragmentas)

Taigi, pardavimų apimties parduotuvėje, kuri pristato prekes į namus, problema yra vienas nepriklausomas kintamasis ( k= 1), 15 stebėjimų ( n= 15) ir reikšmingumo lygis α = 0,05. Vadinasi, d L= 1,08 ir dU= 1,36. Tiek, kiek D = 0,883 < d L= 1,08, tarp likučių yra teigiama autokoreliacija, mažiausių kvadratų metodas negali būti taikomas.

Hipotezių apie nuolydį ir koreliacijos koeficientą tikrinimas

Aukščiau pateikta regresija buvo taikoma tik prognozavimui. Nustatyti regresijos koeficientus ir numatyti kintamojo reikšmę Y tam tikrai kintamajai vertei X buvo naudojamas mažiausių kvadratų metodas. Be to, atsižvelgėme į standartinę įverčio paklaidą ir mišrios koreliacijos koeficientą. Jei likutinė analizė patvirtina, kad mažiausių kvadratų metodo pritaikomumo sąlygos nėra pažeistos, o paprastas tiesinės regresijos modelis yra adekvatus, remiantis imties duomenimis, galima teigti, kad tarp visumos kintamųjų yra tiesinis ryšys.

Taikymast - nuolydžio kriterijai. Patikrinus, ar visumos nuolydis β 1 lygus nuliui, galima nustatyti, ar tarp kintamųjų yra statistiškai reikšmingas ryšys. X Ir Y. Jei ši hipotezė atmetama, galima teigti, kad tarp kintamųjų X Ir Y yra linijinis ryšys. Nulinės ir alternatyvios hipotezės formuluojamos taip: H 0: β 1 = 0 (tiesinio ryšio nėra), H1: β 1 ≠ 0 (yra tiesinis ryšys). Pagal apibrėžimą t-statistika yra lygi skirtumui tarp imties nuolydžio ir hipotetinio populiacijos nuolydžio, padalijus iš nuolydžio įvertinimo standartinės paklaidos:

(11) t = (b 1 β 1 ) / Sb 1

kur b 1 yra tiesioginės regresijos, pagrįstos imties duomenimis, nuolydis, β1 yra hipotetinis tiesioginės bendrosios populiacijos nuolydis, ir bandymų statistiką t Tai turi t- paskirstymas su n - 2 laisvės laipsniai.

Patikrinkime, ar yra statistiškai reikšmingas ryšys tarp parduotuvės dydžio ir metinių pardavimų, kai α = 0,05. t-Criteria rodomas kartu su kitais parametrais naudojant Analizės paketas(parinktis Regresija). Visi analizės paketo rezultatai parodyti pav. 4, fragmentas, susijęs su t-statistika – pav. aštuoniolika.

Ryžiai. 18. Paraiškos rezultatai t

Kadangi parduotuvių skaičius n= 14 (žr. 3 pav.), kritinė vertė t- statistiką, kai reikšmingumo lygis α = 0,05, galima rasti pagal formulę: t L=STUDENTAS.INV(0,025;12) = -2,1788, kur 0,025 yra pusė reikšmingumo lygio, o 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Tiek, kiek t-statistika = 10,64 > t U= 2,1788 (19 pav.), nulinė hipotezė H 0 yra atmetamas. Iš kitos pusės, R- vertė už X\u003d 10,6411, apskaičiuotas pagal formulę \u003d 1-STUDENTAS.DIST (D3, 12, TRUE), yra maždaug lygus nuliui, todėl hipotezė H 0 vėl atmetamas. Tai, kad R-vertė yra beveik lygi nuliui, o tai reiškia, kad jei tarp parduotuvės dydžio ir metinių pardavimų nebūtų tikrojo tiesinio ryšio, tai būtų beveik neįmanoma nustatyti naudojant tiesinę regresiją. Todėl yra statistiškai reikšmingas tiesinis ryšys tarp vidutinių metinių parduotuvių pardavimų ir parduotuvės dydžio.

Ryžiai. 19. Hipotezės apie bendrosios populiacijos nuolydį tikrinimas, kai reikšmingumo lygis yra 0,05 ir 12 laisvės laipsnių.

TaikymasF - nuolydžio kriterijai. Alternatyvus būdas tikrinti hipotezes apie paprastos tiesinės regresijos nuolydį yra naudoti F-kriterijai. Prisiminkite tai F-kriterijus naudojamas dviejų dispersijų ryšiui patikrinti (žr. išsamią informaciją). Tikrinant nuolydžio hipotezę, atsitiktinių paklaidų matas yra paklaidos dispersija (klaidų suma, padalyta iš laisvės laipsnių skaičiaus), taigi F-testas naudoja dispersijos santykį, paaiškintą regresija (t. y. reikšmėmis SSR padalintas iš nepriklausomų kintamųjų skaičiaus k), į klaidos dispersiją ( MSE = S YX 2 ).

Pagal apibrėžimą F-statistika yra lygi vidutiniams kvadratiniams nuokrypiams dėl regresijos (MSR), padalytam iš klaidų dispersijos (MSE): F = MSR/ MSE, kur MSR=SSR / k, MSE =SSE/(n– k – 1), k yra nepriklausomų kintamųjų skaičius regresijos modelyje. Testo statistika F Tai turi F- paskirstymas su k Ir n– k – 1 laisvės laipsniai.

Tam tikram reikšmingumo lygiui α sprendimo taisyklė formuluojama taip: jei F > FU, nulinė hipotezė atmetama; kitu atveju jis neatmetamas. Rezultatai, pateikti dispersinės analizės suvestinės lentelės pavidalu, parodyti fig. dvidešimt.

Ryžiai. 20. Dispersinės analizės lentelė regresijos koeficiento statistinio reikšmingumo hipotezei patikrinti.

Panašiai t- kriterijus F-kriterijai rodomi lentelėje, kai naudojamas Analizės paketas(parinktis Regresija). Pilnas darbo rezultatas Analizės paketas parodyta pav. 4, fragmentas, susijęs su F-statistika - pav. 21.

Ryžiai. 21. Paraiškos rezultatai F– Kriterijai, gauti naudojant Excel analizės įrankių paketą

F statistika yra 113,23 ir R-reikšmė artima nuliui (ląstelė ReikšmėF). Jei reikšmingumo lygis α yra 0,05, nustatykite kritinę reikšmę F-iš formulės galima gauti skirstinius su vienu ir 12 laisvės laipsnių F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (22 pav.). Tiek, kiek F = 113,23 > F U= 4,7472 ir R- reikšmė artima 0< 0,05, нулевая гипотеза H 0 nukrypsta, t.y. Parduotuvės dydis glaudžiai susijęs su jos metine pardavimų apimtimi.

Ryžiai. 22. Hipotezės apie bendrosios populiacijos nuolydį, esant 0,05 reikšmingumo lygiui, su vienu ir 12 laisvės laipsnių, tikrinimas.

Pasitikėjimo intervalas su nuolydžiu β 1 . Norėdami patikrinti hipotezę apie tiesinio ryšio tarp kintamųjų egzistavimą, galite sudaryti pasikliautinąjį intervalą, kuriame yra nuolydis β 1, ir įsitikinti, kad hipotetinė reikšmė β 1 = 0 priklauso šiam intervalui. Pasikliautinojo intervalo, kuriame yra nuolydis β 1, centras yra imties nuolydis b 1 , o jo ribos yra kiekiai b 1 ±t n –2 Sb 1

Kaip parodyta pav. aštuoniolika, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Vadinasi, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 arba + 1,328 ≤ β 1 ≤ +2,012. Taigi populiacijos nuolydis su 0,95 tikimybe yra intervale nuo +1,328 iki +2,012 (t. y. nuo 1 328 000 iki 2 012 000 USD). Kadangi šios vertės yra didesnės nei nulis, yra statistiškai reikšmingas tiesinis ryšys tarp metinių pardavimų ir parduotuvės ploto. Jei pasikliautinajame intervale būtų nulis, ryšio tarp kintamųjų nebūtų. Be to, pasikliautinasis intervalas reiškia, kad kas 1000 kv. pėdų vidutinis pardavimas padidėja 1 328 000 USD iki 2 012 000 USD.

Naudojimast -koreliacijos koeficiento kriterijai. buvo įvestas koreliacijos koeficientas r, kuris yra ryšio tarp dviejų skaitmeninių kintamųjų matas. Jis gali būti naudojamas norint nustatyti, ar tarp dviejų kintamųjų yra statistiškai reikšmingas ryšys. Koreliacijos koeficientą tarp abiejų kintamųjų populiacijų pažymėkime simboliu ρ. Nulinės ir alternatyvios hipotezės formuluojamos taip: H 0: ρ = 0 (nėra koreliacijos), H 1: ρ ≠ 0 (yra koreliacija). Patikrinkite, ar nėra koreliacijos:

kur r = + , jei b 1 > 0, r = – , jei b 1 < 0. Тестовая статистика t Tai turi t- paskirstymas su n - 2 laisvės laipsniai.

Parduotuvių tinklo „Saulėgrąžos“ problemoje r2= 0,904 ir b 1- +1,670 (žr. 4 pav.). Tiek, kiek b 1> 0, koreliacijos koeficientas tarp metinių pardavimų ir parduotuvės dydžio yra r= +√0,904 = +0,951. Išbandykime nulinę hipotezę, kad tarp šių kintamųjų nėra jokios koreliacijos naudojant t- statistika:

Esant reikšmingumo lygiui α = 0,05, nulinė hipotezė turėtų būti atmesta, nes t= 10,64 > 2,1788. Taigi galima teigti, kad yra statistiškai reikšmingas ryšys tarp metinių pardavimų ir parduotuvės dydžio.

Aptariant išvadas apie populiacijos nuolydį, pasikliautinieji intervalai ir hipotezių tikrinimo kriterijai yra keičiami įrankiai. Tačiau pasikliautinojo intervalo, kuriame yra koreliacijos koeficientas, skaičiavimas yra sunkesnis, nes statistikos atrankinio pasiskirstymo forma. r priklauso nuo tikrojo koreliacijos koeficiento.

Matematinių lūkesčių įvertinimas ir atskirų reikšmių numatymas

Šiame skyriuje aptariami laukiamo atsako įvertinimo metodai Y ir individualių vertybių prognozės Y nurodytoms kintamojo reikšmėms X.

Pasitikėjimo intervalo sudarymas. 2 pavyzdyje (žr. aukščiau esantį skyrių Mažiausio kvadrato metodas) regresijos lygtis leido numatyti kintamojo reikšmę Y X. Kalbant apie mažmeninės prekybos vietos pasirinkimo problemą, vidutiniai metiniai pardavimai parduotuvėje, kurios plotas yra 4000 kv. pėdų buvo lygus 7,644 milijono dolerių. Tačiau šis plačiosios populiacijos matematinių lūkesčių įvertinimas yra taškas. norint įvertinti bendrosios populiacijos matematinius lūkesčius, buvo pasiūlyta pasikliautinojo intervalo samprata. Panašiai galima pristatyti koncepciją matematinio atsako lūkesčio pasikliautinasis intervalas tam tikrai kintamojo reikšmei X:

kur , = b 0 + b 1 X i– numatomos reikšmės kintamasis Y adresu X = X i, S YX yra vidutinė kvadratinė paklaida, n yra imties dydis, Xi- nurodyta kintamojo reikšmė X, µ Y|X = Xi– matematinis kintamojo lūkestis Y adresu X = Х i,SSX=

(13) formulės analizė rodo, kad pasikliautinojo intervalo plotis priklauso nuo kelių veiksnių. Esant tam tikram reikšmingumo lygiui, svyravimų aplink regresijos liniją amplitudės padidėjimas, išmatuotas naudojant vidutinę kvadratinę paklaidą, padidina intervalo plotį. Kita vertus, kaip ir tikėtasi, imties dydžio padidėjimą lydi intervalo susiaurėjimas. Be to, intervalo plotis keičiasi priklausomai nuo reikšmių Xi. Jei kintamojo reikšmė Y prognozuojami kiekiai X, artima vidutinei vertei , pasikliautinasis intervalas pasirodo siauresnis nei prognozuojant atsaką toli nuo vidurkio reikšmėms.

Tarkime, renkantis vietą parduotuvei, norime sukurti 95% pasikliautinąjį intervalą vidutiniams metiniams pardavimams visose parduotuvėse, kurių plotas 4000 kvadratinių metrų. pėdos:

Todėl vidutinė metinė pardavimo apimtis visose parduotuvėse, kurių plotas yra 4000 kvadratinių metrų. pėdų, su 95% tikimybe svyruoja nuo 6,971 iki 8,317 milijono dolerių.

Apskaičiuokite numatomos vertės pasikliautinąjį intervalą. Be tam tikros kintamojo reikšmės atsako matematinio lūkesčio pasikliautinojo intervalo X, dažnai reikia žinoti numatomos vertės pasikliautinąjį intervalą. Nors tokio pasikliautinojo intervalo apskaičiavimo formulė yra labai panaši į (13) formulę, šiame intervale yra numatoma reikšmė, o ne parametro įvertinimas. Numatomo atsako intervalas YX = Xi tam tikrai kintamojo reikšmei Xi nustatoma pagal formulę:

Tarkime, kad renkantis vietą mažmeninės prekybos vietai, norime sukurti 95% pasikliautinąjį intervalą numatomam metiniam pardavimų kiekiui parduotuvėje, kurios plotas 4000 kvadratinių metrų. pėdos:

Todėl prognozuojama metinė pardavimo apimtis 4.000 kv. pėdų, su 95% tikimybe yra intervale nuo 5,433 iki 9,854 milijono dolerių. Kaip matote, numatomos atsako vertės pasikliautinasis intervalas yra daug platesnis nei jo matematinio lūkesčio pasikliautinasis intervalas. Taip yra todėl, kad atskirų verčių prognozavimo kintamumas yra daug didesnis nei numatomos vertės įvertinimas.

Spąstai ir etikos problemos, susijusios su regresijos taikymu

Sunkumai, susiję su regresine analize:

  • Nepaisydami mažiausių kvadratų metodo taikymo sąlygų.
  • Klaidingas mažiausių kvadratų metodo taikymo sąlygų įvertinimas.
  • Neteisingas alternatyvių metodų pasirinkimas pažeidžiant mažiausių kvadratų metodo taikymo sąlygas.
  • Regresinės analizės taikymas neturint gilių studijų dalyko žinių.
  • Regresijos ekstrapoliacija už aiškinamojo kintamojo diapazono ribų.
  • Painiava tarp statistinių ir priežastinių ryšių.

Plačiai panaudojus skaičiuokles ir statistinę programinę įrangą, buvo pašalintos skaičiavimo problemos, kurios neleido naudoti regresinės analizės. Tačiau tai lėmė tai, kad regresine analize pradėjo naudotis vartotojai, kurie neturi pakankamai kvalifikacijos ir žinių. Kaip vartotojai gali žinoti apie alternatyvius metodus, jei daugelis iš jų visiškai neįsivaizduoja mažiausių kvadratų metodo taikymo sąlygų ir nežino, kaip patikrinti jų įgyvendinimą?

Tyrėjo neturėtų nuvilti šlifuojant skaičius – skaičiuojant poslinkį, nuolydį ir mišrų koreliacijos koeficientą. Jam reikia gilesnių žinių. Paaiškinkime tai klasikiniu pavyzdžiu, paimtu iš vadovėlių. Anscombe parodė, kad visi keturi duomenų rinkiniai, parodyti Fig. 23 turi tuos pačius regresijos parametrus (24 pav.).

Ryžiai. 23. Keturi dirbtiniai duomenų rinkiniai

Ryžiai. 24. Keturių dirbtinių duomenų rinkinių regresinė analizė; padaryta su Analizės paketas(spustelėkite ant paveikslėlio norėdami padidinti vaizdą)

Taigi regresinės analizės požiūriu visi šie duomenų rinkiniai yra visiškai identiški. Jei analizė tuo pasibaigtų, prarastume daug naudingos informacijos. Tai liudija šiems duomenų rinkiniams sudarytos sklaidos diagramos (25 pav.) ir liekamosios diagramos (26 pav.).

Ryžiai. 25. Keturių duomenų rinkinių sklaidos diagramos

Taškinės ir liekamosios diagramos rodo, kad šie duomenys skiriasi vienas nuo kito. Vienintelė aibė, paskirstyta išilgai tiesės, yra aibė A. Likučių, apskaičiuotų iš aibės A, diagrama nėra. To negalima pasakyti apie aibes B, C ir D. Aibės B sklaidos grafikas rodo ryškų kvadratinį modelį. Šią išvadą patvirtina likučių brėžinys, turintis parabolinę formą. Sklaidos diagrama ir likutinė diagrama rodo, kad duomenų rinkinyje B yra nuokrypis. Esant tokiai situacijai, būtina iš duomenų rinkinio neįtraukti nuokrypio ir pakartoti analizę. Stebėjimų nuokrypių aptikimo ir pašalinimo metodika vadinama įtakos analize. Pašalinus nuokrypį, pakartotinio modelio įvertinimo rezultatas gali būti visiškai kitoks. Iš duomenų rinkinio D nubrėžta sklaidos diagrama iliustruoja neįprastą situaciją, kai empirinis modelis labai priklauso nuo vieno atsakymo ( X 8 = 19, Y 8 = 12,5). Tokius regresijos modelius reikia skaičiuoti ypač kruopščiai. Taigi sklaidos ir liekamosios diagramos yra esminė regresinės analizės priemonė ir turėtų būti neatsiejama jos dalis. Be jų regresinė analizė nėra patikima.

Ryžiai. 26. Keturių duomenų rinkinių likučių grafikai

Kaip išvengti regresinės analizės spąstų:

  • Galimo ryšio tarp kintamųjų analizė X Ir Y visada pradėkite nuo sklaidos diagramos.
  • Prieš interpretuodami regresinės analizės rezultatus, patikrinkite jos taikymo sąlygas.
  • Nubraižykite likučius ir nepriklausomą kintamąjį. Tai leis nustatyti, kaip empirinis modelis atitinka stebėjimo rezultatus, ir aptikti dispersijos pastovumo pažeidimą.
  • Norėdami patikrinti normalaus klaidų pasiskirstymo prielaidą, naudokite histogramas, stiebų ir lapų diagramas, dėžutes ir normalaus pasiskirstymo diagramas.
  • Jei nesilaikoma mažiausių kvadratų metodo taikymo sąlygų, naudokite alternatyvius metodus (pavyzdžiui, kvadratinės arba daugialypės regresijos modelius).
  • Jei tenkinamos mažiausių kvadratų metodo taikymo sąlygos, būtina patikrinti hipotezę apie regresijos koeficientų statistinį reikšmingumą ir sudaryti pasikliautinuosius intervalus, kuriuose yra matematinės lūkesčių ir numatomos atsako reikšmės.
  • Venkite nuspėti priklausomo kintamojo vertes už nepriklausomo kintamojo diapazono ribų.
  • Atminkite, kad statistinės priklausomybės ne visada yra priežastinės. Atminkite, kad koreliacija tarp kintamųjų nereiškia, kad tarp jų yra priežastinis ryšys.

Santrauka. Kaip parodyta blokinėje schemoje (27 pav.), pastaboje aprašomas paprastas tiesinės regresijos modelis, jo taikymo sąlygos ir šių sąlygų patikrinimo būdai. Laikomas t-regresijos nuolydžio statistinio reikšmingumo tikrinimo kriterijus. Priklausomo kintamojo reikšmėms numatyti buvo naudojamas regresijos modelis. Nagrinėjamas pavyzdys, susijęs su vietos parinkimu mažmeninės prekybos vietai, kuriame tiriama metinių pardavimų apimties priklausomybė nuo parduotuvės ploto. Gauta informacija leidžia tiksliau parinkti parduotuvės vietą ir numatyti jos metinius pardavimus. Tolesnėse pastabose bus tęsiamas regresinės analizės ir kelių regresijos modelių aptarimas.

Ryžiai. 27. Užrašo blokinė schema

Naudojama medžiaga iš knygos Levin ir kt.Statistika vadovams. - M.: Williams, 2004. - p. 792–872

Jei priklausomasis kintamasis yra kategoriškas, reikia taikyti logistinę regresiją.