Основи на линейната регресия. Коефициентът на уравнението на регресията показва корелационен и регресионен анализ

Регресионният анализ е статистически изследователски метод, който ви позволява да покажете зависимостта на параметър от една или повече независими променливи. В предкомпютърната ера приложението му беше доста трудно, особено когато ставаше дума за големи количества данни. Днес, след като сте научили как да изградите регресия в Excel, можете да решите сложни статистически проблеми само за няколко минути. По-долу са дадени конкретни примери от областта на икономиката.

Типове регресия

Самата тази концепция е въведена в математиката през 1886 г. Регресията се случва:

  • линеен;
  • параболичен;
  • властово право;
  • експоненциален;
  • хиперболичен;
  • ориентировъчен;
  • логаритмичен.

Пример 1

Нека разгледаме проблема за определяне на зависимостта на броя на служителите, напуснали работата си, от средната работна заплата в 6 промишлени предприятия.

Задача. Шест предприятия анализираха средната месечна работна заплата и броя на служителите, напуснали доброволно. В табличен вид имаме:

Брой на подадените оставка

Заплата

30 000 рубли

35 000 рубли

40 000 рубли

45 000 рубли

50 000 рубли

55 000 рубли

60 000 рубли

За задачата за определяне на зависимостта на броя на напусналите служители от средната работна заплата в 6 предприятия, регресионният модел има формата на уравнението Y = a 0 + a 1 x 1 + ... + akxk, където xi са влияещи променливи, ai са коефициентите на регресия, а ak е броят на факторите.

За тази задача Y е индикаторът на служителите, които са напуснали, а влияещият фактор е заплатата, която обозначаваме с X.

Използване на възможностите на табличния процесор на Excel

Регресионният анализ в Excel трябва да бъде предшестван от прилагането на вградени функции към съществуващите таблични данни. Въпреки това, за тези цели е по-добре да използвате много полезната добавка "Пакет за анализ". За да го активирате трябва:

  • от раздела "Файл" отидете в секцията "Параметри";
  • в прозореца, който се отваря, изберете реда "Добавки";
  • щракнете върху бутона "Go", разположен по-долу, вдясно от реда "Control";
  • поставете отметка до името "Пакет за анализ" и потвърдете действията си, като щракнете върху "OK".

Ако всичко е направено правилно, необходимият бутон ще се появи от дясната страна на раздела "Данни", разположен над работния лист "Excel".

в Excel

Сега, когато имаме под ръка всички необходими виртуални инструменти за извършване на иконометрични изчисления, можем да започнем да решаваме нашия проблем. За това:

  • кликнете върху бутона "Анализ на данни";
  • в прозореца, който се отваря, кликнете върху бутона "Регресия";
  • в раздела, който се показва, въведете диапазона от стойности за Y (броя на служителите, които са напуснали) и за X (техните заплати);
  • потвърждаваме действията си, като натискаме бутона "OK".

В резултат на това програмата автоматично ще попълни новия лист на процесора за електронни таблици с данните от регресионния анализ. Забележка! Excel има възможността самостоятелно да дефинира местоположението, което предпочитате за тази цел. Например, това може да бъде същият лист, който съдържа стойностите Y и X, или дори нова работна книга, специално проектирана да съхранява този вид данни.

Анализиране на резултатите от регресията за R-квадрат

В Excel данните, получени в хода на обработката на данните от въпросния пример, са както следва:

На първо място, трябва да обърнете внимание на стойността на R-квадрата. Той представлява коефициента на детерминация. В този пример R-квадрат = 0,755 (75,5%), тоест изчислените параметри на модела обясняват връзката между разглежданите параметри със 75,5%. Колкото по-висока е стойността на коефициента на детерминация, толкова повече избраният модел се счита за по-приложим за конкретна задача. Смята се, че той правилно описва реалната ситуация, когато стойността на R-квадрат е над 0,8. Ако R-квадрат<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ на шансовете

Числото 64.1428 показва каква ще бъде стойността на Y, ако всички променливи xi в модела, който разглеждаме, са нула. С други думи, може да се твърди, че стойността на анализирания параметър се влияе от други фактори, които не са описани в конкретен модел.

Следващият коефициент -0,16285, намиращ се в клетка B18, показва значимостта на влиянието на променливата X върху Y. Това означава, че средната месечна заплата на служителите в рамките на разглеждания модел влияе върху броя на хората, напуснали с тежест -0,16285 , т.е. степента на неговото влияние изобщо малка. Знакът "-" показва, че коефициентът е отрицателен. Това е очевидно, тъй като всеки знае, че колкото по-висока е заплатата в предприятието, толкова по-малко хора изразяват желание за прекратяване на трудовия договор или напускане.

Множествена регресия

Този термин се разбира като ограничително уравнение с няколко независими променливи от вида:

y = f (x 1 + x 2 +… x m) + ε, където y е ефективен индикатор (зависима променлива), а x 1, x 2,… x m са показатели-фактори (независими променливи).

Оценка на параметрите

За множествена регресия (MR) се извършва по метода на най-малките квадрати (OLS). За линейни уравнения от вида Y = a + b 1 x 1 +… + b m x m + ε ние изграждаме система от нормални уравнения (виж по-долу)

За да разберете принципа на метода, разгледайте двуфакторния случай. Тогава имаме ситуация, описана с формулата

От тук получаваме:

където σ е дисперсията на съответната характеристика, отразена в индекса.

OLS се прилага към MR уравнението в стандартизирана скала. В този случай получаваме уравнението:

където t y, t x 1,... t xm са стандартизирани променливи, за които средните стойности са равни на 0; β i са стандартизираните коефициенти на регресия и стандартното отклонение е 1.

Имайте предвид, че всички β i в този случай са посочени като нормализирани и централизирани, така че тяхното сравнение помежду си се счита за правилно и валидно. Освен това е обичайно да се филтрират фактори, като се изхвърлят тези с най-малки стойности на βi.

Проблем с използването на уравнение на линейна регресия

Да предположим, че имате таблица с динамиката на цените за конкретен продукт N през последните 8 месеца. Необходимо е да се вземе решение относно целесъобразността за закупуване на неговата партида на цена от 1850 рубли / т.

номер на месеца

име на месеца

цена на продукта N

1750 рубли на тон

1755 рубли за тон

1767 рубли за тон

1760 рубли за тон

1770 рубли за тон

1790 рубли за тон

1810 рубли за тон

1840 рубли за тон

За да разрешите този проблем в процесора за електронни таблици на Excel, трябва да използвате инструмента за анализ на данни, който вече е познат от примера, представен по-горе. След това изберете секцията "Регресия" и задайте параметрите. Трябва да се помни, че в полето „Интервал на въвеждане Y“ трябва да се въведе диапазон от стойности за зависимата променлива (в този случай цената на продукта в конкретни месеци от годината), а в „Вход интервал X" - за независимата променлива (номер на месеца). Потвърждаваме действията, като щракваме върху "OK". На нов лист (ако е посочено така) получаваме данните за регресията.

Използваме ги за конструиране на линейно уравнение от вида y = ax + b, където действат коефициентите на линията с името на номера на месеца и коефициентите и линиите "Y-пресечна точка" от листа с резултатите от регресионния анализ като параметри a и b. По този начин, уравнението на линейната регресия (SD) за проблем 3 се записва като:

Цена на продукта N = 11.714 * номер на месеца + 1727.54.

или в алгебрична нотация

y = 11,714 x + 1727,54

Анализ на резултатите

За да се реши дали полученото уравнение на линейна регресия е адекватно, се използват множествени корелационни и детерминационни коефициенти, както и теста на Фишер и t теста на Студент. В таблицата на Excel с резултатите от регресията те се наричат ​​съответно множествени R, R-квадрат, F-статистики и t-статистики.

KMC R дава възможност да се оцени близостта на вероятностната връзка между независимите и зависими променливи. Високата му стойност показва доста силна връзка между променливите „Номер на месец“ и „Цена на продукт N в рубли за тон“. Естеството на тази връзка обаче остава неизвестно.

Квадратът на коефициента на детерминация R2 (RI) е числова характеристика на дела от общия разпределение и показва разпределението на коя част от експерименталните данни, т.е. стойностите на зависимата променлива съответстват на уравнението на линейната регресия. В разглеждания проблем тази стойност е 84,8%, т.е. статистическите данни се описват с висока степен на точност от полученото SD.

F-статистиката, наричана още тест на Фишер, се използва за оценка на значимостта на линейна връзка, опровергавайки или потвърждавайки хипотезата за нейното съществуване.

(Критерий на Студент) помага да се оцени значимостта на коефициента с неизвестен или свободен член на линейна връзка. Ако стойността на t-критерия > t cr, тогава хипотезата за незначителност на свободния член на линейното уравнение се отхвърля.

В разглеждания проблем за свободен член с помощта на инструментите на Excel се получи, че t = 169.20903 и p = 2.89E-12, тоест имаме нулева вероятност правилната хипотеза за незначителност на свободния член да бъде отхвърлени. За коефициента при неизвестно t = 5,79405 и p = 0,001158. С други думи, вероятността правилната хипотеза за незначимостта на коефициента с неизвестното да бъде отхвърлена е 0,12%.

По този начин може да се твърди, че полученото линейно регресионно уравнение е адекватно.

Проблемът за целесъобразността от закупуване на пакет акции

Множествената регресия в Excel се извършва с помощта на същия инструмент за анализ на данни. Нека разгледаме конкретен приложен проблем.

Ръководството на дружеството "NNN" трябва да вземе решение относно целесъобразността от закупуване на 20% дял в АД "МММ". Цената на пакета (JV) е 70 милиона щатски долара. Специалистите на NNN са събрали данни за подобни сделки. Беше решено да се оцени стойността на пакета акции по такива параметри, изразени в милиони щатски долари, като:

  • задължения (VK);
  • обемът на годишния оборот (VO);
  • вземания (VD);
  • себестойността на дълготрайните активи (SOF).

В допълнение, параметърът е просрочие за заплати на предприятието (V3 P) в хиляди щатски долари.

Решение за електронни таблици на Excel

На първо място, трябва да създадете таблица с първоначални данни. Изглежда така:

  • извикайте прозореца "Анализ на данни";
  • изберете секцията "Регресия";
  • диапазонът от стойности на зависими променливи от колона G се въвежда в полето "Интервал на въвеждане Y";
  • щракнете върху иконата с червена стрелка вдясно от прозореца "Input interval X" и изберете на листа диапазона на всички стойности от колони B, C, D, F.

Поставете отметка в елемента "Нов работен лист" и щракнете върху "OK".

Вземете регресионен анализ за дадена задача.

Проучване на резултатите и заключения

Ние „събираме“ уравнението за регресия от закръглените данни, представени по-горе в листа с електронна таблица на Excel:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

В по-позната математическа форма може да се запише като:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Данните за АД "МММ" са представени в таблицата:

Като ги заместим в регресионното уравнение, цифрата е 64,72 милиона щатски долара. Това означава, че акциите на АД "МММ" не трябва да се купуват, тъй като стойността им от 70 милиона щатски долара е доста надценена.

Както можете да видите, използването на процесора за електронни таблици Excel и регресионното уравнение направи възможно вземането на информирано решение относно целесъобразността на много специфична транзакция.

Сега знаете какво е регресия. Обсъдените по-горе примери в Excel ще ви помогнат да решите практически проблеми в областта на иконометрията.

КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ

- Английскикоефициент, регресия; Немски Regressionskoeffizient. Една от характеристиките на връзката между зависимата y и независимата променлива x. К. п. показва с колко единици се увеличава стойността, взета от y, ако променливата x се промени с една от нейните промени. Геометрично К. п. е наклонът на правата y.

антинаци. Енциклопедия по социология, 2009

Вижте какво е "КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ" в други речници:

    коефициент на регресия- - [L.G. Суменко. Английско-руският речник на информационните технологии. M .: GP TsNIIS, 2003.] Теми на информационните технологии като цяло EN регресионен коефициент ... Ръководство за технически преводач

    Коефициент на регресия- 35. Коефициент на регресия Параметър на модела на регресионния анализ Източник: GOST 24026 80: Изследователски тестове. Планиране на експеримент. Термини и определения…

    коефициент на регресия- Коефициент на независимата променлива в регресионното уравнение ... Речник на социологическата статистика

    КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ- Английски. коефициент, регресия; Немски Regressionskoeffizient. Една от характеристиките на връзката между зависимата y и независимата променлива x. К. п. показва с колко единици се увеличава стойността, приета от y, ако променливата x се промени на ... ... Тълковен речник по социология

    коефициент на регресия на извадката- 2,44. коефициент на регресия на извадката Коефициент на променлива в уравнението на крива или регресионна повърхност Източник: GOST R 50779.10 2000: Статистически методи. Вероятност и основна статистика. Термини и определения… Речник-справочник на термините на нормативно-техническата документация

    Коефициент на частична регресияе статистическа мярка, която обозначава степента на влияние на независимата променлива върху зависимата променлива в ситуация, при която взаимното влияние на всички други променливи в модела е под контрола на изследователя ... Социологически речник Социум

    РЕГРЕСИЯ, ТЕГЛО- Синоним на коефициент на регресия... Тълковен речник по психология

    КОЕФИЦИЕНТ НА ​​НАСЛЕДЯВАНЕ- Показател за относителния дял на генетичната вариабилност в общата фенотипна вариация на даден признак. Най-често срещаните методи за оценка на наследствеността на икономически полезни признаци: където h2 е коефициентът на наследственост; r в рамките на класа ... ... Термини и дефиниции, използвани в развъждането, генетиката и репродукцията на селскостопански животни

    - (R на квадрат) е делът на дисперсията на зависимата променлива, обяснена от разглеждания модел на зависимостта, тоест обяснителните променливи. По-точно, това е единица минус делът на необяснимата дисперсия (дисперсия на случайната грешка на модела, или условна ... ... Wikipedia

    Коефициент на независимата променлива в регресионното уравнение. Така, например, в уравнението на линейната регресия, свързващо случайни променливи Y и X, R. k. B0 и b1 са равни: където r е коефициентът на корелация на X и Y,. Изчисляване на R. k. оценки (избрани ... ... Енциклопедия по математика

Книги

  • Въведение в иконометрията (CDPC), Яновски Леонид Петрович, Буховец Алексей Георгиевич. Дадени са основите на иконометрията и статистическия анализ на едномерните времеви редове. Много внимание се отделя на класическата двойка и множествената регресия, класическите и обобщените методи ...
  • Скоростно четене. Ефективен треньор (CDpc). Програмата е насочена към потребители, които искат да овладеят техниката за бързо четене в най-кратки срокове. Курсът е структуриран на принципа "теория - практика". Теоретичен материал и практически...

При линеен тип връзка между двете изследвани характеристики освен изчисляване на корелации се прилага и изчисляването на коефициента на регресия.

В случай на линейна корелация, всяка от промените в една характеристика съответства на добре дефинирана промяна в друга характеристика. Коефициентът на корелация обаче показва тази връзка само в относително изражение - във доли от единица. С помощта на регресионния анализ тази стойност на връзката се получава в наименувани единици. Сумата, с която първият знак се променя средно, когато вторият се промени за мерна единица, се нарича коефициент на регресия.

За разлика от корелацията, регресионният анализ дава по-широка информация, тъй като чрез изчисляване на два регресионни коефициента Rx/yи Ru / xвъзможно е да се определи както зависимостта на първия признак от втория, така и втория от първия. Изразяването на регресионна връзка с помощта на уравнение позволява определена стойност на една характеристика, за да се установи стойността на друга характеристика.

Коефициентът на регресия R е произведението на коефициента на корелация и съотношението на стандартните отклонения, изчислени за всяка характеристика. Изчислява се по формулата

където R е коефициентът на регресия; SX е стандартното отклонение на първата характеристика, която се променя поради промяната във втората; SУ - стандартно отклонение на втория признак поради промяната, при която се променя първият признак; r е коефициентът на корелация между тези характеристики; х - функция; y-аргумент.

Тази формула определя величината на стойността на x, когато y се променя за мерна единица. Ако е необходимо обратно изчисление, можете да намерите стойността на y, когато x се промени за единица мярка, като използвате формулата:


В този случай активната роля при промяна на един атрибут спрямо друг се променя, в сравнение с предишната формула, аргументът става функция и обратно. SX и SY се приемат в наименуван израз.

Има ясна връзка между стойностите на r и R, изразяваща се във факта, че произведението на регресията x в y и регресията y в x е равно на квадрата на коефициента на корелация, т.е.

Rx / y * Ry / x = r2

Това показва, че коефициентът на корелация е средната геометрична стойност на двете стойности на регресионните коефициенти на дадена извадка. Тази формула може да се използва за проверка на правилността на изчисленията.

При обработка на цифров материал на изчислителни машини могат да се използват подробни формули за коефициент на регресия:

R или


За коефициента на регресия може да се изчисли неговата грешка на представителност. Грешката на коефициента на регресия е равна на грешката на коефициента на корелация, умножена по съотношението на квадратните съотношения:

Критерият за надеждност на коефициента на регресия се изчислява по обичайната формула:

в резултат на това той е равен на критерия за надеждност на коефициента на корелация:

Надеждността на стойността на tR се установява съгласно таблицата на Студент при  = n - 2, където n е броят на двойките наблюдения.

Криволинейна регресия.

РЕГРЕСИЯ, КРИВИ... Всяка нелинейна регресия, при която регресионното уравнение за промени в една променлива (y) като функция на t се променя в друга (x), е квадратно, кубично или уравнение от по-висок порядък. Въпреки че винаги е математически възможно да се получи регресионно уравнение, което да отговаря на всяка извивка на кривата, повечето от тези смущения са резултат от грешки при вземане на проби или измерване и такова „перфектно“ прилягане не прави нищо. Не винаги е лесно да се определи дали криволинейната регресия отговаря на набор от данни, въпреки че съществуват статистически тестове, за да се определи дали всяка по-висока степен на уравнението значително увеличава степента на съответствие на набора от данни.

Напасването на крива се извършва по същия начин, като се използва методът на най-малките квадрати, както при напасването по права линия. Линията на регресия трябва да удовлетворява условието за минимум от сбора на квадратите на разстоянията до всяка точка от корелационното поле. В този случай в уравнение (1) y е изчислената стойност на функцията, определена с помощта на уравнението на избраната криволинейна връзка от действителните стойности на x j. Например, ако е избрана парабола от втори ред за апроксимиране на връзката, тогава y = a + bx + cx2, (14) И разликата между точка, лежаща на кривата, и дадена точка от корелационното поле за съответното аргументът може да се запише подобно на уравнение (3) във формата yj = yj (a + bx + cx2) (15) В този случай сумата от квадратите на разстоянията от всяка точка на корелационното поле до новата регресионна линия в случай на парабола от втори ред ще има вида: S 2 = yj 2 = 2 (16) Въз основа на минималното условие на тази сума частичните производни на S 2 по отношение на a, b и c са равни на нула . След извършване на необходимите трансформации получаваме система от три уравнения с три неизвестни за определяне на a, b и c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2.yx2 = a x 2 + b x 3 + c x4. (17). Решавайки системата от уравнения за a, b и c, намираме числените стойности на коефициентите на регресия. Стойностите y, x, x2, yx, yx2, x3, x4. Намират се директно от производствените измервания. Оценката на плътността на връзката с криволинейна зависимост е теоретичното съотношение на корелация xy, което е корен квадратен от съотношението на две вариации: средният квадрат p2 на отклоненията на изчислените стойности y "j на функцията според намереното уравнение на регресия от средноаритметичната стойност Y на стойността y до средния квадрат на отклоненията y2 на действителните стойности на функцията yj от нейната средна аритметична стойност: xу = (р2 / y2) 1/2 = ((y "j - Y) 2 / (yj - Y) 2) 1/2 (18) Квадратното съотношение на корелация xy2 показва дела на общата променливост на зависимата променлива у, дължаща се на променливостта на аргумента x. Този показател се нарича коефициент на детерминация. За разлика от коефициента на корелация, стойността на съотношението на корелация може да приеме само положителни стойности от 0 до 1. При липса на връзка, съотношението на корелация е нула, при наличието на функционална връзка е равно на едно и при наличие на регресионна връзка с различна плътност, съотношението на корелация приема стойности между нула и едно ... Изборът на вида на кривата е от голямо значение при регресионния анализ, тъй като точността на апроксимацията и статистическите оценки на стегнатостта на връзката зависят от вида на избраната връзка. Най-простият метод за избор на тип крива е да се изградят корелационни полета и да се изберат подходящите типове регресионни уравнения въз основа на местоположението на точките в тези полета. Методите за регресионен анализ ви позволяват да намерите числените стойности на коефициентите на регресия за сложни видове взаимовръзка на параметри, описани например от полиноми от високи степени. Често формата на кривата може да се определи въз основа на физическата природа на разглеждания процес или явление. Има смисъл да се използват полиноми от високи степени за описване на бързо променящи се процеси, в случай че диапазоните на флуктуации в параметрите на тези процеси са значителни. Що се отнася до изследването на металургичния процес, достатъчно е да се използват криви от по-нисък порядък, например парабола от втори ред. Тази крива може да има един екстремум, което, както показа практиката, е напълно достатъчно, за да опише различни характеристики на металургичния процес. Резултатите от изчисляването на параметрите на двойната корелационна връзка биха били надеждни и биха имали практическа стойност, ако използваната информация е получена за условия на широк диапазон на флуктуации на аргумента с постоянството на всички други параметри на процеса. Следователно методите за изследване на двойната корелационна връзка на параметрите могат да се използват за решаване на практически проблеми само когато има увереност в отсъствието на други сериозни влияния върху функцията, с изключение на анализирания аргумент. В производствени условия е невъзможно процесът да се извършва по този начин за дълго време. Въпреки това, ако имате информация за основните параметри на процеса, които влияят на неговите резултати, тогава влиянието на тези параметри може да бъде математически изключено и връзката между функцията и аргумента, който ни интересува, може да бъде изолиран в „чиста форма“ . Такава връзка се нарича частна или индивидуална. За определянето му се използва методът на множествена регресия.

Съотношение на корелация.

Коефициентът на корелация и индексът на корелация са числови характеристики, които са тясно свързани с концепцията за случайна променлива, или по-скоро със система от случайни променливи. Следователно, за да се въведе и дефинира тяхното значение и роля, е необходимо да се изясни понятието за система от случайни променливи и някои свойства, присъщи на тях.

Две или повече случайни променливи, описващи определено явление, се наричат ​​система или комплекс от случайни променливи.

Системата от няколко случайни променливи X, Y, Z,…, W обикновено се означава с (X, Y, Z,…, W).

Например точка в равнина се описва не с една координата, а с две, а в пространството - дори с три.

Свойствата на система от няколко случайни променливи не се ограничават до свойствата на отделните случайни променливи, включени в системата, но включват и взаимни връзки (зависимости) между случайни променливи. Следователно, когато се изучава система от случайни променливи, трябва да се обърне внимание на естеството и степента на зависимост. Тази зависимост може да бъде повече или по-малко изразена, повече или по-малко тясна. А в други случаи случайните променливи се оказват практически независими.

Случайна променлива Y се нарича независима от случайна променлива X, ако законът за разпределение на произволна променлива Y не зависи от това каква стойност е взела X.

Трябва да се отбележи, че зависимостта и независимостта на случайните променливи винаги е взаимно явление: ако Y не зависи от X, тогава стойността на X не зависи от Y. Като се има предвид това, можем да дадем следната дефиниция на независимост на случайните променливи.

Случайните променливи X и Y се наричат ​​независими, ако законът на разпределението на всяка от тях не зависи от това каква стойност е приела другата. В противен случай величините X и Y се наричат ​​зависими.

Законът за разпределение на произволна променлива е всяка връзка, която установява връзка между възможните стойности на произволна променлива и съответните вероятности.

Концепцията за "зависимост" на случайните променливи, която се използва в теорията на вероятностите, е малко по-различна от обичайната концепция за "зависимост" на величините, която се използва в математиката. И така, математикът под "зависимост" означава само един вид зависимост - пълна, твърда, така наречената функционална зависимост. Две величини X и Y се наричат ​​функционално зависими, ако, знаейки стойността на една от тях, е възможно точно да се определи стойността на другата.

В теорията на вероятностите има малко по-различен вид зависимост - вероятностна зависимост. Ако стойността на Y е свързана със стойността на X чрез вероятностна зависимост, тогава, знаейки стойността на X, е невъзможно да се посочи точно стойността на Y, но можете да посочите неговия закон за разпределение, в зависимост от това каква стойност е стойността от X е взел.

Вероятната зависимост може да бъде повече или по-малко близка; с увеличаване на близостта на вероятностната зависимост тя все повече се приближава до функционалната. По този начин функционалната зависимост може да се разглежда като краен, ограничаващ случай на най-близката вероятностна зависимост. Друг краен случай е пълната независимост на случайните променливи. Между тези два крайни случая се намират всички градации на вероятностна зависимост – от най-силната към най-слабата.

На практика често се среща вероятностна връзка между случайни променливи. Ако случайните променливи X и Y са в вероятностна връзка, това не означава, че с промяна на стойността на X, стойността на Y се променя по съвсем определен начин; това означава само, че с промяна в стойността на X, стойността на Y също има тенденция да се промени (увеличава или намалява с увеличаване на X). Тази тенденция се наблюдава само в общи линии и във всеки отделен случай са възможни отклонения от нея.

По време на обучението си студентите много често се натъкват на различни уравнения. Едно от тях - регресионното уравнение - е разгледано в тази статия. Този тип уравнение се използва специално за описание на характеристиките на връзката между математическите параметри. Този тип равенство се използва в статистиката и иконометрията.

Дефиниране на регресия

В математиката регресия означава величина, която описва зависимостта на средната стойност на набор от данни от стойностите на друга величина. Регресионното уравнение показва, като функция на определена характеристика, средната стойност на друга характеристика. Регресионната функция има формата на просто уравнение y = x, в което y е зависимата променлива, а x е независимата (атрибут-фактор). Всъщност регресията се изразява като y = f (x).

Какви са видовете връзки между променливите

Като цяло има два противоположни типа връзка: корелация и регресия.

Първият се характеризира с равенството на условните променливи. В този случай не е известно със сигурност коя променлива зависи от другата.

Ако няма равенство между променливите и условията казват коя променлива е обяснителна и коя е зависима, тогава можем да говорим за наличие на връзка от втори тип. За да се изгради уравнение на линейна регресия, ще е необходимо да се установи какъв тип връзка се наблюдава.

Типове регресия

Днес има 7 различни вида регресия: хиперболична, линейна, множествена, нелинейна, сдвоена, обратна, логаритмично линейна.

Хиперболична, линейна и логаритмична

Линейно регресионно уравнение се използва в статистиката за ясно обяснение на параметрите на уравнението. Изглежда, че y = c + m * x + E. Хиперболичното уравнение има формата на обикновена хипербола y = c + m / x + E. Логаритмично линейното уравнение изразява връзката с помощта на логаритмична функция: In y = In c + m * In x + In E.

Множество и нелинейни

Два по-сложни типа регресия са множествени и нелинейни. Уравнението за множествена регресия се изразява с функцията y = f (x 1, x 2 ... x c) + E. В тази ситуация y е зависимата променлива, а x е обяснителната. Променливата E е стохастична и включва влиянието на други фактори в уравнението. Нелинейното регресионно уравнение е малко противоречиво. От една страна, тя не е линейна по отношение на взетите под внимание показатели, но от друга страна, в ролята на оценка на показателите е линейна.

Обратни и сдвоени регресии

Обратната е вид функция, която трябва да бъде преобразувана в линейна форма. В най-традиционните приложения той приема формата на функция y = 1 / c + m * x + E. Уравнението за сдвоена регресия демонстрира връзката между данните като функция на y = f (x) + E. По същия начин, както в други уравнения, y зависи от x, а E е стохастичен параметър.

Концепция за корелация

Това е индикатор, който демонстрира съществуването на връзка между две явления или процеса. Силата на връзката се изразява като коефициент на корелация. Стойността му се колебае в интервала [-1; +1]. Отрицателният индикатор показва наличието на обратна връзка, положителният индикатор показва директна. Ако коефициентът приеме стойност, равна на 0, тогава няма връзка. Колкото по-близо е стойността до 1 - толкова по-силна е връзката между параметрите, толкова по-близо до 0 - толкова по-слаба.

Методи

Корелационните параметрични методи могат да оценят близостта на връзката. Те се използват на базата на оценка на разпределението за изследване на параметри, подчиняващи се на нормалния закон за разпределение.

Параметрите на линейното регресионно уравнение са необходими за идентифициране на вида на зависимостта, функцията на регресионното уравнение и за оценка на показателите на избраната формула на връзката. Полето за корелация се използва като метод за идентифициране на връзка. За това всички съществуващи данни трябва да бъдат показани графично. В правоъгълна 2D координатна система всички известни данни трябва да бъдат нанесени. Така се формира корелационното поле. Стойността на описващия фактор е отбелязана по абсцисата, докато стойностите на зависимия фактор са отбелязани по ординатата. Ако има функционална връзка между параметрите, те се подреждат под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за почти пълна липса на комуникация. Ако е между 30% и 70%, тогава това показва наличието на връзки със средна плътност. 100% индикатор е доказателство за функционална връзка.

Едно нелинейно регресионно уравнение, подобно на линейното, трябва да бъде допълнено с индекс на корелация (R).

Корелация за множествена регресия

Коефициентът на детерминация е мярка за квадрата на множествената корелация. Той говори за плътността на връзката между представения комплекс от показатели с изследваната характеристика. Той може да говори и за естеството на влиянието на параметрите върху резултата. Уравнението за множествена регресия се оценява с помощта на този индикатор.

За да се изчисли индексът на множествена корелация, е необходимо да се изчисли неговият индекс.

Метод на най-малкия квадрат

Този метод е начин за оценка на регресионните фактори. Същността му се състои в минимизиране на сумата от получените квадрати отклонения поради зависимостта на фактора от функцията.

Сдвоено уравнение на линейна регресия може да бъде оценено с помощта на този метод. Този тип уравнения се използват в случай на откриване между показателите на сдвоена линейна връзка.

Параметри на уравнението

Всеки параметър на функцията на линейна регресия има специфично значение. Сдвоеното уравнение на линейна регресия съдържа два параметъра: c и m. Параметърът m показва средната промяна в крайния индикатор на функцията y, предмет на намаляване (увеличение) на променливата x с една условна единица. Ако променливата x е нула, тогава функцията е равна на параметъра c. Ако променливата x не е нула, тогава факторът c няма икономическо значение. Единственият ефект върху функцията е знакът пред фактора c. Ако има минус, тогава можем да кажем за забавена промяна в резултата в сравнение с фактора. Ако има плюс, това показва ускорена промяна в резултата.

Всеки параметър, който променя стойността на регресионно уравнение, може да бъде изразен чрез уравнение. Например факторът c има формата c = y - tx.

Групирани данни

Има условия на задачата, при които цялата информация е групирана според атрибута x, но в същото време за определена група се посочват съответните средни стойности на зависимия индикатор. В този случай средните стойности характеризират как се променя индикаторът в зависимост от x. По този начин групираната информация помага да се намери регресионното уравнение. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните стойности често са обект на външни колебания. Тези флуктуации не са отражение на редовността на връзката, те само маскират нейния „шум“. Средните стойности показват много по-лоши модели на взаимоотношения от уравнението на линейната регресия. Те обаче могат да се използват като основа за намиране на уравнение. Като умножите размера на отделна популация по съответната средна стойност, можете да получите сумата от y в рамките на групата. След това трябва да избиете всички получени суми и да намерите крайния индикатор y. Малко по-трудно е да се правят изчисления с индикатора на количеството xy. В случай, че интервалите са малки, е възможно конвенционално да приемем експонентата x за всички единици (в рамките на групата) за еднакви. Трябва да го умножите със сумата от y, за да разберете сумата от произведенията на x и y. Освен това всички суми се събират и се получава общото количество xy.

Уравнение за множествена двойна регресия: Оценка на важността на връзката

Както беше обсъдено по-рано, множествената регресия има функция от вида y = f (x 1, x 2,…, x m) + E. Най-често такова уравнение се използва за решаване на проблема с търсенето и предлагането на продукт, приходите от лихви по обратно изкупени акции и изследване на причините и вида на функцията на производствените разходи. Също така се използва активно в голямо разнообразие от макроикономически изследвания и изчисления, но на ниво микроикономика такова уравнение се използва малко по-рядко.

Основната задача на множествената регресия е да се изгради модел на данни, съдържащ огромно количество информация, за да се определи допълнително какво влияние оказва всеки от факторите поотделно и в тяхната обща съвкупност върху индикатора, който трябва да бъде моделиран, и неговите коефициенти. Регресионното уравнение може да приеме голямо разнообразие от стойности. В същото време за оценка на връзката обикновено се използват два типа функции: линейни и нелинейни.

Линейната функция е изобразена под формата на такава връзка: y = a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. В този случай a2, a m се считат за коефициенти на "чистата" регресия. Те са необходими за характеризиране на средната промяна на параметъра y с промяна (намаляване или увеличаване) на всеки съответен параметър x с една единица, при условие за стабилна стойност на други показатели.

Нелинейните уравнения имат, например, формата на степенна функция y = ax 1 b1 x 2 b2 ... x m bm. В този случай индикаторите b 1, b 2 ..... bm - се наричат ​​коефициенти на еластичност, те показват как резултатът ще се промени (с колко%) с увеличаване (намаляване) на съответния индикатор x с 1% и със стабилен индикатор за други фактори.

Какви фактори трябва да се вземат предвид при конструирането на множествена регресия

За да се конструира правилно множествена регресия, е необходимо да се установи на кои фактори трябва да се обърне специално внимание.

Необходимо е да има известно разбиране за същността на връзката между икономическите фактори и моделирания. Факторите, които ще трябва да бъдат включени, трябва да отговарят на следните критерии:

  • Трябва да бъде количествено измерим. За да се използва фактор, описващ качеството на даден обект, във всеки случай той трябва да бъде количествено определен.
  • Не трябва да има взаимна корелация на факторите или функционална връзка. Такива действия най-често водят до необратими последици - системата от обикновени уравнения става безусловна, а това води до нейната ненадеждност и неясни оценки.
  • Ако има огромен показател за корелация, няма начин да се установи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите стават неразбираеми.

Строителни методи

Има безброй методи и техники, които обясняват как можете да изберете фактори за уравнение. Всички тези методи обаче се основават на избора на коефициенти с помощта на индекса на корелация. Сред тях са:

  • Метод на изключване.
  • Метод на включване.
  • Регресионен анализ стъпка по стъпка.

Първият метод включва филтриране на всички коефициенти от сборния набор. Вторият метод включва въвеждането на много допълнителни фактори. Е, третото е елиминирането на фактори, които преди са били приложени към уравнението. Всеки от тези методи има право на съществуване. Те имат своите плюсове и минуси, но всички по свой начин могат да решат проблема с филтрирането на ненужните индикатори. По правило резултатите, получени от всеки отделен метод, са доста близки.

Многовариантни методи за анализ

Такива методи за определяне на факторите се основават на отчитането на отделни комбинации от взаимосвързани характеристики. Те включват дискриминантен анализ, разпознаване на лица, анализ на главните компоненти и клъстерен анализ. Освен това има и факторен анализ, но той се появи в резултат на разработването на метода на компонентите. Всички те се прилагат при определени обстоятелства, при определени условия и фактори.

В предишни публикации фокусът на анализа често е бил върху една цифрова променлива, като възвръщаемост на взаимните фондове, времена за зареждане на уеб страници или консумация на безалкохолни напитки. В тази и следващите бележки ще разгледаме методи за прогнозиране на стойностите на числова променлива в зависимост от стойностите на една или повече други числови променливи.

Материалът ще бъде илюстриран с напречен пример. Прогнозиране на обема на продажбите в магазин за дрехи.Веригата от магазини за облекло с намалени цени Sunflowers непрекъснато се разширява вече 25 години. В момента обаче компанията няма систематичен подход към избора на нови търговски обекти. Мястото, където компанията възнамерява да открие нов магазин, се определя въз основа на субективни съображения. Критериите за избор са благоприятни условия за наем или представа на мениджъра за идеалното местоположение на магазина. Представете си, че сте ръководител на отдела за специални проекти и планиране. Имате задача да разработите стратегически план за отваряне на нови магазини. Този план трябва да включва прогноза за годишните продажби на новооткрити магазини. Вярвате, че площта за продажба е пряко свързана с размера на приходите и искате да вземете предвид този факт в процеса на вземане на решения. Как да разработите статистически модел, който предвижда годишни продажби въз основа на новия размер на магазина?

Обикновено регресионният анализ се използва за прогнозиране на стойностите на променлива. Целта му е да разработи статистически модел, който предвижда стойностите на зависимата променлива или отговор от стойностите на поне една независима или обяснителна променлива. В тази публикация ще разгледаме проста линейна регресия, статистическа техника, която предвижда стойностите на зависимата променлива. Йот стойностите на независимата променлива х... Следващите бележки ще опишат модел на множествена регресия, предназначен да предскаже стойностите на независимата променлива Йчрез стойностите на няколко зависими променливи ( X 1, X 2, ..., X k).

Изтеглете бележката във формата или примерите във формата

Видове регресионни модели

където ρ 1 - коефициент на автокорелация; ако ρ 1 = 0 (без автокорелация), д≈ 2; ако ρ 1 ≈ 1 (положителна автокорелация), д≈ 0; ако ρ 1 = -1 (отрицателна автокорелация), д ≈ 4.

На практика прилагането на теста на Дърбин-Уотсън се основава на сравнение на стойността дс критични теоретични стойности д Ли г Уза даден брой наблюдения н, броят на независимите променливи на модела к(за проста линейна регресия к= 1) и ниво на значимост α. Ако д< d L , хипотезата за независимост на случайните отклонения се отхвърля (следователно има положителна автокорелация); ако D> d U, хипотезата не се отхвърля (т.е. няма автокорелация); ако д Л< D < d U , няма достатъчно основание за вземане на решение. Когато изчислената стойност днадвишава 2, тогава с д Ли г Уне се сравнява самият коефициент ди израз (4 - д).

За да изчислим статистиката на Дърбин-Уотсън в Excel, нека се обърнем към долната таблица на фиг. 14 Изтегляне на остатъка... Числителят в израз (10) се изчислява с помощта на функцията = SUMKVRAZN (масив1; масив2), а знаменателят = SUMKV (масив) (фиг. 16).

Ориз. 16. Формули за изчисляване на статистиката на Дърбин-Уотсън

В нашия пример д= 0,883. Основният въпрос е - каква стойност на статистиката на Дърбин-Уотсън трябва да се счита за достатъчно малка, за да се заключи, че има положителна автокорелация? Необходимо е да се съпостави стойността D с критичните стойности ( д Ли г У) в зависимост от броя на наблюденията ни нивото на значимост α (фиг. 17).

Ориз. 17. Критични стойности на статистиката на Дърбин-Уотсън (фрагмент от таблицата)

По този начин в проблема за обема на продажбите в магазин за доставка до дома има една независима променлива ( к= 1), 15 наблюдения ( н= 15) и ниво на значимост α = 0,05. следователно, д Л= 1,08 и дУ= 1,36. Дотолкова доколкото д = 0,883 < д Л= 1,08, има положителна автокорелация между остатъците, методът на най-малките квадрати не може да се използва.

Тестване на хипотезата за наклон и корелация

Горната регресия беше използвана единствено за прогнозиране. За определяне на регресионни коефициенти и прогнозиране на стойността на променлива Йза дадена стойност на променливата хбеше използван методът на най-малките квадрати. В допълнение, ние разгледахме средно квадратната грешка на оценката и смесения коефициент на корелация. Ако анализът на остатъците потвърди, че условията за приложимост на метода на най-малките квадрати не са нарушени и моделът на простата линейна регресия е адекватен, въз основа на извадковите данни, може да се твърди, че има линейна връзка между променливите в общо население.

Приложениет - критерият за наклона.Чрез проверка дали наклонът на популацията β 1 е равен на нула, е възможно да се определи дали има статистически значима връзка между променливите хи Й... Ако тази хипотеза бъде отхвърлена, може да се твърди, че между променливите хи Йима линейна връзка. Нулевите и алтернативните хипотези се формулират по следния начин: H 0: β 1 = 0 (няма линейна зависимост), H1: β 1 ≠ 0 (има линейна зависимост). По дефиниция т-статистика е равна на разликата между наклона на извадката и хипотетичния наклон на съвкупността, разделена на средноквадратната грешка на оценката на наклона:

(11) т = (б 1 β 1 ) / S б 1

където б 1 Дали наклонът на регресионната линия се основава на извадкови данни, β1 е хипотетичният наклон на правата линия на общата съвкупност, и статистиката на теста тТо има т-разпределение с n - 2степени на свобода.

Нека проверим дали има статистически значима връзка между размера на магазина и годишните продажби с α = 0,05. т-критерий се показва заедно с други параметри при използване Пакет за анализ(опция Регресия). Пълните резултати от пакета за анализ са показани на фиг. 4, фрагмент, свързан с t-статистика, е показан на фиг. осемнадесет.

Ориз. 18. Резултати от приложението т

Тъй като броят на магазините н= 14 (виж фиг. 3), критична стойност т-статистика при ниво на значимост α = 0,05 може да се намери по формулата: т Л= STUDENT.OBR (0,025; 12) = –2,1788, където 0,025 е половината от нивото на значимост, а 12 = н – 2; t U= СТУДЕНТ.ОБР (0,975; 12) = +2,1788.

Дотолкова доколкото т-статистика = 10,64> t U= 2,1788 (фиг. 19), нулева хипотеза H 0се отклонява. От друга страна, Р- стойност за х= 10,6411, изчислено по формулата = 1-STUDENT.DIST (D3; 12; TRUE), е приблизително равно на нула, така че хипотезата H 0отново се отклонява. Фактът че Р-стойност почти равна на нула означава, че ако нямаше реална линейна връзка между размера на магазина и годишните продажби, би било почти невъзможно да се открие с помощта на линейна регресия. Следователно съществува статистически значима линейна зависимост между средните годишни продажби в магазините и техния размер.

Ориз. 19. Тестване на хипотезата за наклона на генералната съвкупност при ниво на значимост 0,05 и 12 степени на свобода

ПриложениеФ - критерият за наклона.Алтернативен подход за тестване на хипотези за наклон на проста линейна регресия е използването Ф-критерий. Припомнете си това Ф-критерий се използва за тестване на връзката между две вариации (виж подробности). При тестване на хипотезата на наклона мярката за случайни грешки е дисперсията на грешката (сумата от квадратите на грешките, разделена на броя на степените на свобода), следователно Ф-критерий използва съотношението на дисперсията, обяснено с регресията (т.е. стойностите SSRразделено на броя на независимите променливи к), към дисперсията на грешките ( MSE = S Yх 2 ).

По дефиниция Ф-Статистиката е равна на средния квадрат на отклонението поради регресия (MSR), разделено на дисперсията на грешката (MSE): Ф = MSR/ MSE, където MSR =SSR / к, MSE =SSE/(н- k - 1), k- броят на независимите променливи в регресионния модел. Тест статистика ФТо има Ф-разпределение с ки н- к - 1степени на свобода.

За дадено ниво на значимост α, правилото за решение се формулира, както следва: ако F> FУ, нулевата хипотеза се отхвърля; в противен случай не се отхвърля. Резултатите, представени под формата на обобщена таблица на дисперсионния анализ, са показани на фиг. двадесет.

Ориз. 20. Анализ на дисперсионната таблица за проверка на хипотезата за статистическата значимост на коефициента на регресия

По същия начин т-критерий Ф-критерий се показва в таблицата, когато се използва Пакет за анализ(опция Регресия). Напълно резултати от работата Пакет за анализса показани на фиг. 4, фрагмент, свързан с Ф-статистика - на фиг. 21.

Ориз. 21. Резултати от приложението Ф-критерии, получени с помощта на пакета за анализ на Excel

F статистиката е 113,23 и Р-стойност близка до нула (клетка ЗначениеФ). Ако нивото на значимост α е 0,05, определете критичната стойност Ф-разпределения с една и 12 степени на свобода могат да бъдат дадени по формулата Ф У= F. OBR (1-0,05; 1; 12) = 4,7472 (фиг. 22). Дотолкова доколкото Ф = 113,23 > Ф У= 4,7472 и Р-стойност близка до 0< 0,05, нулевая гипотеза H 0се отклонява, т.е. размерът на магазина е тясно свързан с годишните му продажби.

Ориз. 22. Тестване на хипотезата за наклона на генералната съвкупност при ниво на значимост 0,05, с една и 12 степени на свобода

Доверителен интервал, съдържащ наклона β 1.За да тествате хипотезата за съществуването на линейна връзка между променливите, можете да изградите доверителен интервал, съдържащ наклона β 1 и да се уверите, че хипотетичната стойност β 1 = 0 принадлежи на този интервал. Центърът на доверителния интервал, съдържащ наклона β 1, е наклонът на извадката б 1 , а границите му са количествата b 1 ±t n –2 S б 1

Както е показано на фиг. осемнадесет, б 1 = +1,670, н = 14, S б 1 = 0,157. т 12 = СТУДЕНТ.OBR (0,975; 12) = 2,1788. следователно, b 1 ±t n –2 S б 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. По този начин наклонът на общата съвкупност с вероятност 0,95 се намира в диапазона от +1,328 до +2,012 (т.е. от $ 1 328 000 до $ 2 012 000). Тъй като тези стойности са по-големи от нула, има статистически значима линейна връзка между годишните продажби и площта на магазина. Ако доверителният интервал съдържаше нула, нямаше да има зависимост между променливите. В допълнение, доверителният интервал означава, че всяко увеличение на площта на магазина с 1000 кв. foot води до увеличение на средните продажби от $1,328,000 до $2,012,000.

Използванет -критерий за коефициента на корелация.е въведен коефициент на корелация r, което е мярка за връзката между две числови променливи. Може да се използва, за да се установи дали има статистически значима връзка между две променливи. Нека обозначим коефициента на корелация между генералните съвкупности на двете променливи със символа ρ. Нулевите и алтернативните хипотези се формулират, както следва: H 0: ρ = 0 (няма корелация), H 1: ρ ≠ 0 (има корелация). Проверка за наличието на корелация:

където r = + , ако б 1 > 0, r = – , ако б 1 < 0. Тестовая статистика тТо има т-разпределение с n - 2степени на свобода.

В проблема за веригата магазини Слънчогледи r 2= 0,904 и б 1- +1,670 (виж фиг. 4). Дотолкова доколкото б 1> 0, коефициентът на корелация между годишните продажби и размера на магазина е r= + √0,904 = +0,951. Проверете нулевата хипотеза, че няма корелация между тези променливи, като използвате т-статистика:

При ниво на значимост α = 0,05, нулевата хипотеза трябва да бъде отхвърлена, тъй като т= 10,64> 2,1788. По този начин може да се твърди, че има статистически значима връзка между годишните продажби и размера на магазина.

Интервалите на доверие и критериите за тестване на хипотезите се използват взаимозаменяемо, когато се обсъждат заключенията за наклона на популацията. Въпреки това, изчисляването на доверителния интервал, съдържащ коефициента на корелация, се оказва по-трудно, тъй като формата на извадковото разпределение на статистиката rзависи от истинския коефициент на корелация.

Оценка на математическото очакване и прогнозиране на индивидуалните стойности

Този раздел обсъжда методи за оценка на очаквания отговор Йи прогнози за индивидуални ценности Йпри дадените стойности на променливата х.

Изграждане на доверителен интервал.В пример 2 (вижте раздела по-горе Метод на най-малкия квадрат) регресионното уравнение направи възможно да се предвиди стойността на променливата Й х... При проблема с избора на място за търговски обект, средните годишни продажби в магазин с площ от 4000 кв. фута се равняваше на 7,644 милиона долара Тази оценка на математическото очакване на общото население обаче е точкова. за оценка на математическото очакване на общата съвкупност беше предложена концепцията за доверителен интервал. По същия начин можем да представим концепцията доверителен интервал за очаквания отговорза дадена стойност на променливата х:

където , = б 0 + б 1 X i- прогнозираната стойност е променлива Йв х = X i, S YX- средно квадратна грешка, н- размер на извадката, хи- зададената стойност на променливата х, µ Й|х = хи- математическо очакване на променлива Йв х = X i, SSX =

Анализът на формула (13) показва, че ширината на доверителния интервал зависи от няколко фактора. При дадено ниво на значимост увеличаването на амплитудата на трептенията около регресионната линия, измерено с помощта на средноквадратната грешка, води до увеличаване на ширината на интервала. От друга страна, както се очаква, увеличаването на размера на извадката е придружено от стесняване на интервала. Освен това ширината на интервала се променя в зависимост от стойностите хи... Ако стойността на променливата Йпредвидени за количества хблизо до средното , доверителният интервал се оказва по-тесен, отколкото при прогнозиране на отговора за стойности, далеч от средните.

Да кажем, че когато избираме място за магазин, искаме да начертаем 95% доверителен интервал за средните годишни продажби за всички магазини с площ от 4000 кв. крака:

Следователно средните годишни продажби във всички магазини с площ от 4000 квадратни метра. фута, с 95% вероятност се намира в диапазона от 6,971 до 8,317 милиона долара.

Изчисляване на доверителния интервал за прогнозираната стойност.В допълнение към доверителния интервал за математическото очакване на отговора при дадена стойност на променливата х, често е необходимо да се знае доверителният интервал за прогнозираната стойност. Въпреки факта, че формулата за изчисляване на този доверителен интервал е много подобна на формула (13), този интервал съдържа прогнозната стойност, а не оценката на параметъра. Предвиден интервал на отговор Йх = Xiпри конкретна стойност на променливата хиопределя се по формулата:

Да предположим, че когато избираме място за магазин, искаме да начертаем 95% доверителен интервал за прогнозираните годишни продажби за магазин с площ от 4000 кв. крака:

Следователно, прогнозираният годишен обем на продажбите за магазин с площ от 4000 кв. фута, с 95% вероятност се намира в диапазона от 5,433 до 9,854 милиона долара Както можете да видите, доверителният интервал за прогнозираната стойност на отговора е много по-широк от доверителния интервал за математическото му очакване. Това се дължи на факта, че променливостта при прогнозиране на индивидуалните стойности е много по-голяма, отколкото при оценката на математическото очакване.

Подводни камъни и етични проблеми с регресията

Трудности с регресионния анализ:

  • Пренебрегване на условията за приложимост на метода на най-малките квадрати.
  • Погрешна оценка на условията за приложимост на метода на най-малките квадрати.
  • Грешен избор на алтернативни методи, когато са нарушени условията за приложимост на метода на най-малките квадрати.
  • Прилагане на регресионен анализ без задълбочено познаване на предмета на изследване.
  • Екстраполация на регресията извън обхвата на обяснителната променлива.
  • Объркване между статистически и причинно-следствени връзки.

Широкото разпространение на електронни таблици и статистически софтуер елиминира изчислителните проблеми, които възпрепятстваха използването на регресионния анализ. Това обаче доведе до факта, че потребителите, които нямат достатъчно квалификация и знания, започнаха да използват регресионен анализ. Откъде потребителите знаят за алтернативните методи, ако много от тях нямат никаква представа за условията за приложимост на метода на най-малките квадрати и не знаят как да проверят тяхното прилагане?

Изследователят не бива да се увлича с числата за смилане - изчисляване на отместване, наклон и смесен коефициент на корелация. Той се нуждае от по-задълбочени познания. Нека илюстрираме това с класически пример, взет от учебниците. Anscombe показа, че всичките четири набора от данни, показани на фиг. 23 имат същите регресионни параметри (фиг. 24).

Ориз. 23. Четири набора от изкуствени данни

Ориз. 24. Регресионен анализ на четири изкуствени набора от данни; готово с Пакет за анализ(щракнете върху снимката, за да я увеличите)

Така че, от гледна точка на регресионния анализ, всички тези набори от данни са напълно идентични. Ако анализът приключи, щяхме да загубим много полезна информация. Това се доказва от диаграмите на разсейване (Фигура 25) и остатъчните графики (Фигура 26), нанесени за тези набори от данни.

Ориз. 25. Диаграми на разсейване за четири набора от данни

Диаграмите на разсейване и остатъчните графики показват, че тези данни се различават една от друга. Единственият набор, разпределен по права линия, е набор A. Графикът на остатъците, изчислени от набор A, няма редовност. Същото не може да се каже за набори B, C и D. Диаграмата на разсейване, базирана на набор B, демонстрира ясно изразен квадратичен модел. Това заключение се потвърждава от графиката на остатъците, която има параболична форма. Диаграмата на разсейване и остатъчната диаграма показват, че набор от данни B съдържа отклонение. В тази ситуация е необходимо да изключите отклонения от набора от данни и да повторите анализа. Техника за откриване и елиминиране на отклонения от наблюденията се нарича анализ на въздействието. След елиминиране на извънредния резултат резултатът от преоценката на модела може да бъде напълно различен. Диаграма на разсейване от набор от данни D илюстрира необичайната ситуация, в която емпиричният модел е силно зависим от индивидуален отговор ( X 8 = 19, Й 8 = 12,5). Такива регресионни модели трябва да бъдат изчислени с особено внимание. Така че графиките на разсейване и остатъчните графики са основен инструмент за регресионен анализ и трябва да бъдат неразделна част от него. Без тях регресионният анализ не заслужава доверие.

Ориз. 26. Графики на остатъци за четири набора от данни

Как да избегнем клопките в регресионния анализ:

  • Анализ на възможната връзка между променливите хи Йвинаги започвайте с начертаване на диаграма на разсейване.
  • Проверете условията за приложимост, преди да интерпретирате резултатите от регресионния анализ.
  • Начертайте графика на остатъците спрямо независимата променлива. Това ще ви позволи да определите как емпиричният модел съответства на резултатите от наблюдението и да откриете нарушение на постоянството на дисперсията.
  • Използвайте хистограми, графики на стъбла и листа, графики на кутия и графики за нормално разпределение, за да тествате предположението за нормална грешка.
  • Ако условията за метода на най-малките квадрати не са изпълнени, използвайте алтернативни методи (например квадратни или множествени регресионни модели).
  • Ако са изпълнени условията за приложимост на метода на най-малките квадрати, е необходимо да се тества хипотезата за статистическата значимост на регресионните коефициенти и да се изградят доверителни интервали, съдържащи математическото очакване и прогнозната стойност на отговора.
  • Избягвайте да предвиждате стойности на зависимата променлива извън обхвата на независимата променлива.
  • Имайте предвид, че статистическите връзки не винаги са причинно-следствени. Не забравяйте, че корелацията между променливите не означава, че има причинно-следствена връзка между тях.

Резюме.Както е показано на блоковата диаграма (фиг. 27), бележката описва модела на простата линейна регресия, условията за неговата приложимост и как да проверите тези условия. Разглеждан т-критерий за проверка на статистическата значимост на наклона на регресията. Използван е регресионен модел за прогнозиране на стойностите на зависимата променлива. Разгледан е пример, свързан с избора на място за търговски обект, в който се изследва зависимостта на годишния обем на продажбите от площта на магазина. Получената информация ви позволява по-точно да изберете местоположение за магазина и да предвидите годишните му продажби. В следващите бележки ще продължим нашата дискусия за регресионния анализ и ще разгледаме множество модели на регресия.

Ориз. 27. Блокова схема на бележката

Използвани материали от книгата Levin and other Statistics for managers. - М .: Уилямс, 2004 .-- с. 792-872

Ако зависимата променлива е категорична, тогава трябва да се приложи логистична регресия.