Коефициентът на регресионното уравнение показва корелационен и регресионен анализ. Корелация и регресия

КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ

- Английскикоефициент, регресия; Немски Regressionskoeffizient. Една от характеристиките на връзката между зависимата y и независимата променлива x. К. п. показва с колко единици се увеличава стойността, взета от y, ако променливата x се промени с една от нейните промени. Геометрично К. п. е наклонът на правата y.

антинаци. Енциклопедия по социология, 2009

Вижте какво е "КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ" в други речници:

    коефициент на регресия- - [L.G. Суменко. Английско-руският речник на информационните технологии. M .: GP TsNIIS, 2003.] Теми на информационните технологии като цяло EN регресионен коефициент ... Ръководство за технически преводач

    Коефициент на регресия- 35. Коефициент на регресия Параметър на модела на регресионния анализ Източник: GOST 24026 80: Изследователски тестове. Планиране на експеримент. Термини и определения…

    коефициент на регресия- Коефициент на независимата променлива в регресионното уравнение ... Речник на социологическата статистика

    КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ- Английски. коефициент, регресия; Немски Regressionskoeffizient. Една от характеристиките на връзката между зависимата y и независимата променлива x. К. п. показва с колко единици се увеличава стойността, приета от y, ако променливата x се промени на ... ... Тълковен речник по социология

    коефициент на регресия на извадката- 2,44. коефициент на регресия на извадката Коефициент на променлива в уравнението на крива или регресионна повърхност Източник: GOST R 50779.10 2000: Статистически методи. Вероятност и основна статистика. Термини и определения… Речник-справочник на термините на нормативно-техническата документация

    Коефициент на частична регресияе статистическа мярка, която обозначава степента на влияние на независимата променлива върху зависимата променлива в ситуация, при която взаимното влияние на всички други променливи в модела е под контрола на изследователя ... Социологически речник Социум

    РЕГРЕСИЯ, ТЕГЛО- Синоним на коефициент на регресия... Тълковен речник по психология

    КОЕФИЦИЕНТ НА ​​НАСЛЕДЯВАНЕ- Показател за относителния дял на генетичната вариабилност в общата фенотипна вариация на даден признак. Най-често срещаните методи за оценка на наследствеността на икономически полезни признаци: където h2 е коефициентът на наследственост; r в рамките на класа ... ... Термини и дефиниции, използвани в развъждането, генетиката и репродукцията на селскостопански животни

    - (R на квадрат) е делът на дисперсията на зависимата променлива, обяснена от разглеждания модел на зависимостта, тоест обяснителните променливи. По-точно, това е единица минус делът на необяснимата дисперсия (дисперсия на случайната грешка на модела, или условна ... ... Wikipedia

    Коефициент на независимата променлива в регресионното уравнение. Така, например, в уравнението на линейната регресия, свързващо случайни променливи Y и X, R. k. B0 и b1 са равни: където r е коефициентът на корелация на X и Y,. Изчисляване на R. k. оценки (избрани ... ... Енциклопедия по математика

Книги

  • Въведение в иконометрията (CDPC), Яновски Леонид Петрович, Буховец Алексей Георгиевич. Дадени са основите на иконометрията и статистическия анализ на едномерните времеви редове. Много внимание се отделя на класическата двойка и множествената регресия, класическите и обобщените методи ...
  • Скоростно четене. Ефективен треньор (CDpc). Програмата е насочена към потребители, които искат да овладеят техниката за бързо четене в най-кратки срокове. Курсът е структуриран на принципа "теория - практика". Теоретичен материал и практически...

Регресионният анализ е статистически изследователски метод, който ви позволява да покажете зависимостта на параметър от една или повече независими променливи. В предкомпютърната ера приложението му беше доста трудно, особено когато ставаше дума за големи количества данни. Днес, след като сте научили как да изградите регресия в Excel, можете да решите сложни статистически проблеми само за няколко минути. По-долу са дадени конкретни примери от областта на икономиката.

Типове регресия

Самата тази концепция е въведена в математиката през 1886 г. Регресията се случва:

  • линеен;
  • параболичен;
  • властово право;
  • експоненциален;
  • хиперболичен;
  • ориентировъчен;
  • логаритмичен.

Пример 1

Нека разгледаме проблема за определяне на зависимостта на броя на служителите, напуснали работата си, от средната работна заплата в 6 промишлени предприятия.

Задача. Шест предприятия анализираха средната месечна работна заплата и броя на служителите, напуснали доброволно. В табличен вид имаме:

Брой на подадените оставка

Заплата

30 000 рубли

35 000 рубли

40 000 рубли

45 000 рубли

50 000 рубли

55 000 рубли

60 000 рубли

За задачата за определяне на зависимостта на броя на напусналите служители от средната работна заплата в 6 предприятия, регресионният модел има формата на уравнението Y = a 0 + a 1 x 1 + ... + akxk, където xi са влияещи променливи, ai са коефициентите на регресия, а ak е броят на факторите.

За тази задача Y е индикаторът на служителите, които са напуснали, а влияещият фактор е заплатата, която обозначаваме с X.

Използване на възможностите на табличния процесор на Excel

Регресионният анализ в Excel трябва да бъде предшестван от прилагането на вградени функции към съществуващите таблични данни. Въпреки това, за тези цели е по-добре да използвате много полезната добавка "Пакет за анализ". За да го активирате трябва:

  • от раздела "Файл" отидете в секцията "Параметри";
  • в прозореца, който се отваря, изберете реда "Добавки";
  • щракнете върху бутона "Go", разположен по-долу, вдясно от реда "Control";
  • поставете отметка до името "Пакет за анализ" и потвърдете действията си, като щракнете върху "OK".

Ако всичко е направено правилно, необходимият бутон ще се появи от дясната страна на раздела "Данни", разположен над работния лист "Excel".

в Excel

Сега, когато имаме под ръка всички необходими виртуални инструменти за извършване на иконометрични изчисления, можем да започнем да решаваме нашия проблем. За това:

  • кликнете върху бутона "Анализ на данни";
  • в прозореца, който се отваря, кликнете върху бутона "Регресия";
  • в раздела, който се показва, въведете диапазона от стойности за Y (броя на служителите, които са напуснали) и за X (техните заплати);
  • потвърждаваме действията си, като натискаме бутона "OK".

В резултат на това програмата автоматично ще попълни новия лист на процесора за електронни таблици с данните от регресионния анализ. Забележка! Excel има възможността самостоятелно да дефинира местоположението, което предпочитате за тази цел. Например, това може да бъде същият лист, който съдържа стойностите Y и X, или дори нова работна книга, специално проектирана да съхранява този вид данни.

Анализиране на резултатите от регресията за R-квадрат

В Excel данните, получени в хода на обработката на данните от въпросния пример, са както следва:

На първо място, трябва да обърнете внимание на стойността на R-квадрата. Той представлява коефициента на детерминация. В този пример R-квадрат = 0,755 (75,5%), тоест изчислените параметри на модела обясняват връзката между разглежданите параметри със 75,5%. Колкото по-висока е стойността на коефициента на детерминация, толкова повече избраният модел се счита за по-приложим за конкретна задача. Смята се, че той правилно описва реалната ситуация, когато стойността на R-квадрат е над 0,8. Ако R-квадрат<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ на шансовете

Числото 64.1428 показва каква ще бъде стойността на Y, ако всички променливи xi в модела, който разглеждаме, са нула. С други думи, може да се твърди, че стойността на анализирания параметър се влияе от други фактори, които не са описани в конкретен модел.

Следващият коефициент -0,16285, намиращ се в клетка B18, показва важността на влиянието на променливата X върху Y. Това означава, че средната месечна заплата на служителите в рамките на разглеждания модел влияе върху броя на служителите, напуснали с тежест от -0,16285 , т.е. степента на неговото влияние изобщо малка. Знакът "-" показва, че коефициентът е отрицателен. Това е очевидно, тъй като всеки знае, че колкото по-висока е заплатата в предприятието, толкова по-малко хора изразяват желание за прекратяване на трудовия договор или напускане.

Множествена регресия

Този термин се разбира като ограничително уравнение с няколко независими променливи от вида:

y = f (x 1 + x 2 +… x m) + ε, където y е ефективен индикатор (зависима променлива), а x 1, x 2,… x m са показатели-фактори (независими променливи).

Оценка на параметрите

За множествена регресия (MR) се извършва по метода на най-малките квадрати (OLS). За линейни уравнения от вида Y = a + b 1 x 1 +… + b m x m + ε ние изграждаме система от нормални уравнения (виж по-долу)

За да разберете принципа на метода, разгледайте двуфакторния случай. Тогава имаме ситуация, описана с формулата

От тук получаваме:

където σ е дисперсията на съответната характеристика, отразена в индекса.

OLS се прилага към MR уравнението в стандартизирана скала. В този случай получаваме уравнението:

където t y, t x 1,... t xm са стандартизирани променливи, за които средните стойности са равни на 0; β i са стандартизираните коефициенти на регресия и стандартното отклонение е 1.

Имайте предвид, че всички β i в този случай са посочени като нормализирани и централизирани, така че тяхното сравнение помежду си се счита за правилно и валидно. Освен това е обичайно да се филтрират фактори, като се изхвърлят тези с най-малки стойности на βi.

Проблем с използване на уравнение на линейна регресия

Да предположим, че имате таблица с динамиката на цените за конкретен продукт N през последните 8 месеца. Необходимо е да се вземе решение относно целесъобразността за закупуване на неговата партида на цена от 1850 рубли / т.

номер на месеца

име на месеца

цена на продукта N

1750 рубли на тон

1755 рубли за тон

1767 рубли за тон

1760 рубли за тон

1770 рубли за тон

1790 рубли за тон

1810 рубли за тон

1840 рубли за тон

За да разрешите този проблем в процесора за електронни таблици на Excel, трябва да използвате инструмента за анализ на данни, който вече е познат от примера, представен по-горе. След това изберете секцията "Регресия" и задайте параметрите. Трябва да се помни, че в полето „Интервал на въвеждане Y“ трябва да се въведе диапазон от стойности за зависимата променлива (в този случай цената на продукта в конкретни месеци от годината), а в „Вход интервал X" - за независимата променлива (номер на месеца). Потвърждаваме действията, като щракваме върху "OK". На нов лист (ако е посочено така) получаваме данните за регресията.

Използваме ги за конструиране на линейно уравнение от вида y = ax + b, където действат коефициентите на линията с името на номера на месеца и коефициентите и линиите "Y-пресечна точка" от листа с резултатите от регресионния анализ като параметри a и b. По този начин, уравнението на линейната регресия (SD) за проблем 3 се записва като:

Цена на продукта N = 11.714 * номер на месеца + 1727.54.

или в алгебрична нотация

y = 11,714 x + 1727,54

Анализ на резултатите

За да се реши дали полученото уравнение на линейна регресия е адекватно, се използват множествени корелационни и детерминационни коефициенти, както и теста на Фишер и t теста на Студент. В таблицата на Excel с резултатите от регресията те се наричат ​​съответно множествени R, R-квадрат, F-статистики и t-статистики.

KMC R дава възможност да се оцени близостта на вероятностната връзка между независимите и зависими променливи. Високата му стойност показва доста силна връзка между променливите „Номер на месец“ и „Цена на продукт N в рубли за тон“. Естеството на тази връзка обаче остава неизвестно.

Квадратът на коефициента на детерминация R2 (RI) е числова характеристика на дела от общия разпределение и показва разпределението на коя част от експерименталните данни, т.е. стойностите на зависимата променлива съответстват на уравнението на линейната регресия. В разглеждания проблем тази стойност е 84,8%, т.е. статистическите данни се описват с висока степен на точност от полученото SD.

F-статистиката, наричана още тест на Фишер, се използва за оценка на значимостта на линейна връзка, опровергавайки или потвърждавайки хипотезата за нейното съществуване.

(Критерий на Студент) помага да се оцени значимостта на коефициента с неизвестен или свободен член на линейна връзка. Ако стойността на t-критерия > t cr, тогава хипотезата за незначителност на свободния член на линейното уравнение се отхвърля.

В разглеждания проблем за свободен член с помощта на инструментите на Excel се получи, че t = 169.20903 и p = 2.89E-12, тоест имаме нулева вероятност правилната хипотеза за незначителност на свободния член да бъде отхвърлени. За коефициента при неизвестно t = 5,79405 и p = 0,001158. С други думи, вероятността правилната хипотеза за незначимостта на коефициента с неизвестното да бъде отхвърлена е 0,12%.

По този начин може да се твърди, че полученото линейно регресионно уравнение е адекватно.

Проблемът за целесъобразността от закупуване на пакет акции

Множествената регресия в Excel се извършва с помощта на същия инструмент за анализ на данни. Нека разгледаме конкретен приложен проблем.

Ръководството на дружеството "NNN" трябва да вземе решение относно целесъобразността от закупуване на 20% дял в АД "МММ". Цената на пакета (JV) е 70 милиона щатски долара. Специалистите на NNN са събрали данни за подобни сделки. Беше решено да се оцени стойността на пакета акции по такива параметри, изразени в милиони щатски долари, като:

  • задължения (VK);
  • обемът на годишния оборот (VO);
  • вземания (VD);
  • себестойността на дълготрайните активи (SOF).

В допълнение, параметърът е просрочие за заплати на предприятието (V3 P) в хиляди щатски долари.

Решение за електронни таблици на Excel

На първо място, трябва да създадете таблица с първоначални данни. Изглежда така:

  • извикайте прозореца "Анализ на данни";
  • изберете секцията "Регресия";
  • диапазонът от стойности на зависими променливи от колона G се въвежда в полето "Интервал на въвеждане Y";
  • щракнете върху иконата с червена стрелка вдясно от прозореца "Input interval X" и изберете на листа диапазона на всички стойности от колони B, C, D, F.

Поставете отметка в елемента "Нов работен лист" и щракнете върху "OK".

Вземете регресионен анализ за дадена задача.

Проучване на резултатите и заключения

Ние „събираме“ уравнението за регресия от закръглените данни, представени по-горе в листа с електронна таблица на Excel:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

В по-позната математическа форма може да се запише като:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Данните за АД "МММ" са представени в таблицата:

Като ги заместим в регресионното уравнение, цифрата е 64,72 милиона щатски долара. Това означава, че акциите на АД "МММ" не трябва да се купуват, тъй като стойността им от 70 милиона щатски долара е доста надценена.

Както можете да видите, използването на процесора за електронни таблици Excel и регресионното уравнение направи възможно вземането на информирано решение относно целесъобразността на много специфична транзакция.

Сега знаете какво е регресия. Обсъдените по-горе примери в Excel ще ви помогнат да решите практически проблеми в областта на иконометрията.

Използване на графичния метод.
Този метод се използва за визуализиране на формата на връзка между изследваните икономически показатели. За да направите това, графика се начертава в правоъгълна координатна система, отделните стойности на ефективния атрибут Y се нанасят по оста на ординатите, а отделните стойности на факторния атрибут X се нанасят по оста на абсцисата.
Множеството точки от ефективния и факторния знаци се нарича корелационно поле.
Въз основа на корелационното поле може да се предположи (за общата популация), че връзката между всички възможни стойности на X и Y е линейна.

Линейно регресионно уравнениеима формата y = bx + a + ε
Тук ε е случайна грешка (отклонение, смущение).
Причини за съществуването на случайна грешка:
1. Невключване на значими обяснителни променливи в регресионния модел;
2. Агрегация на променливи. Например функцията на общото потребление е опит за общ израз на съвкупността от решения на отделните индивиди относно разходите. Това е само приближение на отделни съотношения, които имат различни параметри.
3. Неправилно описание на структурата на модела;
4. Грешна функционална спецификация;
5. Грешки в измерването.
Тъй като отклоненията ε i за всяко конкретно наблюдение i са произволни и техните стойности в извадката са неизвестни, тогава:
1) от наблюдения x i и y i, само оценки на параметрите α и β
2) Оценките на параметрите α и β на регресионния модел са съответно стойностите a и b, които имат произволен характер, тъй като съответстват на произволна извадка;
Тогава оцененото регресионно уравнение (конструирано от извадкови данни) ще има формата y = bx + a + ε, където ei са наблюдаваните стойности (оценки) на грешките ε i, и и b, съответно, оценките на параметрите α и β на регресионния модел, който трябва да бъде намерен.
За оценка на параметрите α и β се използва методът на най-малките квадрати.
Система от нормални уравнения.

За нашите данни системата от уравнения има вида:

10a + 356b = 49
356a + 2135b = 9485

От първото уравнение изразяваме a и го заместваме във второто уравнение
Получаваме b = 68,16, a = 11,17

Регресионно уравнение:
y = 68,16 x - 11,17

1. Параметри на регресионното уравнение.
Избрани средни стойности.



Примерни отклонения.


Стандартно отклонение

1.1. Коефициент на корелация
Изчисляваме индикатора за плътност на комуникацията. Този индикатор е селективен линеен корелационен коефициент, който се изчислява по формулата:

Коефициентът на линейна корелация приема стойности от –1 до +1.
Връзките между знаците могат да бъдат слаби и силни (близки). Техните критерии се оценяват по скалата на Чадок:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашия пример връзката между атрибута Y и X фактора е много висока и директна.

1.2. Регресионно уравнение(оценка на регресионното уравнение).

Уравнението на линейната регресия е y = 68.16 x -11.17
Коефициентите на уравнението на линейната регресия могат да бъдат икономически значими. Коефициент на регресионно уравнениепоказва колко единици. резултатът ще се промени, когато факторът се промени с 1 единица.
Коефициент b = 68,16 показва средното изменение на ефективния показател (в единици у) с увеличаване или намаляване на стойността на фактора x за мерна единица. В този пример, с увеличение с 1 единица, y се увеличава средно с 68,16.
Коефициентът a = -11.17 формално показва прогнозираното ниво на y, но само ако x = 0 е близо до извадените стойности.
Но ако x = 0 е далеч от извадените стойности на x, тогава буквалната интерпретация може да доведе до неправилни резултати и дори ако регресионната линия описва стойностите на наблюдаваната извадка доста точно, няма гаранция, че ще също да бъде, когато се екстраполира наляво или надясно.
Замествайки съответните стойности на x в регресионното уравнение, можете да определите подравнените (прогнозирани) стойности на ефективния индикатор y (x) за всяко наблюдение.
Връзката между y и x определя знака на коефициента на регресия b (ако> 0 - пряка връзка, в противен случай - обратна). В нашия пример връзката е директна.

1.3. Коефициент на еластичност.
Не е желателно да се използват коефициентите на регресия (в пример б) за пряка оценка на влиянието на факторите върху ефективния показател, ако има разлика в мерните единици на ефективния индикатор y и факторния индикатор x.
За тези цели се изчисляват коефициентите на еластичност и бета. Коефициентът на еластичност се намира по формулата:


Показва с какъв процент средно се променя ефективният атрибут y, когато факторният атрибут x се промени с 1%. Той не отчита степента на променливост на факторите.
В нашия пример коефициентът на еластичност е по-голям от 1. Следователно, когато X се промени с 1%, Y ще се промени с повече от 1%. С други думи, X има значителен ефект върху Y.
Бета коефициентпоказва с каква част от стойността на неговото стандартно отклонение стойността на ефективния индикатор ще се промени средно, когато факторният индикатор се промени със стойността на своето стандартно отклонение със стойността на останалите независими променливи, фиксирани на постоянно ниво:

Тези. увеличаването на x със стойността на стандартното отклонение на този индикатор ще доведе до увеличаване на средното Y с 0,9796 от стандартното отклонение на този индикатор.

1.4. Грешка в апроксимацията.
Нека да оценим качеството на регресионното уравнение, като използваме абсолютната грешка на апроксимацията.


Тъй като грешката е повече от 15%, не е желателно това уравнение да се използва като регресия.

1.6. Коефициент на детерминация.
Квадратът на (множествения) коефициент на корелация се нарича коефициент на детерминация, който показва пропорцията на вариацията в ефективната черта, обяснена с вариацията на факторната черта.
Най-често, давайки интерпретация на коефициента на детерминация, той се изразява като процент.
R2 = 0,98 2 = 0,9596
тези. в 95,96% от случаите промените в x водят до промяна в y. С други думи, точността на напасване на регресионното уравнение е висока. Останалите 4,04% промяна в Y се обясняват с фактори, които не са взети предвид в модела.

х г х 2 y 2 x y y (x) (y i -y cp) 2 (y-y (x)) 2 (x i -x cp) 2 | y - y x |: y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Оценка на параметрите на регресионното уравнение.
2.1. Значението на коефициента на корелация.

Според таблицата на Студент с ниво на значимост α = 0,05 и степени на свобода k = 7 намираме t crit:
t crit = (7; 0,05) = 1,895
където m = 1 е броят на обяснителните променливи.
Ако t obs> t е критично, тогава получената стойност на коефициента на корелация се признава за значима (нулевата хипотеза, според която коефициентът на корелация е нула, се отхвърля).
Тъй като t obs> t crit, ние отхвърляме хипотезата, че коефициентът на корелация е равен на 0. С други думи, коефициентът на корелация е статистически значим
При сдвоена линейна регресия t 2 r = t 2 b и след това тестването на хипотези за значимостта на регресионните и корелационните коефициенти е еквивалентно на тестването на хипотезата за значимостта на уравнението на линейната регресия.

2.3. Анализ на точността на определяне на оценките на регресионните коефициенти.
Безпристрастна оценка на дисперсията на смущенията е стойността:


S 2 y = 94,6484 - необяснима дисперсия (мярка за разпространението на зависимата променлива около регресионната линия).
S y = 9,7287 - стандартна грешка на оценката (стандартна грешка на регресията).
S a - стандартно отклонение на произволна променлива a.


S b - стандартно отклонение на случайната променлива b.

2.4. Доверителни интервали за зависимата променлива.
Икономическото прогнозиране на базата на конструирания модел предполага, че съществуващите връзки на променливите се запазват за основния период.
За да се предвиди зависимата променлива на ефективния индикатор, е необходимо да се знаят прогнозните стойности на всички фактори, включени в модела.
Прогнозните стойности на факторите се заместват в модела и се получават точкови прогнозни оценки на изследвания индикатор. (a + bx p ± ε)
където

Нека изчислим границите на интервала, в който 95% от възможните стойности на Y ще бъдат концентрирани с неограничен брой наблюдения и X p = 1 (-11,17 + 68,16 * 1 ± 6,4554)
(50.53;63.44)

Индивидуални доверителни интервали заЙпри тази стойностх.
(a + bx i ± ε)
където

x i y = -11,17 + 68,16x i ε i г мин y макс
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

С вероятност от 95% може да се гарантира, че стойностите на Y за неограничен брой наблюдения няма да надхвърлят намерените интервали.

2.5. Тестване на хипотези за коефициентите на уравнението на линейната регресия.
1) t-статистика. Критерий на студента.
Нека проверим хипотезата H 0 за равенството на индивидуалните регресионни коефициенти на нула (при алтернативата H 1 не е равно) при ниво на значимост α = 0,05.
t crit = (7; 0,05) = 1,895


Тъй като 12.8866> 1.895, статистическата значимост на коефициента на регресия b се потвърждава (отхвърляме хипотезата, че този коефициент е нула).


Тъй като 2.0914> 1.895, статистическата значимост на коефициента на регресия a се потвърждава (отхвърляме хипотезата, че този коефициент е нула).

Доверителен интервал за коефициентите на регресионното уравнение.
Нека определим доверителните интервали на регресионните коефициенти, които с надеждност от 95% ще бъдат както следва:
(b - t crit S b; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
С вероятност от 95% може да се твърди, че стойността на този параметър ще лежи в намерения интервал.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
С вероятност от 95% може да се твърди, че стойността на този параметър ще лежи в намерения интервал.

2) F-статистика. Критерият на Фишър.
Проверката на значимостта на регресионния модел се извършва с помощта на F-теста на Фишер, чиято изчислена стойност се намира като съотношение на дисперсията на първоначалната серия от наблюдения на изследвания индикатор и безпристрастната оценка на дисперсията на остатъка последователност за този модел.
Ако изчислената стойност с lang = EN-US> n-m-1) степени на свобода е по-голяма от табличната стойност за дадено ниво на значимост, тогава моделът се счита за значим.

където m е броят на факторите в модела.
Статистическата значимост на сдвоената линейна регресия се оценява с помощта на следния алгоритъм:
1. Излага се нулева хипотеза, че уравнението като цяло е статистически незначимо: H 0: R 2 = 0 на ниво на значимост α.
2. След това се определя действителната стойност на F-критерия:


където m = 1 за сдвоена регресия.
3. Табличната стойност се определя от таблиците за разпределение на Фишер за дадено ниво на значимост, като се вземе предвид, че броят на степените на свобода за общата сума от квадрати (по-голяма дисперсия) е 1 и броят на степените на свобода на остатъка сумата от квадрати (по-малко дисперсия) за линейна регресия е n-2 ...
4. Ако действителната стойност на F-критерия е по-малка от табличната, тогава те казват, че няма причина за отхвърляне на нулевата хипотеза.
В противен случай нулевата хипотеза се отхвърля и с вероятност (1-α) се приема алтернативна хипотеза за статистическата значимост на уравнението като цяло.
Таблична стойност на критерия със степени на свобода k1 = 1 и k2 = 7, Fkp = 5,59
Тъй като действителната стойност F> Fkp, коефициентът на детерминация е статистически значим (Намерената оценка на регресионното уравнение е статистически надеждна).

Проверка за автокорелация на остатъци.
Важна предпоставка за конструиране на качествен регресионен модел с помощта на OLS е независимостта на стойностите на произволните отклонения от стойностите на отклоненията във всички други наблюдения. Това гарантира, че няма корелация между каквито и да е отклонения и по-специално между съседни отклонения.
Автокорелация (серийна корелация)се дефинира като корелация между наблюдаваните индикатори, подредени във времето (времеви серии) или в пространството (кръстосани серии). Автокорелацията на остатъци (вариации) често се среща в регресионния анализ, когато се използват данни от времеви серии и много рядко, когато се използват данни от напречни сечения.
При икономическите задачи е много по-често срещано положителна автокорелацияотколкото отрицателна автокорелация... В повечето случаи положителната автокорелация се причинява от насоченото постоянно влияние на някои фактори, които не са взети предвид в модела.
Отрицателна автокорелациявсъщност означава, че положителното отклонение е последвано от отрицателно и обратно. Тази ситуация може да възникне, ако една и съща връзка между търсенето на безалкохолни напитки и дохода се разглежда според сезонните данни (зима-лято).
Между основните причини за автокорелация, могат да се разграничат следните:
1. Грешки в спецификацията. Неотчитането на която и да е важна обяснителна променлива в модела или грешният избор на формата на зависимост обикновено водят до системни отклонения на точките на наблюдение от линията на регресия, което може да доведе до автокорелация.
2. Инерция. Много икономически показатели (инфлация, безработица, БНП и др.) имат определен цикличен характер, свързан с вълновата форма на бизнес активността. Следователно промяната в индикаторите не настъпва незабавно, а има известна инерция.
3. Ефект на паяжина. В много промишлени и други области икономическите показатели реагират на промените в икономическите условия със закъснение (време закъснение).
4. Изглаждане на данни. Често данните за определен дълъг период от време се получават чрез осредняване на данните за съставните му интервали. Това може да доведе до известно изглаждане на флуктуациите, които са присъствали в рамките на разглеждания период, което от своя страна може да предизвика автокорелация.
Последиците от автокорелацията са подобни на тези от хетероскедастичността: изводите от t- и F-статистиките, които определят значимостта на коефициента на регресия и коефициента на детерминация, може да са неправилни.

Откриване на автокорелация

1. Графичен метод
Има редица опции за графично дефиниране на автокорелация. Един от тях свързва отклоненията e i с моментите на тяхното получаване i. В този случай по абсцисната ос се отлага или времето на получаване на статистическите данни, или поредният номер на наблюдението, а отклоненията e i (или оценките на отклоненията) се нанасят по оста на ординатите.
Естествено е да се предположи, че ако има известна връзка между отклоненията, тогава се осъществява автокорелация. Липсата на зависимост най-вероятно ще показва липсата на автокорелация.
Автокорелацията става по-ясна, ако построите графика на e i спрямо e i-1.

Критерий Дарбин-Уотсън.
Този тест е най-известен с откриването на автокорелация.
При статистическия анализ на регресионното уравнение в началния етап често се проверява осъществимостта на една предпоставка: условията за статистическа независимост на отклоненията помежду си. В този случай се проверява некорелацията на съседните стойности на e i.

г y (x) e i = y-y (x) д 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

За анализиране на корелацията на отклоненията се използва статистиката на Дърбин-Уотсън:

Критичните стойности d 1 и d 2 се определят въз основа на специални таблици за необходимото ниво на значимост α, броя на наблюденията n = 9 и броя на обяснителните променливи m = 1.
Няма автокорелация, ако е вярно следното условие:
г 1< DW и d 2 < DW < 4 - d 2 .
Без да се позовавате на таблиците, можете да използвате приблизително правило и да приемете, че няма автокорелация на остатъци, ако 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Изучаването на корелационните зависимости се основава на изследването на такива връзки между променливи, при които стойностите на една променлива могат да се приемат като зависима променлива, "средно" се променят в зависимост от това какви стойности приема другата променлива, разглежда като причина по отношение на зависимата променлива. Действието на тази причина се осъществява в условия на сложно взаимодействие на различни фактори, в резултат на което проявлението на модел се затъмнява от влиянието на шансовете. Чрез изчисляване на средните стойности на ефективния атрибут за дадена група от стойности на фактора-атрибут, влиянието на авариите частично се елиминира. Чрез изчисляване на параметрите на теоретичната комуникационна линия се извършва тяхното по-нататъшно елиминиране и се получава недвусмислена (по форма) промяна на "y" с промяна на фактор "x".

За изследване на стохастичните връзки широко се използват методът за сравняване на две паралелни серии, методът на аналитичните групировки, корелационният анализ, регресионният анализ и някои непараметрични методи. Като цяло задачата на статистиката в областта на изучаването на взаимоотношенията е не само да определи количествено тяхното присъствие, посока и сила на връзката, но и да определи формата (аналитичен израз) на влиянието на факторните признаци върху ефективната. За решаването му се използват методите на корелационния и регресионния анализ.

ГЛАВА 1. РЕГРЕСИОННОТО УРАВНЕНИЕ: ТЕОРЕТИЧНА ОСНОВА

1.1. Регресионно уравнение: същност и видове функции

Регресията (лат. Regressio- обратно движение, преход от по-сложни форми на развитие към по-малко сложни) е едно от основните понятия в теорията на вероятностите и математическата статистика, изразяващо зависимостта на средната стойност на произволна величина от стойностите. на друга случайна променлива или няколко случайни променливи. Тази концепция е въведена от Франсис Галтън през 1886 г.

Теоретичната регресионна линия е линията, около която са групирани точките от корелационното поле и която показва основната посока, основната тенденция на връзката.

Теоретичната регресионна линия трябва да отразява промяната в средните стойности на ефективния атрибут "y", тъй като стойностите на факторния атрибут "x" се променят, при условие че всички останали - произволни по отношение на фактор "x" - причините са напълно отменени. Следователно тази линия трябва да бъде начертана така, че сумата от отклоненията на точките на корелационното поле от съответните точки на теоретичната регресионна линия да е равна на нула, а сумата от квадратите на тези отклонения е минималната стойност.

y = f (x) - регресионното уравнение е формула за статистическата връзка между променливите.

Права линия върху равнина (в двумерно пространство) се дава от уравнението y = a + b * x. По-подробно: променливата y може да бъде изразена чрез константа (a) и наклон (b), умножена по променливата x. Константата понякога се нарича също пресечена, а наклонът понякога се нарича регресия или B-коефициент.

Важна стъпка в регресионния анализ е да се определи вида на функцията, която характеризира връзката между характеристиките. Основната основа трябва да бъде смислен анализ на естеството на изследваната зависимост, нейния механизъм. В същото време далеч не винаги е възможно теоретично да се обоснове формата на връзката на всеки от факторите с ефективния показател, тъй като изследваните социално-икономически явления са много сложни и факторите, които формират тяхното ниво, са тясно преплетени и взаимодействат. един с друг. Следователно на базата на теоретичния анализ често могат да се направят най-общи изводи относно посоката на връзката, възможността за нейната промяна в изследваната популация, легитимността на използването на линейна зависимост, възможното наличие на екстремни стойности и т.н. . Анализът на конкретни доказателства трябва да бъде необходимо допълнение към такива предположения.

Приблизителна представа за комуникационната линия може да се получи въз основа на емпиричната регресионна линия. Емпиричната регресионна линия обикновено е счупена линия, има повече или по-малко значителен извивка. Това се обяснява с факта, че влиянието на други неотчетени фактори, които влияят на изменението на ефективния индикатор, не е напълно погасено в средната стойност поради недостатъчния брой наблюдения, поради което емпиричната връзка може да се използва за избор и обосноваване на вида на теоретична крива при условие, че броят на наблюденията е достатъчен. голям.

Един от елементите на специфични изследвания е сравнението на различни уравнения на зависимост, основано на използването на критерии за качество на апроксимация на емпирични данни чрез конкуриращи се варианти на модели. Следните типове функции най-често се използват за характеризиране на връзките на икономически показатели:

1. Линеен:

2. Хиперболичен:

3. Показателно:

4. Параболичен:

5. Степен:

6. Логаритмичен:

7. Логистика:

Моделът с една обяснителна и една обяснителна променлива е модел на двойна регресия. Ако се използват две или повече обяснителни (факторни) променливи, тогава говорим за използване на модел на множествена регресия. В същото време като опции могат да бъдат избрани линейни, експоненциални, хиперболични, експоненциални и други видове функции, свързващи тези променливи.

За да се намерят параметрите a и b, регресионните уравнения използват метода на най-малките квадрати. Когато се прилага методът на най-малките квадрати, за да се намери функцията, която най-добре отговаря на емпиричните данни, се счита, че пакетът с квадрати от отклонения на емпиричните точки от теоретичната регресионна линия трябва да бъде минималната стойност.

Критерият за метода на най-малките квадрати може да се запише, както следва:

Следователно, прилагането на метода на най-малките квадрати за определяне на параметрите a и b на правата линия, най-съвместими с емпиричните данни, се свежда до екстремален проблем.

По отношение на рейтингите могат да се направят следните изводи:

1. Оценките на най-малките квадрати са функции за извадка, които ги правят лесни за изчисляване.

2. Оценките на най-малките квадрати са точкови оценки на теоретичните регресионни коефициенти.

3. Емпиричната регресионна линия задължително минава през точката x, y.

4. Емпиричното регресионно уравнение е изградено по такъв начин, че сумата от отклоненията

.

Графично представяне на емпиричната и теоретичната връзка е показано на фигура 1.


Параметърът b в уравнението е коефициентът на регресия. При наличие на пряка корелация коефициентът на регресия има положителна стойност, а при обратна връзка коефициентът на регресия е отрицателен. Коефициентът на регресия показва колко средно се променя стойността на ефективния атрибут "y", когато факторният атрибут "x" се промени с единица. Геометрично, коефициентът на регресия е наклонът на правата линия, представляваща корелационното уравнение спрямо оста x (за уравнението

).

Разделът от многовариантния статистически анализ, посветен на възстановяването на зависимости, се нарича регресионен анализ. Терминът "линеен регресионен анализ" се използва, когато разглежданата функция линейно зависи от оценените параметри (зависимостта от независими променливи може да бъде произволна). Теория на оценката

неизвестни параметри е добре разработен именно в случая на линеен регресионен анализ. Ако няма линейност и е невъзможно да се премине към линейна задача, тогава по правило не трябва да се очакват добри свойства от оценките. Нека демонстрираме подходи в случай на зависимости от различен тип. Ако зависимостта има формата на полином (полином). Ако изчислението на корелацията характеризира силата на връзката между две променливи, тогава регресионният анализ служи за определяне на вида на тази връзка и дава възможност да се предвиди стойността на една (зависима) променлива въз основа на стойността на другата (независима) променлива. За линеен регресионен анализ зависимата променлива трябва да има интервална (или редна) скала. В същото време бинарната логистична регресия разкрива зависимостта на дихотомична променлива от друга променлива, свързана с всякаква скала. Същите условия за приложение са валидни за probit анализ. Ако зависимата променлива е категорична, но има повече от две категории, тогава многономиалната логистична регресия би била подходящ метод тук и могат да се анализират нелинейни връзки между променливи, които принадлежат към интервална скала. Методът на нелинейна регресия е предназначен за това.

При линеен тип връзка между двете изследвани характеристики освен изчисляване на корелации се прилага и изчисляването на коефициента на регресия.

В случай на линейна корелация, всяка от промените в една характеристика съответства на добре дефинирана промяна в друга характеристика. Коефициентът на корелация обаче показва тази връзка само в относително изражение - във доли от единица. С помощта на регресионния анализ тази стойност на връзката се получава в наименувани единици. Сумата, с която първият знак се променя средно, когато вторият се промени за мерна единица, се нарича коефициент на регресия.

За разлика от корелацията, регресионният анализ дава по-широка информация, тъй като чрез изчисляване на два регресионни коефициента Rx/yи Ru / xвъзможно е да се определи както зависимостта на първия признак от втория, така и втория от първия. Изразяването на регресионна връзка с помощта на уравнение позволява определена стойност на една характеристика, за да се установи стойността на друга характеристика.

Коефициентът на регресия R е произведението на коефициента на корелация и съотношението на стандартните отклонения, изчислени за всяка характеристика. Изчислява се по формулата

където R е коефициентът на регресия; SX е стандартното отклонение на първата характеристика, която се променя поради промяната във втората; SУ - стандартно отклонение на втория признак поради промяната, при която се променя първият признак; r е коефициентът на корелация между тези характеристики; х - функция; y-аргумент.

Тази формула определя величината на стойността на x, когато y се променя за мерна единица. Ако е необходимо обратно изчисление, можете да намерите стойността на y, когато x се промени за единица мярка, като използвате формулата:


В този случай активната роля при промяна на един атрибут спрямо друг се променя, в сравнение с предишната формула, аргументът става функция и обратно. SX и SY се приемат в наименуван израз.

Има ясна връзка между стойностите на r и R, изразяваща се във факта, че произведението на регресията x в y и регресията y в x е равно на квадрата на коефициента на корелация, т.е.

Rx / y * Ry / x = r2

Това показва, че коефициентът на корелация е средната геометрична стойност на двете стойности на регресионните коефициенти на дадена извадка. Тази формула може да се използва за проверка на правилността на изчисленията.

При обработка на цифров материал на изчислителни машини могат да се използват подробни формули за коефициент на регресия:

R или


За коефициента на регресия може да се изчисли неговата грешка на представителност. Грешката на коефициента на регресия е равна на грешката на коефициента на корелация, умножена по съотношението на квадратните съотношения:

Критерият за надеждност на коефициента на регресия се изчислява по обичайната формула:

в резултат на това той е равен на критерия за надеждност на коефициента на корелация:

Надеждността на стойността на tR се установява съгласно таблицата на Студент при  = n - 2, където n е броят на двойките наблюдения.

Криволинейна регресия.

РЕГРЕСИЯ, КРИВИ... Всяка нелинейна регресия, при която регресионното уравнение за промени в една променлива (y) като функция на t се променя в друга (x), е квадратно, кубично или уравнение от по-висок порядък. Въпреки че винаги е математически възможно да се получи регресионно уравнение, което да отговаря на всяка извивка на кривата, повечето от тези смущения са резултат от грешки при вземане на проби или измерване и такова „перфектно“ прилягане не прави нищо. Не винаги е лесно да се определи дали криволинейната регресия отговаря на набор от данни, въпреки че съществуват статистически тестове, за да се определи дали всяка по-висока степен на уравнението значително увеличава степента на съответствие на този набор от данни.

Напасването на крива се извършва по същия начин, като се използва методът на най-малките квадрати, както при напасването по права линия. Линията на регресия трябва да удовлетворява условието за минимум от сбора на квадратите на разстоянията до всяка точка от корелационното поле. В този случай в уравнение (1) y е изчислената стойност на функцията, определена с помощта на уравнението на избраната криволинейна връзка от действителните стойности на x j. Например, ако е избрана парабола от втори ред за апроксимиране на връзката, тогава y = a + bx + cx2, (14) И разликата между точка, лежаща на кривата, и дадена точка от корелационното поле за съответното аргументът може да се запише подобно на уравнение (3) във формата yj = yj (a + bx + cx2) (15) В този случай сумата от квадратите на разстоянията от всяка точка на корелационното поле до новата регресионна линия в случай на парабола от втори ред ще има вида: S 2 = yj 2 = 2 (16) Въз основа на минималното условие на тази сума частичните производни на S 2 по отношение на a, b и c са равни на нула . След извършване на необходимите трансформации получаваме система от три уравнения с три неизвестни за определяне на a, b и c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2.yx2 = a x 2 + b x 3 + c x4. (17). Решавайки системата от уравнения за a, b и c, намираме числените стойности на коефициентите на регресия. Стойностите y, x, x2, yx, yx2, x3, x4. Намират се директно от производствените измервания. Оценката на плътността на връзката с криволинейна зависимост е теоретичното съотношение на корелация xy, което е корен квадратен от съотношението на две вариации: средният квадрат p2 на отклоненията на изчислените стойности y "j на функцията според намереното уравнение на регресия от средноаритметичната стойност Y на стойността y до средния квадрат на отклоненията y2 на действителните стойности на функцията yj от нейната средна аритметична стойност: xу = (р2 / y2) 1/2 = ((y "j - Y) 2 / (yj - Y) 2) 1/2 (18) Квадратното съотношение на корелация xy2 показва дела на общата променливост на зависимата променлива у, дължаща се на променливостта на аргумента x. Този показател се нарича коефициент на детерминация. За разлика от коефициента на корелация, стойността на съотношението на корелация може да приеме само положителни стойности от 0 до 1. При липса на връзка, съотношението на корелация е нула, при наличието на функционална връзка е равно на едно и при наличие на регресионна връзка с различна плътност, съотношението на корелация приема стойности между нула и едно ... Изборът на вида на кривата е от голямо значение при регресионния анализ, тъй като точността на апроксимацията и статистическите оценки на стегнатостта на връзката зависят от вида на избраната връзка. Най-простият метод за избор на тип крива е да се изградят корелационни полета и да се изберат подходящите типове регресионни уравнения въз основа на местоположението на точките в тези полета. Методите за регресионен анализ ви позволяват да намерите числените стойности на коефициентите на регресия за сложни видове взаимовръзка на параметри, описани например от полиноми от високи степени. Често формата на кривата може да се определи въз основа на физическата природа на разглеждания процес или явление. Има смисъл да се използват полиноми от високи степени за описване на бързо променящи се процеси, ако диапазоните на флуктуации на параметрите на тези процеси са значителни. Що се отнася до изследването на металургичния процес, достатъчно е да се използват криви от по-нисък порядък, например парабола от втори ред. Тази крива може да има един екстремум, което, както показа практиката, е напълно достатъчно, за да опише различни характеристики на металургичния процес. Резултатите от изчисляването на параметрите на двойната корелационна връзка биха били надеждни и биха имали практическа стойност, ако използваната информация е получена за условия на широк диапазон на флуктуации на аргумента с постоянството на всички други параметри на процеса. Следователно методите за изследване на двойната корелационна връзка на параметрите могат да се използват за решаване на практически проблеми само когато има увереност в отсъствието на други сериозни влияния върху функцията, с изключение на анализирания аргумент. В производствени условия е невъзможно процесът да се извършва по този начин за дълго време. Въпреки това, ако имате информация за основните параметри на процеса, които влияят на неговите резултати, тогава влиянието на тези параметри може да бъде математически изключено и връзката между функцията и аргумента, който ни интересува, може да бъде изолиран в „чиста форма“ . Такава връзка се нарича частна или индивидуална. За определянето му се използва методът на множествена регресия.

Съотношение на корелация.

Коефициентът на корелация и индексът на корелация са числови характеристики, които са тясно свързани с концепцията за случайна променлива, или по-скоро със система от случайни променливи. Следователно, за да се въведе и дефинира тяхното значение и роля, е необходимо да се изясни понятието за система от случайни променливи и някои свойства, присъщи на тях.

Две или повече случайни променливи, описващи определено явление, се наричат ​​система или комплекс от случайни променливи.

Системата от няколко случайни променливи X, Y, Z,…, W обикновено се означава с (X, Y, Z,…, W).

Например точка в равнина се описва не с една координата, а с две, а в пространството - дори с три.

Свойствата на система от няколко случайни променливи не се ограничават до свойствата на отделните случайни променливи, включени в системата, но включват и взаимни връзки (зависимости) между случайни променливи. Следователно, когато се изучава система от случайни променливи, трябва да се обърне внимание на естеството и степента на зависимост. Тази зависимост може да бъде повече или по-малко изразена, повече или по-малко тясна. А в други случаи случайните променливи се оказват практически независими.

Случайна променлива Y се нарича независима от случайна променлива X, ако законът на разпределението на произволна променлива Y не зависи от това каква стойност е взела X.

Трябва да се отбележи, че зависимостта и независимостта на случайните променливи винаги е взаимно явление: ако Y не зависи от X, тогава стойността на X не зависи от Y. Като се има предвид това, можем да дадем следната дефиниция на независимост на случайните променливи.

Случайните променливи X и Y се наричат ​​независими, ако законът на разпределението на всяка от тях не зависи от това каква стойност е приела другата. В противен случай величините X и Y се наричат ​​зависими.

Законът за разпределение на произволна променлива е всяка връзка, която установява връзка между възможните стойности на произволна променлива и съответните вероятности.

Концепцията за "зависимост" на случайните променливи, която се използва в теорията на вероятностите, е малко по-различна от обичайната концепция за "зависимост" на величините, която се използва в математиката. И така, математикът под "зависимост" означава само един вид зависимост - пълна, твърда, така наречената функционална зависимост. Две величини X и Y се наричат ​​функционално зависими, ако, знаейки стойността на една от тях, е възможно точно да се определи стойността на другата.

В теорията на вероятностите има малко по-различен вид зависимост - вероятностна зависимост. Ако стойността на Y е свързана със стойността на X чрез вероятностна зависимост, тогава, знаейки стойността на X, е невъзможно да се посочи точно стойността на Y, но можете да посочите неговия закон за разпределение, в зависимост от това каква стойност е стойността от X е взел.

Вероятната зависимост може да бъде повече или по-малко близка; с увеличаване на близостта на вероятностната зависимост тя все повече се приближава до функционалната. По този начин функционалната зависимост може да се разглежда като краен, ограничаващ случай на най-близката вероятностна зависимост. Друг краен случай е пълната независимост на случайните променливи. Между тези два крайни случая се намират всички градации на вероятностна зависимост – от най-силната към най-слабата.

На практика често се среща вероятностна връзка между случайни променливи. Ако случайните променливи X и Y са в вероятностна връзка, това не означава, че с промяна на стойността на X, стойността на Y се променя по съвсем определен начин; това означава само, че с промяна в стойността на X, стойността на Y също има тенденция да се промени (увеличава или намалява с увеличаване на X). Тази тенденция се наблюдава само в общи линии и във всеки отделен случай са възможни отклонения от нея.