Le coefficient de l'équation de régression montre la corrélation et l'analyse de régression. Correlation et regression

COEFFICIENT DE RÉGRESSION

- Anglais coefficient, régression ; allemand Indice de régression. Une des caractéristiques de la relation entre y dépendant et variable indépendante x. K.r. montre de combien d'unités la valeur acceptée par y augmente si la variable x change d'une unité de sa variation. Géométriquement, K. r. est la pente de la droite y.

Antinazi. Encyclopédie de sociologie, 2009

Voyez ce qu'est "COEFFICIENT DE RÉGRESSION" dans d'autres dictionnaires :

    Coefficient de régression- - [L.G. Sumenko. Dictionnaire anglais russe des technologies de l'information. M.: GP TsNIIS, 2003.] Sujets technologie de l'information en général coefficient de régression EN ... Manuel du traducteur technique

    Coefficient de régression- 35. Coefficient de régression Paramètre du modèle d'analyse de régression Source : GOST 24026 80 : Tests de recherche. Planification d'expériences. Termes et définitions …

    Coefficient de régression- Le coefficient de la variable indépendante dans l'équation de régression... Dictionnaire de statistiques sociologiques

    COEFFICIENT DE RÉGRESSION- Anglais. coefficient, régression ; allemand Indice de régression. Une des caractéristiques de la relation entre y dépendant et variable indépendante x. K.r. montre de combien d'unités la valeur acceptée par y augmente si la variable x passe à ... ... Dictionnaire explicatif de sociologie

    coefficient de régression de l'échantillon- 2.44. coefficient de régression de l'échantillon Coefficient d'une variable dans une courbe de régression ou une équation de surface Source : GOST R 50779.10 2000 : Méthodes statistiques. Probabilités et bases de statistiques. Termes et définitions … Dictionnaire-ouvrage de référence des termes de la documentation normative et technique

    Coefficient de régression partielle- une mesure statistique qui indique le degré d'influence de la variable indépendante sur la personne à charge dans une situation où l'influence mutuelle de toutes les autres variables du modèle est sous le contrôle du chercheur ... Dictionnaire sociologique socium

    RÉGRESSIONS, POIDS- Un synonyme de la notion de coefficient de régression... Dictionnaire explicatif de la psychologie

    COEFFICIENT D'HÉRITABILITÉ- Un indicateur de la part relative de la variabilité génétique dans la variation phénotypique globale d'un trait. Les méthodes les plus courantes pour évaluer l'héritabilité des traits économiquement utiles sont : où h2 est le coefficient d'héritabilité ; r intraclasse… … Termes et définitions utilisés dans l'élevage, la génétique et la reproduction des animaux de ferme

    - (R au carré) est la proportion de la variance de la variable dépendante qui est expliquée par le modèle de dépendance considéré, c'est-à-dire les variables explicatives. Plus précisément, c'est un moins la proportion de variance inexpliquée (la variance de l'erreur aléatoire du modèle, ou conditionnelle ... ... Wikipedia

    Coefficient de la variable indépendante dans l'équation de régression. Ainsi, par exemple, dans une équation de régression linéaire reliant les variables aléatoires Y et X, R. k. b0 et b1 sont égaux : où r est le coefficient de corrélation de X et Y, . Calcul des estimations R. k. Encyclopédie mathématique

Livres

  • Introduction à l'économétrie (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Les bases de l'économétrie et de l'analyse statistique des séries temporelles unidimensionnelles sont données. Une grande attention est accordée aux paires classiques et à la régression multiple, aux méthodes classiques et généralisées…
  • Lecture rapide. Simulateur effectif (CDpc) , . Le programme s'adresse aux utilisateurs qui souhaitent maîtriser la technique de la lecture rapide dans les plus brefs délais. Le cours est construit sur le principe "théorie - pratique". Matériel théorique et pratique...

L'analyse de régression est une méthode de recherche statistique qui vous permet de montrer la dépendance d'un paramètre à une ou plusieurs variables indépendantes. À l'ère pré-informatique, son utilisation était assez difficile, surtout lorsqu'il s'agissait de grandes quantités de données. Aujourd'hui, après avoir appris à construire une régression dans Excel, vous pouvez résoudre des problèmes statistiques complexes en quelques minutes seulement. Vous trouverez ci-dessous des exemples spécifiques du domaine de l'économie.

Types de régression

Le concept lui-même a été introduit dans les mathématiques en 1886. La régression se produit :

  • linéaire;
  • parabolique;
  • Puissance;
  • exponentiel;
  • hyperbolique;
  • démonstratif;
  • logarithmique.

Exemple 1

Considérons le problème de la détermination de la dépendance du nombre de membres de l'équipe à la retraite sur le salaire moyen dans 6 entreprises industrielles.

Tâche. Dans six entreprises, nous avons analysé le salaire mensuel moyen et le nombre d'employés partis de leur plein gré. Sous forme de tableau, nous avons :

Le nombre de personnes qui sont parties

Un salaire

30000 roubles

35000 roubles

40000 roubles

45000 roubles

50000 roubles

55000 roubles

60000 roubles

Pour le problème de détermination de la dépendance du nombre de retraités au salaire moyen dans 6 entreprises, le modèle de régression a la forme de l'équation Y = a 0 + a 1 x 1 +…+akxk , où xi sont les variables d'influence , ai sont les coefficients de régression, ak est le nombre de facteurs.

Pour cette tâche, Y est l'indicateur des employés qui sont partis, et le facteur d'influence est le salaire, que nous notons X.

Utilisation des capacités du tableur "Excel"

L'analyse de régression dans Excel doit être précédée de l'application de fonctions intégrées aux données tabulaires disponibles. Cependant, à ces fins, il est préférable d'utiliser le complément très utile "Analysis Toolkit". Pour l'activer il vous faut :

  • depuis l'onglet "Fichier", allez dans la rubrique "Options" ;
  • dans la fenêtre qui s'ouvre, sélectionnez la ligne "Modules complémentaires" ;
  • cliquez sur le bouton "Go" situé en bas, à droite de la ligne "Gestion" ;
  • cochez la case à côté du nom "Analysis Package" et confirmez vos actions en cliquant sur "OK".

Si tout est fait correctement, le bouton souhaité apparaîtra sur le côté droit de l'onglet Données, situé au-dessus de la feuille de calcul Excel.

dans Excel

Maintenant que nous avons à portée de main tous les outils virtuels nécessaires pour effectuer des calculs économétriques, nous pouvons commencer à résoudre notre problème. Pour ça:

  • cliquez sur le bouton "Analyse des données" ;
  • dans la fenêtre qui s'ouvre, cliquez sur le bouton "Régression" ;
  • dans l'onglet qui apparaît, entrez la plage de valeurs pour Y (le nombre d'employés qui ont démissionné) et pour X (leurs salaires) ;
  • Nous confirmons nos actions en appuyant sur le bouton "Ok".

En conséquence, le programme remplira automatiquement une nouvelle feuille de la feuille de calcul avec les données d'analyse de régression. Noter! Excel a la capacité de définir manuellement l'emplacement que vous préférez à cette fin. Par exemple, il pourrait s'agir de la même feuille où se trouvent les valeurs Y et X, ou même d'un nouveau classeur spécialement conçu pour stocker ces données.

Analyse des résultats de régression pour R-carré

Dans Excel, les données obtenues lors du traitement des données de l'exemple considéré ressemblent à ceci :

Tout d'abord, vous devez faire attention à la valeur du R-carré. C'est le coefficient de détermination. Dans cet exemple, R-carré = 0,755 (75,5 %), c'est-à-dire que les paramètres calculés du modèle expliquent la relation entre les paramètres considérés de 75,5 %. Plus la valeur du coefficient de détermination est élevée, plus le modèle choisi est applicable pour une tâche particulière. On pense qu'il décrit correctement la situation réelle avec une valeur R au carré supérieure à 0,8. Si R au carré<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analyse du ratio

Le nombre 64,1428 montre quelle sera la valeur de Y si toutes les variables xi du modèle que nous considérons sont mises à zéro. En d'autres termes, on peut affirmer que la valeur du paramètre analysé est également influencée par d'autres facteurs qui ne sont pas décrits dans un modèle spécifique.

Le coefficient suivant -0,16285, situé dans la cellule B18, montre le poids de l'influence de la variable X sur Y. Cela signifie que le salaire mensuel moyen des salariés au sein du modèle considéré affecte le nombre d'abandons avec un poids de -0,16285, soit le degré de son influence du tout petit. Le signe "-" indique que le coefficient a une valeur négative. C'est une évidence, puisque chacun sait que plus le salaire dans l'entreprise est élevé, moins les gens expriment le désir de rompre le contrat de travail ou de démissionner.

Régression multiple

Ce terme fait référence à une équation de liaison à plusieurs variables indépendantes de la forme :

y \u003d f (x 1 + x 2 + ... x m) + ε, où y est la caractéristique effective (variable dépendante), et x 1 , x 2 , ... x m sont les facteurs factoriels (variables indépendantes).

Estimation des paramètres

Pour la régression multiple (MR), elle est effectuée en utilisant la méthode des moindres carrés (OLS). Pour les équations linéaires de la forme Y = a + b 1 x 1 +…+b m x m + ε, on construit un système d'équations normales (voir ci-dessous)

Pour comprendre le principe de la méthode, considérons le cas à deux facteurs. On a alors une situation décrite par la formule

De là, nous obtenons:

où σ est la variance de la caractéristique correspondante reflétée dans l'indice.

LSM est applicable à l'équation MP sur une échelle standardisable. Dans ce cas, on obtient l'équation :

où t y , t x 1, … t xm sont des variables standardisées dont les valeurs moyennes sont 0 ; β i sont les coefficients de régression standardisés et l'écart type est de 1.

Veuillez noter que tous les β i dans ce cas sont définis comme normalisés et centralisés, de sorte que leur comparaison les uns avec les autres est considérée comme correcte et admissible. De plus, il est d'usage de filtrer les facteurs, en écartant ceux qui ont les plus petites valeurs de βi.

Problème utilisant l'équation de régression linéaire

Supposons qu'il existe un tableau de la dynamique des prix d'un produit particulier N au cours des 8 derniers mois. Il faut se prononcer sur l'opportunité d'acheter son lot au prix de 1850 roubles/t.

numéro de mois

nom du mois

prix de l'article N

1750 roubles la tonne

1755 roubles la tonne

1767 roubles la tonne

1760 roubles la tonne

1770 roubles la tonne

1790 roubles la tonne

1810 roubles la tonne

1840 roubles la tonne

Pour résoudre ce problème dans la feuille de calcul Excel, vous devez utiliser l'outil d'analyse de données déjà connu de l'exemple ci-dessus. Ensuite, sélectionnez la section "Régression" et définissez les paramètres. Il faut se rappeler que dans le champ "Intervalle d'entrée Y", une plage de valeurs pour la variable dépendante (dans ce cas, le prix d'un produit au cours de mois spécifiques de l'année) doit être saisie, et dans le champ "Entrée intervalle X" - pour la variable indépendante (numéro du mois). Confirmez l'action en cliquant sur "OK". Sur une nouvelle feuille (si cela a été indiqué), nous obtenons des données pour la régression.

Sur cette base, nous construisons une équation linéaire de la forme y = ax + b, où les paramètres a et b sont les coefficients de la ligne avec le nom du numéro de mois et les coefficients et la ligne "Y-intersection" de la feuille avec les résultats de l'analyse de régression. Ainsi, l'équation de régression linéaire (LE) pour le problème 3 s'écrit :

Prix ​​du produit N = 11,714* numéro de mois + 1727,54.

ou en notation algébrique

y = 11,714 x + 1727,54

Analyse des résultats

Pour décider si l'équation de régression linéaire résultante est adéquate, des coefficients de corrélation multiples (MCC) et des coefficients de détermination sont utilisés, ainsi que le test de Fisher et le test de Student. Dans le tableau Excel avec les résultats de régression, ils apparaissent sous les noms de multiple R, R-carré, F-statistique et t-statistique, respectivement.

KMC R permet d'évaluer l'étroitesse de la relation probabiliste entre les variables indépendantes et dépendantes. Sa valeur élevée indique une relation assez forte entre les variables "Numéro du mois" et "Prix des marchandises N en roubles pour 1 tonne". Cependant, la nature de cette relation reste inconnue.

Le carré du coefficient de détermination R 2 (RI) est une caractéristique numérique de la part de la dispersion totale et montre la dispersion de quelle partie des données expérimentales, c'est-à-dire les valeurs de la variable dépendante correspondent à l'équation de régression linéaire. Dans le problème considéré, cette valeur est égale à 84,8%, c'est-à-dire que les données statistiques sont décrites avec un haut degré de précision par le SD obtenu.

La statistique F, également appelée test de Fisher, est utilisée pour évaluer la signification d'une relation linéaire, réfutant ou confirmant l'hypothèse de son existence.

(Critère de Student) permet d'évaluer la significativité du coefficient à terme inconnu ou libre d'une relation linéaire. Si la valeur du critère t > t cr, alors l'hypothèse de non-significativité du terme libre de l'équation linéaire est rejetée.

Dans le problème considéré pour le membre libre, en utilisant les outils Excel, il a été obtenu que t = 169,20903, et p = 2,89E-12, c'est-à-dire que nous avons une probabilité nulle que l'hypothèse correcte sur l'insignifiance du membre libre soit être rejeté. Pour le coefficient à inconnu t=5,79405 et p=0,001158. En d'autres termes, la probabilité que l'hypothèse correcte sur l'insignifiance du coefficient pour l'inconnue soit rejetée est de 0,12 %.

Ainsi, on peut affirmer que l'équation de régression linéaire résultante est adéquate.

Le problème de l'opportunité d'acheter un bloc d'actions

La régression multiple dans Excel est effectuée à l'aide du même outil d'analyse de données. Considérons un problème appliqué spécifique.

La direction de NNN doit se prononcer sur l'opportunité d'acquérir une participation de 20% dans MMM SA. Le coût du package (JV) est de 70 millions de dollars américains. Les spécialistes de NNN ont collecté des données sur des transactions similaires. Il a été décidé d'évaluer la valeur du bloc d'actions selon des paramètres, exprimés en millions de dollars US, tels que :

  • comptes créditeurs (VK);
  • chiffre d'affaires annuel (VO);
  • comptes débiteurs (VD);
  • coût des immobilisations (SOF).

De plus, le paramètre arriérés de paie de l'entreprise (V3 P) en milliers de dollars américains est utilisé.

Solution utilisant un tableur Excel

Tout d'abord, vous devez créer une table de données initiales. Il ressemble à ceci :

  • appeler la fenêtre "Analyse des données" ;
  • sélectionnez la section "Régression" ;
  • dans la case "Intervalle d'entrée Y", entrez la plage de valeurs des variables dépendantes de la colonne G ;
  • cliquez sur l'icône avec une flèche rouge à droite de la fenêtre "Intervalle d'entrée X" et sélectionnez la plage de toutes les valeurs ​​​​des colonnes B, C, D, F sur la feuille.

Sélectionnez "Nouvelle feuille de calcul" et cliquez sur "OK".

Obtenez l'analyse de régression pour le problème donné.

Examen des résultats et conclusions

"Nous collectons" à partir des données arrondies présentées ci-dessus sur la feuille de calcul Excel, l'équation de régression :

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Sous une forme mathématique plus familière, il peut être écrit comme suit :

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Les données pour JSC "MMM" sont présentées dans le tableau :

En les remplaçant dans l'équation de régression, ils obtiennent un chiffre de 64,72 millions de dollars américains. Cela signifie que les actions de JSC MMM ne doivent pas être achetées, car leur valeur de 70 millions de dollars américains est plutôt surestimée.

Comme vous pouvez le constater, l'utilisation du tableur Excel et de l'équation de régression a permis de prendre une décision éclairée quant à la faisabilité d'une transaction bien précise.

Maintenant, vous savez ce qu'est la régression. Les exemples dans Excel discutés ci-dessus vous aideront à résoudre des problèmes pratiques du domaine de l'économétrie.

Utilisation de la méthode graphique.
Cette méthode permet de visualiser la forme de communication entre les indicateurs économiques étudiés. Pour ce faire, un graphique est construit dans un système de coordonnées rectangulaires, les valeurs individuelles de l'attribut résultant Y sont tracées le long de l'axe des ordonnées et les valeurs individuelles de l'attribut facteur X sont tracées le long de l'axe des abscisses.
L'ensemble des points des signes effectif et factoriel est appelé champ de corrélation.
Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population générale) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

Équation de régression linéaire a la forme y = bx + a + ε
Ici ε est une erreur aléatoire (écart, perturbation).
Raisons de l'existence d'une erreur aléatoire :
1. Ne pas inclure les variables explicatives significatives dans le modèle de régression ;
2. Agrégation de variables. Par exemple, la fonction de consommation totale est une tentative d'expression générale de la totalité des décisions de dépenses individuelles des individus. Ceci n'est qu'une approximation des relations individuelles qui ont des paramètres différents.
3. Description incorrecte de la structure du modèle ;
4. Mauvaise spécification fonctionnelle ;
5. Erreurs de mesure.
Puisque les écarts ε i pour chaque observation particulière i sont aléatoires et leurs valeurs dans l'échantillon sont inconnues, alors :
1) d'après les observations x i et y i, seules des estimations des paramètres α et β peuvent être obtenues
2) Les estimations des paramètres α et β du modèle de régression sont, respectivement, les valeurs a et b, qui sont de nature aléatoire, puisque correspondre à un échantillon aléatoire ;
Ensuite, l'équation de régression estimée (construite à partir des données de l'échantillon) ressemblera à y = bx + a + ε, où ei sont les valeurs observées (estimations) des erreurs ε i , et et b, respectivement, les estimations de la paramètres α et β du modèle de régression à trouver.
Pour estimer les paramètres α et β - utilisez LSM (moindres carrés).
Système d'équations normales.

Pour nos données, le système d'équations a la forme :

10a + 356b = 49
356a + 2135b = 9485

Exprimer a à partir de la première équation et le substituer dans la deuxième équation
On obtient b = 68,16, a = 11,17

Équation de régression:
y = 68,16 × - 11,17

1. Paramètres de l'équation de régression.
Moyens d'échantillonnage.



Variantes d'échantillon.


écart-type

1.1. Coefficient de corrélation
Nous calculons l'indicateur de proximité de la communication. Un tel indicateur est un coefficient de corrélation linéaire sélectif, qui est calculé par la formule :

Le coefficient de corrélation linéaire prend des valeurs de –1 à +1.
Les relations entre les entités peuvent être faibles ou fortes (étroites). Leurs critères sont notés sur l'échelle de Chaddock :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dans notre exemple, la relation entre la caractéristique Y et le facteur X est très élevée et directe.

1.2. Équation de régression(évaluation de l'équation de régression).

L'équation de régression linéaire est y = 68,16 x -11,17
Les coefficients d'une équation de régression linéaire peuvent avoir une signification économique. Coefficient d'équation de régression montre combien d'unités le résultat changera lorsque le facteur changera d'une unité.
Le coefficient b = 68,16 montre la variation moyenne de l'indicateur effectif (en unités de y) avec une augmentation ou une diminution de la valeur du facteur x par unité de sa mesure. Dans cet exemple, avec une augmentation de 1 unité, y augmente en moyenne de 68,16.
Le coefficient a = -11,17 montre formellement le niveau prédit de y, mais seulement si x=0 est proche des valeurs de l'échantillon.
Mais si x=0 est loin des valeurs de l'échantillon x, alors une interprétation littérale peut conduire à des résultats incorrects, et même si la ligne de régression décrit avec précision les valeurs de l'échantillon observé, rien ne garantit que ce sera également le cas lors de l'extrapolation vers la gauche ou vers la droite.
En substituant les valeurs correspondantes de x dans l'équation de régression, il est possible de déterminer les valeurs alignées (prédites) de l'indicateur effectif y(x) pour chaque observation.
La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Dans notre exemple, la connexion est directe.

1.3. coefficient d'élasticité.
Il n'est pas souhaitable d'utiliser des coefficients de régression (dans l'exemple b) pour une évaluation directe de l'influence des facteurs sur l'attribut effectif s'il existe une différence dans les unités de mesure de l'indicateur effectif y et de l'attribut de facteur x.
À ces fins, des coefficients d'élasticité et des coefficients bêta sont calculés. Le coefficient d'élasticité se trouve par la formule :


Il indique de combien de pourcentage l'attribut effectif y change en moyenne lorsque l'attribut facteur x change de 1 %. Il ne tient pas compte du degré de fluctuation des facteurs.
Dans notre exemple, le coefficient d'élasticité est supérieur à 1. Par conséquent, si X change de 1 %, Y changera de plus de 1 %. En d'autres termes, X affecte significativement Y.
Coefficient bêta montre de quelle partie de la valeur de son écart type la valeur de l'attribut effectif changera en moyenne lorsque l'attribut facteur change de la valeur de son écart type avec la valeur des variables indépendantes restantes fixée à un niveau constant :

Celles. une augmentation de x de la valeur de l'écart type de cet indicateur entraînera une augmentation de la moyenne Y de 0,9796 de l'écart type de cet indicateur.

1.4. Erreur d'approximation.
Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue.


Étant donné que l'erreur est supérieure à 15 %, il n'est pas souhaitable d'utiliser cette équation comme régression.

1.6. Coefficient de détermination.
Le carré du coefficient de corrélation (multiple) est appelé le coefficient de détermination, qui montre la proportion de la variation de l'attribut résultant expliquée par la variation de l'attribut du facteur.
Le plus souvent, donnant une interprétation du coefficient de détermination, celui-ci est exprimé en pourcentage.
R2 = 0,982 = 0,9596
celles. dans 95,96 % des cas, les modifications de x entraînent une modification de y. En d'autres termes, la précision de la sélection de l'équation de régression est élevée. La variation restante de 4,04 % de Y est due à des facteurs non pris en compte dans le modèle.

X y x2 y2 xy y(x) (y je -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Estimation des paramètres de l'équation de régression.
2.1. Signification du coefficient de corrélation.

D'après le tableau de Student avec un niveau de signification α=0,05 et des degrés de liberté k=7, nous trouvons tcrit :
tcrit = (7;0.05) = 1.895
où m = 1 est le nombre de variables explicatives.
Si t obs > t est critique, alors la valeur obtenue du coefficient de corrélation est reconnue comme significative (l'hypothèse nulle affirmant que le coefficient de corrélation est égal à zéro est rejetée).
Puisque t obl > t crit, nous rejetons l'hypothèse que le coefficient de corrélation est égal à 0. En d'autres termes, le coefficient de corrélation est statistiquement significatif
Dans une régression linéaire appariée, t 2 r = t 2 b, puis tester les hypothèses sur la signification des coefficients de régression et de corrélation revient à tester l'hypothèse sur la signification de l'équation de régression linéaire.

2.3. Analyse de l'exactitude de la détermination des estimations des coefficients de régression.
L'estimation sans biais de la variance des perturbations est la valeur :


S 2 y = 94,6484 - variance inexpliquée (une mesure de la dispersion de la variable dépendante autour de la ligne de régression).
S y = 9,7287 - erreur standard de l'estimation (erreur standard de la régression).
S a - écart type d'une variable aléatoire a.


S b - écart type de la variable aléatoire b.

2.4. Intervalles de confiance pour la variable dépendante.
Les prévisions économiques basées sur le modèle construit supposent que les relations préexistantes des variables sont également préservées pour la période de référence.
Pour prédire la variable dépendante de l'attribut résultant, il est nécessaire de connaître les valeurs prédictives de tous les facteurs inclus dans le modèle.
Les valeurs prédictives des facteurs sont substituées dans le modèle et des estimations prédictives ponctuelles de l'indicateur à l'étude sont obtenues. (a + bx p ± ε)


Calculer les bornes de l'intervalle dans lequel 95% des valeurs possibles de Y seront concentrées avec un nombre illimité d'observations et X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Intervalles de confiance individuels pourOuià une valeur donnéeX.
(a + bx je ± ε)

x je y = -11,17 + 68,16x je ε je ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Avec une probabilité de 95%, on peut garantir que la valeur de Y avec un nombre illimité d'observations ne dépassera pas les limites des intervalles trouvés.

2.5. Tester des hypothèses concernant les coefficients de l'équation de régression linéaire.
1) statistiques t. Critère de l'élève.
Testons l'hypothèse H 0 sur l'égalité des coefficients de régression individuels à zéro (avec l'alternative H 1 n'est pas égal) au seuil de signification α=0,05.
tcrit = (7;0.05) = 1.895


Puisque 12,8866 > 1,895, la significativité statistique du coefficient de régression b est confirmée (nous rejetons l'hypothèse que ce coefficient est égal à zéro).


Puisque 2,0914 > 1,895, la significativité statistique du coefficient de régression a est confirmée (nous rejetons l'hypothèse que ce coefficient est égal à zéro).

Intervalle de confiance pour les coefficients de l'équation de régression.
Déterminons les intervalles de confiance des coefficients de régression qui, avec une fiabilité de 95 %, seront les suivants :
(b - t crit S b; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Avec une probabilité de 95%, on peut affirmer que la valeur de ce paramètre se situera dans l'intervalle trouvé.
(à)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Avec une probabilité de 95%, on peut affirmer que la valeur de ce paramètre se situera dans l'intervalle trouvé.

2) Statistiques F. Critère de Fisher.
La significativité du modèle de régression est vérifiée à l'aide du test F de Fisher, dont la valeur calculée est trouvée comme le rapport de la variance de la série initiale d'observations de l'indicateur à l'étude et de l'estimation sans biais de la variance de la séquence résiduelle pour ce modèle.
Si la valeur calculée avec lang=EN-US>n-m-1) degrés de liberté est supérieure à la valeur tabulée à un seuil de signification donné, le modèle est alors considéré comme significatif.

où m est le nombre de facteurs du modèle.
L'évaluation de la signification statistique de la régression linéaire appariée est effectuée selon l'algorithme suivant :
1. Une hypothèse nulle est émise que l'équation dans son ensemble est statistiquement non significative : H 0 : R 2 =0 au niveau de signification α.
2. Ensuite, déterminez la valeur réelle du critère F :


où m=1 pour la régression par paires.
3. La valeur tabulaire est déterminée à partir des tables de distribution de Fisher pour un niveau de signification donné, en tenant compte du fait que le nombre de degrés de liberté pour la somme totale des carrés (variance plus grande) est de 1 et que le nombre de degrés de liberté pour le résidu somme des carrés (variance inférieure) dans la régression linéaire est n-2 .
4. Si la valeur réelle du critère F est inférieure à la valeur du tableau, ils disent qu'il n'y a aucune raison de rejeter l'hypothèse nulle.
Sinon, l'hypothèse nulle est rejetée et l'hypothèse alternative sur la signification statistique de l'équation dans son ensemble est acceptée avec probabilité (1-α).
Valeur tabulaire du critère avec degrés de liberté k1=1 et k2=7, Fkp = 5,59
Puisque la valeur réelle de F > Fkp, le coefficient de détermination est statistiquement significatif (l'estimation trouvée de l'équation de régression est statistiquement fiable).

Vérifier l'autocorrélation des résidus.
Une condition préalable importante pour construire un modèle de régression qualitative à l'aide du LSM est l'indépendance des valeurs des écarts aléatoires par rapport aux valeurs des écarts dans toutes les autres observations. Cela garantit qu'il n'y a pas de corrélation entre les déviations et, en particulier, entre les déviations adjacentes.
Autocorrélation (corrélation en série) défini comme la corrélation entre les mesures observées ordonnées dans le temps (séries chronologiques) ou dans l'espace (séries croisées). L'autocorrélation des résidus (valeurs aberrantes) est couramment rencontrée dans l'analyse de régression lors de l'utilisation de données de séries chronologiques et très rarement lors de l'utilisation de données transversales.
Dans les tâches économiques, il est beaucoup plus courant autocorrélation positive que autocorrélation négative. Dans la plupart des cas, l'autocorrélation positive est causée par une influence constante directionnelle de certains facteurs non pris en compte dans le modèle.
Autocorrélation négative signifie en fait qu'un écart positif est suivi d'un écart négatif et vice versa. Une telle situation peut se produire si la même relation entre la demande de boissons non alcoolisées et les revenus est considérée selon des données saisonnières (hiver-été).
Parmi principales causes provoquant l'autocorrélation, on peut distinguer :
1. Erreurs de spécification. La non-prise en compte d'une variable explicative importante dans le modèle ou le mauvais choix de la forme de dépendance conduit généralement à des écarts systémiques des points d'observation par rapport à la ligne de régression, ce qui peut conduire à une autocorrélation.
2. Inertie. De nombreux indicateurs économiques (inflation, chômage, PNB, etc.) ont une certaine cyclicité liée à l'ondulation de l'activité des entreprises. Par conséquent, le changement d'indicateurs ne se produit pas instantanément, mais a une certaine inertie.
3. Effet Web. Dans de nombreux secteurs industriels et autres, les indicateurs économiques réagissent aux changements des conditions économiques avec un retard (décalage).
4. Lissage des données. Souvent, les données pour une certaine période de temps longue sont obtenues en faisant la moyenne des données sur ses intervalles constitutifs. Cela peut conduire à un certain lissage des fluctuations qui existaient au cours de la période considérée, ce qui peut à son tour provoquer une autocorrélation.
Les conséquences de l'autocorrélation sont similaires à celles de l'hétéroscédasticité : les conclusions sur les statistiques t et F qui déterminent la signification du coefficient de régression et du coefficient de détermination peuvent être incorrectes.

Détection d'autocorrélation

1. Méthode graphique
Il existe un certain nombre d'options pour la définition graphique de l'autocorrélation. L'une d'elles relie les écarts e i aux instants de leur réception i. En même temps, soit l'heure d'obtention des données statistiques, soit le numéro de série de l'observation est tracé le long de l'axe des abscisses, et les écarts ei (ou estimations des écarts) sont tracés le long de l'axe des ordonnées.
Il est naturel de supposer que s'il existe une certaine relation entre les écarts, une autocorrélation a lieu. L'absence de dépendance indiquera très probablement l'absence d'autocorrélation.
L'autocorrélation devient plus claire si vous tracez e i par rapport à e i-1 .

Test de Durbin-Watson.
Ce critère est le plus connu pour détecter l'autocorrélation.
Lors de l'analyse statistique des équations de régression, au stade initial, on vérifie souvent la faisabilité d'une prémisse: les conditions d'indépendance statistique des écarts les uns par rapport aux autres. Dans ce cas, la non-corrélation des valeurs voisines e i est vérifiée.

y y(x) e je = y-y(x) e 2 (e je - e je-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Pour analyser la corrélation des écarts, les statistiques de Durbin-Watson sont utilisées :

Les valeurs critiques d 1 et d 2 sont déterminées sur la base de tableaux spéciaux pour le niveau de signification requis α, le nombre d'observations n = 9 et le nombre de variables explicatives m = 1.
Il n'y a pas d'autocorrélation si la condition suivante est vraie :
d1< DW и d 2 < DW < 4 - d 2 .
Sans se référer aux tableaux, on peut utiliser la règle approchée et supposer qu'il n'y a pas d'autocorrélation des résidus si 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

L'étude des dépendances de corrélation est basée sur l'étude de telles relations entre variables, dans lesquelles les valeurs d'une variable peuvent être considérées comme une variable dépendante, "en moyenne" changent en fonction des valeurs que prend une autre variable, considérée comme une cause par rapport à la variable dépendante. L'action de cette cause s'effectue dans une interaction complexe de divers facteurs, à la suite de quoi la manifestation d'un modèle est obscurcie par l'influence des hasards. En calculant les valeurs moyennes de l'attribut résultant pour un groupe donné de valeurs de l'attribut-facteur, l'influence des chances est en partie éliminée. En calculant les paramètres de la ligne de communication théorique, ils sont en outre éliminés et un changement non ambigu (de forme) "y" avec un changement du facteur "x" est obtenu.

Pour étudier les relations stochastiques, la méthode de comparaison de deux séries parallèles, la méthode des regroupements analytiques, l'analyse de corrélation, l'analyse de régression et certaines méthodes non paramétriques sont largement utilisées. En général, la tâche des statistiques dans le domaine de l'étude des relations n'est pas seulement de quantifier leur présence, leur direction et leur force, mais également de déterminer la forme (expression analytique) de l'influence des caractéristiques des facteurs sur la résultante. Pour le résoudre, des méthodes de corrélation et d'analyse de régression sont utilisées.

CHAPITRE 1. ÉQUATION DE RÉGRESSION : FONDEMENTS THÉORIQUES

1.1. Équation de régression: essence et types de fonctions

La régression (lat. regressio - mouvement inverse, passage de formes de développement plus complexes à des formes moins complexes) est l'un des concepts de base de la théorie des probabilités et des statistiques mathématiques, exprimant la dépendance de la valeur moyenne d'une variable aléatoire sur les valeurs d'une autre variable aléatoire ou de plusieurs variables aléatoires. Ce concept a été introduit par Francis Galton en 1886.

La droite de régression théorique est la droite autour de laquelle sont regroupés les points du champ de corrélation et qui indique la direction principale, la tendance principale de la relation.

La ligne de régression théorique devrait refléter le changement des valeurs moyennes de l'attribut effectif "y" à mesure que les valeurs de l'attribut facteur "x" changent, à condition que tous les autres - aléatoires par rapport au facteur "x" - les causes s'annulent mutuellement. Par conséquent, cette ligne doit être tracée de manière à ce que la somme des écarts des points du champ de corrélation par rapport aux points correspondants de la droite de régression théorique soit égale à zéro et que la somme des carrés de ces écarts soit le minimum valeur.

y=f(x) - l'équation de régression est une formule pour une relation statistique entre les variables.

Une droite sur un plan (dans un espace à deux dimensions) est donnée par l'équation y=a+b*x. Plus en détail : la variable y peut être exprimée en termes d'une constante (a) et d'une pente (b) multipliées par la variable x. La constante est parfois appelée l'ordonnée à l'origine, et la pente est également appelée la régression ou le facteur B.

Une étape importante de l'analyse de régression consiste à déterminer le type de fonction qui caractérise la relation entre les caractéristiques. La base principale devrait être une analyse significative de la nature de la dépendance à l'étude, son mécanisme. Dans le même temps, il est loin d'être toujours possible de justifier théoriquement la forme de connexion de chacun des facteurs avec l'indicateur de performance, car les phénomènes socio-économiques étudiés sont très complexes et les facteurs qui forment leur niveau sont étroitement liés et interagissent avec l'un l'autre. Par conséquent, sur la base d'une analyse théorique, les conclusions les plus générales peuvent souvent être tirées concernant le sens de la relation, la possibilité de son changement dans la population étudiée, la légitimité d'utiliser une relation linéaire, la présence éventuelle de valeurs extrêmes, etc. . Un complément nécessaire à ces hypothèses devrait être l'analyse de données factuelles spécifiques.

Une idée approximative de la ligne de liaison peut être obtenue sur la base de la ligne de régression empirique. La droite de régression empirique est généralement une ligne brisée, présente une cassure plus ou moins importante. Cela s'explique par le fait que l'influence d'autres facteurs non pris en compte qui affectent la variation de l'attribut effectif n'est pas entièrement compensée dans la moyenne, en raison d'un nombre insuffisamment grand d'observations, par conséquent, la ligne de communication empirique peut être utilisée pour sélectionner et justifier le type de courbe théorique, à condition que le nombre d'observations soit suffisamment grand.

L'un des éléments d'études spécifiques est la comparaison de différentes équations de dépendance basées sur l'utilisation de critères de qualité pour l'approximation de données empiriques par des modèles concurrents.Les types de fonctions suivants sont le plus souvent utilisés pour caractériser les relations des indicateurs économiques :

1. Linéaire :

2. Hyperbolique :

3. Démonstratif :

4. Parabolique :

5. Alimentation :

6. Logarithmique :

7. Logistique :

Un modèle avec une variable explicative et une variable explicative est un modèle de régression appariée. Si deux ou plusieurs variables explicatives (factorielles) sont utilisées, on parle alors d'utiliser un modèle de régression multiple. Dans ce cas, des fonctions linéaires, exponentielles, hyperboliques, exponentielles et autres reliant ces variables peuvent être choisies comme options.

Pour trouver les paramètres a et b, les équations de régression utilisent la méthode des moindres carrés. Lors de l'utilisation de la méthode des moindres carrés pour trouver une telle fonction qui correspond le mieux aux données empiriques, on pense que le sac d'écarts au carré des points empiriques par rapport à la ligne de régression théorique devrait être la valeur minimale.

Le critère de la méthode des moindres carrés peut s'écrire comme suit :

Par conséquent, l'application de la méthode des moindres carrés pour déterminer les paramètres a et b de la droite qui correspond le mieux aux données empiriques est réduite à un problème extremum.

En ce qui concerne les notes, les conclusions suivantes peuvent être tirées :

1. Les estimations des moindres carrés sont des fonctions d'échantillonnage, ce qui les rend faciles à calculer.

2. Les estimations des moindres carrés sont des estimations ponctuelles des coefficients de régression théoriques.

3. La ligne de régression empirique passe nécessairement par le point x, y.

4. L'équation de régression empirique est construite de telle manière que la somme des écarts

.

Une représentation graphique de la ligne de communication empirique et théorique est illustrée à la figure 1.


Le paramètre b dans l'équation est le coefficient de régression. S'il existe une corrélation directe, le coefficient de régression a une valeur positive, et dans le cas d'une relation inverse, le coefficient de régression est négatif. Le coefficient de régression indique de combien la valeur de l'attribut effectif « y » change en moyenne lorsque l'attribut de facteur « x » change de un. Géométriquement, le coefficient de régression est la pente de la droite représentant l'équation de corrélation par rapport à l'axe des abscisses (pour l'équation

).

La branche de l'analyse statistique multivariée consacrée à la récupération des dépendances est appelée analyse de régression. Le terme "analyse de régression linéaire" est utilisé lorsque la fonction considérée dépend linéairement des paramètres estimés (la dépendance aux variables indépendantes peut être arbitraire). Théorie de l'évaluation

paramètres inconnus est bien développé précisément dans le cas de l'analyse de régression linéaire. S'il n'y a pas de linéarité et qu'il est impossible de passer à un problème linéaire, alors, en règle générale, il ne faut pas attendre de bonnes propriétés des estimations. Démontrons des approches dans le cas de dépendances de différents types. Si la dépendance a la forme d'un polynôme (polynôme). Si le calcul de corrélation caractérise la force de la relation entre deux variables, alors l'analyse de régression sert à déterminer le type de cette relation et permet de prédire la valeur d'une variable (dépendante) à partir de la valeur d'une autre variable (indépendante). Pour effectuer une analyse de régression linéaire, la variable dépendante doit avoir une échelle d'intervalle (ou ordinale). Dans le même temps, la régression logistique binaire révèle la dépendance d'une variable dichotomique à une autre variable liée à n'importe quelle échelle. Les mêmes conditions d'application sont valables pour l'analyse probit. Si la variable dépendante est catégorielle, mais a plus de deux catégories, alors la régression logistique multinomiale sera une méthode appropriée ici, et les relations non linéaires entre les variables qui appartiennent à l'échelle d'intervalle peuvent être analysées. Pour cela, la méthode de régression non linéaire est destinée.

Avec une relation de type linéaire entre les deux caractéristiques étudiées, en plus du calcul des corrélations, le calcul du coefficient de régression est utilisé.

Dans le cas d'une relation de corrélation rectiligne, chacun des changements d'un attribut correspond à un changement bien défini d'un autre attribut. Cependant, le coefficient de corrélation ne montre cette relation qu'en termes relatifs - en fractions d'unité. À l'aide d'une analyse de régression, cette valeur de relation est obtenue en unités nommées. La valeur par laquelle le premier signe change en moyenne lorsque le second change d'une unité de mesure est appelée coefficient de régression.

Contrairement à l'analyse de corrélation, l'analyse de régression fournit plus d'informations, car en calculant deux coefficients de régression Rx/y et Ru/x il est possible de déterminer à la fois la dépendance du premier signe au second et le second au premier. L'expression d'une relation de régression à l'aide d'une équation vous permet de définir la valeur d'un autre attribut par une certaine valeur d'un attribut.

Le coefficient de régression R est le produit du coefficient de corrélation et du rapport des écarts-types calculés pour chaque caractéristique. Il est calculé selon la formule

où, R - coefficient de régression ; SX - écart type du premier signe, qui change en raison du changement du second; SU - écart type du deuxième signe en relation avec le changement dont le premier signe change; r est le coefficient de corrélation entre ces caractéristiques ; x - fonction ; y -argument.

Cette formule détermine la valeur de x lors de la modification de y par unité de mesure. Si vous avez besoin d'un calcul inverse, vous pouvez trouver la valeur de y lorsque x change par unité de mesure en utilisant la formule :


Dans ce cas, le rôle actif dans la modification d'un attribut par rapport à un autre change, par rapport à la formule précédente, l'argument devient une fonction et vice versa. Les valeurs SX et SY sont prises dans une expression nommée.

Il existe une relation claire entre les valeurs de r et R, qui s'exprime dans le fait que le produit de la régression de x par y et de la régression de y par x est égal au carré du coefficient de corrélation, c'est-à-dire

Rx/y * Ry/x = r2

Cela indique que le coefficient de corrélation est la moyenne géométrique des deux valeurs des coefficients de régression de cet échantillon. Cette formule peut être utilisée pour vérifier l'exactitude des calculs.

Lors du traitement de matériel numérique sur des machines de comptage, des formules détaillées pour le coefficient de régression peuvent être utilisées :

R ou


Pour le coefficient de régression, son erreur de représentativité peut être calculée. L'erreur du coefficient de régression est égale à l'erreur du coefficient de corrélation multipliée par le rapport des rapports quadratiques :

Le critère de fiabilité du coefficient de régression est calculé selon la formule habituelle :

de ce fait, il est égal au critère de fiabilité du coefficient de corrélation :

La fiabilité de la valeur de tR est établie selon la table de Student avec  = n - 2, où n est le nombre de paires d'observations.

Régression curviligne.

RÉGRESSION, CURVILINAIRE. Toute régression non linéaire dans laquelle l'équation de régression pour les changements d'une variable (y) en fonction de t changements dans une autre (x) est une équation quadratique, cubique ou d'ordre supérieur. Bien qu'il soit toujours mathématiquement possible d'obtenir une équation de régression qui s'adaptera à chaque "gribouillis" de la courbe, la plupart de ces perturbations résultent d'erreurs d'échantillonnage ou de mesure, et un tel ajustement "parfait" ne fait rien. Il n'est pas toujours facile de déterminer si une régression curviligne correspond à un ensemble de données, bien qu'il existe des tests statistiques pour déterminer si chaque puissance supérieure d'une équation augmente de manière significative le taux d'ajustement de cet ensemble de données.

L'ajustement de courbe est effectué de la même manière en utilisant la méthode des moindres carrés que l'alignement en ligne droite. La ligne de régression doit satisfaire la somme minimale des distances au carré à chaque point du champ de corrélation. Dans ce cas, dans l'équation (1), y représente la valeur calculée de la fonction, déterminée à l'aide de l'équation de la connexion curviligne sélectionnée à partir des valeurs réelles de x j. Par exemple, si une parabole du second ordre est choisie pour approximer la relation, alors y = a + bx + cx2, (14) .et la différence entre un point situé sur la courbe et un point donné du champ de corrélation avec le correspondant argument peut être écrit de manière similaire à l'équation (3) sous la forme yj = yj (a + bx + cx2) (15) Dans ce cas, la somme des distances au carré de chaque point du champ de corrélation à la nouvelle droite de régression dans le cas d'une parabole du second ordre aura la forme : S 2 = yj 2 = 2 (16) Sur la base de la condition minimale de cette somme, les dérivées partielles de S 2 par rapport à a, b et c sont égales à zéro. Après avoir effectué les transformations nécessaires, on obtient un système de trois équations à trois inconnues pour déterminer a, b et c. , y = m une + b X + c X 2 yx = une X + b X 2 + c X 2. yx2 = une X 2 + b X 3 + c X4 . (17). En résolvant le système d'équations pour a, b et c, nous trouvons les valeurs numériques des coefficients de régression. Les valeurs y, x, x2, yx, yx2, x3, x4 sont trouvées directement à partir des données de mesures de production. L'estimation de l'étanchéité de la connexion avec une dépendance curviligne est le rapport de corrélation théorique xy, qui est la racine carrée du rapport de deux dispersions : le carré moyen p2 des écarts des valeurs calculées y "j de la fonction selon l'équation de régression trouvée de la valeur moyenne arithmétique Y de la valeur y au carré moyen des écarts y2 des valeurs réelles de la fonction yj par rapport à sa moyenne arithmétique : xу = ( р2 / y2 ) 1/2 = ( (y "j - Y)2 / (yj - Y)2 ) 1/2 (18) Le carré du rapport de corrélation xó2 montre la proportion de la variabilité totale de la variable dépendante y , due à la variabilité de la x argument. Cet indicateur s'appelle le coefficient de détermination. Contrairement au coefficient de corrélation, la valeur du rapport de corrélation ne peut prendre que des valeurs positives de 0 à 1. En l'absence de lien, le rapport de corrélation est nul, en présence d'un lien fonctionnel il est égal à un , et en présence d'une connexion de régression d'étanchéité différente, le rapport de corrélation prend des valeurs comprises entre zéro et un . Le choix du type de courbe est d'une grande importance dans l'analyse de régression, puisque la précision de l'approximation et les estimations statistiques de la proximité de la relation dépendent du type de relation choisie. La méthode la plus simple pour sélectionner le type de courbe consiste à construire des champs de corrélation et à sélectionner les types appropriés d'équations de régression en fonction de l'emplacement des points sur ces champs. Les méthodes d'analyse de régression permettent de trouver des valeurs numériques de coefficients de régression pour des types complexes de relations de paramètres, décrites, par exemple, par des polynômes de haut degré. Souvent, le type de courbe peut être déterminé sur la base de la nature physique du processus ou du phénomène considéré. Il est logique d'utiliser des polynômes de haut degré pour décrire des processus évoluant rapidement si les limites de fluctuation des paramètres de ces processus sont importantes. Par rapport à l'étude du procédé métallurgique, il suffit d'utiliser des courbes d'ordre inférieur, par exemple une parabole du second ordre. Cette courbe peut avoir un extremum, qui, comme l'a montré la pratique, est tout à fait suffisant pour décrire diverses caractéristiques du processus métallurgique. Les résultats du calcul des paramètres d'une relation de corrélation de paires seraient fiables et auraient une valeur pratique si les informations utilisées étaient obtenues pour des conditions de larges plages de fluctuations d'arguments avec la constance de tous les autres paramètres de processus. Par conséquent, les méthodes d'étude de la relation de corrélation par paires des paramètres ne peuvent être utilisées pour résoudre des problèmes pratiques que lorsqu'il y a confiance en l'absence d'autres influences sérieuses sur la fonction, à l'exception de l'argument analysé. Dans des conditions de production, il est impossible de mener le processus de cette manière pendant une longue période. Cependant, si nous avons des informations sur les principaux paramètres du processus qui affectent ses résultats, alors mathématiquement, il est possible d'éliminer l'influence de ces paramètres et de distinguer sous une «forme pure» la relation entre la fonction et l'argument qui nous intéresse. Une telle connexion est dite privée ou individuelle. Pour le déterminer, la méthode de régression multiple est utilisée.

relation de corrélation.

Le rapport de corrélation et l'indice de corrélation sont des caractéristiques numériques étroitement liées au concept de variable aléatoire, ou plutôt, à un système de variables aléatoires. Par conséquent, afin d'introduire et de déterminer leur signification et leur rôle, il est nécessaire d'expliquer le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un phénomène sont appelées un système ou un complexe de variables aléatoires.

Un système de plusieurs variables aléatoires X, Y, Z, …, W est généralement noté (X, Y, Z, …, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, et dans l'espace - même par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais comprennent également des connexions mutuelles (dépendances) entre variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins proche. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

Une variable aléatoire Y est dite indépendante de la variable aléatoire X si la loi de distribution de la variable aléatoire Y ne dépend pas de la valeur de la variable X.

Il convient de noter que la dépendance et l'indépendance des variables aléatoires est toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur de X ne dépend pas de Y. Compte tenu de cela, nous pouvons donner la définition suivante de l'indépendance de Variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que l'autre a prise. Sinon, les grandeurs X et Y sont dites dépendantes.

La loi de distribution d'une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et leurs probabilités correspondantes.

Le concept de "dépendance" des variables aléatoires, qui est utilisé dans la théorie des probabilités, diffère quelque peu du concept habituel de "dépendance" des variables, qui est utilisé en mathématiques. Ainsi, un mathématicien par "dépendance" n'entend qu'un seul type de dépendance - une dépendance complète, rigide, dite fonctionnelle. Deux grandeurs X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, il est possible de déterminer avec précision la valeur de l'autre.

Dans la théorie des probabilités, il existe un type de dépendance légèrement différent - la dépendance probabiliste. Si la valeur de Y est liée à la valeur de X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez spécifier sa loi de distribution, en fonction de la valeur de la valeur de X a pris.

La dépendance probabiliste peut être plus ou moins proche ; à mesure que l'étroitesse de la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de la dépendance probabiliste la plus proche. Un autre cas extrême est l'indépendance complète des variables aléatoires. Entre ces deux cas extrêmes se trouvent toutes les gradations de dépendance probabiliste - du plus fort au plus faible.

La dépendance probabiliste entre variables aléatoires est souvent rencontrée en pratique. Si les variables aléatoires X et Y sont dans une dépendance probabiliste, cela ne signifie pas qu'avec un changement de la valeur de X, la valeur de Y change de manière bien définie ; cela signifie simplement que lorsque X change, Y a également tendance à changer (augmenter ou diminuer à mesure que X augmente). Cette tendance n'est observée qu'en termes généraux et, dans chaque cas individuel, des écarts par rapport à celle-ci sont possibles.