Fondamentaux de la régression linéaire. Le coefficient d'équation de régression montre l'analyse de corrélation et de régression

L'analyse de régression est une méthode de recherche statistique qui permet de montrer la dépendance d'un paramètre à une ou plusieurs variables indépendantes. À l'ère pré-informatique, son application était plutôt difficile, surtout lorsqu'il s'agissait de grandes quantités de données. Aujourd'hui, après avoir appris à créer une régression dans Excel, vous pouvez résoudre des problèmes statistiques complexes en quelques minutes seulement. Vous trouverez ci-dessous des exemples spécifiques du domaine de l'économie.

Types de régression

Ce concept lui-même a été introduit dans les mathématiques en 1886. La régression se produit :

  • linéaire;
  • parabolique;
  • loi de puissance;
  • exponentiel;
  • hyperbolique;
  • indicatif;
  • logarithmique.

Exemple 1

Considérons le problème de la détermination de la dépendance du nombre d'employés quittant leur emploi au salaire moyen dans 6 entreprises industrielles.

Tâche. Six entreprises ont analysé le salaire mensuel moyen et le nombre d'employés qui ont démissionné volontairement. Sous forme de tableau, nous avons :

Nombre de démissionnaires

Un salaire

30 000 roubles

35 000 roubles

40 000 roubles

45 000 roubles

50 000 roubles

55 000 roubles

60 000 roubles

Pour le problème de déterminer la dépendance du nombre d'employés quittant le salaire moyen dans 6 entreprises, le modèle de régression a la forme de l'équation Y = a 0 + a 1 x 1 + ... + akxk, où xi sont les variables d'influence, ai sont les coefficients de régression et ak est le nombre de facteurs.

Pour cette tâche, Y est l'indicateur des salariés qui ont démissionné, et le facteur d'influence est le salaire, que nous désignons par X.

Utilisation des capacités du processeur de table Excel

L'analyse de régression dans Excel doit être précédée de l'application de fonctions intégrées aux données tabulaires existantes. Cependant, à ces fins, il est préférable d'utiliser le très utile complément "Analysis Package". Pour l'activer il vous faut :

  • depuis l'onglet "Fichier" allez dans la section "Paramètres";
  • dans la fenêtre qui s'ouvre, sélectionnez la ligne « Add-ins » ;
  • cliquez sur le bouton "Aller" situé en bas, à droite de la ligne "Contrôle" ;
  • cochez le nom "Package d'analyse" et confirmez vos actions en cliquant sur "OK".

Si tout est fait correctement, le bouton requis apparaîtra sur le côté droit de l'onglet "Données", situé au-dessus de la feuille de calcul "Excel".

dans Excel

Maintenant que nous avons à portée de main tous les outils virtuels nécessaires pour effectuer des calculs économétriques, nous pouvons commencer à résoudre notre problème. Pour ça:

  • cliquez sur le bouton « Analyse des données » ;
  • dans la fenêtre qui s'ouvre, cliquez sur le bouton « Régression » ;
  • dans l'onglet qui apparaît, saisissez la plage de valeurs pour Y (le nombre d'employés qui ont démissionné) et pour X (leurs salaires);
  • nous confirmons nos actions en appuyant sur le bouton "Ok".

En conséquence, le programme remplira automatiquement la nouvelle feuille du tableur avec les données d'analyse de régression. Noter! Excel a la possibilité de définir indépendamment l'emplacement que vous préférez à cette fin. Par exemple, il peut s'agir de la même feuille qui contient les valeurs Y et X, ou même d'un nouveau classeur spécialement conçu pour stocker ce type de données.

Analyse des résultats de régression pour R-Square

Dans Excel, les données obtenues au cours du traitement des données de l'exemple en question sont les suivantes :

Tout d'abord, vous devez faire attention à la valeur du R-carré. Il représente le coefficient de détermination. Dans cet exemple, R carré = 0,755 (75,5 %), c'est-à-dire que les paramètres calculés du modèle expliquent la relation entre les paramètres considérés de 75,5 %. Plus la valeur du coefficient de détermination est élevée, plus le modèle choisi est considéré comme plus applicable pour une tâche spécifique. On pense qu'il décrit correctement la situation réelle lorsque la valeur R au carré est supérieure à 0,8. Si R carré<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analyse des cotes

Le nombre 64.1428 montre quelle sera la valeur de Y si toutes les variables xi dans le modèle que nous considérons sont nulles. En d'autres termes, on peut affirmer que la valeur du paramètre analysé est influencée par d'autres facteurs qui ne sont pas décrits dans un modèle particulier.

Le coefficient suivant -0,16285, situé dans la cellule B18, montre la significativité de l'influence de la variable X sur Y. Cela signifie que le salaire mensuel moyen des salariés au sein du modèle considéré affecte le nombre de personnes quittant avec un poids de -0,16285 , c'est-à-dire le degré de son influence du tout petit. Un signe « - » indique que le coefficient est négatif. C'est une évidence, puisque chacun sait que plus le salaire dans l'entreprise est élevé, moins les personnes expriment le souhait de rompre le contrat de travail ou de partir.

Régression multiple

Ce terme s'entend comme une équation de contrainte à plusieurs variables indépendantes de la forme :

y = f (x 1 + x 2 +… x m) + ε, où y est un indicateur effectif (variable dépendante), et x 1, x 2,… x m sont des indicateurs-facteurs (variables indépendantes).

Estimation des paramètres

Pour la régression multiple (MR), elle est effectuée en utilisant la méthode des moindres carrés (OLS). Pour les équations linéaires de la forme Y = a + b 1 x 1 +… + b m x m + ε nous construisons un système d'équations normales (voir ci-dessous)

Pour comprendre le principe de la méthode, considérons le cas à deux facteurs. On a alors une situation décrite par la formule

De là, nous obtenons :

où est la variance de la caractéristique correspondante reflétée dans l'indice.

L'OLS est appliqué à l'équation MR sur une échelle standardisée. Dans ce cas, on obtient l'équation :

où t y, t x 1,… t xm sont des variables normalisées dont les valeurs moyennes sont égales à 0 ; β i sont les coefficients de régression standardisés et l'écart-type est 1.

Notez que tous les i dans ce cas sont spécifiés comme normalisés et centralisés, de sorte que leur comparaison entre eux est considérée comme correcte et valide. De plus, il est d'usage de filtrer les facteurs, en éliminant ceux avec les plus petites valeurs de βi.

Problème d'utilisation d'une équation de régression linéaire

Supposons que vous ayez un tableau de la dynamique des prix pour un produit spécifique N au cours des 8 derniers mois. Il est nécessaire de prendre une décision sur l'opportunité d'acheter son lot au prix de 1850 roubles / t.

numéro de mois

nom du mois

prix du produit N

1750 roubles par tonne

1755 roubles par tonne

1767 roubles par tonne

1760 roubles par tonne

1770 roubles par tonne

1790 roubles la tonne

1810 roubles par tonne

1840 roubles par tonne

Pour résoudre ce problème dans le tableur Excel, vous devez utiliser l'outil d'analyse de données déjà connu de l'exemple présenté ci-dessus. Ensuite, sélectionnez la section "Régression" et définissez les paramètres. Il convient de rappeler que dans le champ "Intervalle d'entrée Y", une plage de valeurs doit être saisie pour la variable dépendante (dans ce cas, les prix des marchandises pour des mois spécifiques de l'année), et dans le champ "Entrée intervalle X" - pour la variable indépendante (numéro du mois). Nous confirmons les actions en cliquant sur "Ok". Sur une nouvelle feuille (si cela était indiqué), nous obtenons les données pour la régression.

Nous les utilisons pour construire une équation linéaire de la forme y = ax + b, où les coefficients de la ligne avec le nom du numéro de mois et les coefficients et les lignes "Y-intersection" de la feuille avec les résultats de l'analyse de régression agissent comme paramètres a et b. Ainsi, l'équation de régression linéaire (SD) pour le problème 3 s'écrit :

Prix ​​du produit N = 11,714 * numéro de mois + 1727,54.

ou en notation algébrique

y = 11,714 x + 1727,54

Analyse des résultats

Pour décider si l'équation de régression linéaire obtenue est adéquate, des coefficients de corrélation et de détermination multiples sont utilisés, ainsi que le test de Fisher et le test de Student. Dans le tableau Excel avec les résultats de la régression, ils sont respectivement appelés plusieurs R, R-carré, F-statistiques et t-statistiques.

KMC R permet d'évaluer la proximité de la relation probabiliste entre les variables indépendantes et dépendantes. Sa valeur élevée indique une relation assez forte entre les variables « Numéro du mois » et « Prix du produit N en roubles par tonne ». Cependant, la nature de cette connexion reste inconnue.

Le carré du coefficient de détermination R2 (RI) est une caractéristique numérique de la proportion de l'étalement total et montre l'étalement de quelle partie des données expérimentales, c'est-à-dire les valeurs de la variable dépendante correspondent à l'équation de régression linéaire. Dans le problème considéré, cette valeur est de 84,8%, c'est-à-dire que les données statistiques sont décrites avec un degré élevé de précision par le SD obtenu.

La statistique F, également appelée test de Fisher, est utilisée pour évaluer la signification d'une relation linéaire, réfutant ou confirmant l'hypothèse de son existence.

(Critère de Student) permet d'évaluer la significativité du coefficient avec un terme inconnu ou libre d'une relation linéaire. Si la valeur du critère t > t cr, alors l'hypothèse de l'insignifiance du terme libre de l'équation linéaire est rejetée.

Dans le problème considéré pour un terme libre à l'aide des outils Excel, il a été obtenu que t = 169,20903 et p = 2,89E-12, c'est-à-dire que nous avons une probabilité nulle que l'hypothèse correcte sur l'insignifiance du terme libre sera rejeté. Pour le coefficient à inconnu t = 5,79405, et p = 0,001158. En d'autres termes, la probabilité que l'hypothèse correcte sur l'insignifiance du coefficient avec l'inconnu soit rejetée est de 0,12 %.

Ainsi, on peut soutenir que l'équation de régression linéaire résultante est adéquate.

Le problème de l'opportunité d'acheter un bloc d'actions

La régression multiple dans Excel est effectuée à l'aide du même outil d'analyse de données. Considérons un problème appliqué spécifique.

La direction de la société « NNN » doit se prononcer sur l'opportunité d'acquérir une participation de 20 % dans JSC « MMM ». Le coût du package (JV) est de 70 millions de dollars US. Les spécialistes de NNN ont collecté des données sur des transactions similaires. Il a été décidé d'évaluer la valeur du bloc d'actions par de tels paramètres, exprimés en millions de dollars américains, comme :

  • comptes créditeurs (VK);
  • le volume du chiffre d'affaires annuel (VO) ;
  • comptes débiteurs (VD);
  • le coût des immobilisations (SOF).

De plus, le paramètre est les arriérés de salaires de l'entreprise (V3 P) en milliers de dollars américains.

Solution de tableur Excel

Tout d'abord, vous devez créer une table de données initiales. Cela ressemble à ceci :

  • appelez la fenêtre « Analyse des données » ;
  • sélectionnez la section « Régression » ;
  • la plage de valeurs des variables dépendantes de la colonne G est saisie dans la case "Intervalle d'entrée Y" ;
  • cliquez sur l'icône avec une flèche rouge à droite de la fenêtre "Intervalle d'entrée X" et sélectionnez sur la feuille la plage de toutes les valeurs des colonnes B, C, D, F.

Cochez l'élément « Nouvelle feuille de calcul » et cliquez sur « OK ».

Obtenez une analyse de régression pour une tâche donnée.

Étude des résultats et conclusions

Nous « collectons » l'équation de régression à partir des données arrondies présentées ci-dessus sur la feuille de calcul Excel :

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Sous une forme mathématique plus familière, il peut s'écrire ainsi :

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Les données pour JSC « MMM » sont présentées dans le tableau :

En les remplaçant dans l'équation de régression, le chiffre est de 64,72 millions de dollars américains. Cela signifie que les actions de JSC "MMM" ne devraient pas être achetées, car leur valeur de 70 millions de dollars américains est plutôt surestimée.

Comme vous pouvez le constater, l'utilisation du tableur Excel et l'équation de régression ont permis de prendre une décision éclairée quant à l'opportunité d'une transaction bien précise.

Vous savez maintenant ce qu'est la régression. Les exemples dans Excel discutés ci-dessus vous aideront à résoudre des problèmes pratiques dans le domaine de l'économétrie.

TAUX DE RÉGRESSION

- Anglais coefficient, régression; allemand Régressionskoeffizient. Une des caractéristiques de la relation entre la dépendance y et la variable indépendante x. K. p. montre de combien d'unités la valeur prise par y augmente si la variable x change d'un de ses changements. Géométriquement K. p. est la pente de la droite y.

Antinazi. Encyclopédie de sociologie, 2009

Voyez ce qu'est le « TAUX DE RÉGRESSION » dans d'autres dictionnaires :

    Coefficient de régression- - [L.G. Sumenko. Le dictionnaire anglais russe des technologies de l'information. M. : GP TsNIIS, 2003.] Thèmes technologies de l'information en général EN coefficient de régression ... Guide du traducteur technique

    Coefficient de régression- 35. Coefficient de régression Un paramètre du modèle d'analyse de régression Source : GOST 24026 80 : Tests de recherche. Planification d'une expérience. Termes et définitions …

    Coefficient de régression- Coefficient de la variable indépendante dans l'équation de régression ... Dictionnaire des statistiques sociologiques

    TAUX DE RÉGRESSION- Anglais. coefficient, régression; allemand Régressionskoeffizient. Une des caractéristiques de la relation entre la dépendance y et la variable indépendante x. K. p. montre de combien d'unités la valeur acceptée par y augmente si la variable x devient ... ... Dictionnaire explicatif de sociologie

    échantillon coefficient de régression- 2.44. échantillon coefficient de régression Coefficient d'une variable dans l'équation d'une courbe ou d'une surface de régression Source : GOST R 50779.10 2000 : Méthodes statistiques. Probabilités et statistiques de base. Termes et définitions … Dictionnaire-ouvrage de référence des termes de la documentation normative et technique

    Coefficient de régression partielle est une mesure statistique qui dénote le degré d'influence de la variable indépendante sur la variable dépendante dans une situation où l'influence mutuelle de toutes les autres variables du modèle est sous le contrôle du chercheur ... Dictionnaire sociologique Socium

    RÉGRESSION, POIDS- Un synonyme de coefficient de régression... Dictionnaire explicatif de la psychologie

    TAUX D'HÉRITAGE- Indicateur de la part relative de la variabilité génétique dans la variation phénotypique totale d'un trait. Les méthodes les plus courantes pour évaluer l'héritabilité des caractères économiquement utiles : où h2 est le coefficient d'héritabilité ; r intraclasse ...... Termes et définitions utilisés dans l'élevage, la génétique et la reproduction des animaux de ferme

    - (R au carré) est la proportion de la variance de la variable dépendante expliquée par le modèle de dépendance considéré, c'est-à-dire les variables explicatives. Plus précisément, c'est une unité moins la proportion de variance inexpliquée (variance de l'erreur aléatoire du modèle, ou conditionnelle ... ... Wikipedia

    Coefficient de la variable indépendante dans l'équation de régression. Ainsi, par exemple, dans l'équation de régression linéaire reliant les variables aléatoires Y et X, R. k. B0 et b1 sont égaux : où r est le coefficient de corrélation de X et Y,. Calcul des estimations R. k. (sélectionné ... ... Encyclopédie des mathématiques

Livres

  • Introduction à l'économétrie (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Les bases de l'économétrie et de l'analyse statistique des séries temporelles unidimensionnelles sont données. Une grande attention est portée au couple classique et à la régression multiple, aux méthodes classiques et généralisées...
  • Lecture rapide. Formateur efficace (CDpc),. Le programme s'adresse aux utilisateurs qui souhaitent maîtriser la technique de lecture rapide dans les plus brefs délais. Le cours est structuré selon le principe "théorie - pratique". Matériel théorique et pratique ...

Avec un lien de type linéaire entre les deux caractéristiques étudiées, en plus du calcul des corrélations, le calcul du coefficient de régression est appliqué.

Dans le cas d'une corrélation linéaire, chacun des changements dans une caractéristique correspond à un changement bien défini dans une autre caractéristique. Cependant, le coefficient de corrélation ne montre cette relation qu'en termes relatifs - en fractions d'unité. À l'aide d'une analyse de régression, cette valeur de la relation est obtenue en unités nommées. La quantité par laquelle le premier signe change en moyenne lorsque le second change par unité de mesure est appelée le coefficient de régression.

Contrairement à la corrélation, l'analyse de régression donne des informations plus larges, car en calculant deux coefficients de régression Rx / y et Ru / x il est possible de déterminer à la fois la dépendance du premier élément vis-à-vis du second et du second vis-à-vis du premier. L'expression d'une relation de régression à l'aide d'une équation permet à une certaine valeur d'une caractéristique d'établir la valeur d'une autre caractéristique.

Le coefficient de régression R est le produit du coefficient de corrélation et du rapport des écarts types calculés pour chaque caractéristique. Il est calculé par la formule

où, R est le coefficient de régression ; SX est l'écart type de la première caractéristique, qui change en raison de la modification de la seconde ; SУ - écart type de la deuxième caractéristique en raison du changement dans lequel la première caractéristique change ; r est le coefficient de corrélation entre ces caractéristiques ; x - fonction ; argument y.

Cette formule détermine l'amplitude de la valeur de x lorsque y change par unité de mesure. Si un calcul inverse est nécessaire, vous pouvez trouver la valeur de y lorsque x change par unité de mesure en utilisant la formule :


Dans ce cas, le rôle actif dans le changement d'un attribut par rapport à un autre change, par rapport à la formule précédente, l'argument devient une fonction et vice versa. SX et SY sont acceptés dans une expression nommée.

Il existe une relation claire entre les valeurs de r et R, exprimée par le fait que le produit de la régression x en y et de la régression y en x est égal au carré du coefficient de corrélation, c'est-à-dire

Rx / y * Ry / x = r2

Cela indique que le coefficient de corrélation est la moyenne géométrique des deux valeurs des coefficients de régression d'un échantillon donné. Cette formule peut être utilisée pour vérifier l'exactitude des calculs.

Lors du traitement de matériel numérique sur des machines à calculer, des formules détaillées de coefficient de régression peuvent être utilisées :

R ou


Pour le coefficient de régression, son erreur de représentativité peut être calculée. L'erreur du coefficient de régression est égale à l'erreur du coefficient de corrélation multipliée par le rapport des rapports quadratiques :

Le critère de fiabilité du coefficient de régression est calculé selon la formule usuelle :

de ce fait, il est égal au critère de fiabilité du coefficient de corrélation :

La fiabilité de la valeur tR est établie selon la table de Student à = n - 2, où n est le nombre de paires d'observations.

Régression curviligne.

RÉGRESSION, COURBE... Toute régression non linéaire dans laquelle l'équation de régression pour les changements dans une variable (y) en fonction de t change dans une autre (x) est une équation quadratique, cubique ou d'ordre supérieur. Bien qu'il soit mathématiquement possible d'obtenir une équation de régression qui s'adaptera à tous les gribouillis de la courbe, la plupart de ces perturbations résultent d'erreurs d'échantillonnage ou de mesure, et un tel ajustement « parfait » ne fait rien. Il n'est pas toujours facile de déterminer si une régression curviligne correspond à un ensemble de données, bien que des tests statistiques existent pour déterminer si chaque puissance supérieure de l'équation augmente considérablement le degré d'ajustement de cet ensemble de données.

L'ajustement de courbe est effectué de la même manière en utilisant la méthode des moindres carrés que l'ajustement en ligne droite. La droite de régression doit satisfaire la condition du minimum de la somme des carrés des distances à chaque point du champ de corrélation. Dans ce cas, dans l'équation (1), y est la valeur calculée de la fonction déterminée à l'aide de l'équation de la relation curviligne sélectionnée à partir des valeurs réelles de x j. Par exemple, si une parabole du second ordre est choisie pour approximer la connexion, alors y = a + bx + cx2, (14) Et la différence entre un point se trouvant sur la courbe et un point donné du champ de corrélation pour le correspondant L'argument peut être écrit de la même manière que l'équation (3) sous la forme yj = yj (a + bx + cx2) (15) Dans ce cas, la somme des carrés des distances de chaque point du champ de corrélation à la nouvelle droite de régression dans le cas d'une parabole du second ordre aura la forme : S 2 = yj 2 = 2 (16) Sur la base de la condition minimale de cette somme, les dérivées partielles de S 2 par rapport à a, b et c sont égales à zéro . Après avoir effectué les transformations nécessaires, on obtient un système de trois équations à trois inconnues pour déterminer a, b et c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2.yx2 = a x 2 + b x 3 + c x4. (17). En résolvant le système d'équations pour a, b et c, on trouve les valeurs numériques des coefficients de régression. Les valeurs y, x, x2, yx, yx2, x3, x4 se trouvent directement à partir des mesures de production. L'estimation de l'étanchéité de la relation avec une dépendance curviligne est le rapport de corrélation théorique xy, qui est la racine carrée du rapport de deux variances : le carré moyen p2 des écarts des valeurs calculées y"j de la fonction selon l'équation de régression trouvée de la valeur moyenne arithmétique Y de la valeur y au carré moyen des écarts y2 des valeurs réelles de la fonction yj de sa valeur moyenne arithmétique : xy = (p2 / y2) 1/2 = ((y "j - Y) 2 / (yj - Y) 2) 1/2 (18) Le carré du rapport de corrélation xy2 montre la part de variabilité totale de la variable dépendante y due à la variabilité de l'argument x. Cet indicateur est appelé coefficient de détermination. Contrairement au coefficient de corrélation, la valeur du rapport de corrélation ne peut prendre que des valeurs positives de 0 à 1. En l'absence de liaison, le rapport de corrélation est nul, en présence d'une liaison fonctionnelle, il est égal à un, et en présence d'une liaison de régression d'étanchéité différente, le rapport de corrélation prend des valeurs comprises entre zéro et un ... Le choix du type de courbe est d'une grande importance dans l'analyse de régression, car la précision de l'approximation et les estimations statistiques de l'étanchéité de la relation dépendent du type de relation sélectionnée. La méthode la plus simple pour choisir un type de courbe consiste à créer des champs de corrélation et à sélectionner les types appropriés d'équations de régression en fonction de l'emplacement des points dans ces champs. Les méthodes d'analyse de régression vous permettent de trouver les valeurs numériques des coefficients de régression pour des types complexes d'interconnexion de paramètres, décrits, par exemple, par des polynômes de degrés élevés. Souvent, la forme de la courbe peut être déterminée en fonction de la nature physique du processus ou du phénomène considéré. Il est logique d'utiliser des polynômes de degrés élevés pour décrire des processus en évolution rapide dans le cas où les plages de fluctuations des paramètres de ces processus sont importantes. Appliqué à la recherche du procédé métallurgique, il suffit d'utiliser des courbes d'ordre inférieur, par exemple une parabole du second ordre. Cette courbe peut avoir un extremum qui, comme la pratique l'a montré, suffit amplement à décrire diverses caractéristiques du procédé métallurgique. Les résultats du calcul des paramètres de la relation de corrélation par paires seraient fiables et auraient une valeur pratique si les informations utilisées étaient obtenues pour des conditions de larges plages de fluctuations de l'argument avec la constance de tous les autres paramètres du processus. Par conséquent, les méthodes d'étude de la relation de corrélation de paires de paramètres ne peuvent être utilisées pour résoudre des problèmes pratiques que lorsqu'il existe une confiance en l'absence d'autres influences sérieuses sur la fonction, à l'exception de l'argument analysé. Dans les conditions de production, il est impossible de mener le procédé de cette manière pendant longtemps. Cependant, si nous avons des informations sur les principaux paramètres du processus qui affectent ses résultats, alors l'influence de ces paramètres peut être mathématiquement éliminée et la relation entre la fonction et l'argument qui nous intéresse peut être isolée sous une « forme pure ». Une telle relation est dite privée, ou individuelle. Pour le déterminer, la méthode de régression multiple est utilisée.

Rapport de corrélation.

Le rapport de corrélation et l'indice de corrélation sont des caractéristiques numériques étroitement liées à la notion de variable aléatoire, ou plutôt à un système de variables aléatoires. Par conséquent, pour introduire et définir leur signification et leur rôle, il est nécessaire de clarifier le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un certain phénomène sont appelées un système ou un complexe de variables aléatoires.

Le système de plusieurs variables aléatoires X, Y, Z,…, W est généralement noté (X, Y, Z,…, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, mais dans l'espace - voire par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais incluent également les connexions mutuelles (dépendances) entre les variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins proche. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

Une variable aléatoire Y est dite indépendante d'une variable aléatoire X si la loi de distribution d'une variable aléatoire Y ne dépend pas de la valeur que X a prise.

Il convient de noter que la dépendance et l'indépendance des variables aléatoires est toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur de X ne dépend pas de Y. Compte tenu de cela, nous pouvons donner la définition suivante de la indépendance des variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que l'autre a prise. Sinon, les quantités X et Y sont dites dépendantes.

La loi de distribution d'une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et les probabilités correspondantes.

Le concept de "dépendance" des variables aléatoires, qui est utilisé dans la théorie des probabilités, est quelque peu différent du concept habituel de "dépendance" des quantités, qui est utilisé en mathématiques. Ainsi, le mathématicien sous "dépendance" entend un seul type de dépendance - une dépendance complète, rigide, dite fonctionnelle. Deux grandeurs X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, il est possible de déterminer avec précision la valeur de l'autre.

Dans la théorie des probabilités, il existe un type de dépendance légèrement différent - la dépendance probabiliste. Si la valeur de Y est liée à la valeur de X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez indiquer sa loi de distribution, en fonction de quelle valeur la valeur de X a pris.

La dépendance probabiliste peut être plus ou moins proche ; à mesure que la proximité de la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de la dépendance probabiliste la plus proche. Un autre cas extrême est l'indépendance complète des variables aléatoires. Entre ces deux cas extrêmes se situent toutes les gradations de la dépendance probabiliste - du plus fort au plus faible.

La relation probabiliste entre variables aléatoires est souvent rencontrée en pratique. Si les variables aléatoires X et Y sont dans une relation probabiliste, cela ne veut pas dire qu'avec un changement de la valeur de X, la valeur de Y change d'une manière tout à fait définie ; cela signifie seulement qu'avec un changement de la valeur de X, la valeur de Y a également tendance à changer (augmenter ou diminuer avec une augmentation de X). Cette tendance n'est observée qu'en termes généraux et, dans chaque cas individuel, des écarts par rapport à celle-ci sont possibles.

Au cours de leurs études, les étudiants sont très souvent confrontés à une variété d'équations. L'un d'eux - l'équation de régression - est discuté dans cet article. Ce type d'équation est utilisé spécifiquement pour décrire les caractéristiques de la relation entre des paramètres mathématiques. Ce type d'égalité est utilisé en statistique et en économétrie.

Définir la régression

En mathématiques, la régression désigne une quantité qui décrit la dépendance de la valeur moyenne d'un ensemble de données sur les valeurs d'une autre quantité. L'équation de régression montre, en fonction d'une caractéristique particulière, la moyenne d'une autre caractéristique. La fonction de régression a la forme d'une équation simple y = x, dans laquelle y est la variable dépendante et x est l'indépendant (facteur d'attribut). En fait, la régression est exprimée par y = f (x).

Quels sont les types de relations entre les variables

En général, il existe deux types de relations opposées : la corrélation et la régression.

La première est caractérisée par l'égalité des variables conditionnelles. Dans ce cas, on ne sait pas avec certitude quelle variable dépend de l'autre.

S'il n'y a pas d'égalité entre les variables et que les conditions disent quelle variable est explicative et laquelle est dépendante, alors on peut parler de la présence d'une relation du second type. Afin de construire une équation de régression linéaire, il sera nécessaire de savoir quel type de relation est observé.

Types de régression

Aujourd'hui, il existe 7 types de régressions différentes : hyperbolique, linéaire, multiple, non linéaire, appariée, inverse, logarithmiquement linéaire.

Hyperbolique, linéaire et logarithmique

Une équation de régression linéaire est utilisée en statistique pour expliquer clairement les paramètres d'une équation. Cela ressemble à y = c + m * x + E. L'équation hyperbolique a la forme d'une hyperbole régulière y = c + m / x + E. L'équation logarithmiquement linéaire exprime la relation à l'aide d'une fonction logarithmique : In y = In c + m * In x + In E.

Multiple et non linéaire

Deux types de régression plus complexes sont multiples et non linéaires. L'équation de régression multiple est exprimée par la fonction y = f (x 1, x 2 ... x c) + E. Dans cette situation, y est la variable dépendante et x est la variable explicative. La variable E est stochastique et inclut l'influence d'autres facteurs dans l'équation. L'équation de régression non linéaire est un peu controversée. D'une part, elle n'est pas linéaire par rapport aux indicateurs pris en compte, mais d'autre part, dans le rôle d'évaluation des indicateurs, elle est linéaire.

Régressions inverses et appariées

L'inverse est le type de fonction qui doit être convertie en une forme linéaire. Dans les applications les plus traditionnelles, il prend la forme d'une fonction y = 1 / c + m * x + E. L'équation de régression appariée démontre la relation entre les données en fonction de y = f (x) + E. De la même manière que dans d'autres équations, y dépend de x et E est un paramètre stochastique.

Notion de corrélation

Il s'agit d'un indicateur qui démontre l'existence d'une relation entre deux phénomènes ou processus. La force de la relation est exprimée sous la forme d'un coefficient de corrélation. Sa valeur fluctue dans l'intervalle [-1; +1]. Un indicateur négatif indique la présence d'un feedback, un indicateur positif en indique un direct. Si le coefficient prend une valeur égale à 0, alors il n'y a pas de relation. Plus la valeur est proche de 1 - plus la relation entre les paramètres est forte, plus proche de 0 - plus faible.

Méthodes

Les méthodes paramétriques de corrélation peuvent évaluer la proximité de la relation. Ils sont utilisés sur la base d'une estimation de distribution pour étudier des paramètres obéissant à la loi de distribution normale.

Les paramètres de l'équation de régression linéaire sont nécessaires pour identifier le type de dépendance, la fonction de l'équation de régression et pour évaluer les indicateurs de la formule de relation choisie. Le champ de corrélation est utilisé comme méthode pour identifier un lien. Pour cela, toutes les données existantes doivent être affichées graphiquement. Dans un système de coordonnées rectangulaires 2D, toutes les données connues doivent être tracées. C'est ainsi que se forme le champ de corrélation. La valeur du facteur descriptif est marquée en abscisse, tandis que les valeurs du facteur dépendant sont marquées en ordonnée. S'il existe une relation fonctionnelle entre les paramètres, ils sont alignés sous la forme d'une ligne.

Si le coefficient de corrélation de telles données est inférieur à 30%, on peut parler d'une absence quasi totale de communication. S'il est compris entre 30% et 70%, alors cela indique la présence de liens de densité moyenne. L'indicateur 100 % est la preuve d'une connexion fonctionnelle.

Une équation de régression non linéaire, comme une équation linéaire, doit être complétée par un indice de corrélation (R).

Corrélation pour la régression multiple

Le coefficient de détermination est une mesure du carré de la corrélation multiple. Il parle de l'étroitesse de la relation entre le complexe d'indicateurs présenté avec la caractéristique étudiée. Il peut aussi parler de la nature de l'influence des paramètres sur le résultat. L'équation de régression multiple est estimée à l'aide de cet indicateur.

Afin de calculer l'indice de corrélation multiple, il est nécessaire de calculer son indice.

Méthode des moindres carrés

Cette méthode est un moyen d'estimer les facteurs de régression. Son essence réside dans la minimisation de la somme des écarts au carré obtenus en raison de la dépendance du facteur à la fonction.

Une équation de régression linéaire appariée peut être estimée à l'aide de cette méthode. Ce type d'équations est utilisé dans le cas de détection entre les indicateurs d'une relation linéaire appariée.

Paramètres d'équation

Chaque paramètre de la fonction de régression linéaire a une signification spécifique. L'équation de régression linéaire appariée contient deux paramètres : c et m. Le paramètre m montre la variation moyenne de l'indicateur final de la fonction y, sous réserve d'une diminution (augmentation) de la variable x d'une unité conventionnelle. Si la variable x est nulle, alors la fonction est égale au paramètre c. Si la variable x n'est pas nulle, alors le facteur c n'a aucune signification économique. Le seul effet sur la fonction est le signe avant le facteur c. S'il y a un moins, alors on peut parler d'un changement retardé du résultat par rapport au facteur. S'il y a un plus, cela indique un changement accéléré du résultat.

Chaque paramètre qui modifie la valeur d'une équation de régression peut être exprimé par une équation. Par exemple, le facteur c a la forme c = y - tx.

Données groupées

Il existe des conditions du problème dans lesquelles toutes les informations sont regroupées en fonction de l'attribut x, mais en même temps, pour un certain groupe, les valeurs moyennes correspondantes de l'indicateur dépendant sont indiquées. Dans ce cas, les valeurs moyennes caractérisent l'évolution de l'indicateur, en fonction de x. Ainsi, les informations regroupées aident à trouver l'équation de régression. Il est utilisé comme une analyse des relations. Cependant, cette méthode a ses inconvénients. Malheureusement, les moyennes sont souvent soumises à des fluctuations externes. Ces fluctuations ne sont pas le reflet de la régularité de la relation, elles ne font que masquer son « bruit ». Les moyennes montrent des modèles de relation bien pires que l'équation de régression linéaire. Cependant, ils peuvent être utilisés comme base pour trouver une équation. En multipliant la taille d'une population individuelle par la moyenne correspondante, vous pouvez obtenir la somme de y au sein du groupe. Ensuite, vous devez éliminer tous les montants reçus et trouver l'indicateur final y. Il est un peu plus difficile de faire des calculs avec l'indicateur du montant xy. Dans le cas où les intervalles sont petits, il est possible de prendre conventionnellement l'exposant x pour toutes les unités (au sein du groupe) pour être le même. Vous devez le multiplier par la somme de y pour trouver la somme des produits de x et y. De plus, tous les montants sont réunis et le montant total xy est obtenu.

Équation de régression multiple par paires : évaluer l'importance d'un lien

Comme discuté précédemment, la régression multiple a une fonction de la forme y = f (x 1, x 2,…, x m) + E. Le plus souvent, une telle équation est utilisée pour résoudre le problème de l'offre et de la demande d'un produit, des revenus d'intérêts sur les actions rachetées, et étudier les raisons et le type de la fonction de coût de production. Elle est également activement utilisée dans une grande variété d'études et de calculs macroéconomiques, mais au niveau de la microéconomie, une telle équation est un peu moins utilisée.

La tâche principale de la régression multiple est de construire un modèle de données contenant une énorme quantité d'informations afin de déterminer davantage quelle influence chacun des facteurs individuellement et dans leur totalité générale a sur l'indicateur qui doit être modélisé et ses coefficients. L'équation de régression peut prendre une grande variété de valeurs. Dans le même temps, deux types de fonctions sont généralement utilisées pour évaluer la relation : linéaire et non linéaire.

Une fonction linéaire est représentée sous la forme d'une telle relation : y = a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Dans ce cas, a2, a m, sont considérés comme les coefficients de régression "pure". Ils sont nécessaires pour caractériser la variation moyenne du paramètre y avec une variation (diminution ou augmentation) de chaque paramètre correspondant x d'une unité, à la condition d'une valeur stable des autres indicateurs.

Les équations non linéaires ont, par exemple, la forme d'une fonction puissance y = ax 1 b1 x 2 b2 ... x m bm. Dans ce cas, les indicateurs b 1, b 2 ..... bm - sont appelés coefficients d'élasticité, ils montrent comment le résultat changera (de combien%) avec une augmentation (diminution) de l'indicateur x correspondant de 1% et avec un indicateur stable d'autres facteurs.

Quels facteurs doivent être pris en compte lors de la construction d'une régression multiple

Afin de construire correctement une régression multiple, il est nécessaire de déterminer les facteurs auxquels une attention particulière doit être accordée.

Il est nécessaire d'avoir une certaine compréhension de la nature de la relation entre les facteurs économiques et le modélisé. Les facteurs qui devront être inclus doivent répondre aux critères suivants :

  • Doit être quantifiable. Afin d'utiliser un facteur décrivant la qualité d'un objet, dans tous les cas, il doit être quantifié.
  • Il ne devrait pas y avoir d'intercorrélation de facteurs ou de relation fonctionnelle. De telles actions conduisent le plus souvent à des conséquences irréversibles - le système d'équations ordinaires devient inconditionné, ce qui entraîne son manque de fiabilité et ses estimations peu claires.
  • S'il existe un indicateur de corrélation énorme, il n'y a aucun moyen de découvrir l'influence isolée des facteurs sur le résultat final de l'indicateur, par conséquent, les coefficients deviennent ininterprétables.

Méthodes de construction

Il existe une myriade de méthodes et de techniques pour expliquer comment vous pouvez sélectionner des facteurs pour une équation. Cependant, toutes ces méthodes reposent sur la sélection de coefficients à l'aide de l'indice de corrélation. Parmi eux se trouvent :

  • Méthode d'exclusion.
  • Méthode d'inclusion.
  • Analyse de régression pas à pas.

La première méthode consiste à filtrer tous les coefficients de l'ensemble agrégé. La deuxième méthode implique l'introduction de nombreux facteurs supplémentaires. Eh bien, le troisième est l'élimination des facteurs qui étaient auparavant appliqués à l'équation. Chacune de ces méthodes a le droit d'exister. Ils ont leurs avantages et leurs inconvénients, mais ils peuvent tous à leur manière résoudre le problème du filtrage des indicateurs inutiles. En règle générale, les résultats obtenus par chaque méthode individuelle sont assez proches.

Méthodes d'analyse multivariée

De telles méthodes de détermination des facteurs sont basées sur la prise en compte de combinaisons individuelles de caractéristiques interdépendantes. Celles-ci incluent l'analyse discriminante, la reconnaissance faciale, l'analyse en composantes principales et l'analyse de cluster. De plus, il existe également une analyse factorielle, mais elle est apparue à la suite du développement de la méthode des composants. Tous s'appliquent dans certaines circonstances, sous certaines conditions et certains facteurs.

Dans les articles précédents, l'analyse s'est souvent concentrée sur une seule variable numérique, telle que les rendements des fonds communs de placement, les temps de chargement des pages Web ou la consommation de boissons gazeuses. Dans cette note et les suivantes, nous considérerons des méthodes pour prédire les valeurs d'une variable numérique en fonction des valeurs d'une ou plusieurs autres variables numériques.

Le matériel sera illustré par un exemple transversal. Prévision du volume des ventes dans un magasin de vêtements. La chaîne de magasins de vêtements discount Sunflowers est en constante expansion depuis 25 ans. Cependant, l'entreprise n'a actuellement pas d'approche systématique pour sélectionner de nouveaux points de vente. Le lieu où l'entreprise envisage d'ouvrir un nouveau magasin est déterminé sur la base de considérations subjectives. Les critères de sélection sont des conditions de location favorables ou l'idée du gérant de l'emplacement idéal du magasin. Imaginez que vous êtes le chef du département des projets spéciaux et de la planification. Vous avez été chargé d'élaborer un plan stratégique pour l'ouverture de nouveaux magasins. Ce plan devrait inclure une prévision des ventes annuelles des magasins nouvellement ouverts. Vous pensez que la vente d'espace est directement liée au montant des revenus, et vous souhaitez en tenir compte dans votre processus décisionnel. Comment développez-vous un modèle statistique qui prédit les ventes annuelles en fonction de la nouvelle taille du magasin ?

Typiquement, l'analyse de régression est utilisée pour prédire les valeurs d'une variable. Son objectif est de développer un modèle statistique qui prédit les valeurs de la variable dépendante, ou réponse, à partir des valeurs d'au moins une variable indépendante ou explicative. Dans cet article, nous examinerons la régression linéaire simple, une technique statistique qui prédit les valeurs de la variable dépendante. Oui par les valeurs de la variable indépendante X... Les notes suivantes décriront un modèle de régression multiple conçu pour prédire les valeurs de la variable indépendante Oui par les valeurs de plusieurs variables dépendantes ( X 1, X 2, ..., X k).

Téléchargez la note au format ou, des exemples au format

Types de modèles de régression

ρ 1 - coefficient d'autocorrélation ; si ρ 1 = 0 (pas d'autocorrélation), 2 ; si ρ 1 ≈ 1 (autocorrélation positive), 0 ; si ρ 1 = -1 (autocorrélation négative), ≈ 4.

En pratique, l'application du test de Durbin-Watson repose sur une comparaison de la valeur avec des valeurs théoriques critiques d L et dU pour un nombre donné d'observations m, le nombre de variables indépendantes du modèle k(pour la régression linéaire simple k= 1) et le niveau de signification α. Si ré< d L , l'hypothèse d'indépendance des écarts aléatoires est rejetée (il y a donc une autocorrélation positive) ; si D> d U, l'hypothèse n'est pas rejetée (c'est-à-dire qu'il n'y a pas d'autocorrélation) ; si d L< D < d U , il n'y a pas de base suffisante pour prendre une décision. Lorsque la valeur calculée dépasse 2, puis avec d L et dU pas le coefficient lui-même est comparé , et expression (4 - ).

Pour calculer les statistiques Durbin-Watson dans Excel, référons-nous au tableau du bas de la Fig. 14 Retirer le reste... Le numérateur dans l'expression (10) est calculé à l'aide de la fonction = SUMKVRAZN (tableau1; tableau2) et le dénominateur = SUMKV (tableau) (Fig. 16).

Riz. 16. Formules de calcul des statistiques Durbin-Watson

Dans notre exemple = 0,883. La question principale est : quelle valeur de la statistique de Durbin-Watson doit être considérée comme suffisamment petite pour conclure à l'existence d'une autocorrélation positive ? Il est nécessaire de corréler la valeur D avec les valeurs critiques ( d L et dU) en fonction du nombre d'observations m et le niveau de signification α (Fig. 17).

Riz. 17. Valeurs critiques des statistiques Durbin-Watson (fragment du tableau)

Ainsi, dans le problème du volume des ventes dans un magasin de livraison à domicile, il existe une variable indépendante ( k= 1), 15 observations ( m= 15) et niveau de signification α = 0,05. D'où, d L= 1,08 et U= 1,36. Dans la mesure où = 0,883 < d L= 1,08, il y a une autocorrélation positive entre les résidus, la méthode des moindres carrés ne peut pas être utilisée.

Tester l'hypothèse de la pente et de la corrélation

La régression ci-dessus a été utilisée uniquement à des fins de prévision. Pour déterminer des coefficients de régression et prédire la valeur d'une variable Oui pour une valeur donnée de la variable X la méthode des moindres carrés a été utilisée. De plus, nous avons examiné l'erreur quadratique moyenne de l'estimation et le coefficient de corrélation mixte. Si l'analyse des résidus confirme que les conditions d'applicabilité de la méthode des moindres carrés ne sont pas violées et que le modèle de régression linéaire simple est adéquat, basé sur des données d'échantillon, on peut affirmer qu'il existe une relation linéaire entre les variables dans le population.

Applicationt - le critère de la pente. En vérifiant si la pente de la population 1 est égale à zéro, il est possible de déterminer s'il existe une relation statistiquement significative entre les variables X et Oui... Si cette hypothèse est rejetée, on peut avancer qu'entre les variables X et Oui il y a une relation linéaire. Les hypothèses nulle et alternative sont formulées comme suit : H 0 : β 1 = 0 (il n'y a pas de dépendance linéaire), H1 : β 1 ≠ 0 (il y a une dépendance linéaire). Par définition t-statistics est égal à la différence entre la pente de l'échantillon et la pente hypothétique de la population divisée par l'erreur quadratique moyenne de l'estimation de la pente :

(11) t = (b 1 β 1 ) / S b 1

b 1 Est la pente de la droite de régression basée sur les données de l'échantillon, 1 est la pente hypothétique de la droite de la population générale, , et les statistiques de test t Il a t-distribution avec n - 2 degrés de liberté.

Vérifions s'il existe une relation statistiquement significative entre la taille du magasin et les ventes annuelles avec α = 0,05. t-critère est affiché avec d'autres paramètres lors de l'utilisation Paquet d'analyse(option Régression). Les résultats complets du pack d'analyse sont présentés dans la Fig. 4, un fragment lié aux statistiques t est montré dans la Fig. dix-huit.

Riz. 18. Résultats des candidatures t

Étant donné que le nombre de magasins m= 14 (voir Fig. 3), valeur critique t-les statistiques à un niveau de signification de α = 0,05 peuvent être trouvées par la formule : t L= STUDENT.OBR (0,025 ; 12) = –2,1788, où 0,025 est la moitié du seuil de signification, et 12 = m – 2; t U= ÉTUDIANT.OBR (0,975 ; 12) = +2,1788.

Dans la mesure où t-statistiques = 10,64> t U= 2,1788 (Fig. 19), hypothèse nulle H 0 dévie. D'un autre côté, R-la valeur pour X= 10,6411, calculé par la formule = 1-STUDENT.DIST (D3; 12; TRUE), est approximativement égal à zéro, donc l'hypothèse H 0 dévie à nouveau. Le fait que R-valeur presque égale à zéro signifie que s'il n'y avait pas de relation linéaire réelle entre la taille du magasin et les ventes annuelles, il serait presque impossible de la détecter en utilisant la régression linéaire. Par conséquent, il existe une relation linéaire statistiquement significative entre les ventes annuelles moyennes des magasins et leur taille.

Riz. 19. Tester l'hypothèse sur la pente de la population générale à un niveau de signification de 0,05 et 12 degrés de liberté

ApplicationF - le critère de la pente. Une approche alternative pour tester les hypothèses de pente de la régression linéaire simple consiste à utiliser F-critère. Rappeler que F-criterion est utilisé pour tester la relation entre deux variances (voir détails). Lors du test de l'hypothèse de pente, la mesure des erreurs aléatoires est la variance d'erreur (la somme des erreurs au carré divisée par le nombre de degrés de liberté), donc F-critère utilise le rapport de variance expliqué par la régression (c'est-à-dire les valeurs RSS divisé par le nombre de variables indépendantes k), à la variance des erreurs ( MSE = S YX 2 ).

Par définition F-La statistique est égale au carré moyen de l'écart dû à la régression (MSR) divisé par la variance de l'erreur (MSE) : F = MSR/ MSE, où MSR =RSS / k, EQM =ESS/(m- k - 1), k- le nombre de variables indépendantes dans le modèle de régression. Statistiques des tests F Il a F-distribution avec k et m- k - 1 degrés de liberté.

Pour un niveau de signification α donné, la règle de décision est formulée comme suit : si F> FU, l'hypothèse nulle est rejetée ; sinon, il n'est pas rejeté. Les résultats, présentés sous la forme d'un tableau récapitulatif d'analyse de la variance, sont présentés dans la Fig. vingt.

Riz. 20. Un tableau d'analyse de la variance pour tester l'hypothèse sur la signification statistique du coefficient de régression

également t-critère F-le critère est affiché dans le tableau lorsqu'il est utilisé Paquet d'analyse(option Régression). Complètement les résultats du travail Paquet d'analyse sont représentés sur la Fig. 4, un fragment lié à F-statistiques - dans la Fig. 21.

Riz. 21. Résultats de l'application F-critères obtenus à l'aide du progiciel d'analyse Excel

La statistique F est 113,23 et R-valeur proche de zéro (cellule ImportanceF). Si le niveau de signification est de 0,05, déterminez la valeur critique F-les distributions à un et 12 degrés de liberté peuvent être données par la formule F U= F. OBR (1-0,05 ; 1 ; 12) = 4,7472 (Fig. 22). Dans la mesure où F = 113,23 > F U= 4,7472, et R-valeur proche de 0< 0,05, нулевая гипотеза H 0 dévie, c'est-à-dire la taille du magasin est étroitement liée à ses ventes annuelles.

Riz. 22. Tester l'hypothèse sur la pente de la population générale à un niveau de signification de 0,05, avec un et 12 degrés de liberté

Intervalle de confiance contenant la pente β 1. Pour tester l'hypothèse sur l'existence d'une relation linéaire entre les variables, vous pouvez construire un intervalle de confiance contenant la pente 1 et vous assurer que la valeur hypothétique β 1 = 0 appartient à cet intervalle. Le centre de l'intervalle de confiance contenant la pente 1 est la pente de l'échantillon b 1 , et ses limites sont les quantités b 1 ±t n –2 S b 1

Comme le montre la fig. dix-huit, b 1 = +1,670, m = 14, S b 1 = 0,157. t 12 = ÉTUDIANT.OBR (0,975 ; 12) = 2,1788. D'où, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ou + 1,328 β 1 +2,012. Ainsi, la pente de la population générale avec une probabilité de 0,95 se situe dans la fourchette de +1,328 à +2,012 (c'est-à-dire de 1 328 000 $ à 2 012 000 $). Étant donné que ces valeurs sont supérieures à zéro, il existe une relation linéaire statistiquement significative entre les ventes annuelles et la superficie du magasin. Si l'intervalle de confiance contenait zéro, il n'y aurait aucune dépendance entre les variables. De plus, l'intervalle de confiance signifie que chaque augmentation de la surface du magasin de 1000 m². pieds entraîne une augmentation des ventes moyennes de 1 328 000 $ à 2 012 000 $.

Usaget -critère pour le coefficient de corrélation. un coefficient de corrélation a été introduit r, qui est une mesure de la relation entre deux variables numériques. Il peut être utilisé pour établir s'il existe une relation statistiquement significative entre deux variables. Notons le coefficient de corrélation entre les populations générales des deux variables par le symbole . Les hypothèses nulle et alternative sont formulées comme suit : H 0: ρ = 0 (pas de corrélation), H1: ρ ≠ 0 (il y a une corrélation). Vérification de l'existence d'une corrélation :

r = + , si b 1 > 0, r = – , si b 1 < 0. Тестовая статистика t Il a t-distribution avec n - 2 degrés de liberté.

Dans le problème de la chaîne de magasins Tournesols r 2= 0,904, et b 1- +1.670 (voir fig. 4). Dans la mesure où b 1> 0, le coefficient de corrélation entre les ventes annuelles et la taille du magasin est r= + 0,904 = +0,951. Vérifier l'hypothèse nulle selon laquelle il n'y a pas de corrélation entre ces variables en utilisant t-statistiques:

À un niveau de signification de = 0,05, l'hypothèse nulle doit être rejetée car t= 10,64 > 2,1788. Ainsi, on peut affirmer qu'il existe une relation statistiquement significative entre les ventes annuelles et la taille du magasin.

Les intervalles de confiance et les critères pour tester les hypothèses sont utilisés de manière interchangeable lors de la discussion des conclusions sur la pente de la population. Cependant, le calcul de l'intervalle de confiance contenant le coefficient de corrélation s'avère plus difficile, car la forme de la distribution d'échantillon de la statistique r dépend du vrai coefficient de corrélation.

Estimation de l'espérance mathématique et prédiction des valeurs individuelles

Cette section traite des méthodes d'évaluation de la réponse attendue Oui et prédictions de valeurs individuelles Oui aux valeurs données de la variable X.

Construire un intervalle de confiance. Dans l'exemple 2 (voir la section ci-dessus Méthode des moindres carrés) l'équation de régression a permis de prédire la valeur de la variable Oui X... Dans le problème du choix d'un emplacement pour un point de vente, les ventes annuelles moyennes dans un magasin d'une superficie de 4000 m². pieds était égal à 7,644 millions de dollars.Cependant, cette estimation de l'espérance mathématique de la population générale est ponctuelle. pour évaluer l'espérance mathématique de la population générale, le concept d'intervalle de confiance a été proposé. De même, on peut introduire le concept intervalle de confiance pour la réponse attendue pour une valeur donnée de la variable X:

, = b 0 + b 1 X je- la valeur prédite est variable Ouià X = X je, S YX- erreur quadratique moyenne, m- taille de l'échantillon, Xje- la valeur de consigne de la variable X, µ Oui|X = Xje- espérance mathématique d'une variable Ouià X = X je, SSX =

L'analyse de la formule (13) montre que la largeur de l'intervalle de confiance dépend de plusieurs facteurs. A un niveau de signification donné, une augmentation de l'amplitude des oscillations autour de la droite de régression, mesurée à l'aide de l'erreur quadratique moyenne, entraîne une augmentation de la largeur de l'intervalle. D'autre part, comme prévu, une augmentation de la taille de l'échantillon s'accompagne d'un rétrécissement de l'intervalle. De plus, la largeur de l'intervalle change en fonction des valeurs Xje... Si la valeur de la variable Oui prévu pour les quantités X proche de la moyenne , l'intervalle de confiance s'avère plus étroit que lors de la prédiction de la réponse pour des valeurs éloignées de la moyenne.

Disons que lors du choix d'un emplacement pour un magasin, nous souhaitons tracer un intervalle de confiance à 95% pour les ventes annuelles moyennes pour tous les magasins d'une superficie de 4000 m². pieds:

Par conséquent, les ventes annuelles moyennes dans tous les magasins d'une superficie de 4 000 mètres carrés. pieds, avec une probabilité de 95 %, se situe entre 6,971 et 8,317 millions de dollars.

Calcul de l'intervalle de confiance pour la valeur prédite. En plus de l'intervalle de confiance pour l'espérance mathématique de la réponse à une valeur donnée de la variable X, il est souvent nécessaire de connaître l'intervalle de confiance pour la valeur prédite. Malgré le fait que la formule de calcul de cet intervalle de confiance est très similaire à la formule (13), cet intervalle contient la valeur prédite, et non l'estimation du paramètre. Intervalle de réponse prévu OuiX = Xià une valeur spécifique de la variable Xje déterminé par la formule :

Supposons que lors du choix d'un emplacement pour un magasin, nous souhaitons tracer un intervalle de confiance à 95% pour les ventes annuelles prévues pour un magasin d'une superficie de 4000 m². pieds:

Par conséquent, le volume de ventes annuel prévu pour un magasin d'une superficie de 4000 m². ft, avec une probabilité de 95%, se situe dans la plage de 5,433 à 9,854 millions de dollars.Comme vous pouvez le voir, l'intervalle de confiance pour la valeur prédite de la réponse est beaucoup plus large que l'intervalle de confiance pour son espérance mathématique. Cela est dû au fait que la variabilité dans la prédiction des valeurs individuelles est beaucoup plus grande que lors de l'évaluation de l'espérance mathématique.

Pièges et problèmes éthiques liés à la régression

Difficultés avec l'analyse de régression :

  • Ignorer les conditions d'applicabilité de la méthode des moindres carrés.
  • Appréciation erronée des conditions d'applicabilité de la méthode des moindres carrés.
  • Mauvais choix de méthodes alternatives lorsque les conditions d'applicabilité de la méthode des moindres carrés sont violées.
  • Application de l'analyse de régression sans connaissance approfondie du sujet de recherche.
  • Extrapolation de la régression au-delà de la plage de la variable explicative.
  • Confusion entre les relations statistiques et causales.

L'adoption généralisée des tableurs et des logiciels statistiques a éliminé les problèmes de calcul qui entravaient l'utilisation de l'analyse de régression. Cependant, cela a conduit au fait que les utilisateurs qui n'avaient pas les qualifications et les connaissances suffisantes ont commencé à utiliser l'analyse de régression. Comment les utilisateurs connaissent-ils les méthodes alternatives, si beaucoup d'entre eux n'ont aucune idée des conditions d'applicabilité de la méthode des moindres carrés et ne savent pas comment vérifier leur mise en œuvre ?

Le chercheur ne doit pas se laisser emporter par les nombres de meulage - calcul du décalage, de la pente et du coefficient de corrélation mixte. Il a besoin de connaissances plus approfondies. Illustrons cela avec un exemple classique tiré des manuels. Anscombe a montré que les quatre ensembles de données illustrés à la Fig. 23 ont les mêmes paramètres de régression (Fig. 24).

Riz. 23. Quatre ensembles de données artificielles

Riz. 24. Analyse de régression de quatre ensembles de données artificielles ; fini avec Paquet d'analyse(cliquez sur l'image pour agrandir l'image)

Ainsi, du point de vue de l'analyse de régression, tous ces ensembles de données sont complètement identiques. Si l'analyse était terminée, nous perdrions beaucoup d'informations utiles. Ceci est mis en évidence par les nuages ​​de points (Figure 25) et les graphes résiduels (Figure 26) tracés pour ces ensembles de données.

Riz. 25. Nuages ​​de points pour quatre ensembles de données

Les diagrammes de dispersion et les diagrammes résiduels montrent que ces données diffèrent les unes des autres. Le seul ensemble distribué le long d'une droite est l'ensemble A. Le tracé des résidus calculés à partir de l'ensemble A n'a aucune régularité. On ne peut pas en dire autant des ensembles B, C et D. Le nuage de points basé sur l'ensemble B démontre un modèle quadratique prononcé. Cette conclusion est confirmée par le graphique des résidus, qui a une forme parabolique. Le nuage de points et le graphique résiduel montrent que l'ensemble de données B contient une valeur aberrante. Dans cette situation, il est nécessaire d'exclure la valeur aberrante de l'ensemble de données et de répéter l'analyse. Une technique pour détecter et éliminer les valeurs aberrantes des observations est appelée analyse d'impact. Après avoir éliminé la valeur aberrante, le résultat de la réévaluation du modèle peut être complètement différent. Un nuage de points de l'ensemble de données D illustre la situation inhabituelle dans laquelle le modèle empirique dépend fortement d'une réponse individuelle ( X 8 = 19, Oui 8 = 12.5). De tels modèles de régression doivent être calculés avec un soin particulier. Ainsi, les nuages ​​de points et les diagrammes résiduels sont un outil essentiel pour l'analyse de régression et devraient en faire partie intégrante. Sans eux, l'analyse de régression n'est pas digne de confiance.

Riz. 26. Graphiques des résidus pour quatre ensembles de données

Comment éviter les pièges de l'analyse de régression :

  • Analyse de la relation possible entre les variables X et Oui commencez toujours par tracer un nuage de points.
  • Vérifiez les conditions d'applicabilité avant d'interpréter les résultats de l'analyse de régression.
  • Tracez les résidus en fonction de la variable indépendante. Cela vous permettra de déterminer comment le modèle empirique correspond aux résultats d'observation, et de détecter une violation de la constance de la variance.
  • Utilisez des histogrammes, des diagrammes de tiges et de feuilles, des boîtes à moustaches et des diagrammes de distribution normale pour tester l'hypothèse d'erreur normale.
  • Si les conditions de la méthode des moindres carrés ne sont pas remplies, utilisez des méthodes alternatives (par exemple, des modèles de régression quadratique ou multiple).
  • Si les conditions d'applicabilité de la méthode des moindres carrés sont satisfaites, il est nécessaire de tester l'hypothèse sur la signification statistique des coefficients de régression et de construire des intervalles de confiance contenant l'espérance mathématique et la valeur de réponse prédite.
  • Évitez de prédire les valeurs de la variable dépendante en dehors de la plage de la variable indépendante.
  • Gardez à l'esprit que les relations statistiques ne sont pas toujours causales. Rappelez-vous que la corrélation entre les variables ne signifie pas qu'il existe une relation causale entre elles.

Résumé. Comme le montre le schéma fonctionnel (Fig. 27), la note décrit le modèle de régression linéaire simple, les conditions de son applicabilité et la manière de vérifier ces conditions. Pris en considération t-critère de vérification de la significativité statistique de la pente de la régression. Un modèle de régression a été utilisé pour prédire les valeurs de la variable dépendante. Un exemple est considéré lié au choix d'un emplacement pour un point de vente, dans lequel la dépendance du volume des ventes annuelles sur la superficie du magasin est étudiée. Les informations obtenues vous permettent de sélectionner plus précisément un emplacement pour le magasin et de prévoir ses ventes annuelles. Dans les notes suivantes, nous poursuivrons notre discussion sur l'analyse de régression et examinerons également les modèles de régression multiple.

Riz. 27. Schéma fonctionnel de la note

Matériaux utilisés du livre Levin et autres statistiques pour les gestionnaires. - M. : Williams, 2004 .-- p. 792-872

Si la variable dépendante est catégorielle, la régression logistique doit être appliquée.