Comment déterminer un intervalle de confiance. Calcul d'un intervalle de confiance dans Microsoft Excel

Notez la tâche. Par exemple: Le poids moyen d'un étudiant de l'Université ABC est de 90 kg.. Vous testerez l'exactitude de la prédiction du poids des étudiants de sexe masculin à l'Université ABC dans un intervalle de confiance donné.

Sélectionnez un échantillon approprié. Vous l'utiliserez pour collecter des données afin de tester votre hypothèse. Disons que vous avez déjà sélectionné au hasard 1 000 étudiants de sexe masculin.

Calculez la moyenne et l’écart type de cet échantillon. Sélectionnez les statistiques (telles que la moyenne et l'écart type) que vous souhaitez utiliser pour analyser votre échantillon. Voici comment calculer la moyenne et l'écart type :

  • Pour calculer la moyenne de l’échantillon, additionnez les poids des 1 000 hommes échantillonnés et divisez le résultat par 1 000 (le nombre d’hommes). Disons que nous obtenons un poids moyen de 93 kg.
  • Pour calculer l’écart type d’un échantillon, vous devez trouver la moyenne. Ensuite, vous devez calculer la variance des données, ou la moyenne des carrés des différences par rapport à la moyenne. Une fois que vous avez trouvé ce nombre, prenez simplement sa racine carrée. Disons que dans notre exemple l'écart type est de 15 kg (notez que parfois cette information peut être donnée avec les conditions du problème statistique).
  • Sélectionnez le niveau de confiance souhaité. Les niveaux de confiance les plus couramment utilisés sont 90 %, 95 % et 99 %. Il peut également être fourni avec l'énoncé du problème. Disons que vous avez choisi 95 %.

  • Calculez la marge d’erreur. Vous pouvez trouver la marge d’erreur en utilisant la formule suivante : Z une/2 * σ/√(n). Z a/2 = coefficient de confiance (où a = niveau de confiance), σ = écart type et n = taille de l'échantillon. Cette formule montre que vous devez multiplier la valeur critique par l'erreur standard. Voici comment vous pouvez résoudre cette formule en la décomposant en parties :

    • Calculez la valeur critique ou Z a/2 . Le niveau de confiance est de 95 %. Convertissez le pourcentage en décimal : 0,95 et divisez par 2 pour obtenir 0,475. Regardez ensuite le tableau du score Z pour trouver la valeur correspondante de 0,475. Vous retrouverez une valeur de 1,96 (à l'intersection de la ligne 1,9 et de la colonne 0,06).
    • Prenez l'erreur type (écart type) : 15 et divisez-la par la racine carrée de la taille de l'échantillon : 1000. Vous obtenez : 15/31,6 ou 0,47 kg.
    • Multipliez 1,96 par 0,47 (la valeur critique par l'erreur standard) pour obtenir 0,92, la marge d'erreur.
  • Notez l'intervalle de confiance. Pour formuler un intervalle de confiance, enregistrez simplement la moyenne (93) ± marge d'erreur. Réponse : 93 ± 0,92. Vous pouvez trouver les limites supérieure et inférieure de l'intervalle de confiance en ajoutant et en soustrayant l'erreur à la moyenne. La limite inférieure est donc 93 - 0,92 ou 92,08 et la limite supérieure est 93 + 0,92 ou 93,92.

    • Vous pouvez utiliser la formule suivante pour calculer l'intervalle de confiance : x̅ ± Z a/2 * σ/√(n), où x̅ est la valeur moyenne.
  • Construisons un intervalle de confiance dans MS EXCEL pour estimer la valeur moyenne de la distribution dans le cas d'une valeur de dispersion connue.

    Bien sûr le choix niveau de confiance dépend entièrement du problème à résoudre. Ainsi, le degré de confiance d'un passager aérien dans la fiabilité d'un avion devrait sans aucun doute être supérieur au degré de confiance d'un acheteur dans la fiabilité d'une ampoule électrique.

    Formulation du problème

    Supposons qu'à partir de population ayant été pris échantillon taille n. Il est entendu que écart-type cette répartition est connue. Il faut sur cette base échantillonsévaluer l'inconnu moyenne de distribution(μ, ) et construisons le correspondant double face Intervalle de confiance.

    Estimation ponctuelle

    Comme on le sait de statistiques(notons-le X moyenne) est estimation impartiale de la moyenne ce population et a une distribution N(μ;σ 2 /n).

    Note: Que faire si vous devez construire Intervalle de confiance dans le cas d'une distribution qui n'est pas normale? Dans ce cas, vient à la rescousse, qui précise qu'avec une taille suffisamment grande échantillons n de la distribution ne pas être normale, répartition de l'échantillon des statistiques X moy volonté environ correspondre distribution normale avec des paramètres N(μ;σ 2 /n).

    Donc, estimation ponctuelle moyenne valeurs de distribution nous avons - ceci moyenne de l'échantillon, c'est à dire. X moyenne. Maintenant, commençons Intervalle de confiance.

    Construire un intervalle de confiance

    Habituellement, connaissant la distribution et ses paramètres, nous pouvons calculer la probabilité que la variable aléatoire prenne une valeur dans l'intervalle que nous spécifions. Faisons maintenant l’inverse : trouvons l’intervalle dans lequel la variable aléatoire tombera avec une probabilité donnée. Par exemple, à partir des propriétés distribution normale on sait qu'avec une probabilité de 95 %, une variable aléatoire répartie sur loi normale, se situera dans la plage d'environ +/- 2 de valeur moyenne(voir article sur). Cet intervalle nous servira de prototype Intervalle de confiance.

    Voyons maintenant si nous connaissons la distribution , calculer cet intervalle ? Pour répondre à la question, il faut indiquer la forme de la distribution et ses paramètres.

    Nous connaissons la forme de distribution - c'est distribution normale(rappelez-vous que nous parlons de distribution d'échantillonnage statistiques X moyenne).

    Le paramètre μ nous est inconnu (il suffit de l’estimer à l’aide de Intervalle de confiance), mais nous en avons une estimation X moyenne, calculé sur la base des échantillons, qui peut être utilisé.

    Deuxième paramètre - écart type de la moyenne de l'échantillon nous le considérerons comme connu, il est égal à σ/√n.

    Parce que on ne connaît pas μ, alors on va construire l'intervalle +/- 2 écarts types Pas de valeur moyenne, et d'après son estimation connue X moyenne. Ceux. lors du calcul Intervalle de confiance nous ne supposerons PAS que X moyenne se situe dans la plage +/- 2 écarts types de μ avec une probabilité de 95%, et nous supposerons que l'intervalle est de +/- 2 écarts types depuis X moyenne avec une probabilité de 95 %, il couvrira μ – moyenne de la population générale, d'où il est tiré échantillon. Ces deux énoncés sont équivalents, mais le deuxième énoncé permet de construire Intervalle de confiance.

    De plus, clarifions l'intervalle : une variable aléatoire répartie sur loi normale, avec une probabilité de 95 %, se situe dans l'intervalle +/- 1,960 les écarts types, pas +/- 2 écarts types. Cela peut être calculé à l'aide de la formule =NORM.ST.REV((1+0.95)/2), cm. exemple de fichier Intervalle de feuille.

    Nous pouvons maintenant formuler un énoncé probabiliste qui nous servira à former Intervalle de confiance:
    "La probabilité que population signifie situé à partir de moyenne de l'échantillon dans les 1 960" écarts types de la moyenne de l'échantillon", égal à 95%".

    La valeur de probabilité mentionnée dans la déclaration porte un nom spécial , qui est associé à niveau de signification α (alpha) par une expression simple Niveau de confiance =1 . Dans notre cas niveau de signification α =1-0,95=0,05 .

    Maintenant, sur la base de cet énoncé probabiliste, nous écrivons une expression pour calculer Intervalle de confiance:

    où Z α/2 standard distribution normale(cette valeur de la variable aléatoire z, Quoi P.(z>=Zα/2 )=α/2).

    Note: Quantile α/2 supérieur définit la largeur Intervalle de confiance V écarts types moyenne de l’échantillon. Quantile α/2 supérieur standard distribution normale toujours supérieur à 0, ce qui est très pratique.

    Dans notre cas, avec α=0,05, quantile α/2 supérieur est égal à 1,960. Pour les autres niveaux de signification α (10 % ; 1 %) quantile α/2 supérieur Zα/2 peut être calculé à l'aide de la formule =NORM.ST.REV(1-α/2) ou, si connu Niveau de confiance, =NORM.ST.OBR((1+niveau de confiance)/2).

    Généralement lors de la construction intervalles de confiance pour estimer la moyenne utiliser seulement α supérieur/2-quantile et n'utilise pas α inférieur/2-quantile. Ceci est possible parce que standard distribution normale symétriquement par rapport à l'axe x ( sa densité de distribution symétrique environ moyenne, c'est-à-dire 0). Il n’est donc pas nécessaire de calculer quantile α/2 inférieur(on l'appelle simplement α /2-quantile), parce que c'est égal α supérieur/2-quantile avec un signe moins.

    Rappelons que, malgré la forme de la distribution de la valeur x, la variable aléatoire correspondante X moyenne distribué environ Bien N(μ;σ 2 /n) (voir article sur). Par conséquent, en général, l’expression ci-dessus pour Intervalle de confiance n'est qu'une approximation. Si la valeur x est répartie sur loi normale N(μ;σ 2 /n), alors l'expression de Intervalle de confiance est exact.

    Calcul de l'intervalle de confiance dans MS EXCEL

    Résolvons le problème.
    Le temps de réponse d'un composant électronique à un signal d'entrée est une caractéristique importante de l'appareil. Un ingénieur souhaite construire un intervalle de confiance pour le temps de réponse moyen à un niveau de confiance de 95 %. D'après son expérience précédente, l'ingénieur sait que l'écart type du temps de réponse est de 8 ms. On sait que pour évaluer le temps de réponse, l'ingénieur a effectué 25 mesures, la valeur moyenne était de 78 ms.

    Solution: Un ingénieur veut connaître le temps de réponse d'un appareil électronique, mais il comprend que le temps de réponse n'est pas une valeur fixe, mais une variable aléatoire qui a sa propre distribution. Le mieux qu’il puisse espérer est donc de déterminer les paramètres et la forme de cette distribution.

    Malheureusement, à partir des conditions problématiques, nous ne connaissons pas la forme de la distribution des temps de réponse (il n'est pas nécessaire que ce soit le cas). normale). , cette distribution est également inconnue. Lui seul est connu écart-type=8. Par conséquent, même si nous ne pouvons pas calculer les probabilités et construire Intervalle de confiance.

    Cependant, même si nous ne connaissons pas la répartition temps réponse séparée, nous savons que d'après CPT, distribution d'échantillonnage temps de réponse moyen est d'environ normale(nous supposerons que les conditions CPT sont effectués, parce que taille échantillons assez grand (n=25)) .

    De plus, moyenne cette répartition est égale à valeur moyenne distribution d'une seule réponse, c'est-à-dire µ. UN écart-type de cette distribution (σ/√n) peut être calculée à l'aide de la formule =8/ROOT(25) .

    On sait également que l'ingénieur a reçu estimation ponctuelle paramètre µ égal à 78 ms (X moy). Par conséquent, nous pouvons maintenant calculer des probabilités, car nous connaissons la forme de distribution ( normale) et ses paramètres (X moy et σ/√n).

    L'ingénieur veut savoir valeur attendue Distributions des temps de réponse μ. Comme indiqué ci-dessus, ce μ est égal à espérance mathématique de la distribution d'échantillon du temps de réponse moyen. Si nous utilisons distribution normale N(X moy; σ/√n), alors le μ souhaité sera compris dans la plage +/-2*σ/√n avec une probabilité d'environ 95 %.

    Niveau de signification est égal à 1-0,95=0,05.

    Enfin, trouvons les bordures gauche et droite Intervalle de confiance.
    Bordure gauche : =78-NORM.ST.REV(1-0.05/2)*8/RACINE(25) = 74,864
    Bordure droite : =78+NORM.ST.INV(1-0.05/2)*8/RACINE(25)=81.136

    Bordure gauche : =NORM.REV(0.05/2; 78; 8/RACINE(25))
    Bordure droite : =NORM.REV(1-0.05/2; 78; 8/RACINE(25))

    Répondre: Intervalle de confianceà Niveau de confiance de 95 % et σ=8msecéquivaut à 78+/-3,136 ms.

    DANS fichier exemple sur la feuille Sigma connu, a créé un formulaire de calcul et de construction double face Intervalle de confiance pour arbitraire échantillons avec σ donné et niveau de signification.

    Fonction CONFIDENCE.NORM()

    Si les valeurs échantillons sont dans la gamme B20:B79 , UN niveau de significationégal à 0,05 ; puis la formule MS EXCEL :
    = MOYENNE (B20: B79) -CONFIDENCE.NORM (0,05; σ; COMPTE (B20: B79))
    renverra la bordure gauche Intervalle de confiance.

    La même limite peut être calculée à l'aide de la formule :
    = MOYENNE (B20: B79) -NORM.ST.REV (1-0,05/2) * σ / RACINE (COMTE (B20: B79))

    Note: La fonction CONFIDENCE.NORM() est apparue dans MS EXCEL 2010. Dans les versions antérieures de MS EXCEL, la fonction TRUST() était utilisée.

    Le calcul de l'intervalle de confiance est basé sur l'erreur moyenne du paramètre correspondant. Intervalle de confiance montre dans quelles limites avec probabilité (1-a) se situe la vraie valeur du paramètre estimé. Ici, a est le niveau de signification, (1-a) est également appelé probabilité de confiance.

    Dans le premier chapitre, nous avons montré que, par exemple, pour la moyenne arithmétique, la véritable moyenne de la population se situe dans environ 95 % des cas à moins de 2 erreurs types de la moyenne. Ainsi, les limites de l'intervalle de confiance à 95 % pour la moyenne seront séparées de la moyenne de l'échantillon par deux fois l'erreur moyenne de la moyenne, c'est-à-dire nous multiplions l'erreur moyenne de la moyenne par un certain coefficient en fonction du niveau de confiance. Pour la moyenne et la différence des moyennes, le coefficient de Student (valeur critique du test de Student) est pris, pour la part et la différence des parts, la valeur critique du critère z. Le produit du coefficient et de l'erreur moyenne peut être appelé l'erreur maximale d'un paramètre donné, c'est-à-dire le maximum que nous pouvons obtenir en l'évaluant.

    Intervalle de confiance pour moyenne arithmétique : .

    Voici la moyenne de l’échantillon ;

    Erreur moyenne de la moyenne arithmétique ;

    s –écart type de l'échantillon ;

    n

    f = n-1 (coefficient d'étudiant).

    Intervalle de confiance pour différences de moyennes arithmétiques :

    Voici la différence entre les moyennes des échantillons ;

    - erreur moyenne de la différence entre les moyennes arithmétiques ;

    s 1 , s 2 –échantillons d'écarts types ;

    n1,n2

    La valeur critique du test de Student pour un niveau de signification a donné et le nombre de degrés de liberté f=n 1 +n 2-2 (coefficient d'étudiant).

    Intervalle de confiance pour actions :

    .

    Ici d est la fraction échantillon ;

    – erreur de fraction moyenne ;

    n– taille de l'échantillon (taille du groupe) ;

    Intervalle de confiance pour différence d'actions :

    Voici la différence entre les exemples de partages ;

    – erreur moyenne sur la différence entre les moyennes arithmétiques ;

    n1,n2– volumes d'échantillons (nombre de groupes) ;

    La valeur critique du critère z à un niveau de signification donné a ( , , ).

    En calculant les intervalles de confiance pour la différence entre les indicateurs, nous voyons d'abord directement les valeurs possibles de l'effet, et pas seulement son estimation ponctuelle. Deuxièmement, nous pouvons tirer une conclusion sur l’acceptation ou le rejet de l’hypothèse nulle et, troisièmement, nous pouvons tirer une conclusion sur la puissance du test.

    Lorsque vous testez des hypothèses à l'aide d'intervalles de confiance, vous devez respecter la règle suivante :

    Si l’intervalle de confiance de 100(1-a) pour cent de la différence des moyennes ne contient pas zéro, alors les différences sont statistiquement significatives au niveau de signification a ; au contraire, si cet intervalle contient zéro, alors les différences ne sont pas statistiquement significatives.

    En effet, si cet intervalle contient zéro, cela signifie que l'indicateur comparé peut être soit supérieur, soit inférieur dans l'un des groupes par rapport à l'autre, c'est-à-dire les différences observées sont dues au hasard.

    La puissance du test peut être jugée par l’emplacement du zéro dans l’intervalle de confiance. Si zéro est proche de la limite inférieure ou supérieure de l’intervalle, il est alors possible qu’avec un plus grand nombre de groupes comparés, les différences atteignent une signification statistique. Si zéro est proche du milieu de l'intervalle, cela signifie qu'une augmentation et une diminution de l'indicateur dans le groupe expérimental sont également probables et qu'il n'y a probablement pas vraiment de différences.

    Exemples:

    Pour comparer la mortalité chirurgicale lors de l'utilisation de deux types d'anesthésie différents : 61 personnes ont été opérées avec le premier type d'anesthésie, 8 sont décédées, avec le deuxième type – 67 personnes, 10 sont décédées.

    ré 1 = 8/61 = 0,131 ; d2 = 10/67 = 0,149 ; d1-d2 = - 0,018.

    La différence de létalité des méthodes comparées sera comprise entre (-0,018 - 0,122 ; -0,018 + 0,122) ou (-0,14 ; 0,104) avec une probabilité de 100(1-a) = 95 %. L'intervalle contient zéro, c'est-à-dire l'hypothèse d'une mortalité égale avec deux types d'anesthésie différents ne peut être rejetée.

    Ainsi, le taux de mortalité peut et va diminuer jusqu'à 14 % et augmenter jusqu'à 10,4 % avec une probabilité de 95 %, soit zéro se situe approximativement au milieu de l'intervalle, on peut donc affirmer que, très probablement, ces deux méthodes ne diffèrent pas vraiment en termes de létalité.

    Dans l'exemple évoqué précédemment, le temps de pression moyen pendant le test de tapotement a été comparé dans quatre groupes d'étudiants dont les résultats aux examens différaient. Calculons les intervalles de confiance pour le temps de pressage moyen pour les étudiants ayant réussi l'examen avec les notes 2 et 5 et l'intervalle de confiance pour la différence entre ces moyennes.

    Les coefficients de Student sont obtenus à l'aide des tables de distribution de Student (voir annexe) : pour le premier groupe : = t(0,05;48) = 2,011 ; pour le deuxième groupe : = t(0,05;61) = 2,000. Ainsi, les intervalles de confiance pour le premier groupe : = (162,19-2,011*2,18 ; 162,19+2,011*2,18) = (157,8 ; 166,6), pour le deuxième groupe (156,55- 2 000*1,88 ; 156,55+2 000*1,88) = (152,8 ; 160.3). Ainsi, pour ceux qui ont réussi l’examen avec 2, le temps d’appui moyen varie de 157,8 ms à 166,6 ms avec une probabilité de 95 %, pour ceux qui ont réussi l’examen avec 5 – de 152,8 ms à 160,3 ms avec une probabilité de 95 % .

    Vous pouvez également tester l'hypothèse nulle en utilisant des intervalles de confiance pour les moyennes, et pas seulement pour la différence de moyennes. Par exemple, comme dans notre cas, si les intervalles de confiance des moyennes se chevauchent, alors l’hypothèse nulle ne peut être rejetée. Pour rejeter une hypothèse à un niveau de signification choisi, les intervalles de confiance correspondants ne doivent pas se chevaucher.

    Trouvons l'intervalle de confiance pour la différence du temps de pressage moyen dans les groupes qui ont réussi l'examen avec les notes 2 et 5. Différence des moyennes : 162,19 – 156,55 = 5,64. Coefficient de Student : = t(0,05;49+62-2) = t(0,05;109) = 1,982. Les écarts types du groupe seront égaux à : ; . On calcule l'erreur moyenne de la différence entre les moyennes : . Intervalle de confiance : =(5,64-1,982*2,87 ; 5,64+1,982*2,87) = (-0,044 ; 11,33).

    Ainsi, la différence entre le temps de pressage moyen dans les groupes ayant réussi l'examen avec 2 et 5 sera comprise entre -0,044 ms et 11,33 ms. Cet intervalle inclut zéro, c'est-à-dire Le temps de pressage moyen pour ceux qui ont bien réussi l'examen peut augmenter ou diminuer par rapport à ceux qui ont réussi l'examen de manière insatisfaisante, c'est-à-dire l'hypothèse nulle ne peut être rejetée. Mais zéro est très proche de la limite inférieure, et le temps de pressage est beaucoup plus susceptible de diminuer pour ceux qui ont bien réussi. Ainsi, nous pouvons conclure qu'il existe encore des différences dans le temps moyen de pressage entre ceux qui ont passé 2 et 5, nous n'avons tout simplement pas pu les détecter compte tenu de l'évolution du temps moyen, de l'étalement du temps moyen et de la taille des échantillons.

    La puissance d'un test est la probabilité de rejeter une hypothèse nulle incorrecte, c'est-à-dire trouver les différences là où elles existent réellement.

    La puissance du test est déterminée en fonction du niveau de signification, de l'ampleur des différences entre les groupes, de la répartition des valeurs dans les groupes et de la taille des échantillons.

    Pour le test t de Student et l'analyse de variance, des diagrammes de sensibilité peuvent être utilisés.

    La puissance du critère peut être utilisée pour déterminer au préalable le nombre de groupes requis.

    L'intervalle de confiance montre dans quelles limites se situe la vraie valeur du paramètre estimé avec une probabilité donnée.

    À l'aide d'intervalles de confiance, vous pouvez tester des hypothèses statistiques et tirer des conclusions sur la sensibilité des critères.

    LITTÉRATURE.

    Glanz S. – Chapitre 6,7.

    Rebrova O.Yu. – p.112-114, p.171-173, p.234-238.

    Sidorenko E.V. – p.32-33.

    Questions pour l'auto-test des étudiants.

    1. Quelle est la puissance du critère ?

    2. Dans quels cas est-il nécessaire d'évaluer la puissance des critères ?

    3. Méthodes de calcul de la puissance.

    6. Comment tester une hypothèse statistique à l'aide d'un intervalle de confiance ?

    7. Que peut-on dire de la puissance du critère lors du calcul de l'intervalle de confiance ?

    Tâches.

    Intervalle de confiance pour l'espérance mathématique - il s'agit d'un intervalle calculé à partir de données qui, avec une probabilité connue, contiennent l'espérance mathématique de la population générale. Une estimation naturelle de l'espérance mathématique est la moyenne arithmétique de ses valeurs observées. Par conséquent, tout au long de la leçon, nous utiliserons les termes « moyenne » et « valeur moyenne ». Dans les problèmes de calcul d'un intervalle de confiance, une réponse la plus souvent requise est quelque chose comme « L'intervalle de confiance du nombre moyen [valeur dans un problème particulier] est de [valeur plus petite] à [valeur plus grande] ». À l'aide d'un intervalle de confiance, vous pouvez évaluer non seulement les valeurs moyennes, mais également la proportion d'une caractéristique particulière dans la population générale. Les valeurs moyennes, la dispersion, l'écart type et l'erreur, grâce auxquels nous arriverons à de nouvelles définitions et formules, sont abordés dans la leçon. Caractéristiques de l'échantillon et de la population .

    Estimations ponctuelles et par intervalles de la moyenne

    Si la valeur moyenne de la population est estimée par un nombre (point), alors une moyenne spécifique, calculée à partir d'un échantillon d'observations, est considérée comme une estimation de la valeur moyenne inconnue de la population. Dans ce cas, la valeur de la moyenne de l’échantillon – une variable aléatoire – ne coïncide pas avec la valeur moyenne de la population générale. Par conséquent, lorsque vous indiquez la moyenne de l’échantillon, vous devez simultanément indiquer l’erreur d’échantillonnage. La mesure de l’erreur d’échantillonnage est l’erreur type, qui est exprimée dans les mêmes unités que la moyenne. Par conséquent, la notation suivante est souvent utilisée : .

    Si l'estimation de la moyenne doit être associée à une certaine probabilité, alors le paramètre d'intérêt dans la population doit être évalué non pas par un nombre, mais par un intervalle. Un intervalle de confiance est un intervalle dans lequel, avec une certaine probabilité P. la valeur de l'indicateur de population estimé est trouvée. Intervalle de confiance dans lequel il est probable P. = 1 - α on trouve la variable aléatoire, calculée comme suit :

    ,

    α = 1 - P., que l’on peut trouver en annexe de presque tous les livres de statistiques.

    En pratique, la moyenne et la variance de la population ne sont pas connues, donc la variance de la population est remplacée par la variance de l'échantillon et la moyenne de la population par la moyenne de l'échantillon. Ainsi, l'intervalle de confiance est dans la plupart des cas calculé comme suit :

    .

    La formule de l'intervalle de confiance peut être utilisée pour estimer la moyenne de la population si

    • l'écart type de la population est connu ;
    • ou l'écart type de la population est inconnu, mais la taille de l'échantillon est supérieure à 30.

    La moyenne de l'échantillon est une estimation impartiale de la moyenne de la population. À son tour, la variance de l'échantillon n’est pas une estimation impartiale de la variance de la population. Pour obtenir une estimation impartiale de la variance de la population dans la formule de variance de l'échantillon, la taille de l'échantillon n devrait être remplacé par n-1.

    Exemple 1. Des informations ont été collectées auprès de 100 cafés sélectionnés au hasard dans une certaine ville, selon lesquelles le nombre moyen d'employés est de 10,5 avec un écart type de 4,6. Déterminez l'intervalle de confiance à 95 % pour le nombre d'employés du café.

    où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

    Ainsi, l'intervalle de confiance à 95 % pour le nombre moyen d'employés de café variait entre 9,6 et 11,4.

    Exemple 2. Pour un échantillon aléatoire d'une population de 64 observations, les valeurs totales suivantes ont été calculées :

    somme des valeurs dans les observations,

    somme des carrés des écarts des valeurs par rapport à la moyenne .

    Calculez l’intervalle de confiance à 95 % pour l’espérance mathématique.

    Calculons l'écart type :

    ,

    Calculons la valeur moyenne :

    .

    Nous substituons les valeurs dans l'expression de l'intervalle de confiance :

    où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

    On a:

    Ainsi, l'intervalle de confiance à 95 % pour l'espérance mathématique de cet échantillon variait de 7,484 à 11,266.

    Exemple 3. Pour un échantillon de population aléatoire de 100 observations, la moyenne calculée est de 15,2 et l'écart type est de 3,2. Calculez l'intervalle de confiance à 95 % pour la valeur attendue, puis l'intervalle de confiance à 99 %. Si la puissance de l’échantillon et sa variation restent inchangées et que le coefficient de confiance augmente, l’intervalle de confiance se rétrécira-t-il ou s’élargira-t-il ?

    Nous substituons ces valeurs dans l'expression de l'intervalle de confiance :

    où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

    On a:

    .

    Ainsi, l'intervalle de confiance à 95 % pour la moyenne de cet échantillon variait de 14,57 à 15,82.

    Nous substituons à nouveau ces valeurs dans l'expression de l'intervalle de confiance :

    où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,01 .

    On a:

    .

    Ainsi, l'intervalle de confiance à 99 % pour la moyenne de cet échantillon variait de 14,37 à 16,02.

    Comme nous le voyons, à mesure que le coefficient de confiance augmente, la valeur critique de la distribution normale standard augmente également et, par conséquent, les points de début et de fin de l'intervalle sont situés plus loin de la moyenne, et donc l'intervalle de confiance pour l'espérance mathématique augmente .

    Estimations ponctuelles et d'intervalles de la gravité spécifique

    La part de certains attributs de l'échantillon peut être interprétée comme une estimation ponctuelle de la part p de même caractéristique dans la population générale. Si cette valeur doit être associée à une probabilité, alors l'intervalle de confiance de la densité spécifique doit être calculé p caractéristique dans la population avec probabilité P. = 1 - α :

    .

    Exemple 4. Dans certaines villes, il y a deux candidats UN Et B sont candidats à la mairie. 200 habitants de la ville ont été interrogés au hasard, dont 46 % ont répondu qu'ils voteraient pour le candidat UN, 26% - pour le candidat B et 28 % ne savent pas pour qui ils voteront. Déterminer l'intervalle de confiance de 95 % pour la proportion d'habitants de la ville soutenant le candidat UN.

    L'intervalle de confiance nous vient du domaine des statistiques. Il s'agit d'une certaine plage qui sert à estimer un paramètre inconnu avec un degré élevé de fiabilité. La façon la plus simple d’expliquer cela est de prendre un exemple.

    Supposons que vous deviez étudier une variable aléatoire, par exemple la vitesse de réponse du serveur à une demande client. Chaque fois qu'un utilisateur saisit l'adresse d'un site spécifique, le serveur répond à des vitesses différentes. Ainsi, le temps de réponse étudié est aléatoire. Ainsi, l'intervalle de confiance nous permet de déterminer les limites de ce paramètre, et nous pouvons alors dire qu'avec une probabilité de 95 %, le serveur sera dans la plage que nous avons calculée.

    Ou vous devez savoir combien de personnes connaissent la marque de l’entreprise. Lors du calcul de l'intervalle de confiance, on pourra par exemple dire qu'avec une probabilité de 95 % la part des consommateurs qui en sont conscients se situe entre 27 % et 34 %.

    La valeur de la probabilité de confiance est étroitement liée à ce terme. Il représente la probabilité que le paramètre souhaité soit inclus dans l'intervalle de confiance. L’étendue de notre plage souhaitée dépend de cette valeur. Plus la valeur est grande, plus l’intervalle de confiance devient étroit, et vice versa. Généralement, il est réglé sur 90 %, 95 % ou 99 %. La valeur 95 % est la plus populaire.

    Cet indicateur est également influencé par la dispersion des observations et sa définition repose sur l’hypothèse selon laquelle la caractéristique étudiée obéit, également connue sous le nom de loi de Gauss. Selon lui, la normale est une distribution de toutes les probabilités d'une variable aléatoire continue qui peut être décrite par une densité de probabilité. Si l’hypothèse d’une distribution normale est incorrecte, alors l’estimation peut être incorrecte.

    Voyons d’abord comment calculer l’intervalle de confiance pour. Il existe ici deux cas possibles. La dispersion (le degré de propagation d'une variable aléatoire) peut être connue ou non. Si cela est connu, alors notre intervalle de confiance est calculé à l'aide de la formule suivante :

    xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

    α - signe,

    t - paramètre de la table de distribution de Laplace,

    σ est la racine carrée de la variance.

    Si la variance est inconnue, elle peut alors être calculée si nous connaissons toutes les valeurs de la caractéristique souhaitée. La formule suivante est utilisée pour cela :

    σ2 = х2ср - (хср)2, où

    х2ср - valeur moyenne des carrés de la caractéristique étudiée,

    (хср)2 est le carré de cette caractéristique.

    La formule par laquelle l'intervalle de confiance est calculé dans ce cas change légèrement :

    xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

    xsr - moyenne de l'échantillon,

    α - signe,

    t est un paramètre trouvé à l'aide de la table de distribution de Student t = t(ɣ;n-1),

    sqrt(n) - racine carrée de la taille totale de l'échantillon,

    s est la racine carrée de la variance.

    Considérez cet exemple. Supposons que, sur la base des résultats de 7 mesures, la caractéristique étudiée soit déterminée égale à 30 et la variance de l'échantillon égale à 36. Il est nécessaire de trouver, avec une probabilité de 99 %, un intervalle de confiance qui contient la vraie valeur du paramètre mesuré.

    Tout d'abord, déterminons à quoi t est égal : t = t (0,99 ; 7-1) = 3,71. En utilisant la formule ci-dessus, nous obtenons :

    xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

    30 - 3,71*36 / (carré(7))<= α <= 30 + 3.71*36 / (sqrt(7))

    21.587 <= α <= 38.413

    L'intervalle de confiance pour la variance est calculé à la fois dans le cas d'une moyenne connue et lorsqu'il n'y a pas de données sur l'espérance mathématique, et seule la valeur de l'estimation ponctuelle non biaisée de la variance est connue. Nous ne donnerons pas ici de formules pour le calculer, car elles sont assez complexes et, si vous le souhaitez, peuvent toujours être trouvées sur Internet.

    Notons seulement qu'il est pratique de déterminer l'intervalle de confiance à l'aide d'Excel ou d'un service réseau, ainsi appelé.