Distribution d’echantillonnage
Ce chapitre introduit la logique de l’echantillonnage aleatoire et la notion centrale de distribution d’echantillonnage d’une statistique. On precise d’abord le lien entre population, loi parente et n-echantillon i.i.d., puis on etudie les statistiques fondamentales : la moyenne empirique, la variance empirique non corrigee et la variance empirique corrigee. Le chapitre etablit leurs proprietes d’esperance et de variance, met en evidence le biais de la variance non corrigee, puis presente les lois exactes dans le cas d’une loi parente gaussienne (loi normale et loi du khi-deux). Enfin, il propose une methode pratique pour analyser et interpreter des resultats d’echantillonnage en statistique inferentielle.
Dans tout ce chapitre, on considere des echantillons aleatoires simples preleves dans une population.
I - Echantillonnage
On souhaite etudier un caractere \(X\) sur une population \(P\) de taille \(N\). En pratique, on n’observe qu’une partie de la population : un echantillon de taille \(n\).
Soit \(X\) une variable de loi parente \(\mathcal{L}\). Un n-echantillon aleatoire est un n-uplet \[ (X_1,\dots,X_n) \] de variables aleatoires independantes et de meme loi \[ X_i\sim\mathcal{L} \quad (i=1,\dots,n). \]
Les valeurs observees changent d’un echantillon a l’autre : c’est la fluctuation d’echantillonnage.
- Avec remise : independance exacte entre tirages.
- Sans remise : dependance faible si l’echantillon est petit devant la population.
Pour une proportion, la loi hypergeometrique peut etre approximee par une loi binomiale si l’echantillon est tres petit devant la population (regle pratique : \(n\) nettement inferieur a \(N\)).
Dans une population, on note \(p\) la proportion d’individus ayant un caractere donne (par exemple “yeux bleus”). On interroge \(n\) personnes et on pose \[ X_i= \begin{cases} 1 & \text{si la personne i possede le caractere,}\\ 0 & \text{sinon.} \end{cases} \]
- Quelle est la loi de chaque \(X_i\) ?
- Quelle est la loi de \(\sum_{i=1}^n X_i\) dans un schema avec remise ?
- Chaque \(X_i\) suit une loi de Bernoulli \(\mathcal{B}(p)\).
- La somme \(\sum_{i=1}^n X_i\) suit une loi binomiale \[ \mathcal{B}(n,p). \]
II - Distribution d’echantillonnage
Une statistique est toute fonction des variables d’echantillon : \[ T=T(X_1,\dots,X_n). \]
La distribution d’echantillonnage de \(T\) est la loi de la variable aleatoire \(T\).
Ce point de vue est fondamental : en inferentielle, on n’observe pas un seul \(T\) “fixe”, mais une realisation d’une variable aleatoire dont la loi controle precision et incertitude.
III - Moyenne empirique
La moyenne empirique est \[ \overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i. \]
Si la loi parente admet une moyenne \(m\) et une variance \(\sigma^2\), alors \[ E(\overline{X}_n)=m, \qquad \mathrm{Var}(\overline{X}_n)=\frac{\sigma^2}{n}. \]
La moyenne empirique est donc centree sur la vraie moyenne, et sa dispersion diminue en \(1/n\).
Si \(X_i\sim\mathcal{N}(m,\sigma^2)\) (i.i.d.), alors \[ \overline{X}_n\sim\mathcal{N}\!\left(m,\frac{\sigma^2}{n}\right). \]
Les notes suivent une loi normale \(\mathcal{N}(10,25)\).
- Donner la loi de \(\overline{X}_{100}\).
- Quelle est son esperance ?
- Que devient la variance si on passe a \(n=400\) ?
- \(\overline{X}_{100}\sim\mathcal{N}(10,25/100)=\mathcal{N}(10,0{,}25)\).
- Esperance : \(10\).
- Pour \(n=400\) : variance \(25/400=0{,}0625\).
IV - Variance empirique et variance corrigee
1. Variance empirique non corrigee
\[ S_n'^2=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X}_n)^2 =\frac{1}{n}\sum_{i=1}^n X_i^2-(\overline{X}_n)^2. \]
Si la loi parente a variance \(\sigma^2\), alors \[ E(S_n'^2)=\frac{n-1}{n}\sigma^2. \]
Donc \(S_n'^2\) sous-estime en moyenne \(\sigma^2\) : c’est un estimateur biaise.
2. Variance empirique corrigee
\[ S_n^2=\frac{n}{n-1}S_n'^2 =\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X}_n)^2. \]
\[ E(S_n^2)=\sigma^2. \]
La variance empirique corrigee est sans biais.
3. Cas gaussien
Si \(X_i\sim\mathcal{N}(m,\sigma^2)\) (i.i.d.), alors :
\[ \frac{1}{\sigma^2}\sum_{i=1}^n (X_i-m)^2\sim\chi_n^2, \] \[ \frac{n}{\sigma^2}S_n'^2 =\frac{n-1}{\sigma^2}S_n^2 =\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\overline{X}_n)^2 \sim\chi_{n-1}^2. \]
La perte d’un degre de liberte vient de la contrainte introduite par l’estimation de la moyenne avec \(\overline{X}_n\).
On sait que \(\sigma^2=25\) et \(n=100\).
- Calculer \(E(S_{100}'^2)\).
- Calculer \(E(S_{100}^2)\).
\[ E(S_{100}'^2)=\frac{99}{100}\times 25=24{,}75, \] \[ E(S_{100}^2)=25. \]
V - Lecture inferentielle
L’interet de ces resultats est direct :
- \(\overline{X}_n\) sert a estimer \(m\) (precision amelioree si \(n\) augmente),
- \(S_n^2\) sert a estimer \(\sigma^2\) sans biais,
- les lois normales et khi-deux permettent de construire des intervalles de confiance et des tests.
- Verifier le modele d’echantillonnage (i.i.d., taille, contexte).
- Identifier la statistique cible (\(\overline{X}_n\), \(S_n'^2\), \(S_n^2\), proportion…).
- Utiliser sa distribution d’echantillonnage.
- Quantifier l’incertitude (variance, quantiles, probabilites).
- Interpreter dans le contexte metier (risque, precision, decision).
Cette logique constitue le passage cle entre statistique descriptive et statistique inferentielle.