Statistiques descriptives a deux variables
Ce chapitre prolonge la statistique descriptive au cas de deux caracteres observes simultanement sur une meme population. On introduit la distribution conjointe d’un couple de variables via les tableaux de contingence, puis les distributions marginales et conditionnelles, indispensables pour decrire les relations entre variables. Le chapitre formalise ensuite la notion d’independance et la caracterisation par factorisation des frequences. Enfin, il presente le test du khi-deux d’independance (conditions, construction des effectifs theoriques, statistique, degres de liberte, regle de decision) avec une methodologie complete d’interpretation.
Dans tout ce chapitre, on etudie deux variables observees sur une meme population finie de taille \(n\).
I - Distribution conjointe
Soit \(P\) une population et \((x,y)\) un couple de variables, c’est-a-dire une application \[ (x,y):P\to E_x\times E_y, \qquad u\mapsto (x(u),y(u)). \]
Les variables peuvent etre qualitatives ou quantitatives (discretes ou regroupees en classes).
Si \(x_1,\dots,x_p\) sont les modalites de \(x\) et \(y_1,\dots,y_q\) celles de \(y\) :
- \(n_{ij}\) est l’effectif conjoint du couple \((x_i,y_j)\),
- \(f_{ij}=n_{ij}/n\) est la frequence conjointe,
- l’ensemble des triplets \((x_i,y_j,n_{ij})\) forme la distribution conjointe.
On a toujours : \[ \sum_{i=1}^p\sum_{j=1}^q n_{ij}=n, \qquad \sum_{i=1}^p\sum_{j=1}^q f_{ij}=1. \]
La representation standard est le tableau de contingence.
Une enquete porte sur 2000 habitants. On observe :
| Quartier / Revenu annuel | \([10000,20000[\) | \([20000,50000[\) | \([50000,100000[\) | Total |
|---|---|---|---|---|
| A | 413 | 298 | 288 | ? |
| B | 227 | 193 | 170 | ? |
| C | 167 | 132 | 112 | ? |
| Total | ? | ? | ? | 2000 |
- Completer le tableau.
- Calculer la frequence d’habitants ayant un revenu d’au moins 20 000.
- Totaux lignes :
- A : 999,
- B : 590,
- C : 411.
- Totaux colonnes :
- \([10000,20000[\) : 807,
- \([20000,50000[\) : 623,
- \([50000,100000[\) : 570.
- Frequence revenu \(\ge 20000\) : \[ \frac{623+570}{2000}=\frac{1193}{2000}=0{,}5965. \]
II - Distributions marginales
A partir de la distribution conjointe, on obtient les distributions de chaque variable prise separement.
- Effectif marginal de \(x_i\) : \[n_{i\cdot}=\sum_{j=1}^q n_{ij}, \qquad f_{i\cdot}=\frac{n_{i\cdot}}{n}.\]
- Effectif marginal de \(y_j\) : \[n_{\cdot j}=\sum_{i=1}^p n_{ij}, \qquad f_{\cdot j}=\frac{n_{\cdot j}}{n}.\]
Les couples \((x_i,n_{i\cdot})\) et \((y_j,n_{\cdot j})\) definissent les distributions marginales de \(x\) et \(y\).
Ces marginales permettent de calculer les indicateurs usuels de chaque variable (moyenne, mediane, ecart-type, etc.) si le type de variable le permet.
Reprendre l’exemple 1.
- Determiner les distributions marginales de “Quartier” et de “Revenu annuel”.
- Pour “Revenu annuel” (en classes), estimer la moyenne a l’aide des centres de classes.
- Marginale de “Quartier” : totaux de lignes / 2000.
- Marginale de “Revenu annuel” : totaux de colonnes / 2000.
- Moyenne approximative du revenu : \[ \bar y\approx\sum_j c_j f_{\cdot j}, \] ou \(c_j\) est le centre de la classe \(j\).
III - Distributions conditionnelles
Une ligne (resp. colonne) du tableau de contingence decrit la repartition conditionnelle de \(y\) sachant \(x=x_i\) (resp. de \(x\) sachant \(y=y_j\)).
- Frequence conditionnelle de \(y_j\) sachant \(x_i\) : \[f_{y_j\mid x_i}=\frac{n_{ij}}{n_{i\cdot}}.\]
- Frequence conditionnelle de \(x_i\) sachant \(y_j\) : \[f_{x_i\mid y_j}=\frac{n_{ij}}{n_{\cdot j}}.\]
Les distributions conditionnelles servent a comparer les profils entre sous-populations.
Dans l’exemple 1, determiner la distribution conditionnelle du revenu sachant que l’on est dans le quartier A. Puis identifier la classe de revenu majoritaire dans ce quartier.
Comme \(n_{A\cdot}=999\) : \[ \left(\frac{413}{999},\frac{298}{999},\frac{288}{999}\right) \approx (0{,}413,0{,}298,0{,}288). \] La classe majoritaire est \([10000,20000[\).
IV - Independance de deux variables
Les variables \(x\) et \(y\) sont independantes si les distributions conditionnelles de l’une ne dependent pas des modalites de l’autre.
Les proprietes suivantes sont equivalentes :
- \(x\) et \(y\) sont independantes.
- Pour tout \(i,j\), \[f_{ij}=f_{i\cdot}f_{\cdot j}.\]
- Pour tout \(i,j\), \[n_{ij}=\frac{n_{i\cdot}n_{\cdot j}}{n}.\]
En pratique, l’independance se traduit par des profils de lignes (ou colonnes) proches les uns des autres.
Dans un tableau \(2\times 2\) avec \[ \begin{pmatrix} 30 & 20\\ 15 & 35 \end{pmatrix}, \quad n=100, \] verifier si l’independance est satisfaite exactement.
Totaux : lignes \((50,50)\), colonnes \((45,55)\). Sous independance, la case (1,1) devrait valoir \(50\times45/100=22{,}5\) (et non 30). Donc les variables ne sont pas independantes.
V - Test du khi-deux d’independance
On teste :
- \(H_0\) : independance entre \(x\) et \(y\),
- \(H_1\) : dependance.
1. Effectifs theoriques
Sous \(H_0\), on calcule pour chaque case : \[ E_{ij}=\frac{n_{i\cdot}n_{\cdot j}}{n}. \]
Le test est fiable si au moins 80 % des \(E_{ij}\) sont superieurs ou egaux a 5 et si aucun \(E_{ij}\) n’est tres petit. Sinon, regrouper des modalites.
2. Statistique de test
On calcule \[ \chi^2_{obs}=\sum_{i=1}^p\sum_{j=1}^q\frac{(O_{ij}-E_{ij})^2}{E_{ij}}, \] ou \(O_{ij}=n_{ij}\).
Sous \(H_0\), cette statistique est approximativement distribuee selon une loi \[ \chi^2_\nu, \qquad \nu=(p-1)(q-1) \] (degres de liberte).
3. Regle de decision
Au seuil \(\alpha\) :
- on lit la valeur critique \(\chi^2_{1-\alpha,\nu}\),
- si \(\chi^2_{obs}>\chi^2_{1-\alpha,\nu}\), on rejette \(H_0\),
- sinon, on ne rejette pas \(H_0\).
Reprendre le tableau de l’exemple 1 et tester l’independance entre “Quartier” et “Revenu annuel” au seuil \(\alpha=5\%\).
- Calculer tous les \(E_{ij}=n_{i\cdot}n_{\cdot j}/2000\).
- Calculer les contributions \[\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\] et les sommer.
- Ici \(p=3\), \(q=3\), donc \(\nu=(3-1)(3-1)=4\).
- Comparer \(\chi^2_{obs}\) a \(\chi^2_{0{,}95,4}\approx 9{,}49\).
Conclusion selon la comparaison : rejet (dependance) ou non-rejet (compatibilite avec l’independance).
VI - Lecture et interpretation des resultats
- Toujours commenter l’ampleur des ecarts, pas seulement la decision binaire du test.
- Examiner les distributions conditionnelles pour identifier les associations les plus marquantes.
- Verifier la qualite du tableau (effectifs suffisants, classes pertinentes).
- Distinguer “absence de preuve de dependance” et “preuve d’independance”.
Pour des analyses plus fines, on peut completer par l’etude des residus standardises \[ R_{ij}=\frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}}, \] qui indiquent quelles cases contribuent le plus a \(\chi^2_{obs}\).