Distribution
Distribution discrète finie
Soit une variable quantitative discrete \(x\) prenant les valeurs distinctes \[ x_1 < x_2 < \cdots < x_r \]
On note \(n\) l’effectif total, \(n_i\) l’effectif de \(x_i\), et sa frequence :
\[ f_i = \frac{n_i}{n} \]
L’effectif \(n_i\) compte simplement combien d’individus prennent la valeur \(x_i\). La frequence \(f_i\) exprime cette meme information en proportion du total : dire \(f_i = 0{,}3\) signifie que 30 % des individus presentent la modalite \(x_i\). Travailler en frequences permet de comparer des series de tailles differentes, car la somme des fréquences vaut toujours \(1\).
Définition 1 (Effectif cumulé croissant - E.C.C.) \[ N_i^+ = \sum_{k=1}^i n_k \]
L’effectif cumulé croissant permet de répondre à la question, « combien d’individus prennent une valeur inferieure ou egale à \(x_i\) ? »
Définition 2 (Frequence cumulee croissante F.C.C.) \[ F_i^+ = \sum_{k=1}^i f_k = \frac{N_i^+}{n} \]
La fréquence cumulée croissante permet de répondre à la question, « quelle proportion d’individus prennent une valeur inferieure ou egale à \(x_i\) ? » Par exemple, si \(F_3^+ = 0{,}80\) celà signifie que 80 % de la population a une valeur inférieure ou égale a \(x_3\).
Définition 3 (Mode) Toute modalité d’effectif maximal.
Quant au mode, c’est la valeur la plus fréquemment observée. Il n’est pas forcement unique : une série peut etre bimodale (deux modes) voire multimodale.
Exemple 2 - Tableau statistique complet
Une etude porte sur le nombre d’enfants par foyer. Les resultats observes sont :
| Valeur \(x_i\) | 0 | 1 | 2 | 3 | 4 | Total |
|---|---|---|---|---|---|---|
| Effectif \(n_i\) | 18 | 34 | 40 | 20 | 8 | 120 |
- Calculer les frequences \(f_i\).
- Calculer les E.C.C. et F.C.C.
- Determiner la frequence de foyers ayant au plus 2 enfants.
- Donner le (ou les) mode(s).
- \(f_i = n_i/120\).
- E.C.C. : \(18, 52, 92, 112, 120\).
- F.C.C. : \(0{,}15, 0{,}433, 0{,}767, 0{,}933, 1\).
- Fréquence de foyers avec au plus 2 enfants : \(F_2^+ = 92/120 \approx 0{,}767\).
- Mode : valeur 2 (effectif maximal 40).
Le diagramme de réference pour une série discrète est le diagramme en batons. Contrairement a un diagramme en barres (qui utilise des rectangles), le diagramme en batons représente chaque valeur par un simple trait vertical dont la hauteur est proportionnelle a l’effectif. On utilise des batons et non des barres car la variable est discrète : chaque valeur est un point isolé sur l’axe des abscisses, il n’y a pas de continuité entre les modalités.
Distribution continue en classes
Quand les donnees sont nombreuses et presque toutes distinctes, on regroupe les observations en classes \[[a_i, a_{i+1}[, \quad i=1,\dots,r.\]
En effet, si l’on mesurait par exemple la taille de 500 personnes au millimetre pres, on obtiendrait presque autant de valeurs distinctes que d’individus, et un diagramme en batons serait illisible. En regroupant les observations par intervalles (par exemple \([160, 165[\), \([165, 170[\), etc.), on obtient une vision synthetique de la distribution. Le choix du nombre de classes et de leurs bornes releve du jugement de l’analyste : trop peu de classes masquent les details, trop de classes dispersent l’information.
Pour la classe \([a_i,a_{i+1}[\) :
- amplitude : \[A_i = a_{i+1}-a_i,\]
- centre : \[c_i = \frac{a_i+a_{i+1}}{2},\]
- effectif : \(n_i\), frequence : \(f_i = n_i/n\),
- densite de frequence : \[d_i = \frac{f_i}{A_i}.\]
Le centre d’une classe sert d’approximation pour representer toutes les observations de cette classe par une seule valeur : il sera utilise plus tard dans le calcul de la moyenne et de la variance. La densite de frequence \(d_i\), elle, permet de comparer equitablement des classes d’amplitudes differentes : une classe large peut contenir beaucoup d’individus simplement parce qu’elle couvre un grand intervalle, sans pour autant etre plus « dense ».
Histogramme
Dans un histogramme correct, la surface de chaque rectangle est proportionnelle a la frequence de classe. Donc la hauteur doit etre proportionnelle a la densite \(d_i\) (et non a \(f_i\) si les amplitudes sont differentes).
C’est un piege classique : si toutes les classes ont la meme amplitude, il n’y a pas de probleme, car hauteur proportionnelle a \(f_i\) et hauteur proportionnelle a \(d_i\) reviennent au meme (on divise par une constante). En revanche, des que les amplitudes different, utiliser \(f_i\) en ordonnee donne une representation trompeuse : une classe large paraitra visuellement dominante alors qu’elle est peut-etre moins dense qu’une classe etroite.
Si les amplitudes sont differentes, comparer seulement les hauteurs des barres peut induire en erreur. La grandeur pertinente est la surface (hauteur x largeur).
On considere la distribution suivante :
| Classe | \([30,40[\) | \([40,45[\) | \([45,50[\) | \([50,65[\) | Total |
|---|---|---|---|---|---|
| Effectif \(n_i\) | 11 | 7 | 5 | 2 | 25 |
- Calculer les frequences \(f_i\).
- Calculer les amplitudes \(A_i\).
- Calculer les densites \(d_i = f_i/A_i\).
- \(f_i = (0{,}44, 0{,}28, 0{,}20, 0{,}08)\).
- \(A_i = (10, 5, 5, 15)\).
- \(d_i = (0{,}044, 0{,}056, 0{,}040, 0{,}0053)\).
La deuxieme classe est plus dense que la premiere, bien qu’elle ait un effectif inferieur.
Font 'default' does not have a glyph for '\u274c' [U+274c], substituting with a dummy symbol.
Font 'default' does not have a glyph for '\u2705' [U+2705], substituting with a dummy symbol.
Font 'default' does not have a glyph for '\u274c' [U+274c], substituting with a dummy symbol.
Font 'default' does not have a glyph for '\u2705' [U+2705], substituting with a dummy symbol.