Test du khi-deux d'indépendance
Qu'est-ce que le test du khi-deux d'indépendance ?
Le test du khi-deux d'indépendance est une hypothèse statistique utilisée pour déterminer si deux variables catégorielles ou nominales sont susceptibles d'être liées ou pas.
Quand puis-je utiliser le test ?
Vous pouvez utiliser le test lorsque vous avez des dénombrements de valeurs pour deux variables catégorielles.
Puis-je utiliser le test si j'ai des dénombrements de fréquence dans un tableau ?
Oui. Si vous n'avez qu'un seul tableau de valeurs qui montre les dénombrements de fréquence, vous pouvez utiliser le test.
Utiliser le test du khi-deux d'indépendance
Le test du khi-deux d'indépendance vérifie si deux variables sont susceptibles d'être liées ou pas. Nous avons un dénombrement pour deux variables catégorielles ou nominales. Nous avons également l'idée que les deux variables ne sont pas liées. Le test nous donne le moyen de décider si notre idée est plausible ou pas.
Les sections ci-dessous détaillent les éléments dont nous avons besoin pour effectuer le test, la manière d'effectuer le test, la compréhension des résultats, les détails statistiques et la compréhension des valeurs p.
De quoi avons-nous besoin ?
Pour le test du khi-deux d'indépendance, nous avons besoin de deux variables. Notre idée est que les variables ne sont pas liées. Voici quelques exemples :
- Nous disposons d'une liste de genres de film, il s'agit de notre première variable. Notre deuxième variable est si oui ou non les spectateurs de ces genres de films ont acheté des snacks dans la salle de cinéma. Notre idée (ou, en termes statistiques, notre hypothèse nulle) est que le type de film et l'achat éventuel de snacks par les spectateurs ne sont pas liés. Le propriétaire du cinéma souhaite effectuer une estimation du nombre de snacks à acheter. Si les achats de snacks ne sont pas liés aux types de films, l'estimation sera plus simple que si les types de films ont un effet sur les ventes de snacks.
- Une clinique vétérinaire dispose d'une liste des races de chiens traités dans leur établissement. La deuxième variable désigne si les propriétaires les nourrissent avec des aliments séchés, des aliments en conserve ou un mélange des deux. Notre idée est que la race de chien et le type d'aliment sont indépendants. Si cela est avéré, la clinique peut alors commander de la nourriture uniquement en fonction du nombre total de chiens sans prendre en compte les races.
Pour qu'un test soit valide, nous avons besoin des éléments suivants :
- Des valeurs qui constituent un échantillon aléatoire simple issu de la population visée.
- Deux variables catégorielles ou nominales. N'utilisez pas le test d'indépendance avec des variables continues qui définissent des combinaisons de catégories. Cependant, les dénombrements pour les combinaisons des deux variables catégorielles seront continus.
- Pour chaque combinaison des niveaux des deux variables, nous avons besoin d'au moins cinq valeurs attendues. En cas d'un nombre inférieur à cinq, dans n'importe laquelle de ces combinaisons, les résultats du test ne sont pas fiables.
Exemple de test du khi-deux d'indépendance
Examinons l'exemple Films-Snacks. Supposons que nous collectons des données pour 600 personnes dans notre cinéma. Pour chaque personne, nous connaissons le type de film visionné et l'achat éventuel de snacks.
Commençons par répondre à la question suivante : le test du khi-deux d'indépendance est-il la méthode appropriée pour évaluer la relation entre le type de film et les achats de snacks ?
- Nous disposons d'un échantillon aléatoire simple de 600 personnes qui ont vu un film dans notre salle. Nous satisfaisons cette exigence.
- Nos variables sont le type de film et l'achat de snacks. Les deux variables sont catégorielles. Nous satisfaisons cette exigence.
- La dernière exigence est qu'il y ait plus de cinq valeurs attendues pour chaque combinaison de variables. Pour confirmer cela, nous avons besoin de connaître les dénombrements totaux pour chaque type de films et les dénombrements totaux d'achats de snacks. Pour le moment, nous supposons que nous répondons à cette exigence et nous la vérifierons plus tard.
Il semblerait que nous avons effectivement sélectionné une méthode valable. (Nous devons toutefois vérifier que plus de cinq valeurs sont attendues pour chaque combinaison.)
Vous trouverez nos données résumées dans le tableau de contingence ci-dessous :
Table de données 1 : Tableau de contingence des données des snacks
Type de film | Snacks | Pas de snack |
Action | 50 | 75 |
Comédie | 125 | 175 |
Familial | 90 | 30 |
Horreur | 45 | 10 |
Avant de poursuivre, vérifions l'hypothèse des cinq valeurs attendues dans chaque catégorie. Les données comportent plus de cinq dénombrements dans chaque combinaison de type de film et de snacks. Mais quels sont les dénombrements attendus si le type de film et les achats de snacks sont indépendants ?
Trouver des dénombrements attendus
Afin de trouver les dénombrements attendus pour chaque combinaison Film-Snacks, nous avons besoin tout d'abord de la quantité de lignes et de colonnes, qui sont affichés ci-dessous :
Table de données 2 : Tableau de contingence des données des snacks avec totaux des lignes et des colonnes
Type de film | Snacks | Pas de snack | Total de la ligne |
Action | 50 | 75 | 125 |
Comédie | 125 | 175 | 300 |
Familial | 90 | 30 | 120 |
Horreur | 45 | 10 | 55 |
Total de la colonne | 310 | 290 | Total général = 600 |
Les dénombrements attendus pour chaque combinaison Film-Snacks sont basés sur les totaux de lignes et de colonnes. Nous multiplions le total de lignes par le total de colonnes et le divisons par le total général. Cela nous donne le dénombrement attendu pour chaque cellule dans le tableau. Par exemple, pour la cellule Action-Snacks, nous avons :
$ \frac{125\times310}{600} = \frac{38,750}{600} = 65 $
Nous avons arrondi la réponse au nombre entier le plus proche. S'il n'y a aucune relation entre le type de film et l'achat de snack, nous pouvons nous attendre à ce que 65 personnes regardent un film d'action en mangeant des snacks.
Voici les dénombrements observés et attendus pour chaque combinaison de type de film et de snacks. Dans chaque cellule de la Table de données 3 ci-dessous, le dénombrement attendu apparaît en gras sous le dénombrement observé. Les dénombrements attendus sont arrondis au nombre entier le plus proche.
Table de données 3 : Tableau de contingence des données des snacks comparant le dénombrement observé au dénombrement attendu
Type de film | Snacks | Pas de snack | Total de la ligne |
Action | 50 65 | 75 60 | 125 |
Comédie | 125 155 | 175 145 | 300 |
Familial | 90 62 | 30 58 | 120 |
Horreur | 45 28 | 10 27 | 55 |
Total de la colonne | 310 | 290 | Total général = 600 |
Lors de l'utilisation du logiciel, ces valeurs calculées seront étiquetées comme « valeurs attendues », « dénombrements attendus des cellules » ou sous un terme similaire.
Tous les dénombrements attendus pour nos données sont plus grands que cinq. Par conséquent, nous satisfaisons l'exigence d'application du test d'indépendance.
Avant de calculer le test statistique, regardons à nouveau le tableau de contingence. Les dénombrements attendus utilisent les totaux des lignes et des colonnes. Si nous regardons chaque cellule, nous voyons que certains dénombrements attendus sont proches des dénombrements actuels mais la plupart ne le sont pas. En cas d'absence de relation entre le type de film et les achats de snacks, les dénombrements observés et attendus seront similaires. En cas de relation, les dénombrements observés et attendus seront différents.
Une erreur classique avec les dénombrements attendus consiste à simplement diviser le total général par le nombre de cellules. Pour nos données de films, il s'agit de 600 / 8 = 75. Ceci est incorrect. Nous connaissons les totaux de lignes et les totaux de colonnes. Ils sont fixes et ne peuvent pas changer pour nos données. Les valeurs attendues sont basées sur les totaux de lignes et de colonnes, pas simplement sur le total général.
Effectuer le test
L'idée de base dans le calcul de la statistique de test est de comparer les valeurs observées et attendues, en fonction des totaux de lignes et de colonnes pour nos données. Tout d'abord, nous calculons la différence entre les observations et les attentes pour chaque combinaison de Films-Snacks. Ensuite, nous élevons cette différence au carré. Le carré donne la même importance aux combinaisons avec moins de valeurs observées qu'attendues et aux combinaisons avec plus de valeurs observées qu'attendues. Ensuite, nous divisons par la valeur attendue pour la combinaison. Nous ajoutons ces valeurs pour chaque combinaison de Films-Snacks. Cela nous donne notre statistique de test.
Ceci est beaucoup plus facile à suivre en utilisant les données de notre exemple. Le Tableau 4 ci-dessous montre les calculs pour chaque combinaison de Films-Snack effectuée à deux décimales près.
Table de données 4 : Préparation du calcul de notre statistique de test
Type de film | Snack | Pas de snack |
Action | Observé : 50 Attendu : 64,58 | Observé : 75 Attendu : 60,42 |
Différence : 50 – 64,58 = -14,58 Différence au carré : 212,67 Divisée par la valeur attendue : 212,67/64,58 = 3,29 | Différence : 75 – 60,42 = 14,58 Différence au carré : 212,67 Divisée par la valeur attendue : 212,67/60,42 = 3,52 | |
Comédie | Observé : 125 Attendu : 155 | Observé : 175 Attendu : 145 |
Différence : 125 – 155 = -30 Différence au carré : 900 Divisée par la valeur attendue : 900/155 = 5,81 | Différence : 175 – 145 = 30 Différence au carré : 900 Divisée par la valeur attendue : 900/145 = 6,21 | |
Familial | Observé : 90 Attendu : 62 | Observé : 30 Attendu : 58 |
Différence : 90 – 62 = 28 Différence au carré : 784 Divisée par la valeur attendue : 784/62 = 12,65 | Différence : 30 – 58 = -28 Différence au carré : 784 Divisée par la valeur attendue : 784/58 = 13,52 | |
Horreur | Observé : 45 Attendu : 28,42 | Observé : 10 Attendu : 26,58 |
Différence : 45 – 28,42 = 16,58 Différence au carré : 275,01 Divisée par la valeur attendue : 275,01/28,42 = 9,68 | Différence : 10 – 26,58 = -16,58 Différence au carré : 275,01 Divisée par la valeur attendue : 275,01/26,58 = 10,35 |
Enfin, pour obtenir notre statistique de test, nous additionnons les nombres dans la ligne finale pour chaque cellule :
$ 3,29 + 3,52 + 5,81 + 6,21 + 12,65 + 13,52 + 9,68 + 10,35 = 65,03 $
Afin de prendre notre décision, nous comparons la statistique de test à la distribution khi-deux. Cette activité comprend cinq étapes :
- Nous décidons du risque que nous sommes disposés à prendre de conclure que les deux variables ne sont pas indépendantes alors qu'elles le sont en réalité. Pour les données de films, nous avions décidé, avant de commencer à recueillir les données, que nous étions prêts à prendre 5 % de risque en déclarant que les deux variables – le Type de Film et l'Achat de Snacks – ne sont pas indépendantes alors qu'elles sont réellement indépendantes. Statistiquement parlant, nous définissons le seuil de significativité α à 0,05.
- Nous calculons une statistique de test. Comme montré ci-dessus, notre statistique de test est 65,03.
- Nous trouvons la valeur critique de la distribution khi-deux en fonction de nos degrés de liberté et de notre seuil de significativité. Il s'agit de la valeur que nous attendons si les deux variables sont indépendantes.
- Les degrés de liberté dépendent du nombre de lignes et du nombre de colonnes dont nous disposons. Les degrés de liberté (df) sont calculés selon la formule :
$ \text{{df}} = (r-1)\times(c-1) $
Dans cette formule, r est le nombre de lignes et c est le nombre de colonnes dans notre tableau de contingence. Pour notre exemple, avec le Type de Films dans les lignes et les Achats de Snacks dans les colonnes, nous obtenons :
$ \text{{df}} = (4-1)\times(2-1) = 3\times1 = 3 $
La valeur khi-deux avec α = 0,05 et trois degrés de liberté est de 7,815.
- Nous comparons la valeur de notre statistique de test (65,03) à la valeur khi-deux. Puisque 65,03 > 7,815, nous rejetons l'idée selon laquelle le type de film et les achats de snacks sont indépendants.
Nous en concluons qu'il existe une certaine relation entre le type de film et les achats de snacks. Le propriétaire de la salle de cinéma ne peut estimer la quantité de snacks à acheter indépendamment du type de film projeté. Au lieu de cela, le propriétaire doit penser aux types de films projetés lors de l'estimation des achats de snacks.
Il est important de remarquer que nous ne pouvons conclure que le type de films induit un achat de snacks. Le test d'indépendance nous indique uniquement s'il existe une relation ou pas. Il ne nous indique pas qu'une variable en induit une autre.
Comprendre les résultats
Utilisons des graphiques pour comprendre le test et les résultats.
Le diagramme comparatif ci-dessous affiche les valeurs observées en bleu et les valeurs attendues en orange côte à côte. Les dénombrements apparaissent en haut des barres. La boîte jaune contient le type de film et les totaux des achats de snacks. Ces totaux sont nécessaires pour trouver les dénombrements attendus.
Comparez les valeurs attendues et observées pour les films d'Horreur. Vous pouvez constater que plus de personnes qu'attendues ont acheté des snacks et moins de personnes qu'attendues ont choisi de ne pas acheter de snacks.
Si vous regardez l'ensemble des quatre types de films pour déterminer si les spectateurs ont acheté des snacks, vous constaterez une différence relativement grande entre les dénombrements réels et attendus pour la plupart des combinaisons. Le test d'indépendance vérifie si les données actuelles sont « suffisamment proches » des dénombrements attendus qui se produiraient si les deux variables étaient indépendantes. Même sans test statistique, la plupart des personnes diraient que les deux variables ne sont pas indépendantes. Le test statistique fournit un moyen courant de prendre la décision, de manière à ce que tout le monde puisse prendre la même décision concernant les données
Le tableau ci-dessous montre un autre jeu de données possible. Ce jeu a exactement les mêmes nombres de lignes et de colonnes pour le type de film et l'achat de snacks, mais les divisions oui/non dans les données d'achats de snacks sont différentes.
Les barres violettes représentent les dénombrements observés dans ces données. Les barres orange représentent les dénombrements attendus, qui sont les mêmes que ceux de notre jeu de données d'origine. Les dénombrements attendus sont les mêmes, car les totaux des lignes et les totaux des colonnes sont les mêmes. En regardant le graphique ci-dessus, la plupart des gens penseraient que le type de film et les achats de snacks sont indépendants. Si vous effectuez le test du khi-deux d'indépendance en utilisant ces nouvelles données, la statistique de test est de 0,903. La valeur du khi-deux s'élève toujours à 7,815 car il y a toujours trois degrés de liberté. Vous ne parviendrez pas à rejeter l'idée d'indépendance parce que 0,903 < 7,815. Le propriétaire de la salle de cinéma peut estimer la quantité de snacks à acheter indépendamment du type de film projeté.
Informations statistiques
Voyons les données relatives aux snacks pendant les films et le test du khi-deux d'indépendance en utilisant des termes statistiques.
Notre hypothèse nulle est que le type de film et les achats de snacks sont indépendants. L'hypothèse nulle est exprimée de la manière suivante :
$ H_0: \text{Le type de Film et les achats de Snacks sont indépendants} $
L'hypothèse alternative est le contraire.
$ H_0: \text{Le type de Film et les achats de Snacks ne sont pas indépendants} $
Avant de calculer les statistiques de test, nous trouvons les dénombrements attendus. Ceci est exprimé de la manière suivante :
$ Σ_{ij} = \frac{R_i\times{C_j}}{N} $
La formule est donnée pour un tableau de contingence i x j. Il s'agit d'un tableau avec i lignes et j colonnes. Par exemple, E11 est le dénombrement attendu pour la cellule dans la première ligne et la première colonne. La formule montre Ri comme le total de lignes pour la « i-ème » ligne, et Cj comme le total de colonnes pour la «j-ème » ligne. La taille globale de l'échantillon est N.
Nous calculons la statistique de test en utilisant la formule ci-dessous :
$ Σ^n_{i,j=1} = \frac{(O_{ij}-E_{ij})^2}{E_{ij}} $
Dans la formule ci-dessus, nous avons n combinaisons de lignes et de colonnes. Le symbole Σ indique la somme des calculs pour chaque combinaison. (Nous avons suivi ces mêmes étapes dans l'exemple Film–Snacks, débutant au Tableau 4.) La formule montre Oij comme les dénombrements observés pour la ij-ème combinaison et Ei j comme le Dénombrement attendu pour la combinaison. Pour l'exemple Film-Snacks, nous avons quatre lignes et deux colonnes. Par conséquent, nous avons huit combinaisons.
Nous comparons ensuite le test statistique à la valeur khi-deux correspondante de notre valeur alpha choisie et aux degrés de liberté pour nos données. En utilisant les données Film-Snacks comme exemple, nous avons défini α = 0,05 et nous avons trois degrés de liberté. Pour les données Film-Snacks, la valeur khi-deux est exprimée de la manière suivante :
$ χ_{0.05,3}^2 $
Il y a deux résultats possibles à partir de notre comparaison :
- Le test statistique est plus bas que la valeur khi-deux. Vous ne rejetez pas l'hypothèse d'indépendance. Dans l'exemple Film-Snacks, le propriétaire du cinéma peut maintenir l'hypothèse selon laquelle le type de film visionné par un spectateur n'a aucun lien avec le fait d'acheter des snacks ou pas.
- La statistique de test est plus élevée que la valeur du khi-deux. Vous rejetez l'hypothèse d'indépendance. Dans l'exemple Film-Snacks, le propriétaire du cinéma ne peut maintenir l'hypothèse selon laquelle le type de film visionné par un spectateur n'a aucun lien avec le fait d'acheter des snacks ou pas.
Comprendre les p-values
Utilisons un graphique de la distribution khi-deux pour mieux comprendre les p-values. Vous souhaitez vérifier que votre statistique de test est une valeur plus extrême dans la distribution que la valeur critique. Le graphique ci-dessous montre la distribution khi-deux avec trois degrés de liberté. Il montre comment la valeur de 7,815 « coupe » 95 % des données. Seules 5 % des données de la distribution khi-deux avec trois degrés de liberté est supérieure à 7,815.
Le graphique de distribution suivant montre nos résultats. Vous pouvez voir à quel point notre statistique de test se trouve loin « dans l'extrémité ». D'ailleurs, avec cette échelle, la courbe de distribution semble être à zéro à son point d'intersection avec notre statistique de test. Ce n'est pas le cas, mais elle est tout de même très proche de zéro. Nous en concluons qu'il est peu probable que cette situation soit le fruit du hasard. Les résultats que nous avons obtenus auprès de nos cinéphiles seraient extrêmement improbables s'il n'y avait vraiment aucune relation entre les types de films et les achats de snacks.
Les logiciels statistiques indiquent la p-value d'un test. Cette valeur représente la probabilité qu'un autre échantillon de la même taille donne une statistique de test plus extrême que la statistique de test de notre échantillon actuel, en supposant que l'hypothèse nulle soit vraie. Il est difficile de la calculer manuellement. Pour les distributions présentées ci-dessus, si la statistique de test est exactement de 7,815, alors la p-value sera p = 0,05. Avec un test statistique de 65,03, la p-value est très, très petite. Dans cet exemple, la plupart des logiciels statistiques afficheront la p-value : « p < 0,0001 ». Cela signifie que la vraisemblance de trouver une valeur plus extrême pour le test statistique en utilisant un autre échantillon aléatoire (et en supposant que l'hypothèse nulle soit correcte) est inférieure à une chance sur 10 000.