La distribution t

Qu'est-ce que la distribution t ?

La distribution t décrit des distances standardisées de moyennes d'échantillons par rapport à la moyenne de la population lorsque l'écart-type de la population n'est pas connu et que les observations proviennent d'une population distribuée normalement.

La distribution t est-elle la même chose que la distribution de Student ?

Oui.

Quelle est la différence principale entre les distributions t et z ?

La distribution normale standard ou distribution z suppose que vous connaissiez l'écart-type de la population. La distribution t est basée sur l'écart-type de l'échantillon.

Distribution t vs distribution normale

La distribution t est similaire à la distribution normale. Elle a une définition mathématique précise. Plutôt que de nous plonger dans des mathématiques complexes, examinons les propriétés utiles de la distribution t et pourquoi elle est importante dans les analyses.

  • Comme la distribution normale, la distribution t a une forme lisse.
  • Comme la distribution normale, la distribution t est symétrique. Si vous la pliez en deux au niveau de la moyenne, chaque côté serait identique.
  • Comme une distribution normale standard (ou distribution  z), la distribution t a une moyenne de zéro.
  • La distribution normale suppose que l'écart-type de la population est connu. La distribution t n'effectue pas cette supposition.
  • La distribution t est définie par les degrés de liberté. Ceux-ci sont liés à la taille de l'échantillon.
  • La distribution t est plus utile pour les échantillons de petite taille, lorsque l'écart-type de la population n'est pas connu ou dans les deux situations.
  • À mesure que la taille de l'échantillon s'accroît, la distribution t s'apparente davantage à une distribution normale.

Examinez le graphique suivant en comparant les trois distributions t avec une distribution normale standard :

Figure 1: Trois distributions t et une distribution standard normale (z).

Toutes les distributions ont une forme lisse. Elles sont toutes symétriques. Elles ont toutes une moyenne de zéro.

La forme de la distribution t dépend des degrés de liberté. Les courbes avec plus de degrés de liberté sont plus hautes et ont des extrémités plus fines. Les trois distributions t ont des « extrémités plus lourdes » que la distribution z.

Vous pouvez voir comment les courbes avec plus de degrés de liberté s'apparentent davantage à la distribution z. Comparez la courbe rose avec un degré de liberté à la courbe verte pour la distribution z. La distribution t avec un degré de liberté est plus courte et à des extrémités plus épaisses que la distribution z. Comparez ensuite la courbe bleue avec 10 degrés de liberté avec la courbe verte pour la distribution z. Ces deux distributions sont très similaires.

En règle générale, pour une taille d'échantillon d'au moins 30, on peut utiliser la distribution z au lieu de la distribution t. La Figure 2 ci-dessous montre une distribution t avec 30 degrés de liberté et une distribution z. La figure utilise une courbe verte pointillée pour z de manière à ce que vous puissiez voir les deux courbes. Cette similarité est l'une des raisons pour laquelle la distribution z est utilisée dans des méthodes statistiques à la place de la distribution t lorsque les tailles d'échantillons sont suffisamment larges.

Figure 2 : Distribution z et distribution t avec 30 degrés de liberté

Les extrémités pour les tests d'hypothèses et la distribution t

Lorsque vous effectuez un test t, vous vérifiez si votre statistique de test est une valeur plus extrême qu'attendue de la distribution t.

Pour un test à deux extrémités, vous regardez les deux extrémités de la distribution. La Figure 3 ci-dessous montre le processus de décision pour un test à deux extrémités. La courbe est une distribution t avec 21 degrés de liberté. La valeur de la distribution t avec α = 0,05/2 = 0,025 est 2,080. Pour un test à deux extrémités, vous rejetez l'hypothèse nulle si la statistique de test est plus large que la valeur absolue de la valeur de référence. Si la valeur de la statistique de test est soit dans l'extrémité inférieure, soit dans l'extrémité supérieure, vous rejetez l'hypothèse nulle. Si la statistique de test se trouve dans les deux lignes de référence, alors vous échouez à rejeter l'hypothèse nulle.

Figure 3 : Processus de décision pour un test à deux extrémités

Pour un test à une extrémité, vous regardez seulement une extrémité de la distribution. Par exemple, la Figure 4 ci-dessous montre le processus de décision pour un test à une extrémité. La courbe est une distribution t avec 21 degrés de liberté. Pour un test à une extrémité, la valeur de la distribution t avec α = 0,05 est 1,721. Vous rejetez l'hypothèse nulle si la statistique de test est plus grande que la valeur de référence. Si la statistique de test est située sous la ligne de référence, alors vous échouez à rejeter l'hypothèse nulle.

Figure 3 : Processus de décision pour un test à une extrémité

Comment utiliser un tableau t ?

La plupart des personnes utilisent un logiciel pour effectuer les calculs nécessaires aux tests de Student. Mais de nombreux livres de statistiques continuent à montrer des tableaux t. Il est donc utile de comprendre comment utiliser un tableau. Les étapes ci-dessous décrivent comment utiliser un tableau t typique.

  1. Déterminez si le tableau est pour un test à deux extrémités ou à une extrémité. Ensuite, décidez si vous avez un test à une extrémité ou à deux extrémités. Les colonnes pour un tableau t identifient différents niveaux alpha.
    Si vous avez un tableau pour un test à une extrémité, vous pouvez toujours l'utiliser pour un test à deux extrémités. Si vous définissez α = 0,05 pour votre test à deux extrémités et que vous n'avez qu'un tableau à une extrémité, veuillez utiliser la colonne pour α = 0,025.
  2. Identifiez les degrés de liberté pour vos données. Les lignes d'un tableau t correspondent aux différents degrés de liberté. La plupart des tableaux vont jusqu'à 30 degrés de liberté puis s'arrêtent. Ces tableaux supposent que l'on utilisera une distribution z pour des tailles d'échantillons plus larges.
  3. Trouvez la cellule dans le tableau, à l'intersection de votre niveau α et des degrés de liberté. Il s'agit de la valeur de distribution t. Comparez votre statistique à la valeur de distribution t et tirez-en la conclusion appropriée.