Pourquoi divise-t-on par (n-1) dans le calcul de la variance ?
Pourquoi le mystérieux (n-1) est-il crucial dans le calcul de la variance? Comment cet ajustement élimine t-il le biais statistique ?
NEWDATA SCIENCESTATISTIQUES
"n-1 ou n ?" Vous avez sûrement déjà calculé une variance, mais vous êtes-vous déjà demandé pourquoi on divise par n-1 plutôt que par n ? C'est avant tout une question de degrés de liberté et de biais statistique. Alors pourquoi certains persistent-ils à diviser par n sans scrupules ? La simplicité de la réponse risque de vous surprendre.
Le biais en statistique, c'est quand notre estimation systématiquement sous-estime ou surestime la vraie valeur dans la population. Dans ce cas ci, utiliser n au lieu de (n-1) nous donne une estimation biaisée (sous-estimée) de la variance population !
Pourquoi la variance est elle sous-estimée avec n :
D'abord, quand nous calculons la variance d'un échantillon, nous utilisons la moyenne de l'échantillon (x̄) comme estimation de la vraie moyenne de la population (μ).
Les écarts à la moyenne de l'échantillon (x - x̄) sont toujours plus petits que les vrais écarts à la moyenne de la population (x - μ), car la moyenne de l'échantillon est "optimisée" pour minimiser ces écarts.
Par conséquent, quand nous divisons par n, nous sous-estimons systématiquement la vraie variance de la population. La division par (n-1) compense exactement ce biais en augmentant légèrement la valeur.
C'est ce qu'on appelle la correction de Bessel, et elle est directement liée à la perte d'un degré de liberté due au calcul préalable de la moyenne de l'échantillon.
Les degrés de liberté, quant à eux, sont souvent perçus comme l'un des concepts les plus déroutants pour les étudiants en statistiques. Pourtant, leur compréhension est essentielle pour maîtriser des notions fondamentales dont par exemple la variance et les tests statistiques.
Pour démystifier ce concept, j'aime utiliser une analogie simple : imaginez une classe de 5 élèves où la moyenne doit être exactement de 16/20. Si vous connaissez les notes de 4 élèves, pouvez-vous choisir librement la note du 5ème élève ?
La réponse est non ! Cette note est contrainte par les quatre autres et par l'obligation d'avoir une moyenne de 16. C'est exactement ce que représentent les degrés de liberté : le nombre de valeurs que nous pouvons choisir librement.
Application à la variance
Dans le calcul de la variance d'un échantillon, nous utilisons (n-1) au dénominateur plutôt que n. Pourquoi ? Parce que nous perdons un degré de liberté en calculant d'abord la moyenne de l'échantillon (x̄). Cette perte doit être prise en compte pour obtenir une estimation non biaisée de la variance de la population.
💡 Points clés à retenir :
Les degrés de liberté représentent le nombre de valeurs indépendantes dans un calcul.
Chaque contrainte réduit d'une unité les degrés de liberté.
Utiliser (n-1) nous donne une estimation plus précise de la variance population.
Mais alors pourquoi certains persistent-ils à diviser par n sans scrupules ?
La réponse c'est qu'en Data Science moderne, où nous travaillons souvent avec des jeux de données massifs, la différence entre diviser par n ou n-1 devient négligeable. En effet, quand n est très grand (des milliers ou millions d'observations), la différence entre n et n-1 est infime et n'affecte pas significativement l'estimation de la variance. C'est tout!
Bref, les degrés de liberté ne sont pas qu'une formule mathématique abstraite. Ils reflètent une réalité fondamentale : dans tout système statistique, les contraintes limitent notre liberté de choix. Comprendre ce concept nous permet de mieux appréhender pourquoi nous utilisons certaines formules plutôt que d'autres.
💬 Si vous avez des questions, n'hésitez pas à les poser en commentaire ! Je serai ravi d'y répondre et d'enrichir la discussion.
📚 Pour ne manquer aucun article sur ces sujets passionnants, suivez-moi ! D'autres articles explorant les concepts fondamentaux des statistiques et de la data science sont à venir. 👇