Introducción: ¿qué es una prueba de hipótesis estadística?
Supongamos que un amigo nuestro afirma que en cada partido de fútbol que juega, mete tres o cuatro goles. Impresionados con su excelente performance, vamos a verlo jugar cinco partidos seguidos. Pero ocurre que en esos cinco partidos no mete ningún gol. ¿No sospecharíamos que tal vez nos mintió? ¿No es muy incompatible «lo observado» con su afirmación inicial de que mete tres o cuatro goles por partido? Este mini-ejemplo muestra la lógica que hay detrás de una prueba de hipótesis estadística.
Una prueba de hipótesis es un procedimiento, con el que se busca tomar una decisión sobre el valor de verdad de una hipótesis estadística. Al realizar una prueba de hipótesis decidimos si rechazar o no rechazar esa hipótesis estadística. Basamos la decisión en la evidencia muestral.
Un esquema muy simplificado que resume el proceso sería el siguiente:
Por eso muchas veces se compara un proceso de prueba de hipótesis con un juicio: hay que recoger evidencias para analizar si la hipótesis de base (la inocencia del acusado en el caso del juicio) se sostiene o se rechaza.
Ejemplo intuitivo (sin detalles «técnicos»)
Entender muy bien que es una prueba de hipótesis implica comprender muchos conceptos (variable, parámetro, hipótesis estadística, estadístico de prueba, etc). Y también las relaciones entre ellos. Pero la idea general de que es una prueba de hipótesis no es difícil de entender. De hecho, es muy intuitiva. Vamos a ver un ejemplo que en forma natural expresa el razonamiento y procedimiento detrás de una prueba de hipótesis.
Situación
Un fabricante de galletitas produce paquetes en los cuales el peso nominal impreso es de gramos. Pero el contenido real en gramos es una variable aleatoria. No tienen exactamente gramos todos los paquetes. El fabricante, basándose en información histórica, afirma que la media de esa variable es gramos con un desvío estándar de gramos. Se desconfía de la afirmación del fabricante acerca de que gramos. Se quiere analizar si en realidad el peso promedio de los paquetes es inferior a gramos.
La variable
La variable que nos interesa observar es : peso en gramos de un paquete de galletitas de la fábrica.
Las hipótesis en juego
Las dos afirmaciones que se contraponen en esta situación son:
- Afirmación del fabricante, que llamaremos hipótesis nula: la media de es 500:
- Afirmación alternativa: Hipótesis alternativa: la media de es menor que 500:
No podemos conocer el verdadero valor del parámetro, pero podemos estimarlo
Cómo se trata de una discusión acerca del valor de un parámetro, no es fácil decidir cuál afirmación es correcta. Habría que medir todos los paquetes de la producción para conocer la verdadera esperanza de . En general esto es inviable. Para no tener que medir el peso en todos los paquetes de la producción se puede tomar una muestra aleatoria de paquetes, y analizar si los valores observados de son o no coherentes con la afirmación del fabricante.
Para lo que sigue a continuación es requisito saber sobre la distribución de la variable media muestral.
Supongamos que se toma una muestra aleatoria de 100 paquetes, y se mide el peso (utilizando una balanza muy precisa) en cada uno de los paquetes. Obtenemos entonces una muestra aleatoria de la variable :
Sabemos que la medía muestral es un buen estimador de la media poblacional . Entonces vamos a calcular la media muestral del peso de los 100 paquetes, para contrastarla con la hipótesis nula.
- Si obtenemos un valor de «muy inferior a 500», es decir una diferencia «muy grande», rechazaremos la hipótesis nula.
- Si obtenemos un valor de «muy cercano a 500», es decir una diferencia «pequeña», diremos que no existe evidencia suficiente para rechazar la hipótesis nula.
Veamos que conclusión sacaríamos en los siguientes casos.
Caso A de evidencia muestral: se obtiene una media muestral muy contraría a la afirmación inicial
Si se obtiene que el promedio de los pesos es de gramos, podríamos concluir que la evidencia muestral no es compatible con la afirmación del fabricante. Se obtuvo un valor muy por debajo de 500 gramos. Podríamos rechazar la afirmación del fabricante. No puede ser cierto que , pero que se observe . Cómo de hecho se observó, entonces rechazamos la hipótesis nula.
Caso B de evidencia muestral: se obtiene una media muestral «cercana» a la afirmación inicial
Si se obtiene que el promedio de los pesos es de gramos, podríamos pensar que el valor de obtenido es muy cercano al valor de propuesto por la hipótesis inicial… y entonces concluir que no hay evidencia contraria a esa hipótesis.
Caso C de evidencia muestral: se obtiene una media muestral que no es concluyente «a simple vista» respecto de la afirmación inicial
Si se obtiene que el promedio de los pesos de 100 paquetes es de gramos… ¿Qué concluimos? ¿Es coherente con una media poblacional de 500 o no? Este caso resulta más dilemático y no permite decidir tan fácilmente. Se presenta el problema de decidir que es «cerca» y que es «lejos» de 500. Más adelante vamos a ver cómo se decide un punto de corte o punto crítico que permite definir una zona «cercana» (zona de no rechazo) y una zona «lejana» (zona de rechazo).
¿Qué es una variable?
Una variable es una característica de interés, que tienen los individuos de una población.
- Ejemplo 1: el peso de un paquete de galletitas
- Ejemplo 2: la cantidad de alumnos de una escuela de CABA
- Ejemplo 3: la localidad en la que está ubicada un comercio de una cierta cadena
¿Qué es un parámetro?
En estadística, un parámetro es una constante asociada a la distribución de probabilidades de una variable aleatoria.
- Ejemplo 1: Si una variable tiene distribución binomial, sus parámetros son y .
- Ejemplo 2: Si una variable tiene distribución normal, sus parámetros son y .
- Ejemplo 3: Si una variable tiene distribución Bernoulli, su único parámetro es la probabilidad de éxito .
¿Qué es un estimador de un parámetro?
El estimador de un parámetro es un estadístico (estadístico: variable aleatoria función de las observaciones muestrales) que toma «valores cercanos» al verdadero valore del parámetro.
Fundamentalmente nos interesan los siguientes estimadores:
- La media muestral es un estimador de la media poblacional .
- El desvío estándar muestral es un estimador del desvío estándar poblacional
- La proporción muestral , es un estimador de la proporción poblacional .
¿Qué es un estadístico de prueba?
Esta es la definición más difícil de esta serie. Por eso vamos a dar muchos ejemplos.
Un estadístico de prueba es:
- Una variable aleatoria
- De distribución conocida
- Que vincula a un parámetro de interés, con un estimador de ese parámetro.
Vamos a ver algunos ejemplos de estadísticos de prueba que nos van a interesar más adelante.
EJEMPLO 1
Si , y , es una muestra aleatoria de , y conocemos entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (normal estándar), y que relaciona al parámetro con su estimador .
Observación: no demostramos recién por qué es esa la distribución de . No nos interesa hacerlo acá para no distraer la atención. Pero la fundamentación tiene que ver con:
- Si es normal, una combinaicón lineal de va a ser normal también.
- La esperanza de es .
- La varianza de es
- La estandarización de variables aleatorias normales.
EJEMPLO 2
Si , y , es una muestra aleatoria de , y no conocemos pero lo estimamos con entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida ( de student grados de libertad), y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Hay que aceptarlo así :).
EJEMPLO 3
Si tiene una distribución desconocida, y , es una muestra aleatoria de (con ), y no conocemos pero lo estimamos con entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (en realidad aproximadamente conocida, porque se aproxima a la distribución normal estándar), y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Tiene que ver con el teorema central del límite.
EJEMPLO 4
Si y es una muestra aleatoria de , con entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida (en realidad aproximadamente conocida, porque se aproxima a la distribución normal estándar), y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Tiene que ver con el teorema central del límite.
EJEMPLO 5
Si y , es una muestra aleatoria de , entonces:
Es un estadístico de prueba. Porque es una variable aleatoria, con distribución conocida, y que relaciona al parámetro con su estimador .
Observación: no demostramos por qué es esa la distribución. Hay que aceptarlo así :).
Una tabla que resume las condiciones que deben darse, el parámetros de interés y un estadístico de prueba adecuado es la siguiente:
No hay comentarios.:
Publicar un comentario