Logo Studenta

La Distribución de T de Student y pruebas de hipótesis

¡Estudia con miles de materiales!

Vista previa del material en texto

La Distribución de T de Student y pruebas de hipótesis.
El teorema del límite central aplica para muestras grandes de variables cuantitativas con distribución normal u otro tipo de distribución.
Sin embargo para muestras pequeñas con media y varianza desconocida no aplica y por lo tanto es necesario encontrar su distribución para poder llevar a cabo análisis de estimación de parámetros y pruebas de hipótesis.
Este caso ocurre comúnmente cuando el universo de interés es pequeño y de características diferentes a otros universos o sus características son de interés independientemente de lo que ocurra en otros universos.
Por ejemplo cuando se obtiene material biológico difícil de obtener o por un procedimiento innovador, como en el estudio de organismos del fondo marino o compuestos orgánicos sintéticos. Si en ese caso la variable que se mide sigue una distribución normal, el promedio de las M muestras de tamaño n, seguirá una distribución similar, con las siguientes características:
Simétrica, asintótica, con media igual a la media del universo y varianza S2x = [(xi – X)2 /n-1] / n.
Donde: S2x es la varianza de los promedios y S2 es la varianza calculada con las observaciones de una muestra, X es el promedio calculado de la muestra y n es el tamaño de esa muestra.
La varianza del universo es 2 = [(xi – )2 /n], al ser desconocido se estima con [(xi – X)2 /n-1].
La razón por la cual S2 es calculada con n-1 en el denominador es que al calcular el promedio de la muestra (X) se requiere la suma de las observaciones, al obtener la diferencia de cada observación con ese promedio pierde una observación aleatoria.
Ejemplo: Se obtuvieron 8 tubérculos de una rara planta de los Andes (solanáceas) y se desea saber la disponibilidad de sus carbohidratos. Para ello una muestra de cada uno se somete a la acción de una amilasa (120 minutos a 37°C) y se obtuvieron valores equivalentes de Índice Glicémico (niveles de glucosa disponibles).
	5.86
	
	5.46
	
	5.69
	
	6.49
	
	7.81
	
	9.03
	
	7.49
	
	8.98
	
Se requiere conocer el promedio y la desviación estándar para tratar de caracterizar a la planta para su uso potencial:
X = (5.46 + 5.69 + 5.86 + 6.49 + 7.49 + 7.81 + 8.98 + 9.03) / 8 = (56.81 / 8) = 7.10125.
Tanto el total como el promedio contienen la información de todas las observaciones. Si del total se van descontando cada uno de los valores al descontar al séptimo valor ya sabremos el valor de la última observación ya que esta solo puede tener el valor que complete la suma del total.
Conforme descontamos valores estos pueden tomar cualquier tamaño, esto es son aleatorios, pero el último deja de ser aleatorio pues solo puede tomar un valor. A los valores aleatorios se les llama grados de libertad, por lo que al llegar al último ya no es grado de libertad, de ahí que el cálculo de la varianza será:
S2 = [(5.46 – 7.10125)2 + (5.69 – 7.10125)2 + (5.86 – 7.10125)2 + (6.49 – 7.10125)2 + (7.49 – 7.10125)2 + (7.81 – 7.10125)2 + (8.98 – 7.10125)2 + (9.03 – 7.10125)2 ] / (8-1) = 14.503 / 7 = 2.072.
La desviación estándar es la raíz cuadrada de la varianza = (2.072)1/2 = 1.44.
Por lo tanto los estimadores de parámetros de la distribución del índice glucémico de los tubérculos de esta solanácea serán:
Media: 7.10125; Varianza: 2.072; desviación estándar = 1.44.
Cada vez que se obtengan tubérculos de esta planta se espera esa media y variación de sus carbohidratos. Sin embargo si se repite la toma de 8 especímenes varias veces la variación de los promedios se puede estimar como el error estándar del promedio, que en este caso sería la raíz cuadrada de la varianza entre el tamaño de la muestra:
Error Estándar = (2.072/ 8)1/2 = 1.44 / (8)1/2 = 0.5089.
Lo que representa que cada vez que se tomen muestras (n = 8) la variación entre promedios será de 0.5089 unidades del índice glucémico. Si se incrementa el tamaño de muestra la variación deberá disminuir.
Una desventaja es que si se desea estandarizar como una variable Z, los promedios no seguirán la distribución normal sino una distribución parecida pero en la que la curva es más baja pero más amplia. Entre menor el tamaño de muestra más amplia la curva y conforme el tamaño de muestra es mayor a 100 la curva se normaliza.
T = (X – ) / Error Estándar.
La media de T es = 0 (cero) pero si desviación estándar es > 1.
Por lo tanto las áreas bajo la curva dependerán de los grados de libertad de la varianza calculada.
Gráfica tomada de Introducción a la Estadística Inferencial (Chacón, J.).
De acuerdo con este ejemplo el 95% del área (95% de las muestras n = 5) esta entre -2.77 y 2.77.
Para el ejemplo con n = 8, de acuerdo con las tablas el 95% estaría entre -2.306 y 2.306.

Continuar navegando