Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1ESTADÍSTICA BÁSICA 2ESTADÍSTICA BÁSICA 11. Ajuste de Distribuciones 360340320300280260240220 100 80 60 40 20 0 BC547B P o rc e n ta je Media 285,1 Desv.Est. 26,83 N 91 CDF empírica de BC547B Normal 3ESTADÍSTICA BÁSICA Tema 11: Ajuste de Distribuciones 1. Introducción. 2. Métodos gráficos de bondad de ajuste. 3. Test ji-cuadrado de bondad de ajuste. 4. Transformaciones que mejoran la normalidad (Box-Cox). 4ESTADÍSTICA BÁSICA Dada una muestra de datos reales... Seleccionamos el modelo cuya función de densidad se parezca mucho a esos datos ¿cuál es la población que los ha generado? 1. Introducción 5ESTADÍSTICA BÁSICA ¿Cómo podemos concluir que el modelo de probabilidad es adecuado? Haciendo un contraste de hipótesis que valore cómo de probable es que cierta población haya generado unos datos como los nuestros A simple vista… Obtener esos datos sería muy improbable bajo el supuesto de que ésta es la población. NO se ‘ajusta’ bien Obtener esos datos no es improbable bajo el supuesto de que ésta es la población. Tiene buen ‘ajuste’ 1. Introducción 6ESTADÍSTICA BÁSICA Tema 11: Ajuste de Distribuciones 1. Introducción. 2. Métodos gráficos de bondad de ajuste. 3. Test ji-cuadrado de bondad de ajuste. 4. Transformaciones que mejoran la normalidad (Box-Cox). 7ESTADÍSTICA BÁSICA Vemos en primer lugar una herramienta gráfica (con ordenador) Usemos un ejemplo: ¿Podríamos ‘ajustar’ la variable a una normal? Ejemplo: Estamos interesados en medir la llamada ‘Ganancia en corriente’ (current gain) del transistor del tipo BC547B. Se ha tomado una muestra de 91 transistores (variable transistorNPN.txt). Busca un modelo de probabilidad para esta variable. 340320300280260240 18 16 14 12 10 8 6 4 2 0 BC547B Fr e c u e n c ia Media 285,1 Desv.Est. 26,83 N 91 Histograma (con curva normal) de BC547B 2. Métodos gráficos de bondad de ajuste 8ESTADÍSTICA BÁSICA 340320300280260240 18 16 14 12 10 8 6 4 2 0 BC547B Fr e c u e n c ia Media 285,1 Desv.Est. 26,83 N 91 Histograma (con curva normal) de BC547B • Si comparamos el histograma con la curva con parámetros estimados con los datos podemos hacernos una idea de si el modelo es adecuado. • Tiene la dificultad de que el aspecto del histograma cambia con el número de clases. 13 clases 362338314290266242218 12 10 8 6 4 2 0 BC547B Fr e c u e n c ia Media 285,1 Desv.Est. 26,83 N 91 Histograma (con curva normal) de BC547B 20 clases 360330300270240 20 15 10 5 0 BC547B Fr e c u e n c ia Media 285,1 Desv.Est. 26,83 N 91 Histograma (con curva normal) de BC547B 9 clases 360320280240 60 50 40 30 20 10 0 BC547B Fr e c u e n c ia Media 285,1 Desv.Est. 26,83 N 91 Histograma (con curva normal) de BC547B 4 clases 2. Métodos gráficos de bondad de ajuste 9ESTADÍSTICA BÁSICA Para evitar ambigüedades se usan representaciones gráficas basadas en la función de distribución empírica. La siguiente figura muestra la función de distribución empírica de los datos y la de la normal estimada. 360340320300280260240220 100 80 60 40 20 0 BC547B P o rc e n ta je Media 285,1 Desv.Est. 26,83 N 91 CDF empírica de BC547B Normal cdf emp.x son muy similares Para facilitar la comparación se DEFORMA la escala del eje Y de tal manera que la función de distribución de una normal sea una línea recta: GRAFICO DE PROBABILIDAD. también: (i-0.5)/n 2. Métodos gráficos de bondad de ajuste 𝑥 1 ൗ 1 𝑛 + 1 𝑥 2 ൗ 2 𝑛 + 1 𝑥 𝑛 ൗ 𝑛 𝑛 + 1 𝑥 𝑖 ൗ 𝑖 𝑛 + 1 ⋮ ⋮ ⋮ ⋮ 𝑥 𝑖 : i-ésimo dato ordenado de menor a mayor 10ESTADÍSTICA BÁSICA 380360340320300280260240220200 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 BC547B P o rc e n ta je Media 285,1 Desv.Est. 26,83 N 91 AD 0,294 Valor P 0,593 Gráfica de probabilidad de BC547B Normal Gráfico de probabilidad para una distribución determinada: Eje X: los datos Eje Y: cdf empírica pero en una escala deformada para que la distribución seleccionada salga una línea recta El ajuste a la normal es bastante bueno. Los datos están bastante alineados, salvo una pequeña zona (3 datos) en la cola de la izquierda 2. Métodos gráficos de bondad de ajuste 11ESTADÍSTICA BÁSICA Ejemplo: El fichero TimetoFailure.txt contiene el registro de 95 tiempos hasta fallo de un sistema informático. El Tiempo hasta fallo (Time to Failure –TTF-) es el tiempo (días) que transcurre desde que se inicia el sistema informático hasta que es necesario reiniciarlo por fallo o pérdida de rendimiento. Es un indicador de la calidad de servicio de dicho sistema. ¿Podríamos ajustar la variable a una normal? 1209060300 25 20 15 10 5 0 tiempo Fr e c u e n c ia Media 41,42 Desv.Est. 24,74 N 95 Histograma (con curva normal) de tiempo 1251007550250-25-50 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 tiempo P o rc e n ta je Prueba de bondad del ajuste AD = 1,147 Valor P = 0,005 Gráfica de probabilidad para tiempo Normal ¿Podemos asumir esta desviación? 2. Métodos gráficos de bondad de ajuste 12ESTADÍSTICA BÁSICA Tema 11: Ajuste de Distribuciones 1. Introducción. 2. Métodos gráficos de bondad de ajuste. 3. Test ji-cuadrado de bondad de ajuste. 4. Transformaciones que mejoran la normalidad (Box-Cox). 13ESTADÍSTICA BÁSICA Supongamos que el histograma de un conjunto de datos sugiere que éstos pueden seguir cierto modelo de probabilidad. ¿Cómo puedo comparar los datos con lo que predice el modelo? Contrastes de bondad de ajuste (Goodness of fit tests) 3. Test ji-cuadrado de bondad de ajuste. Hipótesis nula 𝐻0: La población de la que proceden los datos sigue la distribución especificada Hipótesis alternativa 𝐻1: La población de la que proceden los datos no sigue la distribución especificada 14ESTADÍSTICA BÁSICA Test ji-cuadrado • Es un método para valorar la bondad del ajuste de un modelo. • Es un método tanto para modelos continuos como discretos Comparo el histograma con la curva de la normal estimada Estos datos sugieren una población normal Con los datos estimo μ y σ² 2ˆ ˆ¿ , ?N 3. Test ji-cuadrado de bondad de ajuste. 𝐻0: 𝑋 ∼ 𝑁 𝜇, 𝜎 2 𝐻1: 𝑋 ≁ 𝑁(𝜇, 𝜎 2) 15ESTADÍSTICA BÁSICA Para cada clase del histograma: • Contamos el número de individuos observados en dicha clase: 𝑂𝑖, 𝑖 = 1,… , 𝑘. • Calculamos la probabilidad, de acuerdo al modelo, de estar en cada intervalo: 𝑝𝑖 • Calculamos la frecuencia esperada: 𝐸𝑖 = 𝑛𝑝𝑖 (la frecuencia esperada debe ser mayor que 5, en caso contrario conviene usar clases más anchas) 𝑂𝒊 𝑝𝒊 3. Test ji-cuadrado de bondad de ajuste. Supondremos una muestra aleatoria de tamaño 𝑛 ≥ 25 , agrupada en 𝑘 > 5 clases, cada una con un mínimo de 3 observaciones. Nota: Es recomendable tener aproximadamente el mismo número de datos en cada clase, y que la frecuencia esperada sea también similar, lo que nos llevaría a realizar un histograma en el que las clases no tengan el mismo ancho. Los programas informáticos que realizan este test, suelen tener este aspecto en cuenta. El tener clases de diferente ancho también facilita que la frecuencia observada sea al menos 3, y la esperada mayor que 5). 17ESTADÍSTICA BÁSICA Se demuestra que: Si el modelo no es adecuado, 𝑋0 2 tenderá a tomar un valor grande, tal que que tenderá a estar en la cola de la derecha de una distribución ji-cuadrado, de k-v-1 grados de libertad g= grados de libertad g=k-v-1 número de clases parámetros estimados Apéndice. El test ji-cuadrado de bondad de ajuste Si 𝑋0 2 es muy grande: mucha discrepancia entre los datos y lo que dice el modelo El estadístico de contraste es 𝑋0 2 = 𝑖=1 𝑘 𝑂𝑖 − 𝐸𝑖 2 𝐸𝑖 18ESTADÍSTICA BÁSICA 𝑋0 2 Modelo adecuado Modelo inadecuado Apéndice. El test ji-cuadrado de bondad de ajuste 𝑋0 2 19ESTADÍSTICA BÁSICA • El ordenador (o tablas) nos calcula el área a la derecha de 𝑋0 2 • Ese árease llama p-valor (p-value) En la práctica, si p-valor<𝛼 (usualmente 0.05) descartamos el modelo. La diferencia observada es demasiado grande para atribuirla al azar del muestreo p-valor Apéndice. El test ji-cuadrado de bondad de ajuste α Región de rechazo Región de aceptación 𝑋0 2 20ESTADÍSTICA BÁSICA Ejemplo: Datos de resistividad de 102 resistencias similares ¿Ajuste a una normal? El p-valor es suficientemente grande. Podemos usar la normal para representar a la población de la que proceden estos datos Resist.~N(5564;33.35) Con los 102 datos: media muestral=5564. Desviación típica muestral=33.35 Datos N(5564;33.35) p-valor Oi Ei 2 i i i O E E 𝑋0 2 21ESTADÍSTICA BÁSICA 3. Test de bondad de ajuste 1251007550250-25-50 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 tiempo P o rc e n ta je Prueba de bondad del ajuste AD = 1,147 Valor P = 0,005 Gráfica de probabilidad para tiempo Normal ¿Cuándo consideramos que los puntos están suficientemente alineados? 380360340320300280260240220200 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 BC547B P o rc e n ta je Media 285,1 Desv.Est. 26,83 N 91 AD 0,294 Valor P 0,593 Gráfica de probabilidad de BC547B Normal Ejemplo 1: ganancia en corriente de un transistor Ejemplo 2: tiempo entre fallos de un sistema informático Hacemos un test de bondad de ajuste El test AD de bondad de ajuste nos dice: La probabilidad de que unos datos que sigan la distribución seleccionada se separen de la recta tanto como lo observado con nuestra muestra • Hay muchos tests de bondad de ajuste. Algunos están especializados en algunas distribuciones • Los más ‘populares’: Anderson-Darling (AD), ji-cuadrado (ji2), Shapiro-Wilks (SW), Kolmogorov- Smirnov (KS). Otros tests... 22ESTADÍSTICA BÁSICA Tema 11: Ajuste de Distribuciones 1. Introducción. 2. Métodos gráficos de bondad de ajuste. 3. Test ji-cuadrado de bondad de ajuste. 4. Transformaciones que mejoran la normalidad (Box-Cox). 23ESTADÍSTICA BÁSICA Muchos datos unimodales simétricos se ajustan a una distribución normal Sin embargo es muy frecuente encontrar datos unimodales asimétricos Transformaremos los datos de forma que los datos transformados sean unimodales y simétricos Intentamos ajustar una normal a los datos transformados 4. Transformaciones para mejorar la normalidad (Box-Cox) 24ESTADÍSTICA BÁSICA Dados un conjunto de datos 𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑛 estrictamente positivos con distribución UNIMODAL asimétrica Buscamos una transformación 𝑦 = ℎ(𝑥) tal que y sea más simétrica Asimetrías positivas (muy frecuentes) • Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 < 1 • En lugar de 𝜆 = 0 usamos 𝑦 = ln(𝒙) • Estas transformaciones son no lineales pues comprimen mucho a los datos grandes y poco a los pequeños • Si el rango es pequeño, no funciona x 4. Transformaciones para mejorar la normalidad (Box-Cox) 25ESTADÍSTICA BÁSICA Buscamos una transformación y=h(x) tal que y sea más simétrica Asimetrías positivas (muy frecuentes) • Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 < 1 • En lugar de 𝜆 = 0 usamos 𝑦 = ln(𝒙) • Estas transformaciones son no lineales pues comprimen mucho a los datos grandes y poco a los pequeños x x x • Cuanto mayor sea la asimetría, necesitamos un 𝜆 menor • ln(x) puede interpretarse como el límite de la transformación 𝑦 = 𝑥𝜆 cuando 𝜆 → 0 Dados un conjunto de datos x1, x2, x3, ..., xn estrictamente positivos con distribución UNIMODAL asimétrica 4. Transformaciones para mejorar la normalidad (Box-Cox) 26ESTADÍSTICA BÁSICA Buscamos una transformación y=h(x) tal que y sea más simétrica Asimetrías negativas • Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 > 1 • Estas transformaciones son no lineales pues expanden mucho a los datos grandes y poco a los pequeños • Si el rango es pequeño no funciona x Dados un conjunto de datos x1, x2, x3, ..., xn estrictamente positivos con distribución UNIMODAL asimétrica 4. Transformaciones para mejorar la normalidad (Box-Cox) 27ESTADÍSTICA BÁSICA Dados un conjunto de datos x1, x2, x3, ..., xn con distribución UNIMODAL asimétrica Buscamos una transformación y=h(x) tal que y sea más simétrica Asimetrías negativas • Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 > 1 • Estas transformaciones son no lineales pues expanden mucho a los datos grandes y poco a los pequeños • Si el rango es pequeño no funciona x Cuanto mayor sea la asimetría, necesitamos un 𝜆 mayor x1,5 x2 4. Transformaciones para mejorar la normalidad (Box-Cox) 28ESTADÍSTICA BÁSICA Buscamos transformaciones del tipo con m tal que x+m>0 4. Transformaciones para mejorar la normalidad (Box-Cox) No obstante, existen otras versiones de esta transformación. que se diferencian sólo en un factor, por lo que no afectan a la forma de la distribución transformada. Si 𝜆 < 0 los datos transformados invierten su orden. Por ejemplo, si 𝜆 = −1 es fácil ver que 𝑥 = 1,2,3 → 𝑦 = {1,0.5,0.33} . Para evitar este efecto, existe una versión de esta transformación Box-Cox que realiza la siguiente transformación: 𝑦 = ൞ 𝑥 + 𝑚 𝜆 − 1 𝜆 , si 𝜆 ≠ 0 ln(𝑥), 𝑠𝑖 𝜆 = 0 𝑦 = ൝ 𝑥 + 𝑚 𝜆, si 𝜆 ≠ 0 ln(𝑥), 𝑠𝑖 𝜆 = 0 Esta transformación preserva el orden de los datos transformados. Se puede comprobar que, con 𝜆 = −1, 𝑥 = 1,2,3 → 𝑦 = {0,0.5,0.667}. Por lo que el orden de los datos se conserva. 29ESTADÍSTICA BÁSICA RESUMEN Pasos: 1. Sumamos una cantidad m a los datos tal que los haga estrictamente positivos. 2. En función de la asimetría buscamos el valor 𝝀 que haga la distribución lo más simétrica posible. Nos ayudamos del histograma y de algún test de ajuste a la normal. Muchos programas estadísticos buscan el 𝝀 óptimo de forma automática. 3. Comprobamos si hemos conseguido un ajuste a la normal con un contraste de bondad de ajuste. 4. Si obtenemos normalidad, podemos calcular probabilidades en 𝑋 aprovechando la normalidad en 𝑌 de la siguiente forma (dependiendo de la versión de la transf. Box-Cox que usemos): Asimetría positiva → 𝝀 < 𝟏 Simetría→ 𝝀 = 𝟏 Asimetría negativa→ 𝝀 > 𝟏 𝑃 𝑋 > 𝑎 = ൝ 𝑃 𝑦 > 𝑎 + 𝑚 𝜆 ; si 𝜆 ≠ 0 𝑃 𝑦 > ln 𝑎 +𝑚 ; 𝑠𝑖 𝜆 = 0 30ESTADÍSTICA BÁSICA Ejemplo: Aplicación a los datos de ganancia en corriente de los transistores 0,250,240,230,220,21 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 BC547B P o r c e n t a je Prueba de bondad del ajuste AD = 0,268 Valor P = 0,678 Gráfica de probabilidad para BC547B Después de la transformación de Box-Cox (lambda = -0,26) Normal 380360340320300280260240220200 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 BC547B P o r c e n t a je Media 285,1 Desv.Est. 26,83 N 91 AD 0,294 Valor P 0,593 Gráfica de probabilidad de BC547B Normal El fabricante asegura que la ganancia en corriente se encuentra en el margen [200-450]. ¿Qué proporción de la producción cumplirá estas especificaciones? 4. Transformaciones para mejorar la normalidad (Box-Cox) 31ESTADÍSTICA BÁSICA Ejemplo: Aplicación a los datos de tiempo hasta fallo en un sistema informático 14121086420 99,9 99 95 90 80 70 60 50 40 30 20 10 5 1 0,1 tiempo P o rc e n ta je Prueba de bondad del ajuste AD = 0,524 Valor P = 0,177 Gráfica de probabilidad para tiempo Después de la transformación de Box-Cox (lambda = 0,5) Normal 4. Transformaciones para mejorar la normalidad (Box-Cox) 32ESTADÍSTICA BÁSICA El fichero Cardata.txt contiene datos de una muestra de vehículos. La variable Price tiene el precio de dichos vehículos. Asumiendo que esta muestra es representativa del parque automovilístico total, ¿qué porcentaje de vehículos tiene un precio superior a 9000 unidades? Ejercicio 33ESTADÍSTICA BÁSICA El fichero Cardata.txt contiene datos de una muestra de vehículos. La variable Price tiene el precio de dichos vehículos. Asumiendo que esta muestra es representativa del parque automovilístico total, ¿qué porcentaje devehículos tiene un precio superior a 9000 unidades? Ejercicio El histograma presenta una clara asimetría positiva. Además, los tests de bondad de ajuste rechazan la normalidad 34ESTADÍSTICA BÁSICA El fichero Cardata.txt contiene datos de una muestra de vehículos. La variable Price tiene el precio de dichos vehículos. Asumiendo que esta muestra es representativa del parque automovilístico total, ¿qué porcentaje de vehículos tiene un precio superior a 9000 unidades? Ejercicio Para poder usar una normal hacemos la transformación 𝑦 = 𝑥𝜆; 𝜆 < 1 . Para 𝜆 = 0.1, el histograma es bastante simétrico. El test ji-cuadrado así como otros tests de bondad de ajuste nos llevan asumir normalidad con esa transformación (los p-valores son mayores a 0.10). 35ESTADÍSTICA BÁSICA Ejercicio 𝜆 = 0.1 Con la normal ajustada con los datos se obtiene que 𝑌 ∼ 𝑁(2.31; 0.089842). Por tanto 𝑃(𝑋 > 9000) = 𝑃(𝑥0.1 > 90000.1) = 𝑃(𝑦 > 2.49) = 0.025.
Compartir