Logo Studenta

Tema_11_AjustedeDistribuciones_notas_2016_II

¡Este material tiene más páginas!

Vista previa del material en texto

Capítulo 11
Ajuste de Distribuciones
1. Introducción.
2. Métodos grá�cos de bondad de ajuste.
3. Contraste chi-cuadrado de bondad de ajuste.
4. Transformaciones (Box-Cox) que mejoran la normalidad.
0Apuntes realizados por Ismael Sánchez. Todos los derechos reservados.
2 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
11.1. Introducción
Como ya hemos mencionado con anterioridad, la inferencia estadística se ocupa de averiguar (con
margen de error) cómo es la población que ha generado nuestros datos. Hasta ahora, los ejercicios de
inferencia se han limitado a los parámetros de los que depende la población. Por ejemplo, si pensamos
que la población de la que procede nuestra muestra es una exponencial X � Exp(�), hemos aprendido
a estimar su parámetro � tanto de forma puntual como usando intervalos que nos proporcionen una
valoración de la incertidumbre. también hemos aprendido a contrastar una hipótesis sobre el valor de �
basándonos en la muestra. Necesitamos una herramienta de inferencia que vaya más allá, y nos ayude a
inferir cuál es el modelo de probabilidad que sigue la población. Si concluimos que el modelo exponencial
no es apropiado, de nada servirá la inferencia que realicemos sobre su parámetro �: Por tanto, aunque
la inferencia sobre los parámetros y sobre el modelo de probabilidad se expongan en este curso en temas
diferentes, son ejercicios que en la práctica se abordan de forma simultánea.
Exsiten dos opciones principales de abordar la búsqueda de un modelo de probabilidad para la
población. Por una parte está la búsqueda de un modelo de probabilidad que, de forma plausible, haya
podido generar nuestra muestra. En la práctica, la búsqueda de ese modelo consistirá en buscar una fun-
ción matemática adecuada que se adapte a la muestra, y sirva así para ser modelo de la población. Para
ello, lo habitual es elegir alguna función de probabilidad o densidad ya conocida en la literatura estadís-
tica: normal, lognormal, exponencial, Weibull, etc. La segunda opción consiste en transformar los datos
de forma que los datos transformados puedan modelizarse como una distribución normal. Esta segunda
opción se basa en corregir la asimetría que tengan los datos. Por consiguiente, esta segunda opción sólo
resulta de interés si los datos son unimodales. Aparte de estos dos enfoques, existen otros procedimientos
para buscar funciones de densidad o probabilidad, tales como los métodos no paramétricos, pero su mayor
complejidad los aleja del alcance de este capítulo.
Para cualquiera de estas opciones, es necesario un criterio parta decidir si el modelo elegido es adecuado
o no. Esta adecuación de modelo se le suele denominar bondad del ajuste. Hay varios procedimientos
para evaluar la bondad del ajuste. En este tema veremos los métodos grá�cos y los contrastes de hipótesis.
En primer lugar, presentaremos los métodos grá�cos. Para muchas aplicaciones, este tipo de evalu-
ación de la bondad de ajuste puede ser su�ciente. A continuación, expondremos los contrastes de bondad
de ajuste. Explicaremos sólo el detalle del llamado test Chi-cuadrado (o Ji-cuadrado). Todos los con-
trastes111s de bondad de ajuste se basan en realizar el siguiente contraste:
H0 : F (x) = F0(x)
H1 : F (x) 6= F0(x)
donde F (x) es la función de distribución de la población que ha generado la muestra, y F0(x) es el modelo
que se quiere contrastar. La interpretación de estos contrastes es la misma que en el caso de contrastes
de un parámetro: se asume que H0 es cierta salvo que los datos muestren mucha evidencia en contra,
en cuyo caso el p-valor será muy pequeño. Finalmente, expondremos las transformaciones que ayudan a
mejorar la normalidad de los datos, con el �n de ajustar un modelo normal.
11.2. Métodos grá�cos de bondad de ajuste
Estos método se basan en comparar la función de densidad o de distribución del modelo que se propone
con la distribución empírica de los datos. El método más sencillo consiste simplemente en gra�car el
histograma con la función de densidad con parámetros estimados con los datos. La siguientes �guras
muestran el histograma de la variable CO del �chero COitv.sf3. Esta variable contiene la concentración
de monóxido de carbono (CO) de los gases que salen por el tubo de escape de una muestra de vehículos.
El histograma tiene superpuestas la función de densidad de la normal y de la exponencial, con parámetros
11.2. MÉTODOS GRÁFICOS DE BONDAD DE AJUSTE 3
estimados con los datos. La fuerte asimetría de los datos hacen ver que el modelo normal es inadecuado,
y que el exponencial presenta un mejor ajuste.
Para hacer esta representáción, es importante darse cuenta de que el histograma y la función de
densidad tiene unidades diferentes. Aunque no se vea de forma obvia en la �gura, la representación grá�ca
usa dos ejes de ordenadas, uno para el histograma y otro para las densidades. La altura del histograma
�clásico�son proporciones de elementos que hay en cada clase. Si las proporciones son relativas, las alturas
de cada rectángulo del histograma representan probabilidades de pertenecer a cada clase. Sin embargo,
la altura de la función de densidad son densidades. Para poder gra�car ambos con unos mismos ejes de
ordenadas es necesario construir lo que se denomina histograma de densidades, en lugar del histograma
tradicional. El histograma de densidades es un histograma reescalado de tal manera que el área total de
los rectángulos es la unidad, al igual que el área total bajo la curva de la función de densidad. De esa
forma, se pueden mostrar ambos grá�cos en los mismos ejes. Si denominamos ni al número de datos que
hay en la clase i-ésima del histograma, y b al ancho de los rectángulos, la altura hi que deben tener los
rectángulos de base b para formar un histograma de densidades es
hi =
ni
n� b
Una limitación que tienen las representaciones grá�cas basadas en histogramas es que su aspecto puede
cambiar mucho con el número de clases. Para evitar ambigüedades, se emplean también representaciones
grá�cas basadas en la función de distibución empírica. Dada una muestra de datos x1; x2; :::; xn cada uno
tiene una probabilidad de observarse 1=n: Por tanto la función de probabilidad empírica, que denotaremos
por F̂ (x); de la observación xi es
F̂ (xi) =
i
n
: (11.1)
Si queremos comparar esta función empírica con la de un modelo de probabilidad continuo, se suele
emplear otro tipo de expresión similar como, por ejemplo,
F̂ (xi) =
i� 0;5
n
; (11.2)
o
F̂ (xi) =
i
n+ 1
: (11.3)
Este tipo de representaciones alternativas intentar adaptarse mejor a una función continua. Por ejemplo,
con (11.1) se tiene siempre que F̂ (xn) = 1; mientras que muchos modelos de probabilidad continuos
sólo alcanzan ese valor con x = +1: Detalles como éste di�cultaría la comparación entre la distribución
empírica y un modelo de probabilidad. Con las representaciones (11.2) y (11.3) se obtiene siempre que
F̂ (xn) < 1; que es más realista. Existen muchas otras representaciones alternativas a (11.2) y (11.3) para
4 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
obtener una función de distribución empírica que tenga en cuenta que los datos disponibles son sólo una
muestra de una población continua. la siguiente �gura muestra la función de distribucióm empírica de
la variable CO. En este grá�co (Realizado con Statgraphics) se emplea la expresión (11.2). Este grá�co
también recibe el nombre de grá�co de cuantiles. Si seleccionamos en el eje Y un valor de probabilidad,
el eje X nos devuelve dicho cuantil. Por ejemplo, el cuantil 20 es aproximadamente x = 0;1, es decir,
F̂ (0;1) = 0;20:
Figura 1: Grá�co de cuantiles para los
datos de CO
En esta �gura podemos añadir la función de distribución del modelo con el que queramos comparar los
datos, estimando con ellos los parámetros necesarios. La �gura siguiente muestra la función de distribución
empírica con la de la exponencial y la normal.
Esta �gura muestra de nuevo que la normal es una mala opción para modelizar la población de la que
proceden estos datos de concentración de CO. La exponencialparece un buen modelo para valores bajos
de la variable, pero el ajuste es de�ciente para valores mayores.
La comparación de estas funciones de distribución se ve simpli�cada utilizando el llamadp QQ plot o
grá�co cuantil-cuantil. En este grá�co se representa para cada nivel de probabilidad, el cuantil empírico
en el eje Y y el cuantil teórico de acuerdo al modelo seleccionado en el eje X. Si el modelo teórico es
adecuado para representar los datos, los puntos representados aparecerán alineados. Esta representación
alineada es más fácil de entender que las basadas en curvas tupo S como las del grá�co de cuantiles
anterior. La siguiente �gura muestra cómo realizar el grá�co cuantil-cuantil. En la parte de la izquierda
se muestra cómo para cada dato observado xi podemos obtener su función de probabilidad F̂ (xi) = qi:
Por tanto xi es el cuantil qi; es decir, xi = F̂�1(qi) Posteriormente, calculamos el cuantil qi de acuerdo al
11.2. MÉTODOS GRÁFICOS DE BONDAD DE AJUSTE 5
modelo teórico F (x�);es decir, calculamos x�i = F
�1(qi). El grá�co cuantil-cuantil, o QQ plot representa
los pares de puntos (xi; x�i ); i = 1; :::; n.
En este QQ-plot se observa más fácilmente que el modelo exponencial no es tampoco adecuado para
modelizar estos datos. Un caso particular de QQplot son los llamados grá�cos probabilisticos. Un
grá�co probabilístico para un determinado modelo de probabilidad es un grá�co de la función de dis-
tribución empírica como el de la Figura 11.2 en el que el eje Y está deformado de tal manera que los datos
procedentes de dicho modelo de probabilidad aparecen alineados. El aspecto es así similar al
de un QQ-plot pero con los valores xi en el eje X, en lugar de en el eje Y. La siguiente �gura muestra un
grá�co probabilístico normal para los datos de CO, donde se puede apreciar lo poco alñineado que
están los puntos representados, lo que muestra que el modelo normal no es adecuado.
Las �guras siguientes muestran los grá�cos de probabilidad para la variable Duración del �chero
Duracionentreequipos.sf3, que contiene una secuencia de duraciones de transmisiones entre dos equipos.
Se comparan los datos con una distribución denominada Weibull. En ambos grá�cos se aprecia que este
6 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
modelo puede ser adecuado para modelizar estos datos. El ajuste es bastante bueno.
En la práctica, este tipo de grá�cos los haremos siempre con el ordenador.
11.3. Contraste chi-cuadrado de bondad de ajuste
Dado un conjunto de datos x1; :::; xn; obtenidos al extraer una muestra aleatoria simple de una
población, queremos inferir qué distribución sigue dicha población. Es decir, queremos saber si siguen
una distribución normal, o una exponencial o cualquier otro modelo en el que estemos interesados. Para
ello vamos a realizar un test estadístico en el que la hipótesis nula sea que la población sigue el modelo
de probabilidad que se conjetura. El test puede escribirse como
H0 : F (x) = F0(x)
H1 : F (x) 6= F0(x)
donde F (x) es la función de distribución de la población que ha generado la muestra, y F0(x) es el modelo
que se quiere contrastar. La interpretación de estos contrastes es la misma que en el caso de contrastes
de un parámetro: se asume que H0 es cierta salvo que los datos muestren mucha evidencia en contra, en
cuyo caso el p-valor será muy pequeño. Hay muchos procedimientos para hacer ese ejercicio de inferencia.
Uno de los más populares es el llamado test Chi-cuadrado de bondad de ajuste. Este test evalúa
la similitud del histograma de los datos con la función de densidad o de distribución seleccionada. Por
ejemplo, el siguiente histograma muestra el peso de 191 monedas de 100 pesetas recogidas justo antes de
su desaparición y sustitución por el euro (�chero monedas100.sf3 ). El histograma sugiere que el peso de
las monedas de 100 pesetas puede ser una normal. Mejor dicho, que la normal es un modelo de distribución
adecuado para modelizar la distribución de probabilidades de (todas) las monedas de 100 pesetas. En
este caso diremos que los datos se ajustan a la distribución elegida.
11.3. CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE 7
Las medidas características de este conjunto de datos son �x = 9;23; s2 = 0;0075: Estas medidas car-
acterísticas las emplearemos como estimadores de los parámetros poblacionales � y �2: Si superponemos
al histograma anterior la función de densidad de una N(9;23; 0;0075) tenemos el siguiente grá�co.
Lo que vamos a hacer a continuación es una prueba estadística que compare esa curva de la normal
con el histograma. Si hay poca discrepancia entre la probabilidad que dice el modelo y la frecuencia
relativa observada en los datos en todos y cada uno de los intervalos, podremos concluir que es muy
plausible que dicho histograma pueda proceder de la población representada por el modelo. O bien,
que podemos adoptar dicho modelo para representar a la población de la cual proceden nuestros datos.
asumimo entonces que la discrepancia se debe al azar del muestreo. Todas las pruebas de este tipo se
basan en algún tipo de comparación de los datos con el modelo elegido. Si la discrepancia es grande se
rechaza dicho modelo, si la discrepancia no es grande no se rechaza el modelo, y se asume que se debe al
azar del muestreo. La siguiente �gura muestra un conjunto de datos donde la discrepancia con la normal
es mayor que en el ejemplo de las monedas de 100 pesetas. Los datos corresponden al precio de unos
8 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
vehículos (según el �chero cardata.sf ).
A continuación comentaremos brevemente cómo se realiza la prueba de la chi-cuadrado, aunque en
la práctica la haremos siempre con el ordenador. Supondremos que tenemos siempre un mínimo de unos
25 datos, de lo contrario, la prueba es poco �able. Para hacer el contraste chi-cuadrado se siguen los
siguientes pasos:
1. Se hace el histograma, usando más de 5 clases con al menos 3 datos en cada clase.
2. En cada clase del histograma obtenemos la frecuencia (absoluta) observada de individuos, que
denotaremos por Oi , i = 1; 2; :::; k; siendo k el número de clases del histograma.
3. Con los datos estimamos los parámetros del modelo seleccionado, y calculamos con dicho modelo la
probabilidad pi de obtener valores en cada una de las clases del histograma. Llamaremos Ei = npi
a la frecuencia absoluta esperada de acuerdo al modelo seleccionado. La frecuencia esperada debe
ser mayor que 5, en caso contrario conviene usar clases más anchas.
Es recomendable tener aproximadamente el mismo número de datos en cada clase, y que la frecuencia
esperada sea también similar, lo que nos llevaría a realizar un histograma en el que las clases no
tengan el mismo ancho. Los programas informáticos que realizan este test, suelen tener este aspecto
en cuenta. El tener clases de diferente ancho también facilita que la frecuencia observada sea al
menos 3, y la esperada mayor que 5.
4. Calculamos el siguiente estadístico, que será el estadístico de contraste,
X20 =
kX
i=1
(Oi � Ei)2
Ei
:
Este estadístico X20 resume toda la discrepancia entre el histograma y el modelo.
5. Si X20 es un número elevado rechazaríamos el modelo, mientras que en caso contrario aceptaríamos
el modelo como adecuado para representar a la población que genera los datos. Para valorar X20
es necesario alguna referencia que nos diga cuándo es grande y cuándo no. La obtención de esta
referencia se explica a continuación.
La valoración del estadístico X20 se basa en el siguiente resultado:
Si los datos pertenecen a una población que sigue el modelo de probabilidad elegido,
el estadístico X20 será una variable aleatoria que sigue una distribución denominada Chi-
cuadrado, y que se simboliza por �2g; donde g es un parámetro que se denomina grados
11.3. CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE 9
de libertad. Los grados de libertad son g = k � v � 1; donde v es el número de parámetros
que hemos estimado en ese modelo. Por el conrario, si la distribución no es adecuada, el
estadístico X20 no seguirá dicha distribución,y podrá tomar un valor muy grande con mucha
probabilidad
La distribución �2g es una distribución asimétrica de valores positivos. Es una distribución que se
encuentra tabulada en muchos textos de estadística. La siguiente �gura muestra dos ejemplos de dis-
tribuciones �2g; de 5 y 10 grados de libertad respectivamente.
Consideraremos que el modelo no es adecuado para nuestros datos, si X20 está en la zona de la derecha
de la distribución, donde la probabilidad de que la distribución �2g genere valores en esa zona es ya muy
pequeña. Por tanto, si X20 está en la zona de la cola de la derecha, será señal de que el modelo elegido no
es adecuado. La siguiente �gura ilustra esta idea. En esta �gura se muestran dos valores de X20 obtenidos
al proponer dos modelos diferentes, M1 y M2, a un mismo conjunto de datos. El valor de X20 más pequeño
nos llevaría a concluir que el modelo M1 elegido es adecuado, tiene un buen ajuste a los datos; mientras
que el mayor nos llevaría a concluir que el otro modelo, el M2 no se ajusta bien a los datos.
Los programas informáticos proporcionan el área que queda a la derecha de X20 en la distribución de
referencia. Ese área recibe el nombre de p-valor. De esta forma, cuanto menor sea el p-valor, peor
es el modelo elegido para representar a nuestra población, pues indicará que X20 está muy a la derecha
de la distribución. Rechazaremos un modelo si p-valor<�; donde � es el nivel de signi�cación del
contraste. En general, usaremos � = 0;05:Veamos algunos ejemplos.
Ejemplo 1 El �chero monedas100.sf3 contiene el peso de 191 monedas de 100 pesetas. El histograma del
peso de estas monedas se ha mostrado anteriormene, sugiriendo que la curva normal puede ser un buen
10 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
modelo para representar a la población de pesos de esas monedas. Una práctica común en la aplicación
del test de la chi-cuadrado es hacer clases de tal manera que la frecuencia esperada Ei en cada clase
sea la misma. Para ello, las clases deben ser de longitud diferente. De esta manera se evita que algunas
clases tengan pocas observaciones, lo que empeora la �abilidad de esta prueba estadística. Por tanto,
el histograma que nos muestre el programa informático, basado en clases iguales, no coincidirá con el
histograma que utilice para hacer el test. A continuación se muestra el resultado del test que realiza el
Statgraphics (los resultados pueden cambiar según la versión del Statgraphics):
Puede verse que el p-valor es bastante mayor que 0.05. Por tanto, consideramos que la normal es un
modelo adecuado para modelizar los pesos de las monedas de 100 pesetas. No podemos rechazar la hipótesis
nula de que nuestra muestra procede de una distribución normal.
A continuación vamos a intentar ajustar un modelo que sea claramente inadecuado. Si elegimos la
distribución uniforme tenemos la siguiente �gura:
11.4. TRANSFORMACIONES QUE MEJORAN LA NORMALIDAD 11
donde puede verse que el modelo elegido no se ajusta a los datos. El test de la chi-cuadrado que resulta es
que muestra un p-valor=0.0, por lo que resulta evidente que la distribución uniforme no es un modelo
adecuado para este tipo de datos. Es prácticamente imposible que una población uniforme haya generado
una muestra como la nuestra.
Existen muchos test de bondad de ajuste (Anderson-Darling, Kolmogorov-Smirnov, etc). Por ejemplo,
existen tests basados en analizar la linealidad de los grá�cos cuantil-cuantil, o del grá�co probabilístico.
En cualquier caso, la interpretación del p-valor nos permitirá utilizar estos tests aunque no conozcamos
los detalles de su formulación.
11.4. Transformaciones que mejoran la normalidad
Con la diagnosis del modelo podremos fácilmente evaluar si cierto modelo de probabilidad es verosímil
para describir a la población de la que procede nuestra muestra. Por tanto, la verdadera di�cultad que
tendremos en la práctica es encontrar el modelo adecuado. En el caso de variables continuas, es bastante
frecuente encontrar datos con distribuciones unimodales y simétricas a los que se podría ajustar una
normal. También es muy frecuente que la distribución de los datos sean unimodal pero asimétrica, de
forma que no sería razonable ajustar una distribución normal. Una opción en estos casos es transformar los
datos de tal forma que los datos transformados sean unimodales y simétricos. Se intenta entonces ajustar
una normal a los datos transformados. Este tipo de transformaciones se denomina transformaciones de
potencia (o potenciales) o transformaciones Box-Cox (estrictamente, la transformación Box-Cox presenta
una variante respecto a lo que se va a mostrar aquí, aunque es muy usual denominar transformación �del
tipo Box-Cox�a cualquier transformación basada en potencias).
Transformación de datos con asimetría positiva
Si un conjunto de datos unimodales presenta asimetría positiva se puede intentar transformarlo en
otro que sea más simétrico mediante transformaciones del tipo
p
x; log(x); ó xc con c < 1; por ejemplo
c = �1: Este tipo de transformaciones hacen que los números más grandes se reduzcan mucho, mientras
que los más pequeños se reducirán menos. Si, por ejemplo, tuviésemos los datos x :{10, 20, 200, 5000} y
calculamos sus logaritmos (neperianos) tendríamos log(x) ={2.3, 3.0, 5.3, 8.6}, que están más próximos
entre sí que los originales. Vemos así cómo el número 5000 pasa a ser 8.6 tras la transformación, lo que
12 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
implica una reducción importante, mientras que el número 10 pasa a 2.3, que es una reducción mucho
menor.
Con este tipo de transformaciones aplicadas a datos con asimetrías positivas, lo que se consigue es
comprimir la cola de la derecha de la distribución, obteniéndose una distribución más simétrica. Cuanto
mayor sea la asimetría positiva, más �fuerte�debe ser la capacidad transformadora. Esta mayor capaci-
dad transformadora se consigue con valores menores de c; donde la transformación logarítmica log(x)
puede interpretarse como el límite cuando c! 0: Por tanto, la transformación logarítmica es más fuerte
que transformaciones con c > 0; pero menos que transformaciones con c < 0: Las transformaciones más
frecuentes con datos reales son x1=2; log(x) y x�1: El siguiente histograma muestra un ejemplo de dis-
tribución asimétrica positiva que tras una transformación logarítmica se hace más simétrica. La variable
es el precio de los vehículos del �chero cardata.
Transformaciones de datos con asimetría negativa
Si un conjunto de datos unimodales presenta asimetría negativa, su transformación en una distribución
unimodal simétrica se hará mediante las transformaciones xc; con c > 1: En estos casos, lo que se hace
es expandir la parte de la derecha del histograma que compense la cola de la izquierda, y así conseguir
una mayor simetría. La �gura siguiente muestra el histograma de un conjunto de datos de una variable
X con asimetría negativa (�gura (a)). Para mejorar su simetría se hace primeramente la transformación
x1;5 que parece ser insu�ciente (�gura (b)). Finalmente, una transformación más fuerte x2 consigue una
simetría su�ciente (�gura (c)).
xx
(a)
x1,5x1,5
(b)
x2x2
(c)
Si queremos calcular la probabilidad de que P (X > a) y tenemos que Xc � N(�; �2), con c > 0 se
puede hacer el cálculo con el siguiente razonamiento
P (X > a) = P (Xc > acjXc � N(�; �2)):
Por tanto, la probabilidad que buscamos es el área que queda a la derecha de ac en la normal N(�; �2):
Por contra, si c < 0 tendremos
11.4. TRANSFORMACIONES QUE MEJORAN LA NORMALIDAD 13
P (X > a) = P (Xc < acjXc � N(�; �2)): (11.4)
Cuando realizamos transformaciones para mejorar la normalidad de los datos, hay que tener cuidado con
la presencia de valores que hagan las operaciones inviables, como tomar logaritmos de números menores
de 1 o la raíz cuadrada de datos negativos. En esos caso se suma una cantidad a todos los datos de forma
que se pueda tomar logaritmos. También ha de tenerse cuidado con la presencia de datos positivos y
negativos cuando se eleve a una potenciapar, pues al perderse el signo negativo los datos transformados
no guardarán ninguna relación con los originales. De nuevo, en esos caso, se suma una misma cantidad a
todos los datos para que todos sean positivos antes de elevar al cuadrado. La transformación de potencias
queda entonces como
y =
�
(x+m)�; si � 6= 0
ln(x); si � = 0 (11.5)
En el siguiente ejemplo vamos a ajustar en primer lugar una distribución normal a la variable precio,
del �chero cardata.sf. Más arriba se mostró el histograma con la curva normal superpuesta. Dicha curva
normal es la que se obtiene al usar la media muestral y la varianza muestral de los datos. El test de la
chi-cuadrado da el siguiente resultado:
El p-valor es muy pequeño, por lo que se con�rma lo que sugería el histograma con la distribución
normal: la normal no es una buena representación para esta variable: es altamente improbable que una
normal haya generado la muestra. No obstante, vemos que la característica de estos datos es su asimetría
positiva. Podemos intentar alguna transformación que haga la distribución de los datos más simétrica, y
tal vez entonces la variable transformada sí sea normal. A continuación se muestra el resultado de hacer
14 CAPÍTULO 11. AJUSTE DE DISTRIBUCIONES
la transformación
p
X:
Esta transformación ha conseguido una mayor simetría, pero aún se nota una mayor cola hacia la
derecha. El test de la chi-cuadrado aún tiene un p-valor muy pequeño. El ajuste a la normal de
p
X no
es adecuado. Probaremos entonces otra transformación que sea algo más fuerte que la raíz cuadrada. La
�gura siguiente muestra el resultado de aplicar la transformación ln(X):
En esta ocasión, la transformación sí que proporciona un mejor ajuste a la normal. El p-valor es ya
su�cientemente grande. Por tanto podemos considerar que el logaritmo de los precios se ajusta a una
normal. (Esto es equivalente a decir que los precios siguen una distribución lognormal). La estimación de
la media y la varianza de log(X) nos llevan entonces al siguiente modelo de probabilidad para la población
de vehículos de la que procede esta muestra:
log(X) � N(8;36; 0;3862)
Ahora queremos calcular la probabilidad de encontrar, en la población de vehículos, un vehículo que
valga más de 9000 dólares.
P (X > 9000) = P (log(X) > log(9000))
= P (log(X) > 9;11) = 0;026

Continuar navegando

Materiales relacionados

41 pag.
Tema4_VariablesAleatorias_EDB_2016-II

SIN SIGLA

User badge image

Sebastian Sanchez Guerrero

48 pag.
TEMA_2_DescBivariante_Diapositivas_EDB_2016-II

SIN SIGLA

User badge image

Sebastian Sanchez Guerrero

27 pag.
Tema8_InferenciaNormal_EDB_2016-II

SIN SIGLA

User badge image

Sebastian Sanchez Guerrero