Logo Studenta

Distribuição Normal: Definição e Propriedades

¡Este material tiene más páginas!

Vista previa del material en texto

Lectura 12: Distribución normal
Estadística
Diciembre 12, 2014
1. Distribución Normal
Esta distribución es una de las más empleadas en estadística e ingeniería. Una de las
primeras aplicaciones fue en el modelamiento de errores en astronomía desarrollado por
Gauss, quien obtuvo la ecuación de la distribución a partir del estudio repetido de los errores
obtenidos de una misma variable. En homenaje a Karl Friedrich Gauss, también se le conoce
como distribución gaussiana.
Una variable aleatoria con distribución normal tiene un soporte (o dominio) infinito.
Contiene valores negativos y positivos por lo cual también es útil para modelar comporta-
mientos de crecimiento de un periodo con respecto a otro. Por ejemplo, se podría llegar a
concluir que el cambio en el precio de una acción en un dos días consecutivos está distribuido
normalmente.
Definición. Una variable aleatoria continua tiene una distribución normal con parámetros
µ y σ2 si su función de densidad de probabilidad esta dada por
fX (x) =
1√
2πσ
e−
1
2σ2
(x−µ)2 , −∞ < x <∞.
Se dice entonces que X ∼ N (µ, σ2).
1
−1 0 1 2 3 4 5
0.
0
0.
1
0.
2
0.
3
0.
4
x
P
df
Figura 1: Función de densidad para X ∼ N(2, 1).
La pdf de una variable aleatoria normal tiene la forma de campana y se muestra en la Fig.
1. En este caso, se ilustra fX(x) para µ = 2 y σ2 = 1. Observen también que la distribución
normal es simétrica con respecto a la media µ; y además la moda —el valor que maximiza a
fX , coincide con µ. Los parámetros µ y σ definen se conocen como parametros de localizacion
y de forma respectivamente. El centro de la distribucion esta localizado en µ; mientras que
el ancho de la campana se define por σ.
La Fig. 2a muestra dos distribuciones normales en diferentes medias (o localizaciones)
µ1 < µ2 pero con el mismo nivel de dispersion (σ1 = σ2). Observen que solamente la ubicación
de la campana cambia, pero no su forma. Por otro lado, la Fig. 2b muestra dos distribuciones
normales en medias iguales µ1 = µ2 pero con diferente nivel de dispersión (σ1 < σ2). Aqui
ocurre que la ubicacion de las distribuciones es la misma; sin embargo, la forma de ambas
distribuciones cambia drasticamente. De hecho, la distribución con mayor desviación σ2 es
más achatada que la de menor desviación. La razón es que a pesar de que la forma cambie,
2
−4 −2 0 2 4 6
0.
0
0.
1
0.
2
0.
3
0.
4
x
P
df
mu_1
mu_2
(a) µ1 < µ2 y σ1 = σ2
−6 −4 −2 0 2 4 6
0.
0
0.
1
0.
2
0.
3
0.
4
x
P
df
sigma_1
sigma_2
(b) σ1 < σ2 y µ1 = µ2
Figura 2: Diferentes variables normales
3
el area encerrada bajo la curva debe ser 1 porque es un requerimiento de toda función de
densidad de probabilidad.
A pesar de que el area bajo fX es finita, la distribución se extiende para todos los reales.
Es decir, si una variable aleatoria esta distribuida normalmente, significa que esta puede
tomar cualquier valor en < con probabilidad diferente a cero. De hecho, la pdf se acerca
asintóticamente al eje horizontal a medida que x se aleja de su valor medio µ.
Un hecho importante a tener en cuenta es que
∫ ∞
−∞
e−z
2/2dz =
√
2π
Luego, para verificar que el area encerrada por la pdf de la distribucion normal es uno,
debemos plantear la siguiente integral:
∫ ∞
−∞
1√
2πσ
e−
(x−µ)2
2σ2 dx.
Si se realiza el cambio de variable z = (x− µ)/σ y dz = dx/σ, tenemos que
∫ ∞
−∞
1√
2πσ
e−z
2/2σdz =
√
2π√
2π
= 1.
1.1. Media y varianza
Para determinar la media y la varianza, se procede de manera similar al caso anterior.
Finalmente se tiene que
E (X) = µ y Var (X) = σ2.
Por lo tanto, la desviacion estandar SD (X) = σ.
4
−3 −2 −1 0 1 2 3
0.
0
0.
1
0.
2
0.
3
0.
4
x
pd
f o
f X
~
N
(0
,1
)
Figura 3: P (−2 ≤ X ≤ 1) = area sombreada
2. Cálculo de probabilidades
El area encerrada bajo la curva fX es igual a 1 como toda pdf. Sin embargo, calcular
areas o probabilidades entre dos puntos arbitrarios x1 y x2 debe resolverse la integral
P (x1 < X < x2) =
∫ x2
x1
fX (x) dx =
1√
2πσ
∫ x2
x1
e−
1
2σ2
(x−µ)2dx.
Esta es una integral que no tiene solución exacta. Otra desventaja es que su resultado de-
pende de los parámetros µ y σ. Claro que una manera de calcular dichas áreas es mediante un
método numérico que entregue resultados confiables. De todas maneras, esta solución sigue
siendo dependiente de los parametros mencionados, lo cual evidencia la falta de generalidad
de la metodología.
5
Estandarización de una variable aleatoria normal
Un hecho importante en teoría de probabilidad es que una funcion lineal de la forma
Z = aX + b donde X ∼ N(µ, σ2) preserva la normalidad. Es claro que a pesar de que la
distribución sea también normal, su media y desviación si cambian. En este caso,
E(aX + b) =aµ+ b
Var(aX + b) =a2σ2
(1)
Entonces Z ∼ N(aµ+ b, a2σ2).
Este hecho permite entonces que se puedan determinar las constantes a y b de manera
que la distribucion normal de Z no dependa de los parametros µ y σ. Pero, cuál es la utilidad
de hacer esto?
Imaginemos que deseamos calcular P (X < x0) cuando X ∼ N(3, 4). Entonces, realizando
operaciones algebraicas elementales de desigualdades, podemos decir que P (X < x0) =
P (aX + b < ax0 + b) garantizando eso si que a > 0. Si empleamos la transformación
Z = aX + b, la probabilidad solicitada la transformamos como P (Z < ax0 + b). Observen
que esta ultima probabilidad ya no se plantea en el dominio de X, pero si en el de Z. Por
tanto, el valor la integral
P (X < x0) = P (Z < ax0 + b) =
∫ ax0+b
−∞
fZ(z)dz,
Esta transformación sería supremamente útil si logramos hacer que la distribucion de Z no
dependa de los parámetros u y σ, es decir, que E(Z) y Var(Z) sean constantes o números
predefinidos.
Usualmente, los estadísticos y matemáticos han escogido dichas constantes de manera
que Var(Z) = 1 y E(Z) = 0. Para lograrlo, usamos las expresiones (1). Es decir, necesitamos
que a2σ2 = 1, o que a = 1/σ. Además, para obtener E(Z) = 0, se necesita que aµ+ b = 0, o
que b = −µ/σ.
6
Así, la transformación Z = aX + b = 1/σX + (−µ/σ). Dicho de otra manera, la variable
estandarizada Z está dada por:
Z =
X − µ
σ
∼ N (0, 1) .
Este resultado es de absoluta importancia. Con esto, se puede tabular el valor del área
bajo la curva de la nueva pdf de Z y que permite calcular las probabilidades en el dominio
de X mediante la transformacion lineal. La pdf de la variable normal estandarizada Z está
dada por (2):
fZ (z) =
1√
2πσ
e−
1
2
(z)2 (2)
A la cdf de Z se le asigna el nombre de Φ(z), que se describe en (3) a continuación:
P (Z ≤ z) = Φ (z) =
∫ z
−∞
1√
2πσ
e−
1
2
(z)2dz (3)
Como se mencionó anteriormente, Φ(z) se resuelve numéricamente y generalmente los libros
de estadística proveen de tablas que entregan dicho valor. Nosotros también podemos hacer
uso del software R para estos propósitos.
Por lo tanto, para determinar P (X < x0), nos resulta más fácil determinar entonces
P (Z < (x0 − µ)/σ) = Φ((x0 − µ)/σ).
A manera de ejemplo, suponga que tenemos una variable aleatoria X ∼ N(3, 4), es decir,
µ = 3 y σ2 = 4. Si queremos determinar P (X < 1), que está representada por el área
sombreada en la gráfica del lado izquierdo de la Fig. 4. Entonces, procedemos entonces a
determinar el area equivalente en la pdf de la variable estandarizada Z.
Usando la fórmula, tenemos entonces que P (X < 1) = P (Z < (1−3)/2) = P (Z < −1) =
Φ(−1), la cual está representada por el área sombreada en la gráfica del lado derecho de la
Fig. 4
La tabla mostrada en el apendice presenta Φ(z) = P (Z < z) para 0 ≤ z ≤ 3,99. A la tabla
7
−2 0 2 4 6 8
0.
00
0.
05
0.
10
0.
15
0.
20
pdf de X~N(3,4)
x
de
ns
id
ad
−3 −2 −1 0 1 2 3
0.
0
0.
1
0.
2
0.
3
0.
4
pdf de Z~N(0,1)
z
de
ns
id
ad
Figura 4: Estandarización de una variable normal
se entra con el valor de z y se lee la probabilidad acumulada. Cómo proceder entonces cuando
z < 0?. El procedimiento es muy sencillo, lo que debemos hacer es aprovechar la simetría de la
distribución. En nuestro ejemplo debemos determinar P (Z < −1) =P (Z > 1) = 1−P (Z <
1) = 1− φ(1). Y de la tabla tenemos que Φ(1) = 0.8413. Luego P (Z < −1) = 1− 0,8413 =
0.1587.
En R, usamos simplemente el comando pnorm(1,3,2) para P (X < 1) cuando X ∼
N(3, 4). Y el comando pnorm(-1,0,1) para P (Z < −1) cuando Z ∼ N(0, 1), o simplemente
pnorm(-1). En todos los casos, R entrega el resultado 0.1586553.
Ejemplo 1. (Problema 6.5 de [1]). Dada una distribución normal estandar, encuentre el area
bajo la curva
(a) a la izquierda de z = -1.39;
(b) a la derecha de z = 1.96;
(c) entre z = -2.16 y z = -0.65;
8
(d) a la izquierda de z = 1.43;
(e) a la derecha de z = -0.89;
(f) entre z = -0.48 y z = 1.74.
Ejemplo 2. (Problema 6.7 de [1]). Dada una distribución normal estandar, encuentre el
valor de k tal que
(a) P (Z > k) = 0.2946;
(b) P (Z < k) = 0.0427;
(c) P (−0,93 < Z < k) = 0.7235.
Ejemplo 3. (Ejemplo 6.6 de [1]). Dada una distribución normal con µ = 40 y σ = 60,
encuentre el valor de x que tiene
(a) 45% del área a la izquierda y
(b) 14% del área a la derecha.
Ejemplo 4. (Problema 6.15 de [1]). Un abogado conmuta diariamente desde su casa hasta
su oficina. El tiempo promedio para desplazarse es 24 minutos, con una desviación estandar
de 3.8 minutos. Asuma que la distribución de los tiempos de viaje es normal.
(a) Cuál es la probabilidad de que un viaje tome más de 1/2 hora?
(b) Si la oficina abre a las 9:00 A.M. y el abogado parte de su casa a las 8:45 A.M. diaria-
mente, qué porcentaje de las veces llega tarde al trabajo?
(c) Si él parte de su casa a las 8:35 A.M. y el café lo sirven de 8:50 A.M. a 9:00 A.M. en la
oficina, cual es la probabilidad de que él no alcance el café?
(d) Encuentre la longitud de tiempo por encima del cual encontramos el 15% más lento de
los viajes.
9
(e) Encuentre la probabilidad de que 2 de los 3 próximos viajes tomará por lo menos 1/2
hora.
10
Apéndice: Cálculo de Φ(z)
Distribución de probabilidad acumulada
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Referencias
[1] Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, and Keying Ye. Probability &
statistics for engineers & scientists, 9th ed. Pearson, 2011.
12

Otros materiales

Materiales relacionados