Logo Studenta

Teoria6_e_VARIABLES ALEATORIAS DISCRETAS_2016 - Guadalupe Montes Martin

¡Este material tiene más páginas!

Vista previa del material en texto

APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 1 
 
VARIABLES ALEATORIAS UNIDIMENSIONALES (NOVIEMBRE 2014) 
 Al describir el espacio muestral de un experimento no especificamos que un resultado individual (punto 
muestral) necesariamente tiene que ser un número. De hecho hemos citado varios ejemplos en los cuales el 
resultado del experimento no fue una cantidad numérica. 
 Por ejemplo al clasificar un artículo manufacturado podíamos usar las categorías “defectuoso” y “no 
defectuoso”. En otro caso, para observar la temperatura en un período de 24 horas solo podíamos mantener un 
registro de la curva trazada por un termógrafo. En muchas situaciones experimentales vamos a interesarnos en 
medir algo y anotarlo como un número. Aún en los casos antes citados, podremos asignar un número a cada uno 
de los resultados (no numéricos) del experimento. Por ejemplo, pudimos asignar el valor 1 a artículos no 
defectuosos y el valor 0 a los defectuosos, así como anotar la temperatura máxima o mínima del día, o el 
promedio de las temperaturas máxima y mínima. 
Aun cuando los resultados sean numéricos podríamos estar interesados en evaluar conjuntos que no 
son sucesos. 
Ejemplo 1: Suponga que se utilizarán componentes electrónicas en el ensamble de un equipo destinado para 
una nave espacial. Este equipo debe operar durante 3 años aproximadamente. El contratista ha acordado con el 
proveedor de estas componentes para ensayar una sola unidad. Si el tiempo de vida de este componente excede 
los 3 años, él comprará la totalidad de la producción. En caso contrario, no aceptará las componentes. En este 
ejemplo el contratista está dividiendo el espacio muestral en dos sucesos disjuntos A y B. 
A= {x / x R y x ≤ 3 } B = {x / x R y x > 3 } 
Si el resultado real del experimento está en B, se comprarán los componentes, si está en A no se comprarán. 
Por otro lado es concebible que el contratista no quiera tomar una decisión con base en la ocurrencia o no de un 
suceso en el espacio muestral. Por ejemplo supongamos que el contratista ha dispuesto con el proveedor que se 
prueben dos o más componentes del lote. Suponga además que han convenido que si el tiempo de promedio de 
vida de los dos componentes excede los 3 años, el contratista comprará la totalidad de la producción. Si no 
excede los 3 años, no aceptará las componentes. 
Observemos que el tiempo promedio de vida de 2 componentes NO es un suceso en el espacio muestral 
(tampoco es un punto muestral), entonces el contratista no puede basar su decisión en la observación directa 
del resultado del experimento. En cambio el toma su decisión usando una regla que asigna a cada punto del 
espacio muestral un valor numérico obtenido al promediar los tiempos de vida de los dos componentes x1 y x2, 
respectivamente, asociados con ese punto muestral s. 
Es decir, para cada s= (x1, x2) en S, se calcula 
X(s) = 
 
 
 
El conjunto de los valores resultantes de X se divide en dos grupos: aquellos valores del promedio que son 
mayores que 3 años y aquellos inferiores o iguales a 3 años. Si el valor real del promedio obtenido del 
experimento particular realizado está en el primer grupo, se compra el lote. En caso contrario no se acepta. 
La regla, que en el ejemplo anterior asignó a cada punto del espacio muestral un valor numérico (obtenido al 
promediar x1 y x2) recibe el nombre de variable aleatoria. Puesto que una “regla” no es más que una función en 
sentido matemático, una definición formal sería la siguiente. 
Definición: Considérese un experimento aleatorio cuyo espacio muestral es S. Una función que asigna un número 
real X(s) a cada resultado posible s ∈ S, recibe el nombre de variable aleatoria. 
 
 
 
 
 
Las variables aleatorias (v.a.) se indican por letras mayúsculas X, Y, W, … y los valores que toman las variables 
se indican con letras minúsculas x, y, w, …. 
El conjunto de valores posibles de una variable aleatoria X, recibe el nombre de Recorrido de la v.a. X. 
Ejemplo 2: Consideremos el experimento en el que se lanza una moneda tres veces y nos interesa el espacio muestral S es 
el conjunto de resultados consistentes en las ocho sucesiones posibles distintas de caras y sellos: 
 
S = { C C C, C C S, C S C, C S S, S C C, S C S, S S C, S S S } 
 
 s 
S 
R 
 
X(s) 
 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 2 
 
 
Como vemos los resultados de este experimento aleatorio no son números; vamos a definir una variable aleatoria para 
asociar un número a cada uno de estos resultados. 
Sea la variable aleatoria X que cuenta el “número de caras obtenidas en los tres lanzamientos”. 
Entonces para cada punto muestral s, X asigna el número de caras que corresponden al punto muestral. 
 
s C C C C C S C S C C S S S C C S C S S S C S S S 
 X ( s ) 3 2 2 1 2 1 1 0 
En este caso el conjunto de valores posibles es Rec X = { 0, 1, 2, 3 } 
A veces las variables aleatorias (v.a.) están ya implícitas en los puntos muestrales ( o sea son números reales). 
Ejemplo: Experiencia consistente en medir la presión sistólica de 100 individuos. Un punto muestral (resultado de un 
experimento) es ya un número (presión sistólica). La v.a. está implícita. 
DISTRIBUCIÓN DE PROBABILIDADES EN S 
Cuando se ha especificado una distribución de probabilidad en el espacio muestral S, de un experimento, se 
puede determinar una distribución de probabilidad para los valores posibles de cualquier variable aleatoria 
asociada a S. Es decir, si se pueden asociar probabilidades a los sucesos asociados a S entonces se pueden 
asociar probabilidades a los posibles valores de cualquier variable aleatoria. 
Sea A cualquier subconjunto de la recta real y sea P(X(s)  A) la probabilidad de que el valor de X(s) pertenezca 
al subconjunto A. 
Encontramos conveniente suprimir la naturaleza funcional de X. Por lo tanto escribiremos P (X  A ) en lugar 
de P(X(s)  A). 
Entonces P(X A) es igual a la probabilidad de que el resultado s del experimento aleatorio sea tal que X(s) ∈ A. 
En símbolos 
 P(X A) = P( {s / X(s) ∈ A}) 
Al analizar en detalle muchos de los conceptos importantes asociados con variables aleatorias encontramos 
conveniente distinguir dos casos importantes: variables aleatorias discretas y continuas. 
VARIABLES ALEATORIAS DISCRETAS 
Definición: Sea X una variable aleatoria. Llamamos a X una variable aleatoria discreta si el número de 
valores posibles de X - es decir el Recorrido de X - es finito o infinito numerable. Es decir si X puede tomar un 
número finito k de valores distintos x1, x2, ... ,xk o a lo sumo una sucesión infinita de valores distintos x1, x2, ....La 
variable aleatoria del ejemplo 2 es discreta, su conjunto de valores posibles es finito, Rec X = { 0, 1, 2, 3 } 
En vista de nuestros comentarios previos sobre la descripción probabilística de sucesos con un número finito o 
infinito numerable de elementos, la descripción probabilística de una variable aleatoria discreta no causará 
ninguna dificultad. Procederemos como se indica a continuación. 
Sea X una variable aleatoria discreta. Con c ada resultado posible asociamos un número llamado 
pX (xi ) = P (X = xi), llamado probabilidad de xi . El conjunto de pares ordenados ( xi , pX (xi)) se llama 
distribución de probabilidades de X o función de probabilidad o función de masa de la variable aleatoria X . 
Los subíndices pueden obviarse; con ello se pone en evidencia que los valores posibles de una v.a. 
discreta es un conjunto finito o infinito numerable. 
Definición: El conjunto de pares ordenados ( xi , pX (xi)) es una función de probabilidad, una función de masa 
o una distribución de probabilidad de la variable aleatoria discreta X, si para cada resultado posiblex, X . Los 
números pX (xi ) , i = 1, 2, ... deben satisfacer las condiciones siguientes: 
 a) pX (xi )  0 para toda i 
 b) 1)x(p o 1)x(p
ilostodossobre
iX
1i
iX  


 
 c) P (X = xi) pX (xi ) 
Si X tiene una distribución de probabilidad discreta, se puede determinar la probabilidad de cualquier 
subconjunto A de la recta real 
P(X A) = 
Ax
iX
i
)x(p 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 3 
 
Ejemplo: Distribución de probabilidades de la v.a. del ejemplo 2 
 x 0 1 2 3 
 pX (x ) 1/8 3/8 3/8 1/8 
P (X = 0) = P ( {SSS} ) = 1/23 = 1/8 
P (X = 1) = P ( {CSS, SCS, SSC} ) = 3/8 , tres de los ocho puntos muestrales resultan en 1 cara y dos sellos. 
Podemos graficar una distribución de probabilidad de una v.a. discreta de la siguiente manera: 
 
 
 
 ¿Por qué función de masa de la variable aleatoria X? 
 Podemos observar que hay una analogía con la mecánica, al considerar una masa total unitaria 
distribuida sobre la recta real con la masa completa ubicada en los puntos x1, x2, ... Los números pX (xi ) 
representan la cantidad de masa ubicada en xi . 
FUNCIÓN DE DISTRIBUCIÓN ACUMULADA (FDA) DE UNA VARIABLE ALEATORIA 
La FDA, función de distribución acumulada FX(x) para una v.a. X se define de la siguiente manera 
FX(a) = P( X ≤ a) para todo a € R 
Para una variable aleatoria discreta, la FDA en “a” es la suma acumulada de pX(x) desde el valor x más pequeño 
que X puede asumir hasta el valor “a”, esto es 
FX(a) = P( X ≤ a) = )x(p
ax
iX
i


 
Por ejemplo, para la v.a. X que tiene la distribución de probabilidad que se indica, la FDA que se muestra es una 
función escalonada. Observemos que los saltos en los puntos 2, 3 y 4 son las probabilidades respectivas. 
 
xi 2 3 4 
pX(xi) 0,2 0,5 0,3 
 
 
 
 
 
 
 
 
 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 4 
DISTRIBUCION UNIFORME SOBRE Z 
Si la variable aleatoria X asume los valores 1, 2, 3, … , k con probabilidades iguales, entonces la función 
de probabilidad de X es la siguiente 
 
 
 
 
 
 
Esta distribución discreta se denomina “Distribución Uniforme sobre los Enteros 1, 2, 3, …, k”. 
En lugar de la notación pX (x) se usa también la notación pX(x; k) para indicar que la distribución uniforme 
depende del parámetro k. 
pX(x) es una función de probabilidad, pues se verifica que 
a) pX (x) = 1/k  0 para toda x = 1, 2, …, k 
b) 
 
 
 
 
 
X representa el resultado de un experimento que a menudo se describe diciendo: “se selecciona al azar 
uno de los enteros 1, 2, …, k”. En este contexto, la frase “al azar” significa que los k enteros tienen la misma 
probabilidad de ser seleccionados. En este mismo sentido, no es posible seleccionar un entero al azar del 
conjunto de TODOS los enteros positivos, porque no es posible asignar la misma probabilidad a c/u de los 
enteros positivos y que la suma de estas probabilidades siga siendo igual a 1. En otras palabras, no es 
posible asignar una distribución uniforme a una sucesión infinita de valores posibles, pero se puede 
asignar una distribución de este tipo a cualquier sucesión finita; es decir: 
 Si la variable aleatoria X asume los valores x1, x2, …, xk con iguales probabilidades, entonces la 
función de probabilidad es la siguiente, 
 
 
 
 
 
 
y se dice que tiene una “DISTRIBUCIÓN DISCRETA UNIFORME” 
Ejemplo: SORTEO AL AZAR- Se elige “al azar”un alumno entre 10. 
X ”Número del alumno seleccionado” Rec X = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} 
 
x pX (x) 
1 1/10 
2 1/10 
3 1/10 
4 1/10 
5 1/10 
6 1/10 
7 1/10 
8 1/10 
9 1/10 
10 1/10 
 1 
 
GRAFICA DE LA DISTRIBUCION DE PROBABILIDAD DE 
UNA DISTRIBUCION UNIFORME SOBRE LOS ENTEROS 
 
Determinar analítica y gráficamente F(x) la función de distribución acumulada (FDA). 
EXPERIENCIAS DICOTOMICAS 
Si S es el espacio muestral y sean A y AC una 
“partición” de S en dos sucesos mutuamente 
excluyentes. Si al realizar el experimento s ϵ A o 
s ϵ AC estamos frente a una experiencia 
dicotómica, donde solo hay dos resultados 
posibles. 
 A 
 AC 
 S 
 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 5 
Por ejemplo al tirar una moneda hay dos resultados posibles “cara” o “sello”, al calificar un artículo fabricado por 
una máquina los resultados son “defectuoso” o “no defectuoso”, etc. 
Llamamos ÉXITO a la ocurrencia de A y FRACASO a la ocurrencia de AC 
Definamos una variable aleatoria de la siguiente manera: 
X cuenta el “número de Éxitos en un ensayo”. 
Es decir, si al realizar el experimento una vez: 
s ϵ A entonces X(s) = 1 
s ϵ AC entonces X(s) = O 
P (X = 1) = P(A) = P(EXITO en una prueba) y la llamamos p (algunos autores la llaman π) y puede ser 
cualquier número de 0 a 1. 
P (X = 0) = P(AC) = P(FRACASO en una prueba) y será igual a 1 – p. 
 
x pX (x) 
0 1-p 
1 p 
 1 
pX(x) es una función de probabilidad, pues se 
verifica que 
a) pX (x)  0 para todo x 
b) pX (0) + pX (1)= (1-p) + p = 1 
 
 
 
 
 Se dice que X tiene una DISTRIBUCIÓN BERNOULLI o que X es una VARIABLE BERNOULLÍ con 
parámetro p. Cada prueba se llama prueba Bernoullí. 
Llamando q = 1 – p, podemos escribir 
pX(x; p) = px q1-x si x = 0, 1 
pX(x; p) = 0 en otro caso 
Es decir que reducimos los resultados de experiencias dicotómicos a números, ellos se pueden contar y 
medir. 
Lo único que tenemos que conocer es cuánto vale p (o π). 
Construir la función de distribución acumulada F(x) analítica y gráficamente. 
Ejemplo: Se extrae una bolilla de una urna que contiene 5 bolillas rojas, 8 negras Y 2 AZULES. 
Definimos ÉXITO si sale roja y FRACASO si no sale roja. 
Entonces X “ Número de bolillas rojas (éxitos) en una 
extracción”. 
Obviamente los valores posibles de X serán 0 o 1 
p = P (X = 1) = P(ROJA) = 5/15 = 1/3 
x pX (x) 
0 2/3 
1 1/3 
 1 
 
DISTRIBUCION GEOMÉTRICA 
Ejemplo: ¿Cuántas tiradas hacen falta en la ruleta para que salga el número 28? 
Definamos la v.a. H que cuenta “el número de repeticiones hasta la ocurrencia del 28” 
Rec H = { 1, 2, 3, …, 100, … } 
Decimos que “en una jugada se ha presentado un ÉXITO si sale 28 y ha ocurrido un FRACASO si no 
sale 28”. 
P(H = a) = P( {s / X(s) = a}); esto es 
P(H=1) = P(E1) = 1/37 
P(H=2) = P( {F1E2})= (36/37)∙(1/37) 
P(H=3) = P( {F1F2E3})= (36/37)2 ∙(1/37) 
P(H=10) = (36/37)9 ∙(1/37) 
P(H= 20) = (36/37)19 ∙(1/37) 
P(H=40) = (36/37)39 ∙(1/37) 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 6 
El subíndice indica el N° de prueba, esto es : F1 indica que en la 1ª prueba se presentó fracaso, F2 indica 
que en la 2ª prueba se presentó fracaso y E3 que en la 3ª prueba se presentó el 1er éxito, o sea 28 
En general, la probabilidad que se necesiten a pruebas para obtener el 1er éxito será : 
pH (a) = P(H = a) = P( {F1F2F3…Fa-1Ea}) = (36/37)a-1∙ (1/37) si a = 1, 2, 3, … 
Esta fórmula representa todas las probabilidades de la v.a. H 
Puesto que indica la probabilidad de la intersección de los sucesos F1 ∩ F2 ∩ F3 ∩ … ∩ Fa-1 ∩Ea , y dado 
que dichos sucesos son independientes, 
P(F1 ∩ F2 ∩ F3 ∩ … ∩ Fa-1 ∩ Ea ) = P(F1)∙P(F2)∙ P(F3)∙… ∙P(Fa-1)∙P(Ea) = (36/37)a-1∙ (1/37) 
Pues p = P(Éxito en una prueba) = 1/37 y q = P(Fracaso en una prueba) = 36/37 
Se dice que H tiene una distribución geométrica con parámetro p = 1/37 
 
En general: Si pruebas independientes repetidas pueden tener comoresultado un éxito con 
probabilidad p y un fracaso con probabilidad q = 1 – p, entonces la distribución de probabilidad de la 
variable aleatoria X, el número de pruebas necesarias para que ocurra el primer éxito, es 
pX (x; p) = P(X = x) = qx - 1∙p si x = 1, 2, 3,… 
Es una función de masa pues 
a) pX (x; p) = qx - 1∙p > 0 si x = 1, 2, 3,… 
b) 
 
 
 
 p 
 = p 
 = p 
 
 
 
 
 
 
 
serie geométrica que converge pues q<1 
DISTRIBUCIÓN BINOMIAL NEGATIVA 
Es una generalización de la distribución geométrica. Aquí la variable aleatoria X es el número de ensayos 
o pruebas Bernoullí independientes, necesario para obtener r éxitos. 
Si pruebas independientes repetidas pueden tener como resultado un éxito con probabilidad “p” y un 
fracaso con probabilidad q = 1 – p, entonces la distribución de probabilidad de la variable aleatoria 
X, el número de pruebas necesarias para que ocurran r éxito, es 
 
 
 
 
 
0,000 
0,005 
0,010 
0,015 
0,020 
0,025 
0,030 
0 5 10 15 20 25 30 35 40 45 50 55 60 
p
(x
))
 
Función de Masa p(x) de una Distribución Geométrica 
Parámetro p = 1/37 
x 
1/37 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 7 
 
EL VALOR ESPERADO DE UNA VARIABLE ALEATORIA 
Definición: Sea X una variable aleatoria discreta con valores posibles x1, x2, …xn, … y sea pX(xi) = P( X=xi ), i = 1, 2, …,n. 
Entonces el Valor Esperado de X (o media de X o esperanza matemática de X), que se denota con E(X), se define como 
E ( X ) = )(xpx
 xlos todossobre
iXi 
Observación: Debemos observar la analogía entre el valor esperado de una variable aleatoria y el concepto de “centro de 
masa” en mecánica. Si una masa unitaria está distribuida a lo largo de la recta en los puntos discretos x1, x2, …xn, … y si 
pX(xi) es la masa en xi , entonces vemos que el valor esperado )(xpx
 xlos todossobre
iXi representa el centro de masa 
(respecto al origen). 
a) Para una variable Bernoullí X que tiene la siguiente distribución de probabilidad 
x 0 1 
pX(x) 1 - p p 
E (X) = 0 (1-p) + 1 p = p 
b) Para una variable X con distribución uniforme sobre los enteros Z con parámetro k 
pX(x) = 1/k si x = 1, 2, 3, …, k 
 = 0 en otro caso 
E(X) = 
2
k)(1 
 
2
k
k)(1
1
 k)...32(1
1
 
1
k...
1
3
1
 2 
1
1


kkkkkk
 
E(X) = 
2
k)(1 
 

 
c) Si X tiene distribución geométrica con parámetro p; X ~ Geométrica (p) 
pX(x) = (1 – p) x-1 p si x = 1, 2, 3, … 
 = 0 en otro caso 
E(X) = xp(x)
x
 
 = ppx
x
x




1
1)1( = 


 
1
1)1(
x
xpxp 





11
)1()1()1(
x
x
x
x p
dp
d
pp
dp
d
p 
= 



0
0)1()1(
x
x pp
dp
d
p 







 1
)1(1
1
pdp
d
p 
 E(X) = 
p
1
 
LA VARIANZA DE UNA VARIABLE ALEATORIA 
La esperanza matemática de una variable aleatoria es de especial importancia en estadística debeido a que determina el 
lugar donde se concentra la distribución de probabilidad. No obstante la E(X) no proporciona una descripción adecuada de 
la forma de la distribución de probabilidad. Necesitamos una medida de variabilidad de la variable aleatoria. La más 
importante se llama Varianza de la v.a. 
Definición: Sea X una variable aleatoria discreta con función de masa pX(xi) y valor esperado E(X). La varianza de X se 
define como el promedio ponderado de las diferencias, elevadas al cuadrado, entre cada resultado posible y su valor 
esperado, siendo las “ponderaciones” la probabilidad de cada uno de los resultados posibles. 
Entonces la Varianza de X, que se denota con Var(X) o V(X) o σX2, se define como 
V ( X ) = E [ X – E(X)] 2 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 8 
V ( X ) =   )(xp)(x
 xlos todossobre
iX
2
i  XE 
Se define la Desviación Estándar de X como la raíz cuadrada positiva de la varianza de X. 
Desv Est (X) = σX=   )(xp)(x
 xlos todossobre
iX
2
i  XE 
a) Para una variable Bernoullí X, vimos que E(X) = p, luego 
V (X) = (0- p)2 (1-p) + (1 – p)2 p = p2 (1-p) + (1 – p)2 p = p (1-p) [p + (1 – p)] 
V (X) = p (1-p) 
Desv Est (X) = )1( pp  
Teorema: 
V ( X ) =   
i
2
iX
2
i )()(xpx XE 
Demostración: 
V ( X ) =       )(xp)()(x2x )(xp)(x
i
iX
2
i
2
i
i
iX
2
i XEXEXE 
22
i
iX
2
i
i
iX
2
i
iXi
i
iX
2
i
)( )(2 - )(xpx
 )(xp)( )(xpx)(2 - )(xpx
XEXE
XEXE




 
=   
i
2
iX
2
i )()(xpx XE 
b) Para una variable X con distribución uniforme sobre los enteros Z con parámetro k y esperanza E(X) =
2
k)(1 
 

, 
calculamos la varianza usando el teorema anterior 
V ( X ) =   
i
2
iX
2
i )()(xpx XE 
 = 






 

k
x
k
k0
2
2
2
11
x 
 
V(X) = 
2
k1 
 
6
1)k)(2kk(11
 
2
k1 
 -)k...32(1
1
 
1
k...
1
3
1
 2 
1
1
22
22222222





 







 

kkkkkk
 
V(X) = 
12
1)-(k 
 
2
 
DISTRIBUCION BINOMIAL 
El experimento sobre cuyo espacio muestral se define una variable aleatoria con distribución binomial se llama 
PROCESO DE BERNOULLI y debe tener las siguientes propiedades: 
1º) El experimento consiste en n pruebas (ensayos ó intentos) repetidas. 
2º) Cada prueba tiene dos resultados posibles (ÉXITO y FRACASO). 
3º) La probabilidad de tener ÉXITO en una prueba es igual a algún valor “p”y permanece constante de una prueba a otra. 
La probabilidad de un fracaso es igual a q = 1 – p. 
4º) Las pruebas son independientes. El resultado (es decir, el ÉXITO ó FRACASO) de cualquier prueba es independiente 
del resultado de cualquier otra prueba. 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 9 
El experimento caracterizado por 1º), 2º), 3º) y 4º) se llama “Proceso de Bernoullí” y cada prueba “Prueba de Bernoullí” 
(ó tipo Bernoullí). 
 La variable aleatoria X que es igual al número de éxitos en “n” pruebas de Bernoullí” recibe el nombre de 
VARIABLE ALEATORIA BINOMIAL con parámetros n y p y sus valores de probabilidad se representan por pX(x ; n, p) [ó 
b(x ; n, p) ]dado que estos dependen de n (número de pruebas) y de p (probabilidad de éxito en una prueba determinada). 
 La función de probabilidad de X es 
 pX(x ; n, p) = n ..., 2, 1, 0, x,p)-(1p 
x
n x-nx 





 ; pX(x ; n, p) = 0 en otro caso 
También se expresa pX(x ; n, p) = n ..., 2, 1, 0, x,qp 
x
n x-nx 





 con q = 1 - p 
Este modelo se aplica a poblaciones finitas de las que tomamos elementos al azar con reemplazamiento, y también a 
poblaciones conceptualmente infinitas, como las piezas que producirá una máquina, siempre que el proceso generador sea 
estable (proporción de piezas defectuosas constante a largo plazo) y sin memoria (el resultado en cada momento es 
independiente de lo previamente ocurrido). 
 
Ejemplo: Supongamos que tenemos una urna con bolillas rojas en proporción “p”. Se extrae una al azar, se anota el color y 
se la vuelve a poner en la urna, se mezcla bien, se extrae otra y así hasta tener registrado el color de n bolillas. 
Tenemos aquí un experimento de Bernoullí (formado por n pruebas independientes). 
Decimos que en una prueba tenemos ÉXITO si se presenta una bolilla roja, y FRACASO si no se presenta una bolilla roja. 
P(ÉXITO) = p, permanece constante para las n pruebas (ó repeticiones ó ensayos). 
Definamos X como la variable aleatoria que cuenta el número de bolillas rojas en las n extracciones; esto es número de 
éxitos en n pruebas de Bernoullí. 
Queremos determinar la probabilidad de obtener k bolillas rojas en las n extracciones si la P(éxito en una extracción) = p 
es constante. En otros términos queremos determinar P (X=k), la probabilidad de que se presenten k éxitos en las n 
pruebas. 
Supongamos un caso concreto con n=3; luego RX = {0, 1, 2, 3} 
X=0 P(X=0)= P({FFF}) = (1-p) (1-p) (1-p) = (1-p)3 = 
0
3






(1-p)3 
X=1 P(X=1)= P({EFF, FEF, FFE}) = 3 p(1-p)2 = 
1
3






 p(1-p)2 ; pues P({EFF}) = P({FEF} = P({FFE}) = p(1-p)2 
X=2 P(X=2)= P({EEF, FEE, EFE}) = 3 p2 (1-p) = 
2
3






 p2 (1-p) ; pues P({EEF}) = P({FEE} = P({EFE}) = p2 (1-p) 
X=3 P(X=3)= P({EEE}) = p p p = p3 = 
3
3






 p3 , 
Luego P(X= k)= 
k
3






 pk (1-p) 3- k si x = 0, 1, 2, 3 ; teniendo en cuenta que 
0
3






= 
3
3






= 1 
En el caso general de n pruebas de Bernoullí ¿cuántas sucesiones hay con k éxitos y n-k fracasos? 
La probabilidad de obtener cualquier sucesión con k éxitos y n-k fracasos será pk (1-p)n- k pues si los k éxitos aparecen en 
las k primeras pruebas, esto es E E E ...EFF...F (los k éxitos se presentan en las k primeras pruebas y los n-k fracasos al 
final). 
 
 1ª prueba 2ª prueba ... k-ésima prueba K+1ésima prueba ... n-ésima prueba 
P( 
 
E E ... E F ... F ) = 
 
 
P(E) P(E) ... P(E) P(F) ... P(F) = 
 
 
p p ... p 1 - p ... 1 - p = pk (1 – p)n - k 
¿Cuántas sucesiones habrá con k éxitos y n – k fracasos? Tantas como maneras de ubicar los k éxitos en los n lugares; es 
decir tantas como el número de maneras de seleccionar entre las n posiciones, las k posiciones para los k éxitos; y esto es 
el número de combinaciones de n objetos tomados de k en k: 
k
n






 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 10 
Luego pX (k; n, p) = n ..., 2, 1, 0, k ,p)-(1 
k
n k-n 




 kp 
 = 0 en otro caso 
 
ESPERANZA Y VARIANZA DE UNA VARIABLE ALEATORIA BINOMIAL 
Si X es una variable binomial con parámetros n y p, es decir basada en n pruebas independientes y probabilidad de éxito 
p, entonces 
 E(X) = n p y Var(X) = n p q 
Demostración 
De acuerdo con las definición de valor esperado de una variable aleatoria 
E(X) = xp(x)
x
 = 






n
0x
x-nx qp 
x
n
x 
Observe que el primer término es 0, de ahí que 
E(X) = 
 




n
1x
x-nx
n
1x
x-nx
n
1x
x-nx qp 
)!xn()!1x(
!n
qp 
)!xn()!1x(x
!n
xqp 
)!xn(!x
!n
x 
La última expresión se parece mucho al teorema del Binomio de Newton. De hecho, si sacamos factor común np de cada 
término de la suma resulta 
 
















n
1x
1)-(x-1-n1x
n
1x
x-n1x
n
1x
x-n1x qp 
!)1x(1n)!1x(
)!1n(
npqp 
)!xn()!1x(
)!1n(
npqpp 
)!xn()!1x(
)!1n(n
)X(E
 
Haciendo y = x – 1 
y-1-ny
1n
1x
1n
0y
y-1-ny qp
y
1n
npqp 
)!y1n(!y
)!1n(
np)X(E 









 



 = n p (p + q)n – 1 
Luego E(X) = n p , pues p + q = 1. 
 
V(X) = p(x)x
x
2
 - E(X)2 = 






n
0x
x-nx2 qp 
x
n
x - n2.p2 
Reemplazando x2 por x (x-1) + x y distribuyendo la sumatoria resulta 
V(X) = 22
n
0x
x-nx
n
0x
x-nx pnqp 
x
n
xqp 
)!xn(!x
!n
)1x(x 







 

 
Realizando en el primer término las simplificaciones pertinentes y sacando factor común n (n-1) p2 resulta: 
V(X) = 
 
22
n
2x
2)-(x-2-n2x2 pn)X(Eqp 
!)2x(2n)!2x(
)!2n(
p)1n(n 


 


 
 V(X) = 22
n
2x
2)-(x-2-n2x2 pnpnqp 
2x
2n
p)1n(n 







 


 
Sustituyendo en el primer término x – 2 = y resulta 
V(X) = 22
2n
0y
y-2-ny2 pnpnqp 
y
2n
p)1n(n 




 
 


 = 
222n2 pnpn)qp(p)1n(n   
Siendo p + q = 1 resulta 
V(X) = n ( n -1 ) p2 + n p – n2p2 = n p (n p – p + 1 – n p) = n p (1 – p) 
Luego V(X) = n p q 
 
DISTRIBUCION HIPERGEOMETRICA 
Los tipos de aplicaciones de la distribución hipergeométrica son muy similares a aquellos de la binomial. El interés se 
centra en el cálculo de probabilidades para el número de observaciones que caen en una categoría particular, solo que en 
el caso de la binomial, se requiere la independencia entre intentos. Como resultado, si la distribución binomial se aplica al 
muestreo de un lote de artículos (mazo de cartas, una cantidad de artículos de una línea de producción) el muestreo debe 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 11 
realizarse CON REEMPLAZO de cada artículo después de observarse. Por el contrario, la distribución hipergeométrica no 
requiere independencia y se basa en el muestreo llevado a cabo SIN REEMPLAZO. 
 Las aplicaciones de la distribución hipergeométrica se encuentran en muchas áreas, con un uso considerable en el 
muestreo de aceptación de un lote, las pruebas electrónicas y el control de calidad. Es obvio que en muchos de estos 
campos la prueba se realiza a expensas de la pieza que se está probando; ésta se destruye y por lo tanto no puede 
reemplazarse en la muestra. Entonces, es necesario el muestreo sin reemplazo. (Leer Walpole) 
Ejemplo 1: Supóngase que se tiene un lote de 20 unidades que contiene seis que están defectuosas, y que se extraen al 
azar sin reposición cinco unidades de ese lote. Sea X el número de unidades defectuosas en la muestra. Queremos 
calcular P(X=2). 
Con este propósito se cuenta el número total de grupos (muestras) diferentes de cinco unidades que puede extraerse de la 
población de 20. (Se hará referencia a cada grupo de cinco unidades como combinación.) El número de combinaciones de 
cinco unidades es el número de muestras diferentes que se pueden extraer, y cada una es igualmente probable. (Por ello 
podemos aplicar la definición de Laplace para calcular las probabilidades.) 
Después se determinará cuántas de estas combinaciones contienen exactamente dos defectuosas. La probabilidad de que 
una combinación de cinco unidades contenga solo dos defectuosas es el cociente 
P (X = 2) = 
20 entre rseselecciona pueden que unidades cinco de nescombinacio de número
sdefectuosa dos contienen que unidades cinco de nescombinacio de número
 
Para determinar el número de combinaciones de cinco que contienen solo dos defectuosas, se describe la construcción de 
dicha combinación como una secuencia de dos operaciones. 
Primero, se seleccionan dos unidades de las seis defectuosas; segundo, se seleccionan tres unidades de las 14 no 
defectuosas. El número de combinaciones de dos unidades seleccionadas entre seis es 
2
6





 y el número de 
combinaciones de tres unidades elegidas de las 14 defectuosas es 
3
14





 . Luego, el número total de combinaciones de 
cinco unidades que puede componerse de dos defectuosas y tres no defectuosas es el producto 
 
2
6





 
3
14





 = (15) (364) = 5 460 (ésta es una aplicación de la regla de la multiplicación estudiada.) 
Se concluye que P(X = 2 ) = 
 
5
20
3
14
2
6


















= 0,3522 
Para calcular P(X=2) en el ejemplo anterior fue necesario conocer el número de unidades en la población (N=20), el de 
unidades defectuosas en la población (A=6) y el de unidades extraídas (n=5). La función de masa de la variable aleatoria X 
se determina al utilizar estos tres parámetros. Específicamente, X sigue la distribución hipergeométrica con parámetros N, 
A y n, que se puede denotar X  H ( N, A, n) 
Ejemplo 2 : Selección sin reemplazo de una muestra de bolillas de una urna. 
Supongamos que una urna contiene N bolillas de las cuales A son rojas y B son azules, luego A + B = N. 
Se seleccionan al azar y sin reemplazo “n” bolillas de la urna y nos interesa encontrar la probabilidad de obtener 
exactamente “x” bolillas rojas entre las “n” seleccionadas. 
Definimos X como el “número de bolillas rojas que se obtienen entre las n seleccionadas”. 
Lógicamente el valor de X no puede exceder a “n” ni a “A”, por lo tanto X  mín { n, A } 
Análogamente, puesto que el número de bolillas azulesque se obtienen no puede exceder a “B”, n – X  B, luego X  n – 
B y dado que el valor de x no puede ser menor que 0, se debe verificar que X  máx {0, n – B}. Por consiguiente el valor 
de X debe ser un entero en el intervalo 
 máx {0, n – B}  X  mín { n, A } 
 Para cualquier entero x la probabilidad de obtener exactamente x bolillas rojas será 
pX (x) = 
 
n
BA
x-n
B
x
A





 












 si máx {0, n – B}  x  mín { n, A } 
 = 0 en otro caso 
 
Luego X tiene una DISTRIBUCIÓN HIPERGEOMETRICA con parámetros N = A + B, A y n. 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 12 
En general 
Suponga una población finita que contiene N unidades, de ellas A son clasificadas como éxitos y N – A como fracasos. 
Suponga que se extrae al azar y sin reemplazo una muestra de n unidades de esta población, y sea X el número de éxitos 
en la muestra. Entonces X sigue una distribución hipergeométrica con los parámetros N, A y n, que se puede denotar 
como X  H ( N, A, n) 
La función de masa de probabilidad de X es 
pX (x) = 
n
N
x-n
A -N
x
A


















 si máx {0, n – (N – A )}  x  mín { n, A } 
 = 0 en otro caso 
 
 
VALOR ESPERADO Y VARIANZA DE UNA VARIABLE ALEATORIA HIPERGEOMETRICA 
Si X  H ( N, A, n) , entonces 
 E(X) = n 
N
A
 y V(X) = n 
N
A















1N
nN
N
A
1 
DISTRIBUCIÓN DE POISSON 
La importancia de la ley de probabilidades de Poisson se ha venido haciendo mayor durante los últimos años, y también ha 
crecido el número de los fenómenos aleatorios que se estudian con aplicaciones de esta ley. En física la emisión 
electrónica de electrones del filamento de un bulbo, o de una sustancia foto sensitiva bajo la influencia de la luz, y la 
descomposición espontánea de núcleos atómicos radioactivos conducen a fenómenos que obedecen una ley de 
probabilidades de Poisson. Esta ley se presenta frecuentemente en los campos de investigación de operaciones 
(investigación operativa) y ciencias administrativas. Allí, la demanda de servicios, ya sea de cajeros o vendedores de un 
supermercado, del encargado de las existencias de una fábrica, de las pistas de aterrizaje de un aeropuerto, de las 
facilidades para manejar cargamentos en un puerto, de las líneas de conexión en un conmutador telefónico, y también la 
rapidez con la cual se ofrecen los servicios, conducen frecuentemente a fenómenos aleatorios que obedecen exacta o 
aproximadamente una ley de probabilidades de Poisson. Se tienen los mismos fenómenos aleatorios en relación con la 
ocurrencia de accidentes, errores, descomposturas, y otras calamidades similares. 
 Entenderemos mejor la clase de fenómenos aleatorios que conducen a una ley de probabilidades de Poisson si 
consideramos la clase de fenómenos que conducen a una ley de probabilidades binomial. La situación usual en donde 
aplicamos la ley de probabilidades binomial consiste en la observación de los resultados de n pruebas independientes de 
un experimento. Podemos entonces determinar 
i) el número de pruebas en los cuales un evento concreto (éxito) ha ocurrido. 
ii) el número de pruebas en los cuales el evento no ocurrió. 
Sin embargo, hay eventos aleatorios que no ocurren como resultado de ensayos definidos de un experimento, sino más 
bien en puntos aleatorios del tiempo o del espacio. Para eventos así podemos contar el número de ocurrencias del evento 
en determinado tiempo (o espacio). Por ejemplo, supongamos que observamos el número de aviones que aterrizan en 
cierto aeropuerto durante una hora; sin embargo, no tiene sentido preguntar cuantos aviones no llegaron al aeropuerto 
durante esa hora. De manera similar, si observamos el número de organismos por unidad de volumen de algún líquido, 
podemos contar el número de organismos presentes, pero no tiene sentido hablar del número de organismos ausentes. 
 En seguida indicaremos algunas condiciones bajo las cuales podemos esperar que el número de ocurrencias de 
un evento aleatorio (éxito) en el tiempo o en el espacio (como son la presencia de un organismo en un cierto punto de 
espacio tridimensional, o la llegada de un avión en un cierto punto del tiempo) obedezca una ley de probabilidades de 
Poisson. 
 Hacemos la suposición básica de que existe una cantidad positiva  tal que, para cualquier número positivo h 
pequeño y cualquier intervalo de tiempo de longitud h, 
i) la probabilidad de que ocurra exactamente un evento en el intervalo es aproximadamente igual a h, en el sentido de 
que es igual a h + r1(h), donde r1(h) / h tiende a cero cuando h tiende a cero (quiere decir que r1(h) 0 más rápido 
que h); 
ii) la probabilidad de que ocurran exactamente cero eventos en el intervalo es aproximadamente igual a 1 - h, en el 
sentido de que es igual a 1 - h + r2(h), donde r2(h) / h tiende a cero cuando h tiende a cero; y 
iii) la probabilidad de que dos ó más eventos ocurran en el intervalo es igual a una cantidad r3(h) tal que el cociente r3(h)/h 
tiende a cero cuando la longitud h del intervalo tiende a cero. 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 13 
Podemos interpretar el parámetro  como la razón media de ocurrencia de los eventos por unidad de tiempo (o espacio); 
en consecuencia, nos referiremos a  como razón media de ocurrencia (de los eventos). 
Ejemplo. Supongamos que observamos los tiempos de llegada de los automóviles a una estación de peaje. Supongamos 
que nos informan que la razón media  de llegadas es  = 1,5 automóviles por minuto. Entonces, esta suposición nos dice 
que en un período de longitud t = 1 segundo = 
60
1 de minuto, hay una probabilidad aproximada de  t = 1,5 
60
1 =
40
1 de 
que llegue exactamente un coche, mientras que hay una probabilidad aproximada de 1 –  t = 
40
39 de que lleguen 
exactamente cero coches. 
 Además de las suposición acerca de la existencia del parámetro  con las propiedades indicadas, también 
suponemos que si se divide un intervalo de tiempo en n subintervalos, y si para i = 1, 2, ..., n, Ai denota el suceso de que 
ocurra por lo menos un evento de la clase que estamos observando en el i-ésimo subintervalo, entonces para cualquier 
entero n, A1, ...,An son eventos independientes. 
Puede demostrarse que, con estas suposiciones, el número de ocurrencias del evento en un tiempo (o espacio) de longitud 
(o área, o volumen) t obedece una ley de probabilidades de Poisson con parámetro  t; de manera más precisa, la 
probabilidad de que ocurran exactamente k eventos en un período de tiempo de longitud t es igual a 
 
!k
)t(e
 
kt λλ
 
En consecuencia, podemos describir brevemente una sucesión de eventos que ocurren en el tiempo (o espacio), y que 
satisfacen las suposiciones anteriores, diciendo que los eventos obedecen una ley de probabilidades de Poisson a la razón 
de  eventos por unidad de tiempo (o de espacio). 
Observe que si X es el número de eventos que ocurren en un intervalo de tiempo de longitud t, entonces X obedece una ley 
de probabilidades de Poisson con media  t. Por lo tanto,  es la razón promedio de ocurrencias del evento por unidad de 
tiempo, en el sentido de que el número de eventos que ocurren en un intervalo de tiempo de longitud 1 está regido por una 
ley de probabilidades de Poisson con media  . 
 
 La variable aleatoria discreta que mide el nº de eventos (resultados) que ocurren en un intervalo de tiempo 
dado de amplitud t, o en una región específica t se llama variable aleatoria de Poisson y su distribución de 
probabilidades es la siguiente: 
caso otro en 0 = 
 3, 2, 1, 0,= xpara 
!x
)tλ(e
 = )tμ,x(p
xtλ


 
donde  es elnúmero medio de eventos por unidad de tiempo o región, o tasa de ocurrencia de los eventos. 
 Si llamamos  al número medio de eventos en un intervalo dado t,  =  t . 
La probabilidad de que X = x puede expresarse de la siguiente manera: 
caso otro en 0 = 
 3, 2, 1, 0,= xpara 
!x
μe
 =x)P(X )μ;x(p
xμ


 
 Esta distribución de probabilidades recibe el nombre de DISTRIBUCIÓN DE POISSON con parámetro  . 
 
Esta distribución fue estudiada por el célebre matemático y físico francés Simeon Denis Poisson (1781- 1840). El 
trabajo de Poisson donde aparece por primera vez esta distribución se titula Recherches sur probabilité des jugements en 
matière criminelle et en matière civile, y apareció publicado en 1837, es decir, tres años antes de la muerte de este gran 
científico. Uno de los usos más importantes de la variable aleatoria con distribución Poisson es el conocido como flujo de 
sucesos Poisson, el cual tiene una probabilidad insignificantes (virtualmente cero) en un intervalo pequeño de tiempo 
(puede ser también de área o de volumen); sin embargo en intervalos considerables se puede registrar un promedio 
estadístico del número aproximado de ese tipo de ocurrencias. Por ejemplo, en la ciudad de México suelen ocurrir sismos 
de vez en cuando; sin embargo, la probabilidad de que ocurra un sismo en un intervalo breve dado (por ejemplo una hora o 
incluso un día) es despreciable. Pero podría decirse que ocurren, por ejemplo, tres sismos cada lustro, en promedio. 
(WISNIEWSKI) 
 El intervalo de tiempo puede ser de cualquier duración, por ejemplo un segundo, un minuto, un día, una semana o 
inclusive un año. Por ejemplo: 
X = Nº de llamadas por hora que se reciben en una oficina. 
X = Nº de automóviles que llegan por día a una casilla de peaje. 
X = Nº de partículas radioactivas que pasa a través de un contador durante un intervalo de 3 milisegundos. 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 14 
 La región específica podría ser un segmento de línea, un área o un volumen. Por ejemplo: 
X = Nº de ratas de campo por acre. 
X = Nº de bacterias en un determinado cultivo. 
X = Nº de pasas de uva en un pan de Navidad. 
X = Nº de hojuelas de chocolate por galleta en un paquete de galletas "CHIP". 
X = Nº de errores de mecanografía por página. 
 
PROCESO DE POISSON 
 Se puede demostrar que si el proceso físico que genera estas ocurrencias satisface las tres condiciones 
siguientes, entonces la distribución de X debe ser una Distribución de POISSON. 
 En la siguiente descripción de las tres condiciones que se necesitan, supóngase que se observa un fenómeno 
concreto durante un período de tiempo fijo (ó en una región específica del espacio) t. 
 
 1ª CONDICIÓN: El número de eventos que ocurren en un intervalo de tiempo (o región) específico es 
independiente del Nº de eventos que ocurren en cualquier otro intervalo disjunto de tiempo (ó región disjunta del 
espacio). De esta forma vemos que el proceso de Poisson no tiene memoria. 
 Por ejemplo , aún cuando se reciba un número muy grande de llamadas telefónicas en una central durante el 
intervalo concreto, la probabilidad de que se reciba al menos una llamada durante un próximo intervalo permanece 
inalterada. Análogamente, aún cuando no se han recibido llamadas en la central durante un intervalo muy largo, la 
probabilidad de que se reciba una llamada durante un próximo intervalo de tiempo más corto permanece inalterada. 
 
 2ª CONDICIÓN: La probabilidad de que ocurra un evento durante cualquier intervalo de tiempo muy corto 
(ó en cualquier región muy pequeña) debe ser aproximadamente proporcional a la longitud de ese intervalo (ó al 
tamaño de la región) y no depende del Nº de eventos que ocurren fuera de ese intervalo (ó región). 
 
 3ª CONDICIÓN: La probabilidad de que ocurran dos ó más eventos en cualquier intervalo de tiempo muy 
pequeño (ó región muy pequeña) debe ser despreciable en comparación de la probabilidad de que ocurra un 
evento. 
 
Ejemplo: Para comprender mejor un proceso de Poisson, supóngase que se estudian las llamadas recibidas por hora en 
una central telefónica de una estación de policía. El promedio histórico es de 180 llamadas por hora. Ahora si se quisiera 
dividir el intervalo de una hora en 3600 intervalos consecutivos de 1 segundo: 
 El promedio de llamadas recibidas en cualquier intervalo de un segundo sería 180 / 3600 =0,05. 
 La probabilidad de recibir más de una llamada en cualquier intervalo de un segundo es 0. 
 Recibir determinada llamada en cualquier intervalo de un segundo no tiene efecto (es decir es estadísticamente 
independiente) sobre recibir una llamada en cualquier otro intervalo de un segundo. 
 PROMEDIO PROMEDIO PROMEDIO 
 POR HORA POR MINUTO POR SEGUNDO 
 180 llamadas / hora 3 llamadas / minuto 0,05 llamadas / segundo 
1º) ¿Cuál es la probabilidad de que en un intervalo de un minuto, se reciban exactamente 2 llamadas telefónicas? b) se 
reciban hasta 4 llamadas? c) se reciban más de 4 llamadas? 
2º) ¿Cuál es la probabilidad de recibir 4 llamadas en un intervalo de 15 segundos y cuál la probabilidad de recibir 2 
llamadas? 
 
ESPERANZA Y VARIANZA DE UNA VARIABLE ALEATORIA POISSON 
Si X es una variable aleatoria Poisson con parámetro  =  t, entonces 
 E(X) =  y V(X) =  
Demostración 
De acuerdo con las definición de valor esperado de una variable aleatoria 
E(X) = xp(x)
x
 
 = 
!x
μ
ex
x
0x
μ



 = 
)!1x(
μ
eμ
)!1x(
μ
e0
!x
μ
ex
!0
μ
)e()0(
1x
1x
μx
1x
μx
1x
μ0μ













 
Sustituyendo x – 1 = y, resulta E(X) = 
!y
μ
eμ
y
0y
μ




 
APUNTE DE CLASE- DISTRIBUCIONES DISCRETAS DE PROBABILIDAD- MARTA CORRO - PAG 15 
Ahora la sumatoria 




0y
yμ !yμe
 es la suma de la función de masa de probabilidad de Poisson ( ) sobre todos 
sus valores posibles. Por lo tanto 



0y
yμ !yμe = 1, por lo que E(X) =  
 
Para hallar la varianza de X, usamos la siguiente ecuación 
V(X) = p(x)x
x
2
 - E(X)2 = 
2
x
0x
μ2 )X(E(
!x
μ
ex 


 
Al sustituir x(x – 1) + x para x2 y  para E(X) en la ecuación anterior, se obtiene 
V(X) = 2
x
0x
μ
x
0x
μ μ
!x
μ
ex
!x
μ
e)1x(x  




 
Ahora x(x – 1) = 0 si x = 0 o x = 1, y 


 0x
xμ μ)X(E!xμe . Por consiguiente se puede comenzar por sumar 
el lado derecho de la ecuación (I) en x = 2, y sustituir  por 



0x
xμ !xμe Se obtiene 
V(X) = 2
2x
2x
μ22
x
2x
μ2
x
2x
μ μμ
)!2x(
μ
eμμμ
)!2x(
μ
eμμ
!x
μ
e)1x(x 










 
Haciendo y = x -2 V(X) = μμμ)1(μμμ
!y
μ
eμ 222
y
0y
μ2  



Continuar navegando