Logo Studenta

Guia de estudio

¡Este material tiene más páginas!

Vista previa del material en texto

Gúıa de estudio para el curso de Estad́ıstica 1
Autor
Johann Alexis Ospina Galindéz
Universidad Autónoma de Occidente
Departamento de Matemáticas y Estad́ıstica
Facultad de Ciencias Básicas y Ambientales
Santiago de Cali, Colombia
Resumen
El presente documento tiene como objetivo proporcionar al estudiante los conceptos
básicos e intermedios del Análisis Exploratorio de Datos, elementos preliminares del
calculo de probabilidades, variables aleatorias y modelos de probabilidades. Resaltando los
conceptos y temas claves que son usados con mayor frecuencias en los cursos de pregrado de
Estad́ıstica de la Universidad Autónoma de Occidente.
Contenido
Resumen 2
1. Introducción 2
1.1. ¿Qué es la Estad́ıstica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Aplicaciones de la estad́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Tipos de estad́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1. Estad́ıstica descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.2. Estad́ıstica inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Análisis Exploratorio de Datos 4
2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2. Cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1. Escalas de medición para variables cuantitativas . . . . . . . . . . . . 5
2.2.2. Escalas de medición para variables cuantitativas . . . . . . . . . . . . 5
2.3. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.1. Parámetro y estad́ıstico . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4. Buscando patrones de comportamiento en los datos . . . . . . . . . . . . . . 6
2.4.1. Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.2. Tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.3. Nomenclatura de la tabla de frecuencias . . . . . . . . . . . . . . . . 7
2.4.4. Tabla de frecuencias para variables cuantitativas discretas . . . . . . 8
2.4.5. Tabla de frecuencia cuando la variable es cualitativa . . . . . . . . . . 9
2.5. Representación gráfica de los datos . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1. Gráfico para variables cuantitativa discreta . . . . . . . . . . . . . . . 10
2.5.2. Gráfico para variables cuantitativa continua . . . . . . . . . . . . . . 11
2.5.3. Gráfico para variables cualitativas . . . . . . . . . . . . . . . . . . . . 12
2.6. Función emṕırica de distribución acumulada . . . . . . . . . . . . . . . . . . 13
2.7. Indicadores de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.7.1. Promedio o media aritméticas . . . . . . . . . . . . . . . . . . . . . . 14
4 CONTENIDO
2.7.2. Propiedades de la media aritmética . . . . . . . . . . . . . . . . . . . 15
2.7.3. Media ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7.4. Media geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7.5. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7.6. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8. Indicadores de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8.3. Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8.4. Propiedades de la varianza: . . . . . . . . . . . . . . . . . . . . . . . 20
2.8.5. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.8.6. Teorema de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.8.7. Regla emṕırica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.9. Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) . . . . . . . 23
3. Repaso Corte 1 26
3.1. Examen 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2. Examen 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3. Examen 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4. Conceptos de probabilidad 31
4.1. Algunas relaciones de teoŕıa de conjuntos . . . . . . . . . . . . . . . . . . . . 31
4.1.1. Unión (∪) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.2. Intersección (∩) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1.3. Complemento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1.4. Eventos mutuamente excluyentes . . . . . . . . . . . . . . . . . . . . 33
4.2. Axiomas, interpretaciones y propiedades de la probabilidad . . . . . . . . . . 33
4.2.1. Axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.2. Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.3. Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . 34
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.5. Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) . . . . . . . 37
5. Variable aleatoria 41
5.1. Función de Distribución Acumulada . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2. Valor esperado y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3. Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) . . . . . . . 46
6. Repaso Corte 2 50
6.1. Examen 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2. Examen 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7. Modelos de probabilidad 53
7.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.1.1. Valor esperado y varianza de una v.a. binomial . . . . . . . . . . . . 53
7.2. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.2.1. Valor esperado y varianza de una v.a. poisson . . . . . . . . . . . . . 55
7.3. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.3.1. Valor esperado y varianza de una v.a. Uniforme . . . . . . . . . . . . 56
7.4. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.4.1. Valor esperado y varianza de una v.a. Exponencial . . . . . . . . . . 57
7.5. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.5.1. La función Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.5.2. Función Gamma incompleta . . . . . . . . . . . . . . . . . . . . . . . 58
7.5.3. Valor esperado y varianza de una v.a. Gamma . . . . . . . . . . . . . 58
7.6. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.6.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.6.2. Valor esperado y varianza . . . . . . . . . . . . . . . . . . . . . . . . 61
7.6.3. Calculo de probabilidades para una v.a. ∼ N(µ, σ) . . . . . . . . . . 62
7.6.4. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7.6.5. Distribución Normal Estándar . . . . . . . . . . . . . . . . . . . . . . 63
7.6.6. Calculo del valor de X para una probabilidad conocida . . . . . . . . 64
7.7. Ejercicios. Fuente: Douglas et al. (2012), Levin& Rubin (2004) . . . . . . . 65
Bibliograf́ıa 67
Lista de Tablas
2.1. Precios de veh́ıculos vendidos en diciembre en Calima Motors, las unidades se
encuentran en millones de pesos . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Distribución del número de piezas defectuosas. . . . . . . . . . . . . . . . . 9
2.3. Distribución de las refinerias más grandes a nivel mundial. . . . . . . . . . . 10
2.4. Distribución de las notas del examen final del curso de Estad́ıstica 1 . . . . 13
3.1. Tabla de frecuencias de las ventas de servicio extendido. . . . . . . . . . . . 29
3.2. Estad́ısticos descriptivos de las ventas de servicio extendido. . . . . . . . . . 29
3.3. Resumen descriptivo por plataformas. . . . . . . . . . . . . . . . . . . . . . . 29
Lista de Figuras
2.1. Diagrama de ĺınea. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. Gráfico de la distribución absoluta acumulada. . . . . . . . . . . . . . . . . . 11
2.3. Histograma de frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4. Ojiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5. Gráfico de sectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1. Comportamiento de la distribución de valores de TVB-N (Izquierda) y PS
(Derecha). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2. Diagrama de cajas por plataformas. . . . . . . . . . . . . . . . . . . . . . . . 29
4.1. Diagrama de Venn de los eventos A y B. . . . . . . . . . . . . . . . . . . . . 31
4.2. Unión de eventos A ∪B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3. Intersección de A ∩B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4. Complemento A
′
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5. Eventos mutuamente excluyentes. . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1. Representación de la probabilidad entre dos valores P (a ≤ X ≤ b). . . . . . . 42
5.2. Representación de una probabilidad acumulada P (X ≤ x) . . . . . . . . . . 43
7.1. Función de densidad de una v.a. a) X ∼ N(3, 1.5). b) X ∼ N(4, 1.5). c) X ∼
N(5, 1.5). d) X ∼ N(6, 1.5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.2. Función de densidad de una v.a. a) X ∼ N(3, 1.5). b) X ∼ N(3, 3). c) X ∼
N(3, 4.5). d) X ∼ N(3, 6) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.3. Ilustración de P (a ≤ X ≤ b) para X ∼ N(µ, σ) . . . . . . . . . . . . . . . . 62
Caṕıtulo 1
Introducción
El análisis de datos esta relacionado con la necesidad del procesamiento y análisis de datos,
mecanismos de recolección, presentación, y obtención de resultados que sirvan de apoyo en
la toma de decisiones (Douglas et al., 2012).
1.1. ¿Qué es la Estad́ıstica?
Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos numéricos que
ayuda a tomar las mejores decisiones .
1.2. Aplicaciones de la estad́ıstica
Investigación de mercados.
Control de calidad.
Contaduŕıa.
Economı́a.
1.3. Tipos de estad́ıstica
1.3.1. Estad́ıstica descriptiva
Se encarga de la organización, resumen y presentación de los datos de manera informativa.
Un estudio de la empresa Gallup encontró que el 49 % de la población sabe el nombre
del primer libro de la Biblia. Esto describe que 49 de cada 100 personas que conocieron
la respuesta.
1.3 Tipos de estad́ıstica 3
De acuerdo con un reporte de consumidores, los dueños de las lavadoras Whirlpool
reportaron 9 % de problemas durante 1999. El estad́ıstico 9 describe el número de
problemas por cada 100 lavadoras.
1.3.2. Estad́ıstica inferencial
Es una decisión, estimación, predicción o generalizacion tomada sobre una población con
base en una muestra.
Población: Es un grupo de individuos, objetos o medidas de interés.
Muestra: Es una porción, o parte, de la población que interesa.
Algunos ejemplo del uso de la estad́ıstica inferencial:
Las cadenas de TV monitorean la popularidad de sus programas de manera continua,
para ello contratan los servicios de organizaciones que muestrean la preferencia de los
televidentes.
El departamento de contabilidad de una empresa selecciona una muestra de las facturas
para verificar los errores de todas las facturas de la compañ́ıa.
Los catadores de vino beben unas gotas para tomar una decisión con respecto a todo
el vino que se venderá.
Caṕıtulo 2
Análisis Exploratorio de Datos
En este capitulo se abordará el concepto de Análisis Exploratorio de Datos o Estad́ıstica
Descriptiva con el objetivo de ilustrar al estudiante con todo lo referente a la caracterización
de datos (Behar & Yepes, 1996).
2.1. Tipos de variables
De acuerdo a la naturaleza de la variable se pueden clasificar las variables de acuerdo a dos
tipos.
2.1.1. Variable cualitativa
Es la caracteŕıstica o variable de estudio que no es numérica.
Ejemplos: Género, preferencia religiosa, tipo de automóvil, estado de nacimiento, color
de ojos.
2.1.2. Cuantitativa
Esta variable se registra en forma numérica.
Ejemplos: saldo en la verificación de la contabilidad, minutos que se permanece en la
clase, el número de niños en una familia.
Las variables cuantitativas se clasifican como discretas o continuas.
Discretas: Sólo pueden representar algunos valores y en general existen ’huecoséntre
ellos. Ejemplo: el número de cuartos en una casa (1, 2 ,3,..., etc...).
Continuas: Estas pueden tomar cualquier valor dentro de un intervalo espećıfico.
Ejemplo: el tiempo que se tarda en volar de Cali a Cartagena.
2.2 Escalas de medición 5
2.2. Escalas de medición
2.2.1. Escalas de medición para variables cuantitativas
Nominal: Los datos se clasifican únicamente en categoŕıas y no pueden arreglarse en
forma ordenada. Ejemplos: color de ojos, género, preferencia religiosa.
Ordinal: Se considera que los datos se arreglan en determinado orden, pero no pueden
determinarse diferencias entre los valores de los datos o pudieran no tener sentido.
Ejemplo: durante una prueba gastronómica de 4 platillos, el C se clasificó número 1;
el B, número 2; el A, número 3, y el D, número 4; el estrato socioeconómico.
2.2.2. Escalas de medición para variables cuantitativas
Intervalo: Es semejante al nivel ordinal. Tiene la propiedad adicional de que pueden
determinarse las diferencias entre los valores de los datos. No existe naturalmente
ningún cero. Ejemplo: la temperatura en la escala Fahrenheit.
Razón: Tiene las caracteŕısticas del nivel de intervalo con un punto de inicio cero.
Las diferencias y las divisiones tienen significado en este nivel de medición. Ejemplo:
salario de los estudiantes de la nocturna.
2.3. Conceptos básicos
Para dar respuesta a las preguntas de investigación desde la estad́ıstica descriptiva, se
selecciona una parte del conjunto de individuos que se quiere investigar, y se toman datos
coherentes con el contenido del problema.
Población: conjunto de individuos o elementos objeto de estudio que cumplen ciertas
propiedades comunes.
Muestra: subconjunto representativo de una población
2.3.1. Parámetro y estad́ıstico
Parámetro: es una cantidad numérica calculada sobre una población. Ejemplo: tiempo
de duración de un lote de bombillas.
Estad́ıstico: es una cantidad numérica calculada sobre una muestra. Ejemplo: tiempo
de duración de una muestra de bombillas.
6 2 Análisis Exploratorio de Datos
2.4. Buscando patrones de comportamiento en los
datos
Las técnicas de la estad́ıstica descriptiva y del análisis exploratorio de datos tienen como
objetivo obtener el máximo de información posible a partir de una muestra. Para esto se
utilizan herramientas tales como:
Tablas de frecuencias.
Gráficos (diagramas de barras, histogramas de frecuencias, diagramas de cajas, etc).
Medidas o indicadores (tendencia central, variabilidad, posición y forma).
2.4.1. Frecuencias
Sea una muestrax1, x2, . . . , xn, entonces se definen
La frecuencia absoluta de un dato, es el numero de veces que dicho dato se repite
en el conjunto de la muestra.
La frecuencia relativa de un dato, es la proporción que dicho dato se repite en el
conjunto de la muestra, con respecto al numero total de datos.
La frecuencia de clase acumulada se define acumulando la frecuencia absoluta
hasta una clase espećıfica.
La frecuencia relativa acumulada se define acumulando la frecuencia relativa hasta
una clase espećıfica
2.4.2. Tabla de frecuencias
Para la construcción de la tabla de frecuencias se debe tener en cuenta los siguientes pasos:
1. Ordenar los datos de forma ascendente.
2. Definir el número de clases, elija el número de intervalos de acuerdo a la regla de
Sturges m = 1 + 3.322 · log10(n).
3. Determinar la amplitud o ancho de clases.
c =
Max(x1, . . . , xi)−Min(x1, . . . , xi)
m
2.4 Buscando patrones de comportamiento en los datos 7
4. Establecer los ĺımites de cada clase. Se necesita abarcar la distancia el rango de los
datos. Una sugerencia seria en convertir el ĺımite inferior de la primera clase en un
múltiplo del intervalo de clase.
5. Contar el número de elementos de cada clase.
2.4.3. Nomenclatura de la tabla de frecuencias
Marca de clase (X
′
i): Es el promedio entre el ĺımite inferior y ĺımite superior de cada
intervalo
Frecuencia absoluta (ni)
Frecuencia relativa (fi): fi =
ni
n
Frecuencia absoluta acumulada (Ni)
Frecuencia relativa acumulada (Fi): Fi =
Ni
n
Ejemplo 2.4.1 Los datos corresponden a medicones de precios de ventas en millones en un
consecionario de la ciudad de Santiago de Cali durante el mes de diciembre.
Tabla 2.1: Precios de veh́ıculos vendidos en diciembre en Calima Motors, las unidades se
encuentran en millones de pesos
.
50.2 100.2 70 70.1 100.2 80.3 90.4 90.2
60.5 70.1 60.6 70.8 60.8 70.2 80.4 90.6
80.5 50.7 60.4 100.1 80.2 90 70.8 80.2
50.3 60.2 90.1 80.6 70 70.7 80.3 70.5
Con los datos de la Tabla 2.1 responda los siguientes interrogantes.
1. Construya una tabla de frecuencia para datos agrupados.
2. Interprete n2, f4( %), N3, F2( %).
Solución
1. Construcción de la tabla de frecuencias:
Ordenamos los datos.
Calculamos el número de clases: m = 1 + 3.3 · log10(32) = 6
8 2 Análisis Exploratorio de Datos
50.2 50.3 50.7 60.2 60.4 60.5 60.6 60.8
70 70 70.1 70.1 70.2 70.5 70.7 70.8
70.8 80.2 80.2 80.3 80.3 80.4 80.5 80.6
90 90.1 90.2 90.4 90.6 100.1 100.2 100.2
Amplitud del intervalo: c =
100.2− 50.2
6
= 8.33 ≈ 9
Empezamos con un valor por debajo del mı́nimo que es 50.2, por ejemplo 50.1 y le
vamos sumando la amplitud (9) hasta abarcar todo el rango de datos y completar
las seis clases:
m Li Ls X
′
i ni Ni fi( %) Fi( %)
1 (50.1 59.1] 54.6 3 3 9.4 9.4
2 (59.1 68.1] 63.6 5 8 15.6 25.0
3 (68.1 77.1] 72.6 9 17 28.1 53.1
4 (77.1 86.1] 81.6 7 24 21.9 75.0
5 (86.1 95.1] 90.6 5 29 15.6 90.6
6 (95.1 104.1] 99.6 3 32 9.4 100.0
32.00
2. Interpretación:
n2 = 5: 5 veh́ıculos tuvieron un precio de venta 59.7 y 68.1 millones de pesos.
f4( %) = 21.9: El 21.9 % de los veh́ıculos de la muestra tuvieron un precio de venta
entre 77.7 y 86.1 millones de pesos.
N3 = 17: 17 veh́ıculos tuvieron un precio de venta máximo de 77.1 millones de pesos.
F2( %) = 25 El 25 % de los veh́ıculos tuvieron un precio de venta máximo de 68.1
millones.
2.4.4. Tabla de frecuencias para variables cuantitativas discretas
Ejemplo: Es una empresa con cadena de montaje donde se fabrican cables de acero, se
realiza un estudio sobre la calidad de la producción. Los siguientes datos informan sobre el
numero de piezas defectuosas encontradas en una muestra de lotes examinados.
0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5
5 5 5 6 6 6 6 6 7 7 7 8 8 9
En la Tabla 2.2 se ilustra como queda la tabla de frecuencias del ejemplo.
2.4 Buscando patrones de comportamiento en los datos 9
Tabla 2.2: Distribución del número de piezas defectuosas.
Número de piezas ni fi ( %) Ni Fi ( %)
0 6 10.7 6 10.70
1 9 16.1 15 26.80
2 10 17.9 25 44.70
3 7 12.5 32 57.20
4 5 8.9 37 66.10
5 8 14.3 45 80.40
6 5 8.9 50 89.30
7 3 5.4 53 94.70
8 2 3.6 55 98.30
9 1 1.8 56 100.10
2.4.5. Tabla de frecuencia cuando la variable es cualitativa
Ejemplo: Tomamos como población 98 de las refineŕıas mas grandes en todo el mundo. Nos
fijamos en la variable o dato referente al páıs donde están localizadas:
Bélgica Bélgica Bélgica Bélgica Francia Francia Francia Francia Francia Francia Francia
Francia Francia Francia Francia Francia Francia Francia Francia Francia Francia Francia
Francia Francia Francia Francia Finlandia Finlandia Alemania Alemania Alemania Alemania
Suiza USA Alemania Alemania Alemania Holanda Japón Japón Japón Japón Japón Japón
Japón Japón Japón Japón Suecia Suecia Suecia USA USA USA USA USA USA USA USA
USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA
USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA
USA USA USA USA
Cuando la variable es cualitativa y tiene una escala nominal sólo se puede interpretar la
frecuencia absoluta y frecuencia relativa. En la Tabla 2.3 se muestra la forma de organizar
este tipo de variable.
10 2 Análisis Exploratorio de Datos
Tabla 2.3: Distribución de las refinerias más grandes a nivel mundial.
Refineŕıa ni fi ( %)
Alemania 7 7.2
Bélgica 4 4.1
Finlandia 2 2.1
Francia 22 22.7
Holanda 1 1.0
Japón 10 10.3
Suecia 3 3.1
Suiza 1 1.0
USA 47 48.5
2.5. Representación gráfica de los datos
Se ha visto que la tabla de frecuencias resume los datos que disponemos de una muestra,
ahora bien, para darnos cuenta de un solo vistazo de las caracteŕısticas de la muestra resulta
aun mas esclarecedor el uso de gráficos y diagramas.
2.5.1. Gráfico para variables cuantitativa discreta
Cuando representamos una variable discreta, usamos el diagrama de lineas:
Figura 2.1: Diagrama de ĺınea.
Cuando se realiza el gráfico con la frecuencia absoluta acumulada este debeŕıa tomar forma
de escalera.
2.5 Representación gráfica de los datos 11
Figura 2.2: Gráfico de la distribución absoluta acumulada.
2.5.2. Gráfico para variables cuantitativa continua
Uno de los gráficos mas usados para este tipo de variables es el histograma de frecuencias,
para construirlo se divide el conjunto de datos en m clases, y se representan verticalmente
las frecuencias, absolutas o relativas, de las distintas clases.
Figura 2.3: Histograma de frecuencias.
La ojiva permite ver cuántas observaciones se encuentran por encima o debajo de ciertos
valores, en lugar de solo exhibir los números asignados a cada intervalo. Este tipo de
gráfico puede ser construido usando la frecuencia absoluta acumulada o la frecuencia relativa
acumulada.
12 2 Análisis Exploratorio de Datos
Figura 2.4: Ojiva.
●
●
●
●
●
●
50
60
70
80
90
10
0
Intervalos
F
i (
%
)
(20,23] (23,26] (26,29] (29,32] (32,35] (38,41]
2.5.3. Gráfico para variables cualitativas
El diagrama de sectores es el mas usado y consisten en dividir un ćırculo en tantas porciones
como clases existan, de modo que a cada clase le corresponde un arco de ćırculo proporcional
a su frecuencia absoluta o relativa.
Figura 2.5: Gráfico de sectores.
2.6 Función emṕırica de distribución acumulada 13
2.6. Función emṕırica de distribución acumulada
La función emṕırica de distribución acumulada nos permite tener una proporción acumulada
hasta cualquier valor dentro de la distribución de la variable de estudio.
F (x) =

0 para x ≤ L0
F (Li−1) +
fi
ci
· (x− Li−1) para Li−1 < x ≤ Li
1 para x > Lm
(2.1)
para todo i = 1, 2, · · · ,m.
Ahora si queremos calcular proporciones por encima de un valor espećıfico, usamos la
siguiente expresión:
F (X ≤ x) = 1− F (x)
Si el interés es calcular proporciones entre dos valores, usamos la siguiente expresión:
F (a ≤ X ≤ b) = F (b)− F (a)
Ejemplo 2.6.1 En la Tabla 2.4 se tienen las notasdel examen final del curso de Estad́ıstica
1 en el periodo 2018-2.
Tabla 2.4: Distribución de las notas del examen final del curso de Estad́ıstica 1
m Li Ls ni Ni fi( %) Fi( %)
1 1.50 2.05 2 2 7.1 7.1
2 2.05 2.60 3 5 10.7 17.9
3 2.60 3.15 8 13 28.6 46.4
4 3.15 3.70 4 17 14.3 60.7
5 3.70 4.25 8 25 28.6 89.3
6 4.25 4.80 3 28 10.7 100.0
28
De acuerdo a la tabla anterior, responda
1. ¿Porcentaje de estudiantes con notas a lo sumo de 2.8?
2. ¿Porcentaje de estudiantes con notas mı́nimas de 3.9?
3. ¿Porcentaje de estudiantes con notas entre 2.8 y 3.9?
4. ¿Cantidad de estudiantes mı́nimas de 3.4?
14 2 Análisis Exploratorio de Datos
Solución
1.
F (X ≤ 2.8) = F (2.8)
= 0.179 +
0.286
0.55
· (2.8− 2.6)
= 0.283
El 28.3 % de los estudiantes tuvieron notas a lo sumo de 2.8.
2.
F (X ≥ 3.9) = 1− F (3.9)
= 1−
[
0.607 +
0.286
0.55
· (3.9− 3.7)
]
= 1− 0.711
= 0.289
El 28.9 % de los estudiantes tuvieron notas mı́nimas de 3.9.
3.
F (2.8 ≤ X ≤ 3.9) = F (3.9)− F (2.8)
=
[
0.607 +
0.286
0.55
· (3.9− 3.7)
]
−
[
0.179 +
0.286
0.55
· (2.8− 2.6)
]
= 0.711− 0.283
= 0.428
2.7. Indicadores de tendencia central
2.7.1. Promedio o media aritméticas
Promedio para datos no agrupados:
Si los valores de una variable son x1, x2, . . . , xn y denotamos la media como X̄ entonces:
X̄ =
1
n
n∑
i=1
xi (2.2)
Ejemplo 2.7.1 Calcular la media aritmética del siguiente conjunto de
datos:30,75,79,80,80,105,126,138,149,179
2.7 Indicadores de tendencia central 15
Solución
X̄ =
1
10
[30 + 75 + 79 + 80 + 80 + 105 + 126 + 138 + 149179] = 104.1
Promedio para datos agrupados:
En el caso que los datos estén agrupados en una distribución de frecuencias el calculo de la
media aritmética sigue la expresión:
X̄ =
m∑
i=1
X
′
i · ni
n
(2.3)
Donde X
′
i es el promedio de cada clase.
Ejemplo 2.7.2 Calcular la media aritmética para datos agrupados del Ejemplo 4.1
Solución
X̄ =
3 · 54.6 + 5 · 63.6 + 9 · 72.6 + 7 · 81.6 + 5 · 90.6 + 3 · 99.6
32
= 76.818
Interpretación: El precio de venta promedio de los veh́ıculos de la muestra fue 76.818
millones.
2.7.2. Propiedades de la media aritmética
La suma de las desviaciones de los datos con respecto a su media es cero.
Propiedad 1
n∑
i=1
(
xi − X̄
)
= 0 (2.4)
Propiedad 2: La suma de los cuadrados de las desviaciones de los datos con respecto
a un valor a es mı́nima cuando a = X̄
n∑
i=1
(xi − a)2 (2.5)
16 2 Análisis Exploratorio de Datos
Propiedad 3: Si xi = k para todo i, es decir, todos los datos son iguales a una
constante, entonces:
X̄ = k (2.6)
Propiedad 4: Si todos los datos de una muestra se multiplican por una constante, el
nuevo promedio seria la constante por el promedio inicial:
yi = a · xi (2.7)
Ȳ = a · X̄ (2.8)
Propiedad 5: Si zi = axi + byi para todo i, donde a y b son constantes, entonces:
Z̄ = aX̄ + bȲ (2.9)
Propiedad 6: Si una muestra de n individuos se divide en k−submuestras de tamaño
n1, n2, . . . , nk y con promedios x̄1, x̄2, . . . , x̄k, entonces:
X̄G =
x̄1n1 + x̄2n2 + . . .+ x̄knk
n1 + n2 + . . .+ nk
(2.10)
2.7.3. Media ponderada
Constituye un caso especial de media aritmética, se presenta cuando varias observaciones
con el mismo valor.
X̄w =
∑n
i=1wixi∑n
i=1 wi
(2.11)
Ejemplo 2.7.3 Un restaurante vende refrescos medianos, grandes y gigantes a $0.90, $1.25
y $1.50. De las 10 últimas bebidas que se vendieron 3 eras medianas, 4 grandes y 3 gigantes.
Determine el precio promedio.
Solución
X̄w =
3 · 0.9 + 4 · 1.25 + 3 · 1.5
3 + 4 + 3
= 8.15
Interpretación: El precio promedio de acuerdo al tipo de refresco fue de 8.15 dólares.
2.7 Indicadores de tendencia central 17
2.7.4. Media geométrica
Resulta importante para determinar el cambio promedio de porcentajes, razones, indices o
tasas.
MG = n
√
x1 · x2 · · ·xn (2.12)
Ejemplo 2.7.4 Suponga que usted recibió un 5 % de incremento salarial este año y 15 % de
incremento el siguiente. Calcule el incremento anual promedio.
Solución
Mg =
√
5 · 15 = 8.66
Interpretación: El incremento anual promedio fue de 8.66 %.
2.7.5. La mediana
La mediana es el valor que no es superado por mas del 50 % de los datos.
Mediana para datos no agrupados: Primero se organizan los datos en orden ascendente:
Me =

x(n+12 )
, si n es impar
x(n2 )
+x(n2 +1)
2
, si n es par
(2.13)
Ejemplo 2.7.5 Calcular la mediana de las edades de una muestra de personas de una unidad
residencial: 19 27 31 14 19 42 28 57 52 53 13 57 42 38 16
Solución
Ordenamos los datos: 13,14,16,19,19,27,28,31,38,42,42,52,53,57,57
Identificamos la posición.
18 2 Análisis Exploratorio de Datos
13 14 16 19 19 27 28 31 38 42 42 52 53 57 57
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15)
Puesto que n = 15 es impar, aplicamos la expresión:
Me = x( 15+12 )
= x(8) = 31
Interpretación: El 50 % de la muestra de personas de la unidad residencial tienen 31
años o menos.
Mediana para datos agrupados
Me = Li−1 +
(
0.5− FLi−1
)
fi
· ci (2.14)
Ejemplo 2.7.6 Calcular la Mediana de los datos del los datos del Ejemplo 4.1.
Solución
Me = 68.1 +
(0.5− 0.25)
0.281
· 9 = 76.107
Interpretación: El 50 % de los veh́ıculos tuvieron un precio de venta máximo de 76.107
millones.
2.7.6. La moda
En el caso de variables cuantitativas discretas, la moda es el valor de la observación
que aparece con mas frecuencia. En el caso de variable cuantitativas continuas, la moda
corresponde a los valores alrededor de los cuales se produce la mayor concentración de los
datos. En la literatura hay algunas expresiones que nos permiten tener un valor aproximado
para datos agrupados, para determinar los valores a utilizar es necesario identificar la clase
donde se encuentra la mayor frecuencia absoluta o relativa.
Mo = Li−1 +
fi+1
fi−1 + fi+1
(2.15)
Ejemplo 2.7.7 Calcular la moda del conjunto de datos del Ejemplo 4.1.
2.8 Indicadores de dispersión 19
Solución
La clase de referencia
Mo = 68.1 +
0.156
0.219 + 0.156
= 68.516 (2.16)
Interpretación: La mayoŕıa de los veh́ıculos tuvieron un precio de venta alrededor de 68.516
millones.
2.8. Indicadores de dispersión
Los indicadores de dispersión o variabilidad evalúan la confiabilidad de la información
obtenida por algunos indicadores de tendencia central. Ya que la representatividad de los
indicadores depende de la dispersión de los datos.
2.8.1. Rango
Se define como la distancia entre el valor máximo y el valor mı́nimo:
Rango = max (x1, . . . , xn)−min (xi, . . . , xn) (2.17)
Nota: El rango es sensible a valores extremos.
2.8.2. Varianza
La varianza es la medida de dispersión mas utilizada en el análisis estad́ıstico.
Varianza para datos no agrupados:
S2 =
1
n− 1
n∑
i=1
(
xi − X̄
)2
(2.18)
Varianza para datos agrupados
S2 =
1
n− 1
m∑
i=1
ni ·
(
X
′
i − X̄
)2
(2.19)
2.8.3. Desviación estándar
Con la varianza no es posible realizar una interpretación directa, puesto que las unidades se
encuentran elevadas al cuadrado, sin embargo con la desviación estándar es posible realizar
dichas interpretaciones.
20 2 Análisis Exploratorio de Datos
Desviación estándar para datos no agrupados
S =
√√√√ 1
n− 1
n∑
i=1
(
xi − X̄
)2
(2.20)
Desviación estándar para datos agrupados
S =
√√√√ 1
n− 1
m∑
i=1
ni ·
(
X
′
i − X̄
)2
(2.21)
Ejemplo 2.8.1 Con el objetivo de evaluar el nivel de dispersión del tiempo de atención de
una entidad bancaria de la ciudad de Cali. Para esto, se tomó una muestra de clientes y se
reportó el tiempo de atención en minutos: 17.9, 33.0, 3.8, 7.5, 19.4, 59.9, 12.0, 18.6.
Solución
Puesto que el conjunto de datos es pequeño, no vale la pena agruparlos por lo tanto se utiliza
la expresión de la varianza y desviación estándar para datos no agrupados.
X̄ =
(17.9 + 33.0 + 3.8 + 7.5 + 19.4, 59.9 + 12.0 + 18.6)
8
= 21.51
Varianza:
S2 =
1
8− 1
(3 · (54.6− 76.82)2 + 5 · (63.6− 76.82)2 + 9 · (72.6− 76.82)2+
= 7 · (81.6− 76.82)2 + 5 · (90.6− 76.82)2 + 3 · (99.6− 76.82)2)
= 167.1441548
Nota: La varianza no se interpretaporque sus unidades están elevadas al cuadrado.
Desviación estándar:
S =
√
167.144 = 12.92
Interpretación: Los precios de los veh́ıculos vendidos se dispersan con respecto al promedio
de venta en 12.92 millones.
2.8.4. Propiedades de la varianza:
S2 ≥ 0
Si xi = k, entonces S
2 = 0
Si yi = kxi, entonces S
2
y = k
2S2x
Si yi = k + xi, entonces S
2
y = S
2
x
2.8 Indicadores de dispersión 21
2.8.5. Coeficiente de variación
Es una medida que se emplea fundamentalmente para:
Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de
unidades de medida. Por ejemplo, kilogramos y cent́ımetros.
Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas
distintas.
Comparar dos grupos de datos que tienen distinta media.
Determinar si cierta media es consistente con cierta varianza.
El coeficiente de variación muestral se denota:
CV % =
S
X̄
× 100 (2.22)
Ejemplo 2.8.2 Con un micrómetro, se realizan mediciones del diámetro de un balero, que
tienen una media de 4.03 mm y una desviación estándar de 0.012 mm; con otro micrómetro
se toman mediciones de la longitud de un tornillo que tiene una media de 1.76 pulgadas
y una desviación estándar de 0.0075 pulgadas. ¿Cuál de los dos micrómetros presenta una
variabilidad relativamente menor?.
Solución
Para este ejercicio es de suma importancia observar que las mediciones de cada micrómetro
tienen unidades diferentes, el primero esta en miĺımetros y el segundo pulgadas, por lo tanto,
para comparar la dispersión se debe usar el coeficiente de variación.
CVM1( %) =
0.012
4.03
· 100 = 0.297 %
CVM2( %) =
0.0075
1.76
· 100 = 0.426 %
Interpretación: Los resultados indican que la variabilidad relativa es menor cuando las
mediciones son tomadas con el micrómetro 1.
22 2 Análisis Exploratorio de Datos
2.8.6. Teorema de Chebyshev
Si una variable aleatoria tiene una varianza o desviación estándar pequeña,esperaŕıamos que
la mayoŕıa de los valores se agrupan alrededor de la media. Por lo tanto, la proporción de
observaciones provenientes ya sea de una muestra o una población, que se encuentran a k
desviaciones estándares de la media es de por lo menos:
1− 1
k2
(2.23)
Donde k > 1
Ejemplo 2.8.3 Con el objetivo de evaluar el funcionamiento del proceso de llenado de una
bebida, se reportaron mediciones del nivel de llenado en mililitros. Previamente se realizó un
análisis exploratorio de datos y se determinó que la distribución de las mediciones sigue una
distribución con forma de campana. Los resultados arrojaron una media muestral de 100 ml
y una desviación estándar de 20 ml. De acuerdo a esto, el gerente de producción desea saber
entre que valores se encuentra el 68 % de las mediciones de la muestra.
Solución
1− 1
k2
= 0.68
0.32 =
1
k2
k =
√
1
0.32
= 1.767
Linferior = 100− 1.767 · 20 = 64.66
Lsuperior = 100 + 1.767 · 20 = 135.34
Interpretación: De acuerdo a la muestra de mediciones realizadas para evaluar el proceso
de llenado, el 68 % de las mediciones se encuentran entre 64.66 y 135.34 ml.
2.8.7. Regla emṕırica
La regla emṕırica es la regla estad́ıstica para la distribución normal y se establece con la
media y la desviación estándar. Según ésto, el 68 % de los datos se encuentran dentro de
la primera DE, el 95 % dentro de las dos primeras DE y 99.7 % dentro de las tres primeras
desviaciones estándar.
2.9 Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) 23
2.9. Ejercicios. Fuente: Douglas et al. (2012), Levin &
Rubin (2004)
About Census at School
Under the direction of their teachers, students in grades 4 to 12 anonymously complete an
online questionnaire, thus submitting the data to a national database. The questions ask
about such things as the length of their right foot, height, favorite subject in school, and
how long it takes them to get to school. Thirteen questions are common to every country
participating in Census at School, but each country adds its own questions specific to the
interests of its students. Periodically, the national data from the 13 common questions go
to an international database maintained in the UK.
To complete the online class survey, each student will need approximately 15 to 20
minutes of Internet access. After students have answered the survey, their teacher will
have immediate access to their class results. These are used to teach statistical concepts,
measurement, data analysis, and graphing, as well as to explore social concepts. Students
can compare their class data with random samples from other students around the country
and with random samples of responses from the international database.
Descargar el cuestionario en el siguiente enlace:
http://ww2.amstat.org/censusatschool/pdfs/C@SQuestionnaire.pdf
De acuerdo a la información suministrada sobre el censo escolar y el cuestionario que
descargó, responda las preguntas 1 y 2:
1. Con respecto al estudio defina:
a) Unidad de estudio.
b) Población objeto de estudio.
c) Muestra de estudio.
2. Para las preguntas 1, 2, 4, 7, 9, 11, 13 , 24, 26, 28, 38, defina:
a) Variable de análisis.
b) Tipo de variable.
c) Escala de medición.
3. Entre al siguiente enlace: http://ww2.amstat.org/censusatschool/ seleccione las
siguientes opciones:
Random Sampler → Accept → Sample Size = 50 → State=Iowa→ Grade
level=All Grades→ Gender=All→ Data Collection Year:=All
http://ww2.amstat.org/censusatschool/pdfs/C@SQuestionnaire.pdf
http://ww2.amstat.org/censusatschool/
24 2 Análisis Exploratorio de Datos
De acuerdo a la información que descargó responda los siguientes interrogantes:
a) Encuentre la variabilidad relativa de la estatura Height cm por genero (Nota:
Utilice los indicadores para datos no agrupados).
b) Construya la tabla de frecuencias para las variables: Languages spoken,
Travel to School y Doing Homework Hours.
4. Utilizando la siguiente tabla de frecuencia de la variable Travel time to School,
responda:
m Clases ni Ni fi Fi
1 (0.9,7.3] 22 22 0.46 0.46
2 (7.3,13.6] 16 38 0.33 0.79
3 (13.6,19.9] 1 39 0.02 0.81
4 (19.9,26.1] 3 42 0.06 0.88
5 (26.1,32.4] 2 44 0.04 0.92
6 (32.4,40] 4 48 0.08 1.00
a) ¿Cuál es el porcentaje de estudiantes que emplearon máximo 20 minutos en llegar
a la escuela?
b) ¿Cuál es el porcentaje de estudiantes que emplearon mı́nimo 34 minutos en llegar
a la escuela?
c) ¿Cuál es el porcentaje de estudiantes que tardaron entre 10 y 35 minutos?
d) Calcule el tiempo de viaje promedio a la escuela.
e) ¿La mitad de los estudiantes de la muestra tuvieron un tiempo de viaje a la
escuela menor o igual a?
f ) ¿La mayoŕıa de los estudiantes tuvieron un tiempo de viaje a la escuela entre que
valores?
2.9 Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) 25
g) Encuentre la variabilidad relativa del tiempo de viaje a la escuela.
h) ¿El 25 % de los estudiantes tuvieron un tiempo de viaje menor o igual a?
i) ¿El 75 % de los estudiantes tuvieron un tiempo de viaje menor o igual a?
j ) ¿Calcule el nivel de curtosis y asimetŕıa de la distribución del tiempo de viaje?
5. Los datos que se presentan a continuación corresponden a los tiempos de atención (en
minutos) de los clientes de un banco:
m Clases ni Ni fi( %) Fi( %)
1 (4.18 , 7.41] 3 3 6 6
2 (7.41 , 10.6] 3 6 6 12
3 (10.6 , 13.8] 10 16 20 32
4 (13.8 , 17.1] 15 31 30 62
5 (17.1 , 20.3] 13 44 26 88
6 (20.3 , 23.5] 5 49 10 98
7 (23.5 , 26.7] 1 50 2 100
a) Interprete: n2, f3, N4 y F2 %.
b) ¿Cuál es el porcentaje de clientes atendidos entre 12 y 20 minutos?
c) Proporción de clientes que han sido atendidos en máximo 19.5 minutos.
d) Porcentaje de clientes que han sido atendidos en mı́nimo 11.9 minutos.
Caṕıtulo 3
Repaso Corte 1
A continuación se presentan una serie de propuestas de evaluación con el objetivo de que el
estudiante tenga una marco de referencia que le ayude a mejorar el desempeño en la primera
evaluación del curso.
3.1. Examen 1
1. Unaempresa encargada del procesamiento de filetes de pescado, tiene como objetivo
determinar las caracteŕısticas óptimas para la preservación del producto. Las variables
más importantes para determinar la calidad de este producto son las Bases
Nitrogenadas Volátiles Totales (TVB-N) y la Protéına Sarcoplasmática (PS), ambas
variables están medidas en porcentaje. Para esto, el departamento de control de calidad
ha decidido analizar una muestra de 45 filetes del último lote procesado. A continuación
se presentan los resultados obtenidos:
Figura 3.1: Comportamiento de la distribución de valores de TVB-N (Izquierda) y PS
(Derecha).
F
i
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
0.29
0.53
0.69
1
(13.3,32.1] (32.1,50.8] (50.8,69.6] (69.6,88.3]
F
i
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
0.31
0.69
0.82
1
(0.15,0.257] (0.257,0.365] (0.365,0.473] (0.473,0.58]
3.1 Examen 1 27
De acuerdo a los resultados anteriores responda:
a) ¿Cuál de las dos variables tiene un comportamiento más homogéneo en el producto
analizado?.
b) En un lote procesado se descarta cuando el 71 % de la muestra tienen valores de
TVB-N mayores a 70. ¿Se descartaŕıa el lote analizado?.
2. El subconjunto de todos los elementos objeto de estudio para una caracteŕıstica
determinada se denomina (justifique su respuesta):
a) Estad́ıstica descriptiva.
b) Muestra.
c) Población.
d) Estad́ıstico
3. Con la siguiente información responda, se puede afirmar que hay puntos at́ıpicos en los
datos: Mı́n(xi): 0.3; Máx(xi): 5.7; Q1: 1.85; Q2: 2.56; Q3: 3.29. Utilice un procedimiento
adecuado.
4. La Distribución de frecuencias de la duración de las llamadas (minutos) para una
muestra de 80 reservaciones telefónicas de vuelos que se realizaron a National Airlines
a partir de Enero 15 hasta febrero 24 de 2016 es la siguiente:
Li Ls X
′
i ni fi Ni Fi
1.25 1.55 3
1.55 1.85 15
1.85 2.15 36
2.15 2.45 61
2.45 2.75 72
2.75 3.05 80
¿Qué porcentaje de las reservaciones telefónicas presentaron un tiempo de duración de
por lo menos 2,35 minutos?. Utilice un procedimiento adecuado.
28 3 Repaso Corte 1
3.2. Examen 2
1. Diga el tipo de variable y la escala de medición de las siguientes variables:
a) Estrato social (I, II, III, IV).
b) Temperatura de un generador de enerǵıa.
c) Número de piezas defectuosas por lote de producción.
d) Resistencia a la compresión de una barra de aluminio.
2. Responde las siguientes preguntas:
a) ¿Cuales son los dos tipos de estad́ıstica más importantes y para que sirven?
b) Defina los siguientes términos: Muestra, Parámetro, Estad́ıstico
3. Una empresa consultora de investigación en materiales está encargada de caracterizar la
composición de aluminio de un material nuevo en el mercado. Para ello se observaron
200 barras de aluminio a los cuales se les midió el contenido de aluminio (gramos),
presentando la siguiente distribución de frecuencias:
Li−1 Li ni fi Ni Fi
9.7 15.7 0.35 70 0.35
15.7 21.7 46 0.23 116
21.7 27.7 30 0.73
27.7 33.7 0.27 1
a) Complete la tabla de frecuencias.
b) Calcule e interprete el promedio y la mediana
3.3. Examen 3
1. Los talleres AndresCarAudio registran las ventas (miles de pesos) de servicios
extendidos: 823, 648, 321, 634, 752, 669, 427, 555, 904, 586, 722, 360, 468, 847, 641,
217, 588, 349, 308, 766. A continuación se presentan los resultados obtenidos de un
informe descriptivo:
Responda usando la información de la Tabla 1 y Tabla 2:
a) La compañ́ıa tiene la creencia de que una sucursal no puede mantenerse
financieramente con menos de 455 (miles de pesos) en ventas diarias. Indique
cuántas sucursales no pueden mantenerse. Es también poĺıtica de la compañ́ıa
otorgar una bonificación económica al gerente de la sucursal que genere más de
745 (miles de pesos) diarios. ¿Qué porcentaje recibirán la bonificación?
3.3 Examen 3 29
Tabla 3.1: Tabla de frecuencias de las ventas
de servicio extendido.
m Intervalo ni Ni fi Fi
1 (216,389] 5 5 0.25 0.25
2 (389,560] 3 8 0.15 0.40
3 (560,732] 7 15 0.35 0.75
4 (732,905] 5 20 0.25 1.00
Tabla 3.2: Estad́ısticos descriptivos de
las ventas de servicio extendido.
Indicador Valor
Promedio 577.52
Varianza 38589.62
Asimetŕıa -0.23
Curtosis 1.54
b) (0.5) ¿El 30 % de las surcusales tuvieron ventas mı́nimas de?
c) (0.5) Entre que valores de ventas con respecto a la media se encuentra el 58 % de
los datos.
d) (0.5) ¿Existen datos at́ıpicos en la información suministrada por la empresa?
e) (0.5) Indique e interprete la forma y el tipo de asimetŕıa. Finalmente, usted podŕıa
decir que las ventas de servicios extendidos fueron heterogéneas.
2. Con el objetivo de evaluar las plataformas tecnológicas de transporte para que
socios conductores se conecten fácilmente con usuarios que buscan viajes seguros y
conductores confiables. La siguiente información corresponde a ingresos totales por
viajes (en miles de pesos) de cuatro plataformas que ofrecen servicios de transporte en
la ciudad de Cali.
Tabla 3.3: Resumen descriptivo por
plataformas.
Empresa de Número Promedio Desviación Coeficiente
transporte de viajes estándar de asimetŕıa
Cabify 40 166.65 37.94 -0.19
Super Taxis 27 156.78 29.32 0.16
Taxi express 16 149.69 3.55 0.53
UBER 20 129.25 35.88 0.03
Total 103
Figura 3.2: Diagrama de cajas por
plataformas.
●
Cabify Super Taxis Taxexpress UBER
50
10
0
15
0
20
0
25
0
Plataforma
In
gr
es
os
 (
m
ile
s 
de
 p
es
os
)
Responda usando la información argumentando usando la información suministrada:
30 3 Repaso Corte 1
a) ¿Qué porcentaje de viajes de la muestra fueron realizados por la plataforma
SUPER TAXIS?
b) ¿Cuál es el ingreso promedio de los 103 viajes de la muestra?
c) ¿En términos generales cuál plataforma genera los mayores ingresos? ¿Cuál
plataforma de transporte tiene menos ingresos?
d) ¿En términos generales en qué plataforma los ingresos fueron más variables? ¿En
qué plataforma fueron menos variables?
e) Si usted fuese a invertir en algunas de estas plataformas teniendo en cuenta el
informe descriptivo anterior, ¿Mencione dos plataformas de transporte en las que
invertiŕıa y por qué?
Caṕıtulo 4
Conceptos de probabilidad
En este capitulo se abordaran los conceptos preliminares del calculo de probabilidades,
pasando por la teoria de conjuntos, operaciones con eventos, defición de la probabilidad,
probabilidad condicional y teora de bayes Levin & Rubin (2004).
4.1. Algunas relaciones de teoŕıa de conjuntos
Un evento no es otra cosa que un conjunto, por lo tanto las relaciones y resultados de la
teoŕıa elemental de conjuntos se puede usar para estudiar eventos.
Figura 4.1: Diagrama de Venn de los eventos A y B.
4.1.1. Unión (∪)
La unión de dos eventos A y B denotada por A ] B y que se lee A unión B, es el evento
que consiste en los resultados que están ya sea en A o en B o en ambos eventos. Es decir,
los resultados en por lo menos uno de los eventos.
32 4 Conceptos de probabilidad
Figura 4.2: Unión de eventos A ∪B.
4.1.2. Intersección (∩)
La intersección de dos eventos A y B denotada por A ∩B y que se lee A intersección B, es
el evento que consiste en los resultados que están tanto en A como en B.
Figura 4.3: Intersección de A ∩B.
4.1.3. Complemento
El complemento de un evento A, denontado por A
′
, es el conjunto de todos los resultados
en S.
Figura 4.4: Complemento A
′
.
4.2 Axiomas, interpretaciones y propiedades de la probabilidad 33
4.1.4. Eventos mutuamente excluyentes
Dos o más eventos son mutuamente excluyentes o disjuntos, si no pueden ocurrir
simultáneamente. Es decir, la ocurrencia de un evento impide automáticamente la ocurrencia
del otro evento (o eventos).
Figura 4.5: Eventos mutuamente excluyentes.
Ejemplo 4.1.1 Para el experimento donde se observa el número de bombas en uso en una
sola gasolineria con seis bombas, sea A = {0, 1, 2, 3, 4}, B = {3, 4, 5, 6} y C = {1, 3, 5}.
Encontrar: A ∪B, A ∪ C , A ∩B, A ∩ C, A′ y {A ∪B}
′
SoluciónA ∪B = {0, 1, 2, 3, 4, 5, 6}
A ∪ C = {0, 1, 2, 3, 4, 5}
A ∩B = {3, 4}
A ∩ C = {1, 3}
A
′
= {5, 6}
(A ∪B)′ = {�}
4.2. Axiomas, interpretaciones y propiedades de la
probabilidad
Dados un experimento y un espacio muestral S, el objetivo de la probabilidad es asignar a
cada evento A un número P (A), denominado probabilidad del evento A, que dará una medida
más precisa de la probabilidad de que ocurra el evento A.
34 4 Conceptos de probabilidad
4.2.1. Axiomas
Para cualquier evento A, P (A) ≥ 0
P (S) = 1
Si A1, A2, . . . , Ak es una colección finita de eventos mutuamente excluyentes, entonces
P (A1 ∪ A2 ∪ . . . Ak) =
k∑
i=1
P (Ai)
Si A1, A2, A3, . . . es una colección infinita de eventos mutuamente excluyentes, entonces
P (A1 ∪ A2 ∪ A3 ∪ . . .)
4.2.2. Definición de probabilidad
Sea un evento A, entonces
P (A) =
N(A)
N(S)
(4.1)
Donde N(A) son los resultados del evento A y N(S) son los resultados del espacio muestral
S.
4.2.3. Propiedades de la probabilidad
Para cualquier evento A, P (A) = 1− P (A′)
Si A y B son mutuamente excluyentes, entonces P (A ∩B) = 0
Para dos eventos cualesquiera A y B, P (A ∪B) = P (A) + P (B)− P (A ∩B)
Ejemplo 4.2.1 En un determinado suburbio residencial, 60 % de los hogares se suscriben
al periódico metropolitano publicado en una ciudad cercana, 80 % se suscriben al periódico
local y 50 % se suscriben a ambos periódicos. Si se selecciona al azar una familia, ¿cuál es la
probabilidad de que esté suscrita 1) al menos a uno de los dos periódicos y 2) exactamente
a uno de los dos periódicos?
Solución: Sea el evento A ∪B se suscribe por lo menos a uno de los dos periódicos.
P (A ∪B) = P (A) + P (B)− P (A ∩B)
P (A ∪B) = 0.6 + 0.8− 0.5
P (A ∪B) = 0.9
4.2 Axiomas, interpretaciones y propiedades de la probabilidad 35
Ahora el evento de que una familia solo se suscriba al periódico local se puede escribir como
A
′ ∩B:
P (A
′ ∩B) = P (A ∪B)− P (A)
P (A
′ ∩B) = 0.9− 0.6
P (A
′ ∩B) = 0.3
Ahora el evento de que una familia solo se suscriba al periódico metropolitano se puede
escribir como A ∩B′ :
P (A ∩B′) = P (A ∪B)− P (B)
P (A ∩B′) = 0.9− 0.8
P (A ∩B′) = 0.1
Sea el evento D la probabilidad de que una familia se suscriba exactamente a uno de los dos
periódicos:
P (D) = P (A
′ ∩B) + P (A ∩B′)
P (D) = 0.3 + 0.1
P (D) = 0.4
Un resultado importante es la probabilidad de la unión de mas de dos eventos, se puede
calcular de manera análoga para tres eventos A,B,C:
P (A ∪B ∪ C) = P (A) + P (B) + P (C)− P (A ∩B)−
P (A ∩ C)− P (B ∩ C) + P (A ∩B ∩ C)
Otro interpretación importante son los resultados equiprobables, ya que en muchos
experimentos que consta de N resultados, es razonable asignar probabilidades iguales a
los N eventos simples, donde p = P (Ei):
1 =
N∑
i=1
P (Ei) =
N∑
i=1
p ·N
Si despejamos p tenemos que:
p ·N = 1
p =
1
N
36 4 Conceptos de probabilidad
Ejemplo 4.2.2 Cuando se lanzan por separado dos dados, calcule la probabilidad del evento
A = {suma de dos números sea igual a 7}
Solución:
Dado 2
Dado 1 1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
P (A) =
nA
nΩ
=
6
36
= 0.166
4.3. Probabilidad condicional
Para dos eventos cualesquiera A y B con P (B) > 0, la probabilidad condicional de A dado
que ocurrió B se define como
P (A/B) =
P (A ∩B)
P (B)
(4.2)
4.4. Teorema de Bayes
Sean A1, . . . , Ak eventos mutuamente excluyentes y exhaustivos. Entonces para cualquier
otro evento B,
P (B) = P (B/A1)P (A1) + . . .+ P (B/Ak)P (Ak) =
k∑
i=1
P (B/Ai)P (Ai) (4.3)
Sea A1, A2, . . . , Ak una colección de k eventos mutuamente excluyentes y exhaustivos con
P (Ai) > 0 para i = 1, . . . , k. Entonces para cualquier otro evento B para el cual P (B) > 0,
P (Aj/B) =
P (Aj ∩B)
P (B)
=
P (B/Aj)P (Aj)∑k
i=1 P (B/Ai) · P (Ai)
(4.4)
4.5 Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) 37
Ejemplo 4.4.1 Una fábrica de enlatados produce 5000 envases diarios. La máquina A
produce 3000 de estos envases, de los que el 2 % son defectuosos y la máquina B produce los
2000 restantes de los que se sabe que el 4 % son defectuosos. Determinar:
1. La probabilidad de que un envase elegido al azar sea defectuoso.
2. ¿Si el envase seleccionado es defectuoso, qué probabilidad hay de que proceda de la
máquina A?¿y de la B?
Solución:
1.
Envase defectuosos de la máquina A:
P (A ∩D) = P (A) · P (D/A) =
(
3
5
)
· 0.02 = 0.012
Envase defectuosos de la máquina A:
P (B ∩D) = P (B) · P (D/B) =
(
2
5
)
· 0.04 = 0.016
Probabilidad de que un envase elegido al azar sea defectuoso:
P (D) = 0.012 + 0.016
2.
Probabilidad de que provenga de la máquina A:
P (A/D) =
P (A ∩D)
P (D)
=
0.012
0.028
= 0.4286
Probabilidad de que provenga de la máquina B:
P (B/D) =
P (B ∩D)
P (D)
=
0.016
0.028
= 0.5714
4.5. Ejercicios. Fuente: Douglas et al. (2012), Levin &
Rubin (2004)
1. Al final del semestre John se va a graduar en la facultad de ingenieŕıa industrial de una
universidad. Después de tener entrevistas en dos empresas en donde quiere trabajar,
determina que la probabilidad que tiene de lograr una oferta de empleo en la empresa
A es 0.8, y que la probabilidad de obtenerla en la empresa B es 0.6. Si, por otro
lado, considera que la probabilidad de recibir ofertas de ambas empresas es 0.5, ¿qué
probabilidad tiene de obtener al menos una oferta de esas dos empresas?
38 4 Conceptos de probabilidad
2. Si las probabilidades de que un mecánico automotriz dé servicio a 3, 4, 5, 6, 7, 8
o más veh́ıculos en un d́ıa de trabajo dado son 0.12, 0.19, 0.28, 0.24, 0.10 y 0.07,
respectivamente, ¿cuál es la probabilidad de que dé servicio al menos a 5 veh́ıculos el
siguiente d́ıa de trabajo?
3. Suponga que las especificaciones del fabricante para la longitud del cable de cierto
tipo de computadora son 2000 ± 10 miĺımetros. En esta industria se sabe que el
cable pequeño tiene la misma probabilidad de salir defectuoso (de no cumplir con las
especificaciones) que el cable grande. Es decir, la probabilidad de que aleatoriamente
se produzca un cable con una longitud mayor que 2010 miĺımetros es igual a la
probabilidad de producirlo con una longitud menor que 1990 miĺımetros. Se sabe que
la probabilidad de que el procedimiento de producción cumpla con las especificaciones
es 0.99.
a) ¿Cuál es la probabilidad de que un cable elegido al azar sea muy largo?
b) ¿Cuál es la probabilidad de que un cable elegido al azar sea más grande que 1990
miĺımetros?
4. Suponga que se descubre que, en un grupo de 500 estudiantes universitarios de último
año, 210 fuman, 258 consumen bebidas alcohólicas, 216 comen entre comidas, 122
fuman y consumen bebidas alcohólicas, 83 comen entre comidas y consumen bebidas
alcohólicas, 97 fuman y comen entre comidas y 52 tienen esos tres hábitos nocivos para
la salud. Si se selecciona al azar a un miembro de este grupo, calcule la probabilidad
de que el estudiante
a) Fume pero no consuma bebidas alcohólicas;
b) Coma entre comidas y consuma bebidas alcohólicas pero no fume.
c) No fume ni coma entre comidas.
5. Basado en su experiencia, un agente bursátil considera que en las condiciones
económicas actuales la probabilidad de que un cliente invierta en bonos libres de
impuestos es 0.6, la de que invierta en fondos comunes de inversión es 0.3 y la de
que invierta en ambos es 0.15. En esta ocasión encuentre la probabilidad de que un
cliente invierta
a) En bonos libres de impuestos o en fondos comunes de inversión;
b) En ninguno de esos dos instrumentos.
6. A los obreros de las fábricas se les motiva constantemente a practicar la tolerancia cero
para prevenir accidentes en el lugar de trabajo. Los accidentes pueden ocurrir porque el
ambiente o las condiciones laborales son inseguros. Por otro lado, los accidentes pueden
4.5 Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) 39
ocurrir por negligencia o fallas humanas. Además, los horarios de trabajode 7:00 a.m.
a 3:00 p.m. (turno matutino), de 3:00 p.m. a 11:00 p.m. (turno vespertino) y de 11:00
p.m. a 7:00 a.m. (turno nocturno) podŕıa ser un factor. El año pasado ocurrieron 300
accidentes. Los porcentajes de los accidentes por la combinación de condiciones son los
que siguen:
Turno Condiciones Fallas
inseguras humanas
Matutino 5 % 32 %
Vespertino 6 % 25 %
Nocturno 2 % 30 %
Si se elige aleatoriamente un reporte de accidente de entre los 300 reportes,
a) ¿Cuál es la probabilidad de que el accidente haya ocurrido en el turno nocturno?
b) ¿Cuál es la probabilidad de que el accidente haya ocurrido debido a una falla
humana?
c) ¿Cuál es la probabilidad de que el accidente haya ocurrido debido a las condiciones
inseguras?
d) ¿Cuál es la probabilidad de que el accidente haya ocurrido durante los turnos
vespertino o nocturno?
7. La siguiente es una clasificación, según el género y el nivel de escolaridad, de una
muestra aleatoria de 200 adultos.
Escolaridad Hombre Mujer
Primaria 38 45
Secundaria 28 50
Universidad 22 17
Si se elige una persona al azar de este grupo, ¿cuál es la probabilidad de que:
a) ¿la persona sea hombre, dado que su escolaridad es de secundaria?
b) ¿la persona no tenga un grado universitario, dado que es mujer?
8. Las probabilidad de que tres eventos A, B y C ocurran son P (A) = 0.35, P (B) = 0.45
y P (C) = 0.2. Suponga que ocurrió A, B o C, las probabilidades de que ocurra otro
evento X son P (X/A) = 0.8, P (X/B) = 0.65 y P (X/C) = 0.3. Encuentre P (A/X),
P (B/X) y P (C/X).
40 4 Conceptos de probabilidad
9. El doctor ha decidido recetar dos nuevos medicamentos a 200 pacientes cardiacos de
la siguiente manera: 50 obtienen el medicamento A, 50 obtienen el medicamento B y
100 obtienen ambos. Los 200 pacientes se eligieron de manera que cada uno tiene 80 %
de posibilidad de tener un ataque cardiaco si no toma uno de los medicamentos. El
A reduce 35 % la probabilidad de un ataque al corazón, el B la reduce 20 % y los dos
tomados juntos realizan su trabajo independientemente. Si un paciente del programa
seleccionado en forma aleatoria tiene un ataque card́ıaco, ¿cuál es la probabilidad de
que el paciente haya recibido los dos medicamentos?
10. El departamento de crédito de Lion?s Department Store en Anaheim, California,
informó que 30 % de las ventas se paga con efectivo o con cheque; 30 % con tarjeta
de crédito, y 40 % con tarjeta de débito. Veinte por ciento de las compras con efectivo
o cheque, 90 % de las compras con tarjeta de crédito y 60 % de las compras con tarjeta
de débito son por más de $50. La señora Tina Stevens acaba de comprar un vestido
nuevo que le costó $120. ¿Cuál es la probabilidad de que haya pagado en efectivo o
con cheque?
Caṕıtulo 5
Variable aleatoria
Cantidad que resulta de un experimento que, por azar, puede adoptar diferentes valores.
5.1. Función de Distribución Acumulada
La función de distribución describe el comportamiento probabiĺıstico de una variable
aleatoria X asociada a un experimento aleatorio y se representa como F (X).
5.1.1. Caso discreto
Sea X una variable aleatoria discreta asociada a un espacio probabiĺıstico, se define la función
de distribución:
F (X) : R→ [0, 1] que verifica F (X) = P [X ≤ x] =
∑
xi<x
Pi (5.1)
X 0 1 2 3
P (X) 1/8 3/8 3/8 1/8
Ejemplo 5.1.1 Calcule la probabilidad de obtener menos de dos caras
Solución:
F (1) = P (X ≤ 1) = P (X = 0) + P (X = 1) = 1/8 + 3/8 = 4/8
La función de distribución para una variable aleatoria discreta siembre verifica las siguientes
propiedades:
1. F (−∞) = 0 ; F (+∞) = 1
2. P (a, b) = P (a ≤ X ≤ b) = F (b)− F (a)
42 5 Variable aleatoria
5.1.2. Caso continuo
Se dice que f(x) es la función de densidad de una variable aleatoria X del tipo continuo, si:
f(x) ≥ 0, −∞ < x <∞∫ ∞
−∞
f(x)dx = 1
P (a < x < b) =
∫ b
a
f(x)dx
P (x = a) = 0 si X es continua.
Figura 5.1: Representación de la probabilidad entre dos valores P (a ≤ X ≤ b).
40 60 80 100 120 140 160
0.
00
0
0.
00
5
0.
01
0
0.
01
5
0.
02
0
0.
02
5
x
f(
x)
La función de probabilidad acumulativa de una variable aleatoria continua F(x), se define
como:
F (x) = P (X < x) = P (X ≤ x) =
∫ x
−∞
f(x)dx
F (−∞) = 0
5.1 Función de Distribución Acumulada 43
F (∞) = 1
P (a < X < b) = F (b)− F (a)
∂F (x)
∂x
= f(x)
Figura 5.2: Representación de una probabilidad acumulada P (X ≤ x)
40 60 80 100 120 140 160
0.
00
0
0.
00
5
0.
01
0
0.
01
5
0.
02
0
0.
02
5
x
f(
x)
Ejemplo 5.1.2 Suponga que el error en la temperatura de reacción medido en grados
Celsius, en un experimento de laboratorio controlado, es una variable aleatoria continua
X que tiene la función de densidad de probabilidad
f(x) =
{
x2
3
,−1 < x < 2,
0 , en otro caso.
1. Verifique que f(x) es función de densidad.
2. Calcule P (0 < X ≤ 1).
3. Calcule F (x) y utilice el resultado para calcular P (−1 < X ≤ 1.5)
44 5 Variable aleatoria
Solución:
1.
f(x) =
∫ 2
−1
x2
3
dx =
1
3
∫ 2
−1
x2dx =
(
1
3
)
· x
3
3
∣∣∣2
−1
= 1
2.
P (0 < X < 1) =
∫ 1
0
x2
3
dx =
(
1
3
)
· x
3
3
∣∣∣0
1
= 0.111
3.
F (x) =
∫ x
−1
t2
3
dt =
(
1
3
)
· t
3
3
∣∣∣1
x
=
x3
9
+
1
9
P (−1 < X ≤ 1.5) = F (1.5)− F (−1)
=
[
(1.5)3
9
+
1
9
]
−
[
(−1)3
9
+
1
9
]
= 0.4861
5.2. Valor esperado y varianza
Se denomina valor esperado E(X) de una variable aleatoria a su valor medio o promedio
poblacional, calculado a través de su función de probabilidad P (x), en el caso discreto, o de
densidad f(x) en el caso continuo
E(X) =
∑
x
x · p(x) = µx, si x es una v.a. discreta.
E(X) =
∫ ∞
−∞
x · f(x)dx, si x es una v.a. continua.
Propiedades de E(X):
E(c) = c
E(aX) = aE(X) = aµx
E(aX + b) = aE(X) + b = aµx + b
Es posible tener el valor esperado de cualquier función g(X):
E [g(X)] =
∑
x
g(x) · p(x), si x es una v.a. discreta.
5.2 Valor esperado y varianza 45
E [g(X)] =
∫ ∞
−∞
g(x) · f(x)dx, si x es una v.a. continua.
La varianza V (X) cuantifica la magnitud de la variabilidad de una variable aleatoria, de
manera que un valor pequeño de este indicador sugiere homogeneidad, mientras que por el
contrario un valor grande indica dispersión.
V (X) = E
[
(X − E[X])2
]
=
∑
x
(x− µx)2 · p(x), si x es una v.a. discreta.
V (X) = E
[
(X − E[X])2
]
=
∫ ∞
−∞
(x− µx)2 · f(x)dx, si x es una v.a. continua.
Propiedades:
V (c) = 0
V (aX) = a2V (X) = a2σ2x
V (aX + b) = a2V (X) = a2σ2x
Ejemplo 5.2.1 La demanda diaria en toneladas para un determinado producto alimenticio
que se vende a granel es una variable aleatoria X con función de densidad
f(x) =
{
− 1
270
· x(1− x) , 4 < x < 10,
0 , en otro caso.
1. ¿Cuál es la variabilidad relativa de la demanda diaria?
2. Si se desea un nivel de servicio superior al 90 % cual es la cantidad de toneladas de
productos mı́nima de la que debe disponerse en el inventario al inicio del d́ıa.
Solución:
1.
E(X) =
−1
270
∫ 10
4
x · x · (1− x)dx = − 1
270
·
(
x3
3
∣∣∣4
10
− x
4
4
∣∣∣4
10
)
= − 1
270
·
([
103 − 43
3
]
−
[
104
4
− 4
4
4
])
= 7.866
Interpretación de E(X): El promedio de la demanda diaria fue de 7.866 toneladas.
46 5 Variable aleatoria
E(X2) = − 1
270
∫ 10
4
(x · x · (1− x)) dx = − 1
270
(∫ 10
4
[
x3 − x4
]
dx
)
= − 1
270
·
[
x4
4
∣∣∣10
4
− x
5
5
∣∣∣10
4
]
= − 1
270
·
[
104 − 44
4
− 10
5 − 45
5
]
= 360.59
V (X) = E(X2)− E2(X) = 360.59− (7.86)2 = 298.81
σ(X) =
√
298.81 = 17.28
Interpretación de σ(X): En promedio las discrepancias de la demanda diaria con respecto
a la demanda media fue de 17.28 toneladas.
CV (X) % =
σ(X)
E(X)
· 100 = 17.28
7.866
· 100 = 219.67 %
La variabilidad de la demanda considerando la demanda promedio fue de 219.67 %, esto
indica, una alta variabilidad en este proceso, es decir, que hay momentos con una alta
demanda y otros con una escasa demanda.
5.3. Ejercicios. Fuente: Douglas et al. (2012), Levin &
Rubin (2004)
1. Sea W la variable aleatoria que da el número de caras menos el número decruces en
tres lanzamientos de una moneda. Liste los elementos del espacio muestral S para los
tres lanzamientos de la moneda y asigne un valor w de W a cada punto muestral.
2. Se lanza una moneda hasta que se presentan 3 caras sucesivamente. Liste sólo aquellos
elementos del espacio muestral que requieren 6 o menos lanzamientos. ¿Es éste un
espacio muestral discreto? Explique su respuesta.
3. La presidenta nacional de la Asociación Contra la Distrofia Muscular intenta estimar
la cantidad que ofrecerá cada persona que llama durante el teletón anual de esta
asociación. Usando los datos recolectados en los últimos 10 años, calculó las siguientes
probabilidades de las diferentes cantidades prometidas. Dibuje una gráfica que ilustre
esta distribución de probabilidad.
Dólares prometidos 25 50 75 100 125
Probabilidad 0.45 0.25 0.15 0.1 0.05
5.3 Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) 47
4. Jim Rieck, analista de mercado de la compañ́ıa Flatt and Mitney Aircraft, tiene la
creencia de que el nuevo avión de combate de la compañ́ıa, el Tigerhawk, tiene el 70 %
de posibilidades de ser escogido para sustituir por completo a los aviones de combate
de la Fuerza Aérea de Estados Unidos. Sin embargo, existe una posibilidad entre cinco
de que la Fuerza Aérea compre sólo el número necesario de Tigerhawk para sustituir la
mitad de sus 5,000 aviones de combate. Por último, existe una posibilidad entre 10 de
que la Fuerza Aérea sustituya toda su flotilla de aviones de combate con Tigerhawks
y que además compre el número suficiente de éstos para aumentar el número de sus
unidades en un 10 %. Construya una tabla y trace la distribución de probabilidad de
las ventas de Tigerhawks a la Fuerza Aérea.
5. Mario, el dueño de Mario?s Pizza Emporium, debe tomar una decisión dif́ıcil. Se ha
dado cuenta que cada noche vende entre una y cuatro de sus famosas pizzas ?Con todo,
menos el fregadero?. Sin embargo, la preparación de estas pizzas lleva tanto tiempo, que
Mario las elabora todas con anterioridad y las almacena en el refrigerador. Como los
ingredientes no duran más de un d́ıa, siempre desperdicia las pizzas que no ha vendido
al final de la noche. El costo de preparar cada una es de $7 y el precio al cliente es de
$12. Además de los costos usuales, Mario calcula que pierde $5 por cada pizza de este
tipo que no puede vender por no tenerlas preparadas de antemano. ¿Cuántas pizzas
?Con todo, menos el fregadero? debe almacenar Mario cada noche a fin de minimizar
la pérdida esperada si el número de pizzas ordenadas tiene la siguiente distribución de
probabilidad?
Número de pizzas pedidas 1 2 3 4
Probabilidad 0.4 0.3 0.2 0.1
6. La información que sigue representa el número de llamadas diarias al servicio de
emergencia por el servicio voluntario de ambulancias de Walterboro, Carolina del Sur,
durante los últimos 50 d́ıas. En otras palabras, hubo 22 d́ıas en los que se realizaron 2
llamadas de emergencia, y 9 d́ıas en los que se realizaron 3 llamadas de emergencia.
Número de llamadas 0 1 2 3 4 Total
Frecuencia 8 10 22 9 1 50
a) Convierta esta información sobre el número de llamadas en una distribución de
probabilidad.
b) ¿Es un ejemplo de distribución de probabilidad discreta o continua?
c) ¿Cuál es la media de la cantidad de llamadas de emergencia al d́ıa?
d) ¿Cuál es la desviación estándar de la cantidad de llamadas diarias?
48 5 Variable aleatoria
7. El director de admisiones de Kinzua University en Nueva Escocia estimó la distribución
de admisiones de estudiantes para el segundo semestre con base en la experiencia de
años pasados. ¿Cuál es el número de admisiones esperado para el segundo semestre?
Calcule la varianza y la desviación estándar del número de admisiones.
Admisiones 1000 1200 1500
Probabilidad 0.6 0.3 0.1
8. (0.5 ) La vida útil, en d́ıas, para frascos de cierta medicina de prescripción es una
variable aleatoria que tiene la siguiente función de densidad:
f(x) =

20000
(x+ 100)3
x > 0
0, en otro caso
Calcule la probabilidad de que un frasco de esta medicina tenga una vida útil de:
a) Al menos 200 d́ıas;
b) Cualquier lapso entre 80 y 120 d́ıas.
9. El número total de horas, medidas en unidades de 100 horas, que una familia utiliza
una aspiradora en un periodo de un año es una variable aleatoria continua X que tiene
la siguiente función de densidad:
f(x) =

x 0 < x < 1
2− x, 1 ≤ x < 2
0, en otro caso
Calcule la probabilidad de que en un periodo de un año una familia utilice su
aspiradora:
a) Menos de 120 horas;
b) Entre 50 y 100 horas.
c) Calcule el valor esperado y varianza.
10. La proporción de personas que responden a cierta encuesta enviada por correo es una
variable aleatoria continua X que tiene la siguiente función de densidad:
f(x) =
{
2(x+2)
5
, 0 < x < 1
0, en otro caso
5.3 Ejercicios. Fuente: Douglas et al. (2012), Levin & Rubin (2004) 49
a) Demuestre que P (0 < X < 1) = 1.
b) Calcule la probabilidad de que más de 1/4 pero menos de 1/2 de las personas
contactadas respondan a este tipo de encuesta.
c) Calcule el valor esperado y varianza.
Caṕıtulo 6
Repaso Corte 2
A continuación se presentan una serie de propuestas de evaluación con el objetivo de que el
estudiante tenga una marco de referencia que le ayude a mejorar el desempeño en la segunda
evaluación del curso.
6.1. Examen 1
1. Un testigo de un accidente de auto en el que huye el culpable dice a la polićıa que la
placa del veh́ıculo conteńıa las letras RLH seguidas de tres d́ıgitos cuyo primer número
es un 5. El testigo no puede recordar los otros dos d́ıgitos de la placa, pero tiene la
certeza de que los tres d́ıgitos eran diferentes. Encuentre el número máximo de placas
de auto que la polićıa tiene que verificar.
2. Al probar cierto clase de neumático para camión en un terreno escabroso, se encuentra
que 25 % de los camiones no completaban la prueba sin ponchaduras. De los siguientes
15 camiones probados, encuentre la probabilidad que más de 3 camiones no tengan
ponchaduras.
3. Durante un turno de 8 horas la proporción de tiempo Y que una máquina troqueladora
de láminas metálicas está sin operar por mantenimiento o reparaciones tiene una
distribución con la siguiente función de densidad:
f(y) =
{
2 · (1− y) ; 0 ≤ y ≤ 1
0 ; otro caso
El costo (millones de pesos) de este tiempo improductivo, debido a producción perdida
y costo de mantenimiento y reparación, está dado por C = 10 + 20Y + 4Y 2. Encuentre
el costo promedio.
6.2 Examen 2 51
4. Cierta área del este de Estados Unidos resulta afectada, en promedio, por 6 huracanes
al año. Calcule la probabilidad de que para cierto año esta área resulte afectada por
a) Menos de 4 huracanes al año.
b) Más de 2 huracanes en 6 meses.
5. De un lote de 10 proyectiles, 4 se seleccionan al azar y se disparan. Si el lote contiene
3 proyectiles defectuosos que no explotarán, ¿cuál es la probabilidad de que:
a) ¿Los 4 exploten?
b) ¿Al menos 2 no exploten?
6. Una empresa recibe visitantes en sus instalaciones y los hospeda en cualquiera de tres
hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn, en una proporción de
18.5 %, 32 % y 49.5 % respectivamente, de los cuales se ha tenido información de que
se les ha dado un mal servicio en un 2.8 %, 1 % y 4 % respectivamente.
a) Si se selecciona a un visitante al azar y se encuentra que se quejó del servicio
prestado, ¿cuál es la probabilidad de que se haya hospedado en el Palacio del
Sol?.
b) Si el visitante seleccionado no se quejó del servicio prestado, ¿cuál es la
probabilidad de que se haya hospedado en e hotel Fiesta Inn?
6.2. Examen 2
1. Si un estudiante tiene 9 libros y desea ordenar a 5 de ellos sobre un estante. De cuantas
maneras distintas puede hacerlo?
2. Las enfermedades I y II son comunes entre la gente de cierta población. Se supone
que el 10 % de la población contraerá la enfermedadI alguna vez durante su vida,
15 % contraerá eventualmente la enfermedad II y el 3 % contraerá ambas. Encuentre la
probabilidad de que una persona elegida al azar contraiga al menos una enfermedad.
3. (1 punto) La siguiente es una clasificación, según el género y el nivel de escolaridad,
de una muestra aleatoria de 200 adultos.
Escolaridad Hombre Mujer
Primaria 38 45
Secundaria 28 50
Universidad 22 17
Si se elige una persona al azar de este grupo, ¿cuál es la probabilidad de que:
52 6 Repaso Corte 2
a) ¿la persona sea hombre, dado que su escolaridad es de secundaria?
b) ¿la persona no tenga un grado universitario, dado que es mujer?
4. La mina de carbón en la región A tienen una probabilidad de 0.2 de producir. La mina
de carbón en la región B tienen una probabilidad de 0.09. Suponga que las dos minas
producen de manera independiente.
a) ¿Cuál es la probabilidad de que ambas minas produzcan?
b) Cuál es la probabilidad de que al menos una produzca?
5. Los clientes se encargan de evaluar los diseños preliminares de varios productos.
En el pasado, el 95 % de los productos con mayor éxito en el mercado recibieron
buenas evaluaciones, el 60 % de los productos con éxito moderado recibieron buenas
evaluaciones, y el 10 % de productos de escaso éxito recibieron buenas evaluaciones.
Además, el 40 % de los productos han tenido mucho éxito, el 35 % un éxito moderado,
y el 25 % una baja aceptación.
a) Si un nuevo diseño no obtiene una buena evaluación, cuál es la probabilidad de
que se convierta en un producto de gran éxito.
b) Si un nuevo diseño obtiene una buena evaluación, cuál es la probabilidad de que
se convierta en un producto de escaso éxito.
Caṕıtulo 7
Modelos de probabilidad
7.1. Distribución Binomial
Un experimento a menudo consiste en pruebas repetidas, cada una con dos posibles
resultados que se pueden etiquetar como éxito o fracaso.
Si se habla de un proceso Bernoulli debe tener las siguientes propiedades:
1. El experimento consiste en n pruebas que se repiten.
2. Cada prueba produce un resultado que se puede clasificar como éxito o fracaso.
3. La probabilidad de un éxito, que se denota con p, permanece constante en cada prueba.
4. Las pruebas que se repiten son independientes.
El número X de éxitos en n experimentos Bernoulli se denomina variable aleatoria binomial.
La distribución de probabilidad de esta variable aleatoria se llama ditribución binomial.
Definición La distribución de probabilidad de la v.a. binomial X, el número de éxitos en n
pruebas independientes, es
p(x) =
(
n
x
)
px(1− p)n−x x = 0, 1, 2, . . . , n (7.1)
7.1.1. Valor esperado y varianza de una v.a. binomial
E (X) = n · p (7.2)
V (X) = n · p · (1− p) (7.3)
54 7 Modelos de probabilidad
Ejemplo 7.1.1 La probabilidad de que un paciente se recupere de una rara enfermedad
sangúınea es 0.4. Si se sabe que 15 personas contraen esta enfermedad, ¿cuál es la
probabilidad de que (a) sobrevivan al menos 10. (b) sobrevivan de 3 a 8. (c) sobrevivan
exactamente 5 y (d) encuentre la media y la varianza de X?
Solución:
a)
P (X ≥ 10) =
15∑
x=10
(
15
x
)
(0.4)x(1− 0.4)15−x = 0.0338
b)
P (3 ≤ X ≤ 8) =
8∑
x=3
(
15
x
)
(0.4)x(1− 0.4)15−x = 0.8778
c)
P (X = 5) =
(
15
5
)
(0.4)5(1− 0.4)15−5 = 0.1859
d)
E(X) = 15 · 0.4 = 6
V (X) = 15 · 0.4 · 0.6 = 3.6
7.2. Distribución Poisson
Se dice que una variable aleatoria X tiene una distribución de Poisson con parámetro λ
(λ > 0) si la función de masa de X es,
p(x) =
e−λλx
x!
Donde λ es la media de la cantidad de veces (éxitos) que se presenta un evento en un intervalo
particular.
7.3 Distribución Uniforme 55
7.2.1. Valor esperado y varianza de una v.a. poisson
E (X) = λ (7.4)
V (X) = λ (7.5)
Ejemplo 7.2.1 Si un editor de novelas se esfuerza por asegurar que sus libros están libres
de errores tipográficos, de modo que la probabilidad de que alguna página contenga por lo
menos un error es 0.005 y los errores son independientes de una página a otra, ¿cuál es la
probabilidad de que una de sus novelas de 400 páginas contenga exactamente una página con
errores? ¿a lo sumo 3 páginas con errores?
Solución: Primero debemos encontra la media
λ = 400 · 0.005 = 2
Es decir, que en promedio hay dos errores por página.
a)
P (X = 1) =
e−2 · 21
1!
= 0.2706
b)
P (X ≤ 3) =
3∑
x=0
e−2 · 2x
x!
= 0.8571
7.3. Distribución Uniforme
Una de la distribuciones continuas más simples en la estad́ıstica es la distribución uniforme.
Esta distribución se caracteriza por tener una densidad plana en un intervalo cerrado por
ejemplo [a, b]
La función de densidad de la v.a. uniforme continua X en el intervalo [a, b] es
Ejemplo 7.3.1 Suponga que se puede reservar una sala de conferencias grande para cierta
compañ́ıa por no más de cuatro horas. Sin embargo, el uso de la sala de conferencias es tal
que muy a menudo tienen lugar conferencias largas y cortas. De hecho, se puede suponer que
la duración X de una conferencia tiene una distribución uniforme en el intervalo [0, 4].
56 7 Modelos de probabilidad
1. ¿Cuál es la función de densidad de la probabilidad?
2. ¿Cuál es la probabilidad de que cualquier conferencia dada dure al menos tres horas?
Solución:
1. La función de densidad apropiada para la variable aleatoria uniforme X en esta
situación es
f(x) =
1
4
, 0 ≤ x ≤ 4
2.
P (X ≥ 3) =
∫ 4
3
1
4
dx =
1
4
7.3.1. Valor esperado y varianza de una v.a. Uniforme
E(X) =
a+ b
2
(7.6)
V (X) =
(b− a)2
12
(7.7)
7.4. Distribución Exponencial
La variable aleatoria continua X tiene una distribución exponencial, con parámetro λ, si su
función de densidad esta dada por
f(x) =
{
1/βe−x/β, x > 0
0, en cualquier otro caso
(7.8)
donde β > 0.
La función de distribución esta dada por:
F (x) = 1− e−x/β (7.9)
7.5 Distribución Gamma 57
7.4.1. Valor esperado y varianza de una v.a. Exponencial
E(X) = β (7.10)
V (X) = β2 (7.11)
Ejemplo 7.4.1 Suponga que un sistema contiene cierto tipo de componente cuyos tiempo
de falla en años está dado por X . La variable aleatoria X se modelo bien mediante la
distribución exponencial con tiempo medio para la falla de 5 años. Si se instalan cinco de
estos componentes en diferentes sistemas, ¿cuál es la probabilidad de que un componente
funcione después de 8 años?
Solución:
Usando la función de densidad:
P (X > 8) =
∫ ∞
8
1/5 · e−x/5dx
= 1/5 ·
[
−5e−x/5
∣∣∣∞
8
]
= −e−∞/5 + e−8/5 = 0.2018
Usando la función de distribución:
P (X > 8) = 1− P (X ≤ 8) = 1− F (8) = 1−
(
1− e−8/5
)
= 0.2018
7.5. Distribución Gamma
La distribución gamma deriva su nombre de la función gamma, que se estudia en muchas
áreas de las matemáticas.
7.5.1. La función Gamma
Se define como
Γ(α) =
∫ ∞
0
xα−1e−xdx (7.12)
58 7 Modelos de probabilidad
Cuando α es igual a n, donde n es un entero positivo,
Γ(n) = (n− 1)(n− 2), . . . ,Γ(1) (7.13)
Donde Γ(1) = 1 y Γ(n) = n!
La variable aleatoria continua X tiene una distribución gamma, con parámetros α y β, si su
función de densidad está dada por,
f(x) =
{
1
βαΓ(α)
xα−1e−x/β, x > 0
0, en cualquier otro caso
(7.14)
cuando α > 0 y β > 0
7.5.2. Función Gamma incompleta
La integral anterior se puede resolver a través del uso de la función gamma incompleta, que
resulta ser la función de distribución acumulada para la distribución gamma. Esta función
se escribe como:
F (x;α) =
∫ x
0
yα−1e−y
Γ(α)
dy (7.15)
7.5.3. Valor esperado y varianza de una v.a. Gamma
E(X) = αβ (7.16)
V (X) = αβ2 (7.17)
Ejemplo 7.5.1 En un estudio biomédico con ratas se usa una investigación de respuesta a
la dosis para determinar el efecto de la dosis de un tóxico en su tiempo de sobrevivencia.
El tóxico es uno que se descarga con frecuencia en la atmósfera desde el combustible de los
aviones. Para cierta dosis del tóxico el estudio determina que el tiempo de sobrevivencia, en
semanas, tiene una distribución gamma con α = 5 y β = 10. ¿Cuál es la probabilidad

Otros materiales