E-APU-Apuntes estadística

Ingeniería Civil

•
Outros

Estudiando Ingenieria
23/5/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Ingeniería Civil

106.564 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS AERONÁUTICOS
ESTADÍSTICA
Marta Cordero Gracia
José Olarrea Busto
Dpto. de Matemática Aplicada y Estad́ıstica
Índice general
1. Estad́ıstica descriptiva 1
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . . . . . . . . 3
1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Medida de asimetŕıa . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Análisis combinatorio 11
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3. Álgebra de sucesos 19
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . . . . 21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Teoŕıa de la probabilidad 23
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 24
i
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . . . . 26
4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . 29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5. Variable aleatoria unidimensional 37
5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . 46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 48
5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6. Momentos de una variable aleatoria unidimensional 53
6.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2. Momento de orden k de una variable aleatoria . . . . . . . . . . . . . . . . 55
6.3. Varianza y desviación t́ıpica . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.4. Otros valores t́ıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5. Coeficientes de asimetŕıa y curtosis . . . . . . . . . . . . . . . . . . . . . . 58
6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . . . . . . . . . 60
6.7. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . 61
6.8. Función caracteŕıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.8.1. Cambio de variable en la función caracteŕıstica . . . . . . . . . . . . 64
ii
7. Variable aleatoria bidimensional y n-dimensional 65
7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 66
7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 66
7.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 69
7.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 69
7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . . . . . . . . 72
7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 73
7.5. Variables aleatorias bidimensionales independientes . . . . . . . . . . . . . 75
7.6. Momentos de una variable aleatoria bidimensional . . . . . . . . . . . . . . 76
7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . . . 78
7.6.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 80
7.7. Función caracteŕıstica de una variable aleatoria bidimensional . . . . . . . 81
7.8. Transformación de variables aleatorias bidimensionales . . . . . . . . . . . 82
7.8.1. Una función de dos variables aleatorias . . . . . . . . . . . . . . . . 82
7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . . . . 82
7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 83
7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 83
7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . 84
8. Distribuciones de probabilidad discretas 85
8.1. Distribución de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . . . . . . . 86
8.2. Distribución Binomial, B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 86
8.2.1. Teorema de adición para distribuciones Binomiales . . . . . . . . . 88
8.2.2. Distribución de la proporción . . . . . . . . . . . . . . . . . . . . . 89
8.3. Distribución de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.3.1. Teorema de adición para distribuciones de Poisson . . . . . . . . . . 90
8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3. Aproximación de una Binomial por una Poisson . . . . . . . . . . . 92
8.4. Distribución Hipergeométrica, H(n,N,A) . . . . . . . . . . . . . . . . . . 92
8.5. Distribución Geométrica, G(p) . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6. Distribución Binomial Negativa, BN(r, p) . . . . . . . . . . . . . . . . . . 95
8.6.1. Teorema de adición para distribuciones Binomiales Negativas . . . . 96
iii
9. Distribuciones de probabilidad continuas 99
9.1. Distribución Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . 100
9.2. Distribución Normal,N(µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.2.1. Teorema de adición para distribuciones Normales . . . . . . . . . . 103
9.2.2. Distribución Normal estándar . . . . . . . . . . . . . . . . . . . . . 104
9.3. Distribución Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . . . . . . 105
9.4. Distribución χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . . . . . . . 107
9.4.1. Teorema de adición para distribuciones χ2 de Pearson . . . . . . . 108
9.5. Distribución t-Student, tn . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.6. Distribución F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.7. Distribución Exponencial, Exp(λ) . . . . . . . . . . . . . . . . . . . . . . 111
9.7.1. Teorema de adición para distribuciones Exponenciales . . . . . . . . 113
9.8. Distribución de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . . . . . . 113
9.8.1. Teorema de adición para distribuciones de Erlang . . . . . . . . . . 115
9.9. Relación entre las distribuciones de Poisson, Exponencial y Erlang . . . . . 115
9.10. Distribución de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . . . . . . . 117
9.11. Distribución Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 118
9.11.1. Teorema de adición para distribuciones Gamma . . . . . . . . . . . 119
9.12. Distribución Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . . . . . . . . 121
9.14. Distribución Normal Bidimensional . . . . . . . . . . . . . . . . . . . . . . 123
10.Convergencia de sucesiones de variables aleatorias 127
10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2. Problema central del ĺımite . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . . . 129
10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.3. Aproximaciones a la distribución Normal . . . . . . . . . . . . . . . . . . . 130
10.3.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.3.2. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.3.3. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 132
10.3.4. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 132
11.Regresión y correlación 133
11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
iv
11.2. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2.1. Método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . 134
11.2.2. Método de la distribución condicional . . . . . . . . . . . . . . . . . 136
11.2.3. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.3.1. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 140
12.Distribuciones de muestreo 143
12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.2. Definición de estad́ıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3. Estad́ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 146
12.4. Estad́ıstico
(n − 1)s2
σ2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
12.5. Estad́ıstico
x̄ − µ
s/
√
n
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
12.5.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 147
12.5.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 148
12.6. Estad́ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . 148
12.6.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 148
12.6.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 149
12.7. Estad́ıstico desviación t́ıpica muestral . . . . . . . . . . . . . . . . . . . . . 150
12.8. Estad́ıstico diferencia de medias muestrales . . . . . . . . . . . . . . . . . . 152
12.9. Estad́ıstico cociente de varianzas muestrales . . . . . . . . . . . . . . . . . 153
12.10.Estad́ıstico proporción muestral . . . . . . . . . . . . . . . . . . . . . . . . 154
12.11.Estad́ıstico elemento que ocupa el lugar r . . . . . . . . . . . . . . . . . . 155
12.11.1.Estad́ıstico máximo valor de una muestra . . . . . . . . . . . . . . . 155
12.11.2.Estad́ıstico mı́nimo valor de una muestra . . . . . . . . . . . . . . . 156
12.11.3.Estad́ıstico recorrido de una muestra . . . . . . . . . . . . . . . . . 156
12.11.4.Estimación de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 157
13.Estimación puntual y estimación por intervalo 159
13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13.2. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 163
13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . 164
13.2.3. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . . 165
v
13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 166
13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
13.3. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 170
13.3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . 170
13.3.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . 172
13.3.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . 173
13.4. Estimación por intervalo de confianza . . . . . . . . . . . . . . . . . . . . . 174
13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . 176
13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . 179
13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . . . 180
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . . . 182
13.4.5. Intervalo de confianza para la proporción poblacional . . . . . . . . 183
13.5. Intervalo de confianza asintótico . . . . . . . . . . . . . . . . . . . . . . . . 185
14.Teoŕıa de muestras de población finita 187
14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
14.2.1. Estad́ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . 189
14.2.2. Estad́ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . 191
14.2.3. Estad́ıstico proporción muestral . . . . . . . . . . . . . . . . . . . . 193
14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 194
14.3.2. Intervalo de confianza para la proporción poblacional . . . . . . . . 195
15.Contraste de hipótesis 197
15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
15.2. Las hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . 199
15.3. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
15.4. Nivel de significación y región cŕıtica . . . . . . . . . . . . . . . . . . . . . 204
15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
15.6.Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
15.7. Contrastes para la media de una población . . . . . . . . . . . . . . . . . . 209
15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 211
15.8. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
vi
15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . 213
15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . . . . 213
15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . . . . 215
15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.1.Una población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.2.Comparación de varianzas . . . . . . . . . . . . . . . . . . . . . . . 215
16.Contrastes no paramétricos 219
16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . 221
16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . 222
16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . 223
16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 223
16.3. Otros contrastes no paramétricos . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.1. Contrastes de posición . . . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . 228
16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
17.Regresión lineal simple 251
17.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
17.3. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 254
17.4. Propiedades de los estimadores de mı́nimos cuadrados . . . . . . . . . . . . 256
17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . . . 256
17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . . . . 257
17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
17.6. Inferencias respecto a los parámetros . . . . . . . . . . . . . . . . . . . . . 258
17.7. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
17.7.1. Estimación de la respuesta media . . . . . . . . . . . . . . . . . . . 259
17.7.2. Predicción de una observación . . . . . . . . . . . . . . . . . . . . . 260
17.8. Análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
17.9.1. Inferencias sobre el coeficiente de correlación . . . . . . . . . . . . . 264
17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
vii
A. Tablas estad́ısticas 271
B. Resumen de distribuciones 303
viii
1
Estad́ıstica
descriptiva
Índice
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . 3
1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . 5
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.1. Medidas de tendencia central . . . . . . . . . . . . . . 6
1.4.1.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2.1. Varianza y desviación t́ıpica . . . . . . . . . . . . . . 8
1.4.2.2. Desviación media . . . . . . . . . . . . . . . . . . . . 8
1.4.2.3. Coeficiente de variación de Pearson . . . . . . . . . . 8
1.4.2.4. Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Medida de asimetŕıa . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . 9
1
2 Estad́ıstica
La estad́ıstica descriptiva tiene por objeto describir y analizar un determinado con-
junto de datos sin pretender sacar conclusiones de tipo más general.
El conjunto de datos en cuestión representa una muestra de los distintos valores que
puede tomar una población (e.g. estatura de los alumnos de la Escuela, ingresos familiares
de una unidad familiar, estado civil, número de grietas en las alas de un determinado
modelo de avión)
Las variables se pueden clasificar en:
Cuantitativas: variables en las que los datos difieren en magnitud (e.g. estaturas, ingresos
anuales, etc)
Cualitativas: variables en las que los datos difieren en tipo (e.g. estado civil, nacionalidad,
etc)
En este caṕıtulo se tratará únicamente con variables cuantitativas.
Para obtener una muestra de valores de una variable cuantitativa es necesario realizar
medidas con una determinada escala y unidad de medida. La unidad de medida puede
ser infinitamente divisible (e.g. km, m, cm, mm, . . . ) o indivisible (e.g. tamaño de una
unidad familiar). Cuando la unidad de medida es infinitamente divisible, la variable se
dice que es continua. En el caso de unidad de medida indivisible, se dice que la variable
es discreta. En otras palabras,
Variable continua: aquella que puede tomar un número infinito no numerable de valores.
Variable discreta: aquella que puede tomar un número finito o infinito numerable de va-
lores.
1.1. Notación
La notación que vamos a utilizar a lo largo de este caṕıtulo es la siguiente:
• Disponemos de N observaciones, r de las cuales son distintas {x1, x2, . . . , xr}.
• Las observaciones están ordenadas en forma creciente x1 < x2 < · · · < xr.
• Cada observación xi ha aparecido ni veces.
• Se llama frecuencia absoluta de la observación xi al valor ni, siendo
r∑
i=1
ni = N
1 Estad́ıstica descriptiva 3
• Se llama frecuencia absoluta acumulada de la observación xi, al valor
Ni =
i∑
k=1
nk
siendo Nr = N
• Se llama frecuencia relativa de la observación xi al valor
fi =
ni
N
siendo
r∑
i=1
fi = 1
• Se llama frecuencia relativa acumulada de la observación xi, al valor
Fi =
i∑
k=1
fk
siendo Fr = 1
1.2. Formas de agrupar los datos de una muestra
Tabla Tipo I. Se utiliza cuando el número de observaciones es reducido (N es
pequeño), y cada valor distinto ha aparecido una sola vez (todas las frecuencias
absolutas valen uno).
xi ni
x1 1
x2 1
...
...
xN 1
Tabla Tipo II. Se utiliza cuando el número de observaciones es grande (N es gran-
de), pero el número de valores distintos que han aparecido es pequeño (algunas
frecuencias absolutas son distintas de uno).
4 Estad́ıstica
xi ni
x1 n1
x2 n2
...
...
xr nr
Tabla Tipo III. Se utiliza cuando tanto el número de observaciones como el número
de valores distintos que han aparecido es grande. En este caso, elegiremos unos
intervalos, Li−1 — Li, de amplitud, ai = Li − Li−1, fija o variable, que contengan
a la totalidad de los valores observados.
∈[L0,L1)︷ ︸︸ ︷
x1, x2, x3, x4,
∈[L1,L2)︷ ︸︸ ︷
x5, x6, x7, x8, x9, x10,
...
x82, x83, x84,︸ ︷︷ ︸
∈[Lr−2,Lr−1)
x85, x86, x87, x88, x89, x90︸ ︷︷ ︸
∈[Lr−1,Lr)
Li−1 — Li ni
L0 — L1 n1
L1 — L2 n2
...
...
Lr−1 — Lr nr
En las tablas tipo III, se sugieren las siguientes normas :
• Se debe intentar que los intervalos sean de amplitud constante.
• Los intervalos se deben tomar semiabiertos, [Li−1,Li).
• Para facilitarlos cálculos, se definen las marcas de clase como
xi =
Li−1 + Li
2
convirtiéndolas en tablas tipo II.
1.3. Representación gráfica
Hay muchas formas de representar gráficamente una tabla, aqúı veremos sólo algunas
de ellas.
1 Estad́ıstica descriptiva 5
Diagrama de barras
-
x
6n
x1
n1
x2
n2
· · · xr
nr
Poĺıgono de frecuencias
-
x
6n
•%
%%
x1
n1
•aaa
x2
n2
•""
"
"
"
"
x3
n3
•
x4
n4
Histograma
-
x
6h
L0 L1
h1
n1
L2
h2
n2
L3
h3
n3
Histograma
-
x
6n
L0 L1
n1
A1
L2
n2
A2
L3
n3
A3
ai = Li − Li−1 , hi =
ni
ai
Ai = ai ni
1.4. Medidas numéricas descriptivas
Una vez que se han recogido y graficado los datos, es conveniente definir algunas
medidas numéricas para describirlos. Existen dos medidas de especial interés para cual-
quier conjunto de datos: la localización de su centro y su variabilidad. Además, hay otras
medidas también importantes como la localización de los extremos y la forma en que se
distribuyen los datos.
6 Estad́ıstica
1.4.1. Medidas de posición
1.4.1.1. Medidas de tendencia central
Estas medidas indican dónde se encuentra el centro de los datos
• Media muestral (x̄)
La medida de tendencia central más utilizada es la media muestral o simplemente
media,
x̄ =
x1n1 + x2n2 + · · ·+ xrnr
n1 + n2 + · · ·+ nr
=
1
N
r∑
i=1
xini
• Otros tipos de medias
– Media geométrica
x̄G = (x1
n1 · x2n2 · · ·xrnr)1/N
– Media cuadrática
x̄Q =
√
x21n1 + x
2
2n2 + · · ·+ x2rnr
N
– Media armónica
x̄A =
N
n1
x1
+
n2
x2
+ · · ·+ nr
xr
– Media ponderada
x̄p =
x1p1 + x2p2 + · · ·+ xrpr
p1 + p2 + · · ·+ pr
Se cumple: x̄A ≤ x̄G ≤ x̄ ≤ x̄Q
• Mediana (Me)
Lamediana es la medida de tendencia central que, supuestos los valores de la muestra
ordenados en forma creciente, deja igual número de observaciones por debajo y por
encima de ella. Aśı, suponiendo que los valores de la muestra son x1 ≤ x2 ≤ · · · ≤ xN
1 Estad́ıstica descriptiva 7
Me =



x[N
2
]+1 Si
N
2
∈/N
1
2
(
xN
2
+ xN
2
+1
)
Si
N
2
∈ N
donde los corchetes, [ ], indican la parte entera.
• Moda (Mo)
La moda se define como el valor de la muestra que tiene máxima frecuencia. La
moda no siempre es única. Aśı, si una muestra tiene dos modas se llamará bimodal,
si tiene tres modas trimodal, etc.
1.4.1.2. Cuantiles
Ya hemos visto que la mediana divide el conjunto de datos en dos partes de igual
tamaño. Para obtener medidas de localización más finas, solo es cuestión de dividir el
conjunto de datos en más de dos partes. De esta forma se definen los p-cuantiles, siendo p
la proporción de datos que deja el cuantil a su izquierda. Si tenemos la muestra ordenada
de forma creciente, x1 ≤ x2 ≤ · · · ≤ xN , el p-cuantil viene dado por
xp =



x[Np]+1 Si Np ∈/N
1
2
(xNp + xNp+1) Si Np ∈ N
donde los corchetes, [ ], indican la parte entera. Los casos particulares de cuantiles más
utilizados son
• Cuartiles (Q1/4, Q2/4, Q3/4)
Son los 3 valores de la muestra que dividen las observaciones en 4 partes iguales.
• Deciles (D1/10, D2/10, . . . , D9/10)
Son los 9 valores de la muestra que dividen las observaciones en 10 partes iguales.
• Centiles o percentiles (P1/100, P2/100, . . . , P99/100)
Son los 99 valores de la muestra que dividen las observaciones en 100 partes iguales.
8 Estad́ıstica
1.4.2. Medidas de dispersión
1.4.2.1. Varianza y desviación t́ıpica
Las medidas de dispersión más utilizadas son la varianza y la desviación t́ıpica. La
varianza muestral, s2, es un tipo de promedio de las desviaciones de los valores observados
respecto de su media, y se define como
s2 =
(x1 − x̄)2n1 + · · ·+ (xr − x̄)2nr
(n1 + n2 + · · ·+ nr)− 1
=
1
N − 1
r∑
i=1
(xi − x̄)2ni
La desviación t́ıpica se define como la ráız cuadrada de la varianza y tiene las mismas
dimensiones que los datos originales.
s =
√
s2 =
√√√√ 1
N − 1
r∑
i=1
(xi − x̄)2ni
1.4.2.2. Desviación media
Se define la desviación media respecto de un parámetro cualquiera, p, como
DMp =
1
N
r∑
i=1
|xi − p|ni
donde, generalmente, como parámetro p se utiliza la media o la mediana.
1.4.2.3. Coeficiente de variación de Pearson
El coeficiente de variación de Pearson, definido como el cociente
C.V. =
s
x̄
(x̄ 6= 0)
mide la dispersión de la distribución, al igual que la desviación t́ıpica o la varianza, con
la ventaja de ser un coeficiente adimensional.
1.4.2.4. Recorrido
Es la diferencia entre el valor máximo y el valor mı́nimo que toma la muestra
R = máx{xi} −mı́n{xi}
Además, se define
1 Estad́ıstica descriptiva 9
• Rango intercuart́ılico
RI = Q3/4 −Q1/4
• Rango semicuart́ılico
RSI =
Q3/4 −Q1/4
2
=
RI
2
1.4.3. Medida de asimetŕıa
En un conjunto de datos simétricos respecto a su media, x̄, la suma
∑
(xi − x̄)3
será nula, mientras que con datos asimétricos esta suma crecerá con el grado de asimetŕıa.
Para obtener una medida adimensional del grado de asimetŕıa se define el coeficiente de
asimetŕıa o deformación como
CA =
n
∑
(xi − x̄)3
(n− 1)(n− 2)s3 (n ≥ 3 y s 6= 0)
donde s es la desviación t́ıpica de la muestra. Valores grandes y negativos de CA son
indicativos de asimetŕıa hacia la izquierda (x̄ <Me<Mo) mientras que valores grandes y
positivos son indicativos de asimetŕıa hacia la derecha (x̄ >Me>Mo).
1.4.4. Medida de apuntamiento
Para medir si una distribución de datos es más puntiaguda o más achatada de lo
“normal”, se define el coeficiente de apuntamiento o curtosis como
CAp =
n(n+ 1)
∑
(xi − x̄)4
(n− 1)(n− 2)(n− 3)s4 −
3(n− 1)2
(n− 2)(n− 3) (n ≥ 4 y s 6= 0)
donde s es la desviación t́ıpica de la muestra. Si CAp> 0 indica que la distribución es
puntiaguda, mientras que si CAp< 0 indica que es achatada.
10 Estad́ıstica
2
Análisis
combinatorio
Índice
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.0.1. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 13
2.1.0.2. Con repetición . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.0.3. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 14
2.2.0.4. Con repetición . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.0.5. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 15
2.3.0.6. Con repetición . . . . . . . . . . . . . . . . . . . . . . 16
11
12
El principal objetivo de la combinatoria –o, por lo menos en el que estamos aqúı más
interesados– es el de hallar el cardinal de un conjunto finito o, dicho de otro modo, contar.
Una posible definición matemática de la acción que supone contar es la de establecer una
biyección entre el conjunto que se desea contar y los números naturales, de modo que
podamos enumerar los elementos como el uno, el dos, etc.
Es fácil, por ejemplo, contar el número de cuadrados perfectos que hay entre 100
y 1000. Basta observar que 100 = (9 + 1)2 y que el mayor cuadrado perfecto menor que
1000 es 961 = 312 = (9 + 22)2. Hemos establecido una biyección entre el conjunto que
deseábamos contar y los naturales entre el 1 y el 22. Hay, por tanto, 22 cuadrados perfectos
entre 100 y 1000.
Sin embargo, la mayor parte de las veces, no es evidente –o siquiera posible– cómo
establecer tal biyección. Un primer procedimiento accesible en estos casos es el denominado
constructivo. Se trata de recorrer los pasos necesarios para formar todos los elementos del
conjunto anotando las alternativas que puedan elegirse en cada uno.
Veamos un ejemplo: ¿De cuántas maneras se pueden sentar tres chicas y tres chicos
en seis butacas consecutivas de un cine de forma que no haya dos chicas ni dos chicos
seguidos?
Hay que ocupar seis sitios. Los indicaremos gráficamente aśı:
La primera butaca puede ser ocupada por cualquiera de las seis personas.
︸︷︷︸
6
Elegida la primera persona hay 3 elecciones posibles, entre las personas de sexo
contrario,para ocupar el segundo lugar.
︸︷︷︸
6
︸︷︷︸
3
La tercera butaca ha de ser ocupada por una de las 2 personas que quedan del mismo
sexo de la primera y la cuarta por una de las dos del sexo de la segunda.
︸︷︷︸
6
︸︷︷︸
3
︸︷︷︸
2
︸︷︷︸
2
Y, para terminar, las dos últimas personas no tienen elección.
︸︷︷︸
6
︸︷︷︸
3
︸︷︷︸
2
︸︷︷︸
2
︸︷︷︸
1
︸︷︷︸
1
2 Análisis combinatorio 13
En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles.
La intuitiva multiplicación que proporciona el resultado final puede expresarse como
una regla general matemática:
Si los conjuntos A1, A2,. . .,Ak tienen n1, n2, . . .,nk elementos respectivamente,
el producto cartesiano A1 ×A2 × · · · × Ak tiene n1 · n2 · · ·nk elementos.
En algunas ocasiones hay que resolver problemas que pueden reducirse a un pequeño
número de patrones o formas de contar. Estos patrones se estudian en la educación secun-
daria y haremos aqúı sólamente un breve recordatorio. Sin embargo, la mayor parte de las
veces tendremos problemas que no corresponden exactamente a alguno de estos patrones.
Lo más recomendable suele ser recurrir antes a la lógica y al método constructivo que a
buscar hipotéticas fórmulas que resuelvan nuestro problema concreto.
Entre estos patrones fundamentales –que pueden resumirse esquemáticamente en la
tabla del final del caṕıtulo – se encuentran los siguientes:
2.1. Permutaciones
Supongamos un conjunto de n elementos. Se llaman permutaciones de estos n ele-
mentos a las distintas ordenaciones que podemos hacer con ellos.
2.1.0.1. Sin repetición
El método anterior nos da fácilmente el número de permutaciones Pn que existen en
el conjunto si no se repite ningún elemento (es decir, si son todos distintos o distinguibles):
El primer elemento puede ser cualquiera de los n, el segundo cualquiera de los n− 1
restantes, el tercero cualquiera de los n− 2 restantes y aśı sucesivamente.
︸︷︷︸
n
︸︷︷︸
n− 1
︸︷︷︸
n− 2
. . . ︸︷︷︸
3
︸︷︷︸
2
︸︷︷︸
1
El total de permutaciones de n elementos es, entonces:
Pn = n× (n− 1)× (n− 2)× · · · × 3× 2× 1 = n!
14 Estad́ıstica
2.1.0.2. Con repetición
Supongamos ahora que no todos los n elementos del conjunto son distintos, sino que
hay r grupos de elementos iguales entre śı (o indistinguibles), digamos n1 de una clase,
n2 de otra, hasta nr de la última clase. Está claro que n1 + n2 + . . . + nr = n. ¿Cuántas
ordenaciones podŕıamos distinguir?
Un ejemplo t́ıpico de este problema podŕıa ser el siguiente: disponemos de una bolsa
en la que hay 11 bolas iguales; cuatro de ellas tienen un 1 escrito, otras tres un 2 y las
cuatro restantes un 3. Sacando las once bolas una tras otra y anotando las cifras que
aparecen ¿Cuantos números distintos podemos obtener?
Otro ejemplo clásico: ¿Cuántas palabras distintas pueden formarse empleando las 8
letras del vocablo CASCARAS?
Pensemos en el problema general. Si los n elementos fueran distintos tendŕıamos n!
permutaciones posibles. Dada una cualquiera de ellas, podŕıamos sacar de la ordenación
los n1 elementos del primer grupo, reordenarlos arbitrariamente y volver a rellenar los
huecos que hubieran dejado libres sin que fuéramos capaces de distinguir la permutación
original del resultado final de esta operación. Lo mismo es cierto para los n2 elementos del
segundo grupo, los n3 del tercero, hasta los nr del último. Puesto que hay ni! ordenaciones
parciales posibles de los elementos del grupo i-ésimo, tenemos que:
PRn1,n2,...,nrn =
n!
n1!× n2!× · · · × nr!
2.2. Variaciones
2.2.0.3. Sin repetición
Sea ahora un conjunto de n elementos distintos. Se llama variación de r elementos
tomados de entre los n (Vn,r) a una ordenación de un subconjunto de tamaño r.
Una variación de 3 elementos tomados de entre 7 es, por ejemplo, el podio (los 3
primeros clasificados) de una carrera con 7 inscritos.
Es muy fácil calcular el número de variaciones Vn,r. Basta observar que hay que
elegir r elementos de modo que el primero puede ser uno cualquiera de los n, el segundo
uno cualquiera de los n− 1 restantes y aśı sucesivamente:
︸︷︷︸
n
︸︷︷︸
n− 1
. . . ︸︷︷︸
n− r + 2
︸︷︷︸
n− r + 1︸ ︷︷ ︸
r
2 Análisis combinatorio 15
Y aplicando la regla del producto cartesiano:
Vn,r = n× (n− 1)× · · · × (n− r + 2)× (n− r + 1) =
n!
(n− r)!
2.2.0.4. Con repetición
Supongamos ahora que cada elemento del conjunto original pueda ser repetido al
crear una ordenación de tamaño r. Se hablará entonces de variaciones con repetición de
r elementos tomados de entre n, V Rn,r.
Pensemos, por ejemplo, en las palabras de 8 letras que pueden formarse con el
alfabeto español. Hay que tomar 8 decisiones (cuál es la primera letra, cuál la segunda,
etc.) teniendo 27 posibilidades de elección cada vez (las 27 letras del alfabeto). El número
total de palabras es, entonces 27× 27× · · · × 27× 27︸ ︷︷ ︸
8veces
= 278.
Es fácil observar que, en general:
V Rn,r = n
r
2.3. Combinaciones
Una combinación de r elementos tomados de entre n es cualquier subconjunto de
tamaño r de un conjunto de n elementos. Es importante resaltar que en una combinación
no interviene el orden de los elementos: si sacamos tres bolas de una bolsa que contiene
diez, numeradas del uno al diez, podemos obtener las permutaciones distintas {1, 2, 7} y
{7, 1, 2} que, sin embargo, son un mismo subconjunto de tamaño 3 (el obtenido por unión
de {1}, {2} y {3}). Son, por tanto, la misma combinación.
2.3.0.5. Sin repetición
Siguiendo la idea del ejemplo anterior, una manera sencilla de contar las combina-
ciones de r elementos tomados entre n (Cn,r) es observar que, de las n!/(n−r)! variaciones
posibles, r! de ellas son ordenaciones distintas de los mismos elementos y, por tanto, la
misma combinación. El número total de combinaciones será entonces:
Cn,r =
n!
(n− r)! r! =
(
n
r
)
16 Estad́ıstica
2.3.0.6. Con repetición
Supongamos ahora que tenemos la libertad de repetir los elementos del conjunto
para formar un subconjunto de tamaño r, obtendremos una combinación con repetición
de r elementos tomados de entre n. En una de estas combinaciones cada uno de los n
elementos del conjunto puede aparecer 0, 1, 2, 3, . . ., hasta r veces. Cada combinación
puede ser descrita por una n-upla de números que indica cuántas veces aparece el elemento
1, el 2, y aśı hasta el n. Evidentemente, la suma de las cifras de cada n-upla es r, puesto
que cada combinación consta de r elementos. El número total de n-uplas tales que la
suma de sus elementos sea r es el número de posibles combinaciones con repetición y lo
que deseamos calcular.
Olvidémonos por el momento de las combinaciones y pensemos en los siguientes
problemas:
Introducimos r bolas idénticas en n cajas. ¿Cuántas configuraciones finales distintas
podŕıamos reconocer?
¿Cuántas soluciones distintas tiene la ecuación k1+k2+ · · ·+kn = r si cada ki debe
ser un número natural ó 0?
Estos dos problemas aparentemente distintos son, en realidad, equivalentes. Supon-
gamos r bolas iguales y n cajas. Las introducimos y contamos cuántas bolas han cáıdo en
la primera caja, cuántas en la segunda, la tercera y la cuarta. Cada configuración nos da
una n-upla de números (k1, k2, . . . , kn) que resuelve el segundo problema.
Obsérvese, llegados a este punto, que el número de configuraciones distintas que
obtenemos al introducir r bolas en n cajas y el número de combinaciones que buscábamos
coinciden: ambas son el número de n-uplas (k1, k2, . . . , kn) tales que la suma
∑n
i=1 ki = r.
Vamos a calcular este número empleando un sencillo y original argumento para el problema
de las bolas y las cajas.
Supongamos las n cajas colocadas una a continuación de la otra y pegadas entre śı.
Representaremos las bolas mediante asteriscos y las cajas como los n espacios comprendi-
dos entre n+1 barras (las paredes de las cajas). Por ejemplo, la secuencia | ∗ ∗ ∗ |||| ∗ ∗|| ∗ |
indica una manera de introducir 6 bolas en 7 cajas con el resultadode 3 en la primera,
2 en la quinta y 1 en la séptima. Cada secuencia que representemos empieza y termina
por una barra vertical, pero las restantes n−1 barras y r asteriscos aparecen en un orden
arbitrario. Por lo tanto, el número de configuraciones distinguibles es igual al número de
formas de seleccionar r lugares de n+ r − 1 posiciones posibles, es decir:
2 Análisis combinatorio 17
CRn,r =
(n+ r − 1)!
(n− 1)! r! =
(
n+ r − 1
r
)
Otro ejemplo clásico que puede reducirse al de introducir r bolas en n cajas: ¿Cuántas
derivadas parciales de orden r diferentes existen para una función anaĺıtica de n variables
f(x1, x2, . . . , xn)?
Por ser una función anaĺıtica, las derivadas parciales de orden r no dependen del
orden de la derivación, sino sólo del número de veces que cada variable aparece. Si identi-
ficamos cada variable con una celda, cada configuración obtenida al introducir r bolas nos
da, de nuevo, una derivada posible de orden r. Hay, por tanto CRn,r derivadas distintas
de f .
18 Estad́ıstica
C
O
M
B
I
N
A
T
O
R
I
A
��
��
��
��
��
���
B B
B B
B B
B B
B B
B BN
in
t
e
r
v
ie
n
e
e
l
o
r
d
e
n
�
�
�
�3
Q
Q
Q
Qs
p
u
e
d
o
r
e
p
e
t
ir
��
��
��
���
A A
A A
A A
A AU
p
u
e
d
o
r
e
p
e
t
ir
�
�
�
�3
Q
Q
Q
Qs
c
o
j
o
t
o
d
o
s
m
e
d
ic
e
n
c
u
a
n
t
a
s
v
e
c
e
s
s
e
r
e
p
it
e
c
a
d
a
u
n
o
�
�
�
�3
Q
Q
Q
Qs
n
o
s
i
n
o
s
i
n
o
s
i
n
o
s
i
n
o
s
i
C
n
,r
=
(
n r
)
=
n
!
r!
(n
−
r)
!
C
R
n
,r
=
(
n
+
r
−
1
r
)
=
(n
+
r
−
1)
!
r!
(n
−
1)
!
V
n
,r
=
n
×
(n
−
1)
×
··
·×
(n
−
r
+
1)
P
n
=
n
!
V
R
n
,r
=
n
r
P
R
n
1
,n
2
,.
..
,n
r
n
=
n
!
n
1
!×
n
2
!×
··
·×
n
r
!
3 Álgebra
de sucesos
Índice
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . 21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . 22
19
20 Estad́ıstica
3.1. Experimento aleatorio
Por experimento entenderemos cualquier acción que pueda dar lugar a resultados
identificables. Suponemos que podemos repetir el experimento gran número de veces bajo
las mismas condiciones, y que todos los posibles resultados son conocidos antes de la
realización del mismo.
Si los resultados del experimento pueden ser distintos y no se sabe cuál de ellos
aparecerá al final, el experimento se llamará aleatorio. Si el resultado del experimento es
conocido de antemano, se llamará determinista.
3.2. Sucesos
Llamaremos sucesos elementales de un experimento a un conjunto de resultados
posibles que cumplen:
1. Siempre ocurre alguno de ellos
2. Son mutuamente excluyentes, es decir, la ocurrencia de uno de ellos implica la no
ocurrencia de los demás
Llamaremos espacio muestral, E, al conjunto de todos los posibles resultados de un
experimento aleatorio. Si, por ejemplo, el experimento consiste en lanzar una moneda dos
veces, el espacio muestral lo forman cuatro sucesos elementales, E = {c c, c+,+ c,++}.
En un experimento aleatorio podemos estar interesados no en un suceso elemental,
sino en un conjunto de sucesos elementales, conjunto que llamaremos suceso compuesto,
es decir, un subconjunto del espacio muestral (que se obtiene mediante la unión de sucesos
elementales). En el ejemplo anterior, un suceso compuesto seŕıa obtener exactamente una
cara, S = {c+,+ c}
Si el único resultado que interesa del experimento es el mismo espacio muestral E,
estamos ante el suceso seguro; mientras que si el resultado deseado es no obtener ninguno
de los sucesos contenidos en E, tenemos el suceso imposible.
3 Álgebra de sucesos 21
3.3. Operaciones con sucesos
3.3.1. Unión de sucesos
Dados n sucesos S1, S2, . . . , Sn, la operación unión de ellos
(
n⋃
i=1
Si
)
es otro suceso
constituido por los elementos comunes y no comunes a los sucesos S1, S2, . . . , Sn. Es decir,
un suceso que aparece cuando tiene lugar S1 ó S2 ó · · · ó Sn.
3.3.2. Intersección de sucesos
Dados n sucesos S1, S2, . . . , Sn, la operación intersección de ellos
(
n⋂
i=1
Si
)
es otro
suceso constituido por los elementos comunes a los sucesos S1, S2, . . . , Sn. Es decir, un
suceso que aparece cuando tiene lugar S1 y S2 y · · · y Sn.
Cuando n sucesos no tienen ningún elemento común, su intersección es igual al
suceso vaćıo
(
n⋂
i=1
Si = ∅
)
, y se dice que los sucesos son disjuntos o incompatibles. Como
caso particular, n sucesos son disjuntos dos a dos si Si ∩ Sj = ∅ ∀i 6= j.
Si n sucesos son disjuntos dos a dos y la unión de todos ellos es el espacio muestral,(
n⋃
i=1
Si = E
)
, se dice que los sucesos Si forman una partición del espacio muestral E.
La definición de partición se puede ampliar a un conjunto numerable de sucesos disjuntos
dos a dos y tales que
∞⋃
i=1
Si = E.
3.3.3. Propiedades de la unión y la intersección
• Conmutativa
S1 ∪ S2 = S2 ∪ S1
S1 ∩ S2 = S2 ∩ S1
• Asociativa
S1 ∪ (S2 ∪ S3) = (S1 ∪ S2) ∪ S3
S1 ∩ (S2 ∩ S3) = (S1 ∩ S2) ∩ S3
• Distributiva
S1 ∪ (S2 ∩ S3) = (S1 ∪ S2) ∩ (S1 ∪ S3)
S1 ∩ (S2 ∪ S3) = (S1 ∩ S2) ∪ (S1 ∩ S3)
22 Estad́ıstica
3.3.4. Diferencia de sucesos
Dados dos sucesos S1 y S2, la operación diferencia (S1 − S2) es el suceso integrado
por los elementos de S1 que no pertenecen a S2. Es decir, el suceso que tiene lugar cuando
sucede S1 y no sucede S2. La operación diferencia no goza de la propiedad conmutativa,
pues, en general, S1 − S2 6= S2 − S1.
3.3.5. Suceso complementario
El complementario de un suceso S, que notaremos por S̄, es la diferencia entre el
espacio muestral, E, y el suceso S, es decir S̄ = E − S. Es el suceso compuesto por los
elementos de E que no pertenecen a S.
Se comprueba fácilmente que S ∪ S̄ = E, S ∩ S̄ = ∅ y ¯̄S = S
• Leyes de De Morgan (
n⋃
i=1
Si
)
=
n⋂
i=1
S̄i
(
n⋂
i=1
Si
)
=
n⋃
i=1
S̄i
4
Teoŕıa de
la probabilidad
Índice
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . 24
4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . 26
4.1.3.1. Álgebra de sucesos . . . . . . . . . . . . . . . . . . . . 26
4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . 28
4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . 29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . 32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . 33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . 34
23
24 Estad́ıstica
4.1. Concepto de probabilidad
4.1.1. Probabilidad clásica
Laplace define la probabilidad de un suceso como el cociente entre el número de casos
favorables y el número de casos posibles, siempre que todos sean igualmente posibles.
De la definición clásica de probabilidad se desprenden una serie de propiedades (S
denota cualquier suceso ya sea compuesto o elemental):
• P (S) ≥ 0
• P (S) ≤ 1
• Si tenemos dos sucesos disjuntos S1 y S2, y su unión es S = S1 ∪ S2, entonces
P (S) = P (S1 ∪ S2) = P (S1) + P (S2)
• Si S̄ es el suceso complementario de S, entonces P (S̄) = 1− P (S)
La probabilidad clásica supone que el número de casos posibles sea finito.
4.1.2. Probabilidad frecuentista
Esta teoŕıa se basa en dos aspectos fundamentales :
– La estabilidadde las frecuencias o regularidad estad́ıstica :
En un experimento aleatorio, a pesar del comportamiento irregular de los
resultados individuales, los resultados promedios, en largas sucesiones de
experimentos aleatorios, muestran una sorprendente regularidad.
– La objetividad de la probabilidad
La probabilidad es una propiedad f́ısica de los objetos como la densidad,
la temperatura, etc, y por tanto, medible.
4 Teoŕıa de la probabilidad 25
Si realizamos un experimento N veces, el número de veces, n, que ocurre un suceso
particular, S, es su frecuencia absoluta, mientras que la frecuencia relativa se define como
f(S) = n/N . Aśı, la teoŕıa frecuentista define la probabilidad del suceso S como el ĺımite
P (S) = ĺım
N→∞
f(S) = ĺım
N→∞
n
N
Las frecuencias relativas verifican una serie de propiedades fácilmente demostrables:
• 0 ≤ f(S) ≤ 1
• Sean S1, S2, . . . , Sn sucesos disjuntos dos a dos y S =
n⋃
i=1
Si, entonces
f(S) =
n
N
=
1
N
n∑
i=1
ni =
n∑
i=1
ni
N
=
n∑
i=1
f(Si)
Por todo ello, al identificar la probabilidad de un suceso con el valor tomado en el
ĺımite por la frecuencia relativa, se admite que
0 ≤ P (S) ≤ 1 y P (S) =
n∑
i=1
P (Si)
Para poder definir la probabilidad frecuentista, debemos imponer dos condiciones
1. En la secuencia de observaciones, existe el ĺımite de las frecuencias relativas (prin-
cipio de existencia del ĺımite).
2. Considerada aleatoriamente cualquier subsecuencia dentro del colectivo, existe en
ella el ĺımite de la frecuencia relativa y es igual al obtenido en todo el colectivo
(principio de aleatoriedad).
Al igual que la teoŕıa clásica, esta teoŕıa también tiene sus inconvenientes :
– Del principio de existencia del ĺımite se deduce que esta teoŕıa de la probabilidad
no puede aplicarse a sucesos que no puedan repetirse.
– Es necesario realizar el experimento para obtener la frecuencia relativa corres-
pondiente al suceso en cuestión.
– Habŕıa que realizar el experimento infinitas veces para calcular el ĺımite, pues las
reglas del cálculo de ĺımites sólo son aplicables a sucesiones no aleatorias, donde
se supone que existe un término general.
26 Estad́ıstica
4.1.3. Axiomática del cálculo de probabilidades
Las limitaciones de las teoŕıas clásica y frecuentista de la probabilidad hacen im-
posible la formalización matemática de la asignación de un modelo matemático a la pro-
babilidad, consiguiéndose éste con el planteamiento axiomático de Kolmogorov (1933), al
poner en relación la teoŕıa de la probabilidad con la de conjuntos y con la teoŕıa de la
medida.
El planteamiento de Kolmogorov presenta la limitación de no proporcionar un méto-
do práctico de obtención de probabilidades de sucesos en el mundo real. Para salvar esta
importante limitación, Kolmogorov establece la conexión del modelo matemático con el
mundo real recurriendo a la base emṕırica de la teoŕıa frecuentista, al considerar que si un
experimento aleatorio se repite gran número de veces, la frecuencia relativa de un suceso
diferirá ligeramente de la probabilidad del suceso.
4.1.3.1. Álgebra de sucesos
En el experimento del dado, el espacio muestral es el conjunto E = {1, 2, 3, 4, 5, 6},
pudiendo plantearse preguntas como : ¿qué probabilidad hay de obtener el número 5 en
una tirada? En la pregunta, el suceso es 5, uno de los sucesos elementales constitutivos del
espacio muestral E. Sin embargo, existen otras muchas preguntas en las que se formulan
sucesos compuestos, como la obtención de : {número par}, {número distinto de 5}, etc.
Todos estos sucesos compuestos tienen un denominador común : no figuran expĺıcitamente
en el espacio muestral E, aunque proceden de los elementos constitutivos de él. Esto tiene
como consecuencia que el número de sucesos que pueden plantearse en un experimento
aleatorio es superior al de sucesos elementales integrantes de E, y son generados desde
E mediante las operaciones de unión, intersección y complementariedad, constituyendo
todos ellos un nuevo conjunto denominado álgebra.
Lo anterior puede formalizarse de la siguiente manera : sea E el espacio muestral in-
tegrado por sucesos elementales. Sea A una colección de subconjuntos de E, cumpliéndose
las siguientes condiciones :
1. El espacio muestral, E, pertenece a A.
2. Si un suceso S pertenece a A, también pertenece su complementario S̄. Como
consecuencia, el conjunto vaćıo, ∅, pertenece a A.
4 Teoŕıa de la probabilidad 27
3. Si S1 y S2 son dos subconjuntos de A, su unión, S1 ∪ S2, pertenece a A; y por
tanto también su intersección, S1 ∩ S2.
La colección de sucesos que cumple las tres condiciones se denomina álgebra de
Boole, siendo extensible a cualquier número finito de sucesos, sin más que reiterar las
operaciones de unión e intersección.
Si en vez de tener n sucesos tenemos una sucesión numerable, S1, S2, . . . , Sn, . . . ,
pertenecientes a A, entonces
∞⋃
i=1
Si y
∞⋂
i=1
Si también pertenecen a A, la colección recibe
el nombre de σ-álgebra, que representaremos por Ω. El par (E,Ω) recibe el nombre de
espacio probabilizable o medible.
Mediante dos ejemplos podremos apreciar con claridad la formación de una σ-álgebra
de sucesos, Ω, a partir de los elementos de un espacio muestral, E.
En el primer caso tenemos el espacio muestral E = {1, 2, 3} y como σ-álgebra Ω, la
σ-álgebra completa que puede generarse desde él :
E −−−−−−−−−−−→ Ω
1
2
3
−→
{ningún elemento}={∅}
{1}
{2}
{3}
{no obtener el 1}={{2} ∪ {3}}
{no obtener el 2}={{1} ∪ {3}}
{no obtener el 3}={{1} ∪ {2}}
{cualquier elemento}={E}
En el segundo ejemplo hemos elegido como σ-álgebra Ω de interés el número de
caras resultante de lanzar una moneda dos veces :
E −−−−−−−−−−−→ Ω
c c
c+
+ c
++
−→
{ningún elemento}={∅}
{2 caras}={c c}
{como mı́nimo una cara}={{c c} ∪ {c+} ∪ {+ c}}
{como máximo una cara}={{c+} ∪ {+ c} ∪ {++}}
{1 cara}={{c+} ∪ {+ c}}
{no obtener una cara}={{c c} ∪ {++}}
{0 caras}={++}
{cualquier elemento}={E}
28 Estad́ıstica
4.1.4. Axiomática de Kolmogorov
El sistema axiomático de Kolmogorov consta de tres axiomas :
A1. Si S es un suceso de una σ-álgebra, Ω, existe un número P (S) ≥ 0, denominado
probabilidad del suceso S
A2. P (E) = 1
A3. Dada una sucesión numerable de sucesos S1, S2, . . . , Sn, . . ., disjuntos dos a dos,
se verifica que
P (
∞⋃
i=1
Si) =
∞∑
i=1
P (Si)
La tripleta (E,Ω, P ) se conoce como espacio probabiĺıstico.
Ampliamos el doble ejemplo de espacio probabilizable (E,Ω) para disponer del es-
pacio probabiĺıstico (E,Ω, P ).
En el primer caso, suponemos que P (1) = 3/12, P (2) = 4/12 y P (3)=5/12
E −−−−−−−−−−−→ Ω −−−−−−−−→ P
1
2
3
−→
{ningún elemento}={∅}
{1}
{2}
{3}
{no obtener el 1}={{2} ∪ {3}}
{no obtener el 2}={{1} ∪ {3}}
{no obtener el 3}={{1} ∪ {2}}
{cualquier elemento}={E}
−→
−→
−→
−→
−→
−→
−→
−→
0
3/12
4/12
5/12
9/12
8/12
7/12
1
4 Teoŕıa de la probabilidad 29
En el segundo ejemplo, se supone que P (c c) = P (c+) = P (+ c) = P (++) = 1/4
E −−−−−−−−−−−−−−−−−−→ Ω −−−−−−−−−−−−−−−−−→ P
c c
c+
+ c
++
−→
{ningún elemento}={∅}
{2 caras}={c c}
{como mı́nimo una cara}={{c c} ∪ {c+} ∪ {+ c}}
{como máximo una cara}={{c+} ∪ {+ c} ∪ {++}}
{1 cara}={{c+} ∪ {+ c}}
{no obtener una cara}={{c c} ∪ {++}}
{0 caras}={++}
{cualquier elemento}={E}
−→
−→
−→
−→
−→
−→
−→
−→
0
1/4
3/4
3/4
2/4
2/4
1/4
1
4.2. Teoremas del cálculo de probabilidades
TEOREMA 1. La probabilidad del suceso imposible es cero : P (∅) = 0
Sea una sucesión de sucesos disjuntos dos a dos S1, . . . , Sn, . . . , todos ellos iguales
al suceso imposible (Si = ∅). Según el tercer Axioma P
( ∞⋃
i=1
Si
)
=
∞∑
i=1
P (Si), es decir
P (∅) =
∞∑
i=1
P (∅), y por el Axioma 1, debe ser P (∅) = 0
TEOREMA 2. La probabilidad de la unión de n sucesos disjuntos dos a dos, S1, . . . , Sn,
es igual a la suma de las probabilidades :
P
(
n⋃
i=1
Si
)
=
n∑
i=1
P (Si)
Consideremos la sucesión numerable S1, . . . , Sn, Sn+1, Sn+2, . . ., siendo los sucesos
Sn+1 = ∅, Sn+2 = ∅, . . . Según el tercer Axioma
P
( ∞⋃
i=1
Si
)
=
∞∑
i=1
P (Si)
es decir,
P
( ∞⋃
i=1
Si
)
= P
[(
n⋃
i=1
Si
)
∪
( ∞⋃
i=n+1
Si
)]
= P
[(
n⋃
i=1
Si
)]
=
∞∑
i=1
P (Si) =
n∑
i=1
P (Si)
TEOREMA 3. La probabilidad de la unión de dos sucesos cualesquiera, S1 y S2 viene
dada por P (S1 ∪ S2) = P (S1) + P (S2)− P (S1 ∩ S2)
Descomponemos los sucesos S1 ∪ S2, S1 y S2 en uniones de sucesos disjuntos :
30 Estad́ıstica
S1 ∪ S2 = (S1 ∩ S̄2) ∪ (S̄1 ∩ S2) ∪ (S1 ∩ S2)
S1 = (S1 ∩ S̄2) ∪ (S1 ∩ S2)
S2 = (S̄1 ∩ S2) ∪ (S1 ∩ S2)
por el teorema 2,
P (S1 ∪ S2) = P (S1 ∩ S̄2) + P (S̄1 ∩ S2) + P (S1 ∩ S2)
P (S1) = P (S1 ∩ S̄2) + P (S1 ∩ S2)
P (S2) = P (S̄1 ∩ S2) + P (S1 ∩ S2)
por tanto,
P (S1 ∪ S2) = P (S1) + P (S2)− P (S1 ∩ S2)
Para n sucesos :
P
(
n⋃
i=1
Si
)
=
n∑
i=1
P (Si) −
n∑
i<j
P (Si ∩ Sj) +
n∑
i<j<k
P (Si ∩ Sj ∩ Sk) +
+ · · ·+ (−1)n+1P (S1 ∩ S2 ∩ · · · ∩ Sn)
TEOREMA 4. Si un suceso S1 está contenido en otro S, (S1 ⊂ S), se verifica que
P (S1) ≤ P (S)
Descomponemos el suceso S en la unión de dos sucesos disjuntos
S = (S1 ∩ S) ∪ (S̄1 ∩ S)
por el teorema 2,
P (S) = P (S1 ∩ S) + P (S̄1 ∩ S)
Por el Axioma 1, P (S̄1 ∩ S) ≥ 0, por tanto P (S) ≥ P (S1 ∩ S), pero S1 ∩ S = S1,
con lo que P (S1) ≤ P (S)
TEOREMA 5. La probabilidad de cualquier suceso es menor o igual que la unidad :
P (S) ≤ 1
Todo suceso, S, está contenido en el suceso seguro (S ⊂ E), por tanto P (S) ≤
P (E) ≤ 1
TEOREMA 6. La probabilidad del suceso complementario S̄ es P (S̄) = 1− P (S)
Siendo S y S̄ disjuntos y tales que S ∪ S̄ = E, se tiene que
P (E) = P (S) + P (S̄) = 1 ⇒ P (S̄) = 1− P (S)
4 Teoŕıa de la probabilidad 31
4.3. Probabilidad condicional
Consideremos las dos situaciones siguientes : acertar si la puntuación resultante de
lanzar un dado perfecto es 2, o acertarla sabiendo que ha salido un número par. No cabe
duda que las dos situaciones son distintas en cuanto a nuestra certidumbre de ganar, pues
parece más fácil lograrlo en la segunda que en la primera. Este planteamiento conduce a un
nuevo tipo de sucesos denominados condicionados, y de aqúı a la probabilidad condicional.
En el ejemplo anterior, la probabilidad de obtener un 2 es 1/6. Si sabemos que ha
salido un número par, la probabilidad de que sea 2 es 1/3. La diferencia en el valor de
la probabilidad se debe a que tenemos más información en el segundo caso. El efecto
de la información se centra en el espacio muestral. Si no existe ninguna información, el
espacio muestral es E = {1, 2, 3, 4, 5, 6}, y si existe información, el espacio muestral se
reduce a E = {2, 4, 6}. En esta situación, el conocimiento del suceso {par} condiciona la
probabilidad de obtener el suceso {número 2}, denominando al primero condicionante y
al segundo condicionado, y designándolo por {número 2/par}. Establecida la existencia
de los sucesos condicionados, pasamos a su estudio.
Dados dos sucesos S1 y S, el suceso S1 está condicionado por el suceso S si la proba-
bilidad de que suceda S1 depende de que haya sucedido S, y la probabilidad condicional
se define como
P (S1/S) =
P (S1 ∩ S)
P (S)
siempre que P (S) > 0.
Hemos visto que la consecuencia de disponer de la información proporcionada por el
conocimiento de la presencia del suceso S, radica en la modificación del espacio muestral
E, dando lugar a un nuevo espacio muestral ES = E ∩S. Este espacio muestral genera, a
su vez, una nueva σ-álgebra ΩS = Ω ∩ S y teniendo, por último, una nueva probabilidad
sobre ΩS , que denominaremos PS y que ya hemos definido como PS(S1) = P (S1/S). El
espacio probabiĺıstico resultante es (S,ΩS , PS), siempre que P (S) > 0.
Para concluir que PS es realmente una probabilidad, debemos comprobar que verifica
los tres axiomas de Kolmogorov.
1 PS(S1) ≥ 0
Según la definición de probabilidad condicional,
PS(S1) = P (S1/S) =
P (S1 ∩ S)
P (S)
y por el Axioma 1, P (S1 ∩ S) ≥ 0 y P (S) > 0, por tanto, PS(S1) ≥ 0
32 Estad́ıstica
2 PS(ES) = 1
PS(ES) = P (ES/S) =
P (ES ∩ S)
P (S)
=
P (S)
P (S)
= 1
3 PS
( ∞⋃
i=1
Si
)
=
∞∑
i=1
PS(Si) siendo los Si disjuntos dos a dos
Por la propiedad distributiva,
( ∞⋃
i=1
Si
)
∩ S =
∞⋃
i=1
(Si ∩ S)
por tanto,
PS
( ∞⋃
i=1
Si
)
= P
( ∞⋃
i=1
Si/S
)
=
P
[( ∞⋃
i=1
Si
)
∩ S
]
P (S)
=
P
[∞⋃
i=1
(Si ∩ S)
]
P (S)
=
=
∞∑
i=1
P (Si ∩ S)
P (S)
=
∞∑
i=1
P (Si ∩ S)
P (S)
=
∞∑
i=1
P (Si/S) =
∞∑
i=1
PS(Si)
La definición de probabilidad condicional se extiende fácilmente a más de dos suce-
sos. Por ejemplo, para tres sucesos S1, S2 y S3, tenemos
P (S1/S2 ∩ S3) =
P (S1 ∩ S2 ∩ S3)
P (S2 ∩ S3)
P (S1 ∩ S2/S3) =
P (S1 ∩ S2 ∩ S3)
P (S3)
4.3.1. Regla de la multiplicación
Dados n sucesos, S1, . . . , Sn, se verifica
P
(
n⋂
i=1
Si
)
= P (S1)P (S2/S1)P (S3/S1 ∩ S2) · · ·P (Sn/S1 ∩ S2 ∩ · · · ∩ Sn−1)
Demostramos este teorema por inducción. Comenzamos con dos sucesos S1 y S2
P (S2/S1) =
P (S1 ∩ S2)
P (S1)
⇒ P (S1 ∩ S2) = P (S1)P (S2/S1)
Pasamos a tres sucesos S1, S2 y S3
P (S3/S1 ∩ S2) =
P (S1 ∩ S2 ∩ S3)
P (S1 ∩ S2)
=
P (S1 ∩ S2 ∩ S3)
P (S1)P (S2/S1)
⇒
4 Teoŕıa de la probabilidad 33
P (S1 ∩ S2 ∩ S3) = P (S1)P (S2/S1)P (S3/S1 ∩ S2)
y aśı sucesivamente
4.3.2. Teorema de la probabilidad total
Dados un suceso A y n sucesos, S1, . . . , Sn, disjuntos dos a dos, Si ∩ Sj = ∅, tales que
n⋃
i=1
Si = E, y A ∩ Si 6= ∅ ∀i, se verifica
P (A) =
n∑
i=1
P (A/Si)P (Si)
Para la demostración de este teorema, descomponemos el suceso A de la siguiente
forma
A = A ∩ E = A ∩
(
n⋃
i=1
Si
)
=
n⋃
i=1
(A ∩ Si)
Tomando probabilidades, y teniendo en cuenta que los sucesos {A∩Si} son disjuntos dos
a dos,
P (A) = P
[
n⋃
i=1
(A ∩ Si)
]
=
n∑
i=1
P (A ∩ Si) =
n∑
i=1
P (A/Si)P (Si)
4.3.3. Teorema de Bayes
Dados un suceso A y n sucesos, S1, . . . , Sn, disjuntos dos a dos, Si ∩ Sj = ∅, tales que
n⋃
i=1
Si = E, y A ∩ Si 6= ∅ ∀i, se verifica
P (Si/A) =
P (A/Si)P (Si)
n∑
i=1
P (A/Si)P (Si)
Por la definición de probabilidad condicional
P (A/Si) =
P (A ∩ Si)
P (Si)
P (Si/A) =
P (A ∩ Si)
P (A)
Por tanto,
P (A ∩ Si) = P (Si/A)P (A) = P (A/Si)P (Si) ⇒ P (Si/A) =
P (A/Si)P (Si)
P (A)
34 Estad́ıstica
y, del teorema de la probabilidad total resulta
P (Si/A) =
P (A/Si)P (Si)
n∑
i=1
P (A/Si)P (Si)
4.4. Independencia de sucesos
Consideremos el siguiente ejemplo. Una urna contiene 8 bolas blancas y 4 bolas
negras. Se extraen consecutivamente dos bolas, y queremos determinar la probabilidad de
que la segunda bola sea blanca. Para calcular esta probabilidad, debemos diferenciar los
dos tipos de extracción, con o sin reemplazamiento.
Cuando realizamos la extracción sin reemplazamiento, la probabilidad buscada es-
tará condicionada por el color de la primera bola. Es decir, si la primera bola sacada
es blanca, la probabilidad de que la segunda también lo sea es 7/11, mientras que si la
primera bola es negra, la probabilidad de que la segunda sea blanca es 8/11.
Si realizamos la extracción con reemplazamiento, la probabilidad de que la segunda
bola sea blanca es 8/12, sea cual sea el color de la primera bola sacada.
En el primer caso, el color de la segunda bola está condicionado por el color de la
primera bola (sucesos condicionados), mientras que en la extracción con reemplazamien-
to, el color de la segunda bola es independiente del color de la primera bola (sucesos
independientes).
Dos sucesos, S1 y S2, son independientes si
P (S1 ∩ S2) = P (S1)P (S2)
es decir, cuando P (S1/S2) = P (S1) y P (S2/S1) = P (S2)
En el caso de tres sucesos, S1, S2, S3, para que sean independientes, han de cumplirse
las cuatro condiciones siguientes
P (S1 ∩ S2) = P (S1)P (S2)
P (S1 ∩ S3) = P (S1)P (S3)
P (S2 ∩ S3) = P (S2)P (S3)
P (S1 ∩ S2 ∩ S3) = P (S1)P (S2)P (S3)
El cumplimiento de las tres primeras condiciones no implica el de la cuarta. Los
sucesos que cumplen sólo las tres primeras condiciones reciben el nombre de sucesos
independientes dos a dos.
4 Teoŕıa de la probabilidad 35
Propiedad.Si S1 y S2 son dos sucesos independientes. Entonces,
S1 y S̄2 son independientes (⇒ S̄1 y S̄2 son independientes)
Descomponemos el suceso S1 en unión de dos sucesos disjuntos,
S1 = (S1 ∩ S̄2) ∪ (S1 ∩ S2)
entonces
P (S1) = P (S1 ∩ S̄2) + P (S1 ∩ S2) = P (S1 ∩ S̄2) + P (S1)P (S2) ⇒
P (S1 ∩ S̄2) = P (S1)− P (S1)P (S2) = P (S1)[1− P (S2)] = P (S1)P (S̄2)
36 Estad́ıstica
5
Variable aleatoria
unidimensional
Índice
5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . 42
5.3.1. Función de distribución y función de densidad . . . . . . . . . . 42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . 46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . 48
5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . 49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . 50
37
38 Estad́ıstica
5.1. Variable aleatoria
5.1.1. Definición matemática
Dado un espacio probabiĺıstico, (E,Ω, P ), pretendemos asignar un número a cada
uno de los sucesos elementales, Ai, del espacio muestral. Es decir, creamos una función
X , llamada variable aleatoria, definida en E, que toma valores en R, con la condición de
que
X−1(b) = {Ai ∈ E/X(Ai) ∈ b} ∈ Ω
siendo b = (x, y) ó [x, y] ó (x, y] ó [x, y) ó [x, x] con −∞ ≤ x, y ≤ +∞ es decir, b es un
subconjunto de la σ-álgebra completa de R, llamada σ-álgebra de Borel.
Veamos un par de ejemplos. Consideremos el experimento de lanzar una moneda
dos veces. Entonces
E = {{c, c}, {c, +}, {+, c}, {+, +}} = {A1, A2, A3, A4}
Ω = {∅, A1, A4, A2 ∪ A3, A1 ∪ A2 ∪ A3, A4 ∪A2 ∪ A3, A1 ∪A4, E} = {S1, . . . , S8}
Y : E −→ R
A1 −→ 2
A2 −→ 1
A3 −→ 5
A4 −→ 0
X : E −→ R
A1 −→ 2
A2 −→ 1
A3 −→ 1
A4 −→ 0
En el primer caso,
Y −1 ((4, 5]) = {Ai ∈ E/4 < Y (Ai) ≤ 5} = A3 ∈/ Ω
por tanto, Y no es una variable aleatoria de este espacio probabiĺıstico (E,Ω, P ). En
cambio, si consideramos la σ−álgebra completa, Y śı es una variable aleatoria para este
nuevo espacio probabiĺıstico.
En el segundo caso, es fácil comprobar que
X−1(b) = {Ai ∈ E/X(Ai) ∈ b} ∈ Ω ∀ b ∈ B
El hecho de que X sea una v.a. de (E,Ω, P ) está directamente relacionado con la
intención con la que se creó el σ−álgebra Ω. Al tomar como sucesos que definen Ω los
sucesos A1, A4 y A2 ∪A3, estamos diciendo que lo que nos interesa del experimento es el
número de caras, lo que está de acuerdo con la filosof́ıa de X .
Si el número de valores que toma la variable aleatoria es finito o infinito numerable,
se dice que es una variable aleatoria discreta. Si toma un número infinito no numerable
5 Variable aleatoria unidimensional 39
de valores se dice que es continua. Además, una v.a. puede ser discreta en un conjunto
numerable de puntos y continua en el resto. En este caso, se dice que es mixta.
5.1.2. Definición intuitiva
Una variable aleatoria es una regla que asigna a cada suceso un número real. Se
puede interpretar, por tanto, como una función que toma valores en el espacio muestral E
y devuelve números reales. El uso de variables aleatorias permite, como veremos, cambiar
el álgebra de sucesos por el cálculo con números reales, facilitando enormemente el manejo
de probabilidades asociadas a experimentos aleatorios.
Al definir una variable aleatoria cada suceso se convierte en un subconjunto de la
recta real (en general un intervalo o un punto). En este sentido, uno de los conceptos
fundamentales es el de sucesos generados por variables aleatorias. Supongamos un ex-
perimento aleatorio con espacio muestral E. Si asignamos a cada suceso elemental un
número real (en principio de manera arbitraria) hemos definido una variable aleatoria X .
Manejaremos la notación
{X ≤ x} ≡ conjunto unión de todos los sucesos de E a los que X asigna un
número menor o igual que x.
De la misma manera se pueden definir los conjuntos {x1 < X ≤ x2} ó {x1 ≤ X ≤ x2}
ó {X ≥ x} ó {X = x}. Obsérvese que en cada caso hemos convertido un determinado
suceso (puesto que cualquier unión de sucesos elementales lo es) en un intervalo o punto de
la recta real. P ({X ≤ x}) será entonces la probabilidad de que ocurra el suceso definido
por {X ≤ x}. Abusando de la notación prescindiremos en lo sucesivo de las llaves y
escribiremos P (X ≤ x).
Consideremos por ejemplo el experimento de lanzar un dado. El espacio muestral
está formado por seis sucesos elementales E = {Si}i=1,...,6 donde Si ≡ valor obtenido en
la tirada es i. Podemos definir una variable aleatoria X asignando al suceso Si el número
10i. Aśı:
• {X ≤ 35} = S1
⋃
S2
⋃
S3. El suceso representado es que salga 1, 2 ó 3.
• {20 ≤ X ≤ 35} = S2
⋃
S3. El suceso representado es que salga 2 ó 3.
• {20 < X ≤ 35} = S2
⋃
S3. El suceso representado es que salga 3.
• {X ≤ 5} = ∅. Suceso imposible.
40 Estad́ıstica
• {X = 40} = S4. El suceso representado es que salga un 4.
• {X = 35} = ∅. Suceso imposible.
Las probabilidades asociadas serán: P (X ≤ 35) = 1/2, P (20 ≤ X ≤ 35) = 1/3,
P (20 < X ≤ 35) = 1/6, P (X = 5) = 0, P (X = 40) = 1/6, P (X = 35) = 0.
Para el mismo experimento podŕıamos haber definido una variable asignando 0 a los
sucesos S2, S4 y S6 y 1 a S1, S3 y S5. Parece claro que ésta última variable resultará útil
si sólo nos interesa que el resultado del experimento haya sido la obtención de un número
par o uno impar.
5.2. Variable aleatoria discreta
5.2.1. Función de probabilidad
Una vez que hemos definido una variable aleatoria, X , podemos definir una función,
llamada función de probabilidad asociada a X , de la siguiente forma
f : R −→ [0, 1]
x −→ f(x) = P (X = x)
En particular, refiriéndonos al ejemplo de las dos monedas, tenemos
f : R −→ [0, 1]
2 −→ f(2) = P (X = 2) = P (A1) = 1/4
1 −→ f(1) = P (X = 1) = P (A2 ∪A3) = 1/2
0 −→ f(0) = P (X = 0) = P (A4) = 1/4
En general, para que una función, f , sea la función de probabilidad asociada a una
variable aleatoria X , debe cumplir :
i) f(x) ≥ 0 ∀ x ∈ R
ii)
∑
x
f(x) = 1
donde la suma en x en la segunda condición se realiza sobre todos los posibles valores que
puede tomar la variable aleatoria.
5 Variable aleatoria unidimensional 41
5.2.2. Función de distribución
Dada una v.a. discreta, X , se llama función de distribución a la función F definida
como
F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
Veamos algunas propiedades de la función de distribución.
1 F (−∞) = 0
F (−∞) = ĺım
x→−∞
F (x) = ĺım
x→−∞
P (X ≤ x) = P (∅) = 0
2 F (+∞) = 1
F (+∞) = ĺım
x→+∞
F (x) = ĺım
x→+∞
P (X ≤ x) = P (E) = 1
3 P (x1 < X ≤ x2) = F (x2)− F (x1)
Consideremos los sucesos
A = {X ≤ x2} B = {X ≤ x1} C = {x1 < X ≤ x2}
como A = B ∪ C, siendo B ∩ C = ∅, tenemos
P (A) = P (B) + P (C) =⇒ F (x2) = F (x1) + P (x1 < X ≤ x2)
es decir,
P (x1 < X ≤ x2) = F (x2)− F (x1)
De forma análoga se demuestra :
P (x1 ≤ X ≤ x2) = F (x2)− F (x1) + P (X = x1)
P (x1 < X < x2) = F (x2)− F (x1)− P (X = x2)
P (x1 ≤ X < x2) = F (x2)− F (x1) + P (X = x1)− P (X = x2)
4 F es monótona creciente
Sean x1 < x2, por la propiedad anterior,
F (x2) = F (x1) + P (x1 < X ≤ x2) ≥ F (x1)
5 F es continua por la derecha
Tenemos que comprobar que, dado ε > 0, se cumple
ĺım
ε→0
(F (x+ ε)− F (x)) = 0
42 Estad́ıstica
pero
ĺım
ε→0
(F (x+ ε)− F (x)) = ĺım
ε→0
P (x < X ≤ x+ ε) = P (∅) = 0
Si calculamos el ĺımite por la izquierda,
ĺımε→0
(F (x)− F (x− ε)) = ĺım
ε→0
P (x− ε < X ≤ x) = P (X = x)
y, esta probabilidad puede ser cero o no. Por tanto, la función de distribución, en general,
no es continua por la izquierda. De hecho,
F (x)− F (x−) = ĺım
ε→0
(F (x)− F (x− ε)) = P (X = x)
es decir, la probabilidad de que la v.a. discreta X tome un valor concreto es
igual al salto de la función de distribución en ese punto.
Ejemplo.- Sea X una v.a. discreta con función de probabilidad
xi 1 2 3 4
P (X = xi) 0.1 0.4 0.2 0.3
La función de distribución asociada es
F (x) =



0 x < 1
0.1 1 ≤ x < 2
0.5 2 ≤ x < 3
0.7 3 ≤ x < 4
1 x ≥ 4
-
6
x
F (x)
r
r
r
r
1 2 3 4
0.1
0.5
0.7
1
5.3. Variable aleatoria continua
5.3.1. Función de distribución y función de densidad
Dada una v.a. continua, X , se llama función de distribución a la función absoluta-
mente continua, F , definida como
F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
5 Variable aleatoria unidimensional 43
Decimos que F es absolutamente continua, si existe una función f : R −→ R, no
negativa e integrable Lebesgue tal que
F (x) =
∫ x
−∞
f(t) dt ∀x ∈ R
La función f se llama función de densidad. En general, una función f es función de
densidad si verifica
i) f(x) ≥ 0 ∀x ∈ R
ii)
∫ ∞
−∞
f(x) dx = 1
Veamos algunas propiedades de la función de distribución.
1 F (−∞) = 0 y F (∞) = 1
2 F es monótona creciente
3 F es continua en R
ĺım
ε→0
(F (x+ ε)− F (x)) = ĺım
ε→0
(∫ x+ε
−∞
f(t) dt−
∫ x
−∞
f(t) dt
)
= ĺım
ε→0
∫ x+ε
x
f(t) dt
Por ser f integrable en [x, x+ ε], ∃µ ∈ [inf f, sup f ] tal que
∫ x+ε
x
f(t) dt = µ ε
(Primer Teorema de la Media). Por tanto,
ĺım
ε→0
(F (x+ ε)− F (x)) = ĺım
ε→0
(µ ε) = 0
La continuidad por la izquierda se demuestra de forma análoga. Por ser F continua,
se cumple
P (X = x) = F (x)− F (x−) = 0 ∀x ∈ R
por tanto
P (x1 < X ≤ x2) = P (x1 < X < x2) = P (x1 ≤ X ≤ x2) = P (x1 ≤ X < x2) =
= F (x2)− F (x1)
Como consecuencia de esta propiedad, al ser la función de distribución continua
en R, no tiene discontinuidades (saltos), por tanto la probabilidad de que la v.a.
continua X tome un valor concreto es cero (P (X = x) = 0).
4 Si f es continua, entonces F es de clase C1 y F ′(x) = f(x) ∀x ∈ R
F ′(x) = ĺım
ε→0
F (x+ ε)− F (x)
ε
= ĺım
ε→0
1
ε
∫ x+ε
x
f(t) dt
44 Estad́ıstica
Por ser f continua en [x, x+ ε], ∃x0 ∈ [x, x+ ε] tal que
∫ x+ε
x
f(t) dt = f(x0) ε
(Primer Teorema de la Media). Por tanto,
F ′(x) = ĺım
ε→0
F (x+ ε)− F (x)
ε
= ĺım
ε→0
1
ε
f(x0) ε = f(x0)
Como x0 ∈ [x, x + ε] ∀ε ⇒ x0 = x. La derivabilidad por la izquierda se demuestra de
forma análoga.
Ejemplo.- Sea X una v.a. continua con función de densidad
f(x) =



3
2
x2 x ∈ [−1, 1]
0 resto
La función de distribución asociada es
• Si x < −1 F (x) =
∫ x
−∞
f(t) dt =
∫ x
−∞
0 dt = 0
• Si −1 ≤ x < 1 F (x) =
∫ x
−∞
f(t) dt =
∫ −1
−∞
0 dt+
∫ x
−1
3
2
t2 dt =
1
2
[x3 + 1]
• Si x ≥ 1 F (x) =
∫ x
−∞
f(t) dt =
∫ −1
−∞
0 dt+
∫ 1
−1
3
2
t2 dt+
∫ x
1
0 dt = 1
F (x) =



0 x < −1
1
2
[x3 + 1] −1 ≤ x < 1
1 x ≥ 1
-
6
x
F (x)
-1 1
1
5.4. Variable aleatoria mixta
Una v.a. mixta viene caracterizada por su función de distribución, definida de igual
forma que en los casos anteriores, que es continua por la derecha, con un número de
discontinuidades a lo sumo numerable, pero que no es escalonada. Es decir, en algunos
puntos es discreta (puntos de discontinuidad) y en el resto es continua. Por ejemplo, la
v.a. X con función de distribución
5 Variable aleatoria unidimensional 45
F (x) =



0 x < −1
(x+ 1)2 + 1/4 −1 ≤ x < −1/2
5/8 −1/2 ≤ x < 1/2
x+ 1/4 1/2 ≤ x < 3/4
1 x ≥ 3/4
-
6
x
F (x)
�
�
�
r
r
r
-1 -1/2 1/2 3/4
1/4
1/2
3/4
1
Para esta v.a. se cumple
1
P (X = −1) = F (−1+)− F (−1−) = 1/4− 0 = 1/4
P (X = −1/2) = F (−1/2+)− F (−1/2−) = 5/8− 1/2 = 1/8
P (X = 1/2) = F (1/2+)− F (1/2−) = 3/4− 5/8 = 1/8
P (X = x) = 0 ∀ x 6= −1,−1/2, 1/2
2
P (X = −1)+
∫ −1/2
−1
(2x+2) dx+P (X = −1/2)+
∫ 1/2
−1/2
0 dx+P (X = 1/2)+
∫ 3/4
1/2
1 dx = 1
46 Estad́ıstica
NOTA: Tanto en el caso de variables discretas como continuas o mixtas, el conocimiento
de la función de distribución (o la de probabilidad o la de densidad) es toda la información
que necesitamos para manejar la v.a. y estudiar el experimento para el que ha sido definida.
De hecho estas funciones constituyen la máxima información posible acerca de la variable.
5.5. Transformaciones de variables aleatorias
En muchas ocasiones deberemos hacer “operacionesçon variables aleatorias. Dada
una variable aleatoria X una función de ella será una nueva variable aleatoria Y = u(X).
En esta sección trataremos de calcular la distribución de esta nueva variable.
Lo primero que debemos tener en mente es que la “aritmética” de las variables
aleatorias no coincide con la de los números reales. Supongamos que lanzamos un dado
y definimos la variable aleatoria X cuyo valor asignado al suceso Si ( ≡ el resultado de
la tirada es i) es i. X toma seis posibles valores {1, 2, 3, 4, 5, 6} según la cara que haya
mostrado el dado. Y1 = 2X es una nueva variable aleatoria que asigna un valor doble al
definido anteriormente para cada suceso elemental. Sin embargo Y2 = X +X no tiene la
misma interpretación. En este caso el dado es lanzado dos veces, sumándose la puntación
obtenida en cada tirada. Los posibles valores de Y1 son {2, 4, 6, 8, 10, 12} mientras que
los de Y2 son {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para evitar confusiones es conveniente asignar
sub́ındices distintos a las variables que representan cada resultado de un determinado
experimento que se repite varias veces, aun cuando cada una de ellas esté definida de la
misma forma. En el caso de lanzar un dado dos veces podemos considerar la variable X
definida anteriormente y obtener los posibles resultados como X1 + X2 donde cada Xi
tiene la misma distribución de probabilidad que la X .
5.5.1. Variable aleatoria discreta
Sea X una v.a. con función de probabilidad f(x) y función de distribución F (x)
e, Y = u(X) otra v.a. con función de probabilidad g(y) y función de distribución G(y).
Es decir, tenemos una función que relaciona a x e y, y = u(x) ⇒ x = u−1(y) = w(y).
Entonces
g(y) = P (Y = y) = P (u(X) = y) = P (X = u−1(y)) = P (X = w(y)) = f [w(y)]
G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1(y)) = P (X ≤ w(y)) = F [w(y)]
En general el paso de una v.a. a otra es sencilla, sólo hay que tener cuidado cuando
la función u no es biyectiva. Veamos un par de ejemplos para aclarar esto último.
5 Variable aleatoria unidimensional 47
Ejemplo.- Sea X una v.a. con función de probabilidad
xi -2 -1 0 1 2
P (X = xi) 0.1 0.2 0.2 0.4 0.1
La función de distribución de X es
F (x) =



0 x < −2
0.1 −2 ≤ x < −1
0.3 −1 ≤ x < 0
0.5 0 ≤ x < 1
0.9 1 ≤ x < 2
1 x ≥ 2
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1(y) = w(y) = y/2. Los valores que
toma la v.a. Y son y = {−4,−2, 0, 2, 4}. Entonces
g(y) = P (Y = y) = P (2X = y) = P (X = y/2) = f(y/2)
es decir
yi -4 -2 0 2 4
P (Y = yi) 0.1 0.2 0.2 0.4 0.1
Y, la función de distribución de Y es
G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2)
es decir
G(y) =



0 y < −4
0.1 −4 ≤ y < −2
0.3 −2 ≤ y < 0
0.5 0 ≤ y < 2
0.9 2 ≤ y < 4
1 y ≥ 4
Sea ahora Y = u(X) = X2. Claramente, la función u no es biyectiva. Tenemos
entonces que los valores que toma la v.a. Y son y = {0, 1, 4}, y la función de probabilidad
es
g(y) = P (Y = y) = P (X2 = y) = P ( (X = −√y ) ∪ (X = +√y ) ) =
= P (X = −√y ) + P (X = +√y )
es decir
48 Estad́ıstica
yi 0 1 4
P (Y = yi) 0.2 0.6 0.2
Y, la función de distribución de Y es
G(y) = P (Y ≤ y) = P (X2 ≤ y) = P (−√y ≤ X ≤ +√y) =
= P (X = −√y) + P (−√y < X ≤ +√y) =
= f(−√y) + F (+√y)− F (−√y)
es decir
G(y) =



0 y < 0
0.2 0 ≤ y < 1
0.8 1 ≤ y < 4
1 y ≥ 4
5.5.2. Variable aleatoria