Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS AERONÁUTICOS ESTADÍSTICA Marta Cordero Gracia José Olarrea Busto Dpto. de Matemática Aplicada y Estad́ıstica Índice general 1. Estad́ıstica descriptiva 1 1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . . . . . . . . 3 1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.3. Medida de asimetŕıa . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . 9 2. Análisis combinatorio 11 2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3. Álgebra de sucesos 19 3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . . . . 21 3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . . . . 22 4. Teoŕıa de la probabilidad 23 4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 24 i 4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . . . . 26 4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 28 4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . 29 4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . . . 32 4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 33 4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5. Variable aleatoria unidimensional 37 5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 42 5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . 46 5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 46 5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 48 5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . . . 49 5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6. Momentos de una variable aleatoria unidimensional 53 6.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.2. Momento de orden k de una variable aleatoria . . . . . . . . . . . . . . . . 55 6.3. Varianza y desviación t́ıpica . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.4. Otros valores t́ıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.5. Coeficientes de asimetŕıa y curtosis . . . . . . . . . . . . . . . . . . . . . . 58 6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . . . . . . . . . 60 6.7. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . 61 6.8. Función caracteŕıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.8.1. Cambio de variable en la función caracteŕıstica . . . . . . . . . . . . 64 ii 7. Variable aleatoria bidimensional y n-dimensional 65 7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 66 7.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 67 7.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 67 7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 69 7.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 69 7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . . . . . . . . 72 7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 72 7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 73 7.5. Variables aleatorias bidimensionales independientes . . . . . . . . . . . . . 75 7.6. Momentos de una variable aleatoria bidimensional . . . . . . . . . . . . . . 76 7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . . . 78 7.6.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 80 7.7. Función caracteŕıstica de una variable aleatoria bidimensional . . . . . . . 81 7.8. Transformación de variables aleatorias bidimensionales . . . . . . . . . . . 82 7.8.1. Una función de dos variables aleatorias . . . . . . . . . . . . . . . . 82 7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . . . . 82 7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 83 7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 83 7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . 84 8. Distribuciones de probabilidad discretas 85 8.1. Distribución de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . . . . . . . 86 8.2. Distribución Binomial, B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 86 8.2.1. Teorema de adición para distribuciones Binomiales . . . . . . . . . 88 8.2.2. Distribución de la proporción . . . . . . . . . . . . . . . . . . . . . 89 8.3. Distribución de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.3.1. Teorema de adición para distribuciones de Poisson . . . . . . . . . . 90 8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 91 8.3.3. Aproximación de una Binomial por una Poisson . . . . . . . . . . . 92 8.4. Distribución Hipergeométrica, H(n,N,A) . . . . . . . . . . . . . . . . . . 92 8.5. Distribución Geométrica, G(p) . . . . . . . . . . . . . . . . . . . . . . . . 94 8.6. Distribución Binomial Negativa, BN(r, p) . . . . . . . . . . . . . . . . . . 95 8.6.1. Teorema de adición para distribuciones Binomiales Negativas . . . . 96 iii 9. Distribuciones de probabilidad continuas 99 9.1. Distribución Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . 100 9.2. Distribución Normal,N(µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . 101 9.2.1. Teorema de adición para distribuciones Normales . . . . . . . . . . 103 9.2.2. Distribución Normal estándar . . . . . . . . . . . . . . . . . . . . . 104 9.3. Distribución Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . . . . . . 105 9.4. Distribución χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . . . . . . . 107 9.4.1. Teorema de adición para distribuciones χ2 de Pearson . . . . . . . 108 9.5. Distribución t-Student, tn . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 9.6. Distribución F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . 110 9.7. Distribución Exponencial, Exp(λ) . . . . . . . . . . . . . . . . . . . . . . 111 9.7.1. Teorema de adición para distribuciones Exponenciales . . . . . . . . 113 9.8. Distribución de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . . . . . . 113 9.8.1. Teorema de adición para distribuciones de Erlang . . . . . . . . . . 115 9.9. Relación entre las distribuciones de Poisson, Exponencial y Erlang . . . . . 115 9.10. Distribución de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . . . . . . . 117 9.11. Distribución Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 118 9.11.1. Teorema de adición para distribuciones Gamma . . . . . . . . . . . 119 9.12. Distribución Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . . . . . . . . 121 9.14. Distribución Normal Bidimensional . . . . . . . . . . . . . . . . . . . . . . 123 10.Convergencia de sucesiones de variables aleatorias 127 10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 10.2. Problema central del ĺımite . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . . . 129 10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.3. Aproximaciones a la distribución Normal . . . . . . . . . . . . . . . . . . . 130 10.3.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 130 10.3.2. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 131 10.3.3. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 132 10.3.4. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 132 11.Regresión y correlación 133 11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 iv 11.2. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.1. Método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . 134 11.2.2. Método de la distribución condicional . . . . . . . . . . . . . . . . . 136 11.2.3. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 11.3.1. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 140 12.Distribuciones de muestreo 143 12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 12.2. Definición de estad́ıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3. Estad́ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 146 12.4. Estad́ıstico (n − 1)s2 σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 12.5. Estad́ıstico x̄ − µ s/ √ n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 12.5.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 147 12.5.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 148 12.6. Estad́ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . 148 12.6.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 148 12.6.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 149 12.7. Estad́ıstico desviación t́ıpica muestral . . . . . . . . . . . . . . . . . . . . . 150 12.8. Estad́ıstico diferencia de medias muestrales . . . . . . . . . . . . . . . . . . 152 12.9. Estad́ıstico cociente de varianzas muestrales . . . . . . . . . . . . . . . . . 153 12.10.Estad́ıstico proporción muestral . . . . . . . . . . . . . . . . . . . . . . . . 154 12.11.Estad́ıstico elemento que ocupa el lugar r . . . . . . . . . . . . . . . . . . 155 12.11.1.Estad́ıstico máximo valor de una muestra . . . . . . . . . . . . . . . 155 12.11.2.Estad́ıstico mı́nimo valor de una muestra . . . . . . . . . . . . . . . 156 12.11.3.Estad́ıstico recorrido de una muestra . . . . . . . . . . . . . . . . . 156 12.11.4.Estimación de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 157 13.Estimación puntual y estimación por intervalo 159 13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 13.2. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 163 13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . 163 13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . 164 13.2.3. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . . 165 v 13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 166 13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 13.3. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 170 13.3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . 170 13.3.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . 172 13.3.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . 173 13.4. Estimación por intervalo de confianza . . . . . . . . . . . . . . . . . . . . . 174 13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . 176 13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . 179 13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . . . 180 13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . . . 182 13.4.5. Intervalo de confianza para la proporción poblacional . . . . . . . . 183 13.5. Intervalo de confianza asintótico . . . . . . . . . . . . . . . . . . . . . . . . 185 14.Teoŕıa de muestras de población finita 187 14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 14.2.1. Estad́ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . 189 14.2.2. Estad́ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . 191 14.2.3. Estad́ıstico proporción muestral . . . . . . . . . . . . . . . . . . . . 193 14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 194 14.3.2. Intervalo de confianza para la proporción poblacional . . . . . . . . 195 15.Contraste de hipótesis 197 15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 15.2. Las hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . 199 15.3. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.4. Nivel de significación y región cŕıtica . . . . . . . . . . . . . . . . . . . . . 204 15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 15.6.Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 15.7. Contrastes para la media de una población . . . . . . . . . . . . . . . . . . 209 15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 211 15.8. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 vi 15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . 213 15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . . . . 213 15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . . . . 215 15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.1.Una población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.2.Comparación de varianzas . . . . . . . . . . . . . . . . . . . . . . . 215 16.Contrastes no paramétricos 219 16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . 221 16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . 222 16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . 223 16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 223 16.3. Otros contrastes no paramétricos . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.1. Contrastes de posición . . . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . 228 16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 17.Regresión lineal simple 251 17.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 17.3. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 254 17.4. Propiedades de los estimadores de mı́nimos cuadrados . . . . . . . . . . . . 256 17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . . . 256 17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . . . . 257 17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 17.6. Inferencias respecto a los parámetros . . . . . . . . . . . . . . . . . . . . . 258 17.7. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 17.7.1. Estimación de la respuesta media . . . . . . . . . . . . . . . . . . . 259 17.7.2. Predicción de una observación . . . . . . . . . . . . . . . . . . . . . 260 17.8. Análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 17.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 17.9.1. Inferencias sobre el coeficiente de correlación . . . . . . . . . . . . . 264 17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 vii A. Tablas estad́ısticas 271 B. Resumen de distribuciones 303 viii 1 Estad́ıstica descriptiva Índice 1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . 3 1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . 4 1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . 5 1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4.1.1. Medidas de tendencia central . . . . . . . . . . . . . . 6 1.4.1.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.2.1. Varianza y desviación t́ıpica . . . . . . . . . . . . . . 8 1.4.2.2. Desviación media . . . . . . . . . . . . . . . . . . . . 8 1.4.2.3. Coeficiente de variación de Pearson . . . . . . . . . . 8 1.4.2.4. Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.3. Medida de asimetŕıa . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . 9 1 2 Estad́ıstica La estad́ıstica descriptiva tiene por objeto describir y analizar un determinado con- junto de datos sin pretender sacar conclusiones de tipo más general. El conjunto de datos en cuestión representa una muestra de los distintos valores que puede tomar una población (e.g. estatura de los alumnos de la Escuela, ingresos familiares de una unidad familiar, estado civil, número de grietas en las alas de un determinado modelo de avión) Las variables se pueden clasificar en: Cuantitativas: variables en las que los datos difieren en magnitud (e.g. estaturas, ingresos anuales, etc) Cualitativas: variables en las que los datos difieren en tipo (e.g. estado civil, nacionalidad, etc) En este caṕıtulo se tratará únicamente con variables cuantitativas. Para obtener una muestra de valores de una variable cuantitativa es necesario realizar medidas con una determinada escala y unidad de medida. La unidad de medida puede ser infinitamente divisible (e.g. km, m, cm, mm, . . . ) o indivisible (e.g. tamaño de una unidad familiar). Cuando la unidad de medida es infinitamente divisible, la variable se dice que es continua. En el caso de unidad de medida indivisible, se dice que la variable es discreta. En otras palabras, Variable continua: aquella que puede tomar un número infinito no numerable de valores. Variable discreta: aquella que puede tomar un número finito o infinito numerable de va- lores. 1.1. Notación La notación que vamos a utilizar a lo largo de este caṕıtulo es la siguiente: • Disponemos de N observaciones, r de las cuales son distintas {x1, x2, . . . , xr}. • Las observaciones están ordenadas en forma creciente x1 < x2 < · · · < xr. • Cada observación xi ha aparecido ni veces. • Se llama frecuencia absoluta de la observación xi al valor ni, siendo r∑ i=1 ni = N 1 Estad́ıstica descriptiva 3 • Se llama frecuencia absoluta acumulada de la observación xi, al valor Ni = i∑ k=1 nk siendo Nr = N • Se llama frecuencia relativa de la observación xi al valor fi = ni N siendo r∑ i=1 fi = 1 • Se llama frecuencia relativa acumulada de la observación xi, al valor Fi = i∑ k=1 fk siendo Fr = 1 1.2. Formas de agrupar los datos de una muestra Tabla Tipo I. Se utiliza cuando el número de observaciones es reducido (N es pequeño), y cada valor distinto ha aparecido una sola vez (todas las frecuencias absolutas valen uno). xi ni x1 1 x2 1 ... ... xN 1 Tabla Tipo II. Se utiliza cuando el número de observaciones es grande (N es gran- de), pero el número de valores distintos que han aparecido es pequeño (algunas frecuencias absolutas son distintas de uno). 4 Estad́ıstica xi ni x1 n1 x2 n2 ... ... xr nr Tabla Tipo III. Se utiliza cuando tanto el número de observaciones como el número de valores distintos que han aparecido es grande. En este caso, elegiremos unos intervalos, Li−1 — Li, de amplitud, ai = Li − Li−1, fija o variable, que contengan a la totalidad de los valores observados. ∈[L0,L1)︷ ︸︸ ︷ x1, x2, x3, x4, ∈[L1,L2)︷ ︸︸ ︷ x5, x6, x7, x8, x9, x10, ... x82, x83, x84,︸ ︷︷ ︸ ∈[Lr−2,Lr−1) x85, x86, x87, x88, x89, x90︸ ︷︷ ︸ ∈[Lr−1,Lr) Li−1 — Li ni L0 — L1 n1 L1 — L2 n2 ... ... Lr−1 — Lr nr En las tablas tipo III, se sugieren las siguientes normas : • Se debe intentar que los intervalos sean de amplitud constante. • Los intervalos se deben tomar semiabiertos, [Li−1,Li). • Para facilitarlos cálculos, se definen las marcas de clase como xi = Li−1 + Li 2 convirtiéndolas en tablas tipo II. 1.3. Representación gráfica Hay muchas formas de representar gráficamente una tabla, aqúı veremos sólo algunas de ellas. 1 Estad́ıstica descriptiva 5 Diagrama de barras - x 6n x1 n1 x2 n2 · · · xr nr Poĺıgono de frecuencias - x 6n •% %% x1 n1 •aaa x2 n2 •"" " " " " x3 n3 • x4 n4 Histograma - x 6h L0 L1 h1 n1 L2 h2 n2 L3 h3 n3 Histograma - x 6n L0 L1 n1 A1 L2 n2 A2 L3 n3 A3 ai = Li − Li−1 , hi = ni ai Ai = ai ni 1.4. Medidas numéricas descriptivas Una vez que se han recogido y graficado los datos, es conveniente definir algunas medidas numéricas para describirlos. Existen dos medidas de especial interés para cual- quier conjunto de datos: la localización de su centro y su variabilidad. Además, hay otras medidas también importantes como la localización de los extremos y la forma en que se distribuyen los datos. 6 Estad́ıstica 1.4.1. Medidas de posición 1.4.1.1. Medidas de tendencia central Estas medidas indican dónde se encuentra el centro de los datos • Media muestral (x̄) La medida de tendencia central más utilizada es la media muestral o simplemente media, x̄ = x1n1 + x2n2 + · · ·+ xrnr n1 + n2 + · · ·+ nr = 1 N r∑ i=1 xini • Otros tipos de medias – Media geométrica x̄G = (x1 n1 · x2n2 · · ·xrnr)1/N – Media cuadrática x̄Q = √ x21n1 + x 2 2n2 + · · ·+ x2rnr N – Media armónica x̄A = N n1 x1 + n2 x2 + · · ·+ nr xr – Media ponderada x̄p = x1p1 + x2p2 + · · ·+ xrpr p1 + p2 + · · ·+ pr Se cumple: x̄A ≤ x̄G ≤ x̄ ≤ x̄Q • Mediana (Me) Lamediana es la medida de tendencia central que, supuestos los valores de la muestra ordenados en forma creciente, deja igual número de observaciones por debajo y por encima de ella. Aśı, suponiendo que los valores de la muestra son x1 ≤ x2 ≤ · · · ≤ xN 1 Estad́ıstica descriptiva 7 Me = x[N 2 ]+1 Si N 2 ∈/N 1 2 ( xN 2 + xN 2 +1 ) Si N 2 ∈ N donde los corchetes, [ ], indican la parte entera. • Moda (Mo) La moda se define como el valor de la muestra que tiene máxima frecuencia. La moda no siempre es única. Aśı, si una muestra tiene dos modas se llamará bimodal, si tiene tres modas trimodal, etc. 1.4.1.2. Cuantiles Ya hemos visto que la mediana divide el conjunto de datos en dos partes de igual tamaño. Para obtener medidas de localización más finas, solo es cuestión de dividir el conjunto de datos en más de dos partes. De esta forma se definen los p-cuantiles, siendo p la proporción de datos que deja el cuantil a su izquierda. Si tenemos la muestra ordenada de forma creciente, x1 ≤ x2 ≤ · · · ≤ xN , el p-cuantil viene dado por xp = x[Np]+1 Si Np ∈/N 1 2 (xNp + xNp+1) Si Np ∈ N donde los corchetes, [ ], indican la parte entera. Los casos particulares de cuantiles más utilizados son • Cuartiles (Q1/4, Q2/4, Q3/4) Son los 3 valores de la muestra que dividen las observaciones en 4 partes iguales. • Deciles (D1/10, D2/10, . . . , D9/10) Son los 9 valores de la muestra que dividen las observaciones en 10 partes iguales. • Centiles o percentiles (P1/100, P2/100, . . . , P99/100) Son los 99 valores de la muestra que dividen las observaciones en 100 partes iguales. 8 Estad́ıstica 1.4.2. Medidas de dispersión 1.4.2.1. Varianza y desviación t́ıpica Las medidas de dispersión más utilizadas son la varianza y la desviación t́ıpica. La varianza muestral, s2, es un tipo de promedio de las desviaciones de los valores observados respecto de su media, y se define como s2 = (x1 − x̄)2n1 + · · ·+ (xr − x̄)2nr (n1 + n2 + · · ·+ nr)− 1 = 1 N − 1 r∑ i=1 (xi − x̄)2ni La desviación t́ıpica se define como la ráız cuadrada de la varianza y tiene las mismas dimensiones que los datos originales. s = √ s2 = √√√√ 1 N − 1 r∑ i=1 (xi − x̄)2ni 1.4.2.2. Desviación media Se define la desviación media respecto de un parámetro cualquiera, p, como DMp = 1 N r∑ i=1 |xi − p|ni donde, generalmente, como parámetro p se utiliza la media o la mediana. 1.4.2.3. Coeficiente de variación de Pearson El coeficiente de variación de Pearson, definido como el cociente C.V. = s x̄ (x̄ 6= 0) mide la dispersión de la distribución, al igual que la desviación t́ıpica o la varianza, con la ventaja de ser un coeficiente adimensional. 1.4.2.4. Recorrido Es la diferencia entre el valor máximo y el valor mı́nimo que toma la muestra R = máx{xi} −mı́n{xi} Además, se define 1 Estad́ıstica descriptiva 9 • Rango intercuart́ılico RI = Q3/4 −Q1/4 • Rango semicuart́ılico RSI = Q3/4 −Q1/4 2 = RI 2 1.4.3. Medida de asimetŕıa En un conjunto de datos simétricos respecto a su media, x̄, la suma ∑ (xi − x̄)3 será nula, mientras que con datos asimétricos esta suma crecerá con el grado de asimetŕıa. Para obtener una medida adimensional del grado de asimetŕıa se define el coeficiente de asimetŕıa o deformación como CA = n ∑ (xi − x̄)3 (n− 1)(n− 2)s3 (n ≥ 3 y s 6= 0) donde s es la desviación t́ıpica de la muestra. Valores grandes y negativos de CA son indicativos de asimetŕıa hacia la izquierda (x̄ <Me<Mo) mientras que valores grandes y positivos son indicativos de asimetŕıa hacia la derecha (x̄ >Me>Mo). 1.4.4. Medida de apuntamiento Para medir si una distribución de datos es más puntiaguda o más achatada de lo “normal”, se define el coeficiente de apuntamiento o curtosis como CAp = n(n+ 1) ∑ (xi − x̄)4 (n− 1)(n− 2)(n− 3)s4 − 3(n− 1)2 (n− 2)(n− 3) (n ≥ 4 y s 6= 0) donde s es la desviación t́ıpica de la muestra. Si CAp> 0 indica que la distribución es puntiaguda, mientras que si CAp< 0 indica que es achatada. 10 Estad́ıstica 2 Análisis combinatorio Índice 2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.0.1. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 13 2.1.0.2. Con repetición . . . . . . . . . . . . . . . . . . . . . . 14 2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.0.3. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 14 2.2.0.4. Con repetición . . . . . . . . . . . . . . . . . . . . . . 15 2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.0.5. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 15 2.3.0.6. Con repetición . . . . . . . . . . . . . . . . . . . . . . 16 11 12 El principal objetivo de la combinatoria –o, por lo menos en el que estamos aqúı más interesados– es el de hallar el cardinal de un conjunto finito o, dicho de otro modo, contar. Una posible definición matemática de la acción que supone contar es la de establecer una biyección entre el conjunto que se desea contar y los números naturales, de modo que podamos enumerar los elementos como el uno, el dos, etc. Es fácil, por ejemplo, contar el número de cuadrados perfectos que hay entre 100 y 1000. Basta observar que 100 = (9 + 1)2 y que el mayor cuadrado perfecto menor que 1000 es 961 = 312 = (9 + 22)2. Hemos establecido una biyección entre el conjunto que deseábamos contar y los naturales entre el 1 y el 22. Hay, por tanto, 22 cuadrados perfectos entre 100 y 1000. Sin embargo, la mayor parte de las veces, no es evidente –o siquiera posible– cómo establecer tal biyección. Un primer procedimiento accesible en estos casos es el denominado constructivo. Se trata de recorrer los pasos necesarios para formar todos los elementos del conjunto anotando las alternativas que puedan elegirse en cada uno. Veamos un ejemplo: ¿De cuántas maneras se pueden sentar tres chicas y tres chicos en seis butacas consecutivas de un cine de forma que no haya dos chicas ni dos chicos seguidos? Hay que ocupar seis sitios. Los indicaremos gráficamente aśı: La primera butaca puede ser ocupada por cualquiera de las seis personas. ︸︷︷︸ 6 Elegida la primera persona hay 3 elecciones posibles, entre las personas de sexo contrario,para ocupar el segundo lugar. ︸︷︷︸ 6 ︸︷︷︸ 3 La tercera butaca ha de ser ocupada por una de las 2 personas que quedan del mismo sexo de la primera y la cuarta por una de las dos del sexo de la segunda. ︸︷︷︸ 6 ︸︷︷︸ 3 ︸︷︷︸ 2 ︸︷︷︸ 2 Y, para terminar, las dos últimas personas no tienen elección. ︸︷︷︸ 6 ︸︷︷︸ 3 ︸︷︷︸ 2 ︸︷︷︸ 2 ︸︷︷︸ 1 ︸︷︷︸ 1 2 Análisis combinatorio 13 En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles. La intuitiva multiplicación que proporciona el resultado final puede expresarse como una regla general matemática: Si los conjuntos A1, A2,. . .,Ak tienen n1, n2, . . .,nk elementos respectivamente, el producto cartesiano A1 ×A2 × · · · × Ak tiene n1 · n2 · · ·nk elementos. En algunas ocasiones hay que resolver problemas que pueden reducirse a un pequeño número de patrones o formas de contar. Estos patrones se estudian en la educación secun- daria y haremos aqúı sólamente un breve recordatorio. Sin embargo, la mayor parte de las veces tendremos problemas que no corresponden exactamente a alguno de estos patrones. Lo más recomendable suele ser recurrir antes a la lógica y al método constructivo que a buscar hipotéticas fórmulas que resuelvan nuestro problema concreto. Entre estos patrones fundamentales –que pueden resumirse esquemáticamente en la tabla del final del caṕıtulo – se encuentran los siguientes: 2.1. Permutaciones Supongamos un conjunto de n elementos. Se llaman permutaciones de estos n ele- mentos a las distintas ordenaciones que podemos hacer con ellos. 2.1.0.1. Sin repetición El método anterior nos da fácilmente el número de permutaciones Pn que existen en el conjunto si no se repite ningún elemento (es decir, si son todos distintos o distinguibles): El primer elemento puede ser cualquiera de los n, el segundo cualquiera de los n− 1 restantes, el tercero cualquiera de los n− 2 restantes y aśı sucesivamente. ︸︷︷︸ n ︸︷︷︸ n− 1 ︸︷︷︸ n− 2 . . . ︸︷︷︸ 3 ︸︷︷︸ 2 ︸︷︷︸ 1 El total de permutaciones de n elementos es, entonces: Pn = n× (n− 1)× (n− 2)× · · · × 3× 2× 1 = n! 14 Estad́ıstica 2.1.0.2. Con repetición Supongamos ahora que no todos los n elementos del conjunto son distintos, sino que hay r grupos de elementos iguales entre śı (o indistinguibles), digamos n1 de una clase, n2 de otra, hasta nr de la última clase. Está claro que n1 + n2 + . . . + nr = n. ¿Cuántas ordenaciones podŕıamos distinguir? Un ejemplo t́ıpico de este problema podŕıa ser el siguiente: disponemos de una bolsa en la que hay 11 bolas iguales; cuatro de ellas tienen un 1 escrito, otras tres un 2 y las cuatro restantes un 3. Sacando las once bolas una tras otra y anotando las cifras que aparecen ¿Cuantos números distintos podemos obtener? Otro ejemplo clásico: ¿Cuántas palabras distintas pueden formarse empleando las 8 letras del vocablo CASCARAS? Pensemos en el problema general. Si los n elementos fueran distintos tendŕıamos n! permutaciones posibles. Dada una cualquiera de ellas, podŕıamos sacar de la ordenación los n1 elementos del primer grupo, reordenarlos arbitrariamente y volver a rellenar los huecos que hubieran dejado libres sin que fuéramos capaces de distinguir la permutación original del resultado final de esta operación. Lo mismo es cierto para los n2 elementos del segundo grupo, los n3 del tercero, hasta los nr del último. Puesto que hay ni! ordenaciones parciales posibles de los elementos del grupo i-ésimo, tenemos que: PRn1,n2,...,nrn = n! n1!× n2!× · · · × nr! 2.2. Variaciones 2.2.0.3. Sin repetición Sea ahora un conjunto de n elementos distintos. Se llama variación de r elementos tomados de entre los n (Vn,r) a una ordenación de un subconjunto de tamaño r. Una variación de 3 elementos tomados de entre 7 es, por ejemplo, el podio (los 3 primeros clasificados) de una carrera con 7 inscritos. Es muy fácil calcular el número de variaciones Vn,r. Basta observar que hay que elegir r elementos de modo que el primero puede ser uno cualquiera de los n, el segundo uno cualquiera de los n− 1 restantes y aśı sucesivamente: ︸︷︷︸ n ︸︷︷︸ n− 1 . . . ︸︷︷︸ n− r + 2 ︸︷︷︸ n− r + 1︸ ︷︷ ︸ r 2 Análisis combinatorio 15 Y aplicando la regla del producto cartesiano: Vn,r = n× (n− 1)× · · · × (n− r + 2)× (n− r + 1) = n! (n− r)! 2.2.0.4. Con repetición Supongamos ahora que cada elemento del conjunto original pueda ser repetido al crear una ordenación de tamaño r. Se hablará entonces de variaciones con repetición de r elementos tomados de entre n, V Rn,r. Pensemos, por ejemplo, en las palabras de 8 letras que pueden formarse con el alfabeto español. Hay que tomar 8 decisiones (cuál es la primera letra, cuál la segunda, etc.) teniendo 27 posibilidades de elección cada vez (las 27 letras del alfabeto). El número total de palabras es, entonces 27× 27× · · · × 27× 27︸ ︷︷ ︸ 8veces = 278. Es fácil observar que, en general: V Rn,r = n r 2.3. Combinaciones Una combinación de r elementos tomados de entre n es cualquier subconjunto de tamaño r de un conjunto de n elementos. Es importante resaltar que en una combinación no interviene el orden de los elementos: si sacamos tres bolas de una bolsa que contiene diez, numeradas del uno al diez, podemos obtener las permutaciones distintas {1, 2, 7} y {7, 1, 2} que, sin embargo, son un mismo subconjunto de tamaño 3 (el obtenido por unión de {1}, {2} y {3}). Son, por tanto, la misma combinación. 2.3.0.5. Sin repetición Siguiendo la idea del ejemplo anterior, una manera sencilla de contar las combina- ciones de r elementos tomados entre n (Cn,r) es observar que, de las n!/(n−r)! variaciones posibles, r! de ellas son ordenaciones distintas de los mismos elementos y, por tanto, la misma combinación. El número total de combinaciones será entonces: Cn,r = n! (n− r)! r! = ( n r ) 16 Estad́ıstica 2.3.0.6. Con repetición Supongamos ahora que tenemos la libertad de repetir los elementos del conjunto para formar un subconjunto de tamaño r, obtendremos una combinación con repetición de r elementos tomados de entre n. En una de estas combinaciones cada uno de los n elementos del conjunto puede aparecer 0, 1, 2, 3, . . ., hasta r veces. Cada combinación puede ser descrita por una n-upla de números que indica cuántas veces aparece el elemento 1, el 2, y aśı hasta el n. Evidentemente, la suma de las cifras de cada n-upla es r, puesto que cada combinación consta de r elementos. El número total de n-uplas tales que la suma de sus elementos sea r es el número de posibles combinaciones con repetición y lo que deseamos calcular. Olvidémonos por el momento de las combinaciones y pensemos en los siguientes problemas: Introducimos r bolas idénticas en n cajas. ¿Cuántas configuraciones finales distintas podŕıamos reconocer? ¿Cuántas soluciones distintas tiene la ecuación k1+k2+ · · ·+kn = r si cada ki debe ser un número natural ó 0? Estos dos problemas aparentemente distintos son, en realidad, equivalentes. Supon- gamos r bolas iguales y n cajas. Las introducimos y contamos cuántas bolas han cáıdo en la primera caja, cuántas en la segunda, la tercera y la cuarta. Cada configuración nos da una n-upla de números (k1, k2, . . . , kn) que resuelve el segundo problema. Obsérvese, llegados a este punto, que el número de configuraciones distintas que obtenemos al introducir r bolas en n cajas y el número de combinaciones que buscábamos coinciden: ambas son el número de n-uplas (k1, k2, . . . , kn) tales que la suma ∑n i=1 ki = r. Vamos a calcular este número empleando un sencillo y original argumento para el problema de las bolas y las cajas. Supongamos las n cajas colocadas una a continuación de la otra y pegadas entre śı. Representaremos las bolas mediante asteriscos y las cajas como los n espacios comprendi- dos entre n+1 barras (las paredes de las cajas). Por ejemplo, la secuencia | ∗ ∗ ∗ |||| ∗ ∗|| ∗ | indica una manera de introducir 6 bolas en 7 cajas con el resultadode 3 en la primera, 2 en la quinta y 1 en la séptima. Cada secuencia que representemos empieza y termina por una barra vertical, pero las restantes n−1 barras y r asteriscos aparecen en un orden arbitrario. Por lo tanto, el número de configuraciones distinguibles es igual al número de formas de seleccionar r lugares de n+ r − 1 posiciones posibles, es decir: 2 Análisis combinatorio 17 CRn,r = (n+ r − 1)! (n− 1)! r! = ( n+ r − 1 r ) Otro ejemplo clásico que puede reducirse al de introducir r bolas en n cajas: ¿Cuántas derivadas parciales de orden r diferentes existen para una función anaĺıtica de n variables f(x1, x2, . . . , xn)? Por ser una función anaĺıtica, las derivadas parciales de orden r no dependen del orden de la derivación, sino sólo del número de veces que cada variable aparece. Si identi- ficamos cada variable con una celda, cada configuración obtenida al introducir r bolas nos da, de nuevo, una derivada posible de orden r. Hay, por tanto CRn,r derivadas distintas de f . 18 Estad́ıstica C O M B I N A T O R I A �� �� �� �� �� ��� B B B B B B B B B B B BN in t e r v ie n e e l o r d e n � � � �3 Q Q Q Qs p u e d o r e p e t ir �� �� �� ��� A A A A A A A AU p u e d o r e p e t ir � � � �3 Q Q Q Qs c o j o t o d o s m e d ic e n c u a n t a s v e c e s s e r e p it e c a d a u n o � � � �3 Q Q Q Qs n o s i n o s i n o s i n o s i n o s i C n ,r = ( n r ) = n ! r! (n − r) ! C R n ,r = ( n + r − 1 r ) = (n + r − 1) ! r! (n − 1) ! V n ,r = n × (n − 1) × ·· ·× (n − r + 1) P n = n ! V R n ,r = n r P R n 1 ,n 2 ,. .. ,n r n = n ! n 1 !× n 2 !× ·· ·× n r ! 3 Álgebra de sucesos Índice 3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . 21 3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . 21 3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . 22 19 20 Estad́ıstica 3.1. Experimento aleatorio Por experimento entenderemos cualquier acción que pueda dar lugar a resultados identificables. Suponemos que podemos repetir el experimento gran número de veces bajo las mismas condiciones, y que todos los posibles resultados son conocidos antes de la realización del mismo. Si los resultados del experimento pueden ser distintos y no se sabe cuál de ellos aparecerá al final, el experimento se llamará aleatorio. Si el resultado del experimento es conocido de antemano, se llamará determinista. 3.2. Sucesos Llamaremos sucesos elementales de un experimento a un conjunto de resultados posibles que cumplen: 1. Siempre ocurre alguno de ellos 2. Son mutuamente excluyentes, es decir, la ocurrencia de uno de ellos implica la no ocurrencia de los demás Llamaremos espacio muestral, E, al conjunto de todos los posibles resultados de un experimento aleatorio. Si, por ejemplo, el experimento consiste en lanzar una moneda dos veces, el espacio muestral lo forman cuatro sucesos elementales, E = {c c, c+,+ c,++}. En un experimento aleatorio podemos estar interesados no en un suceso elemental, sino en un conjunto de sucesos elementales, conjunto que llamaremos suceso compuesto, es decir, un subconjunto del espacio muestral (que se obtiene mediante la unión de sucesos elementales). En el ejemplo anterior, un suceso compuesto seŕıa obtener exactamente una cara, S = {c+,+ c} Si el único resultado que interesa del experimento es el mismo espacio muestral E, estamos ante el suceso seguro; mientras que si el resultado deseado es no obtener ninguno de los sucesos contenidos en E, tenemos el suceso imposible. 3 Álgebra de sucesos 21 3.3. Operaciones con sucesos 3.3.1. Unión de sucesos Dados n sucesos S1, S2, . . . , Sn, la operación unión de ellos ( n⋃ i=1 Si ) es otro suceso constituido por los elementos comunes y no comunes a los sucesos S1, S2, . . . , Sn. Es decir, un suceso que aparece cuando tiene lugar S1 ó S2 ó · · · ó Sn. 3.3.2. Intersección de sucesos Dados n sucesos S1, S2, . . . , Sn, la operación intersección de ellos ( n⋂ i=1 Si ) es otro suceso constituido por los elementos comunes a los sucesos S1, S2, . . . , Sn. Es decir, un suceso que aparece cuando tiene lugar S1 y S2 y · · · y Sn. Cuando n sucesos no tienen ningún elemento común, su intersección es igual al suceso vaćıo ( n⋂ i=1 Si = ∅ ) , y se dice que los sucesos son disjuntos o incompatibles. Como caso particular, n sucesos son disjuntos dos a dos si Si ∩ Sj = ∅ ∀i 6= j. Si n sucesos son disjuntos dos a dos y la unión de todos ellos es el espacio muestral,( n⋃ i=1 Si = E ) , se dice que los sucesos Si forman una partición del espacio muestral E. La definición de partición se puede ampliar a un conjunto numerable de sucesos disjuntos dos a dos y tales que ∞⋃ i=1 Si = E. 3.3.3. Propiedades de la unión y la intersección • Conmutativa S1 ∪ S2 = S2 ∪ S1 S1 ∩ S2 = S2 ∩ S1 • Asociativa S1 ∪ (S2 ∪ S3) = (S1 ∪ S2) ∪ S3 S1 ∩ (S2 ∩ S3) = (S1 ∩ S2) ∩ S3 • Distributiva S1 ∪ (S2 ∩ S3) = (S1 ∪ S2) ∩ (S1 ∪ S3) S1 ∩ (S2 ∪ S3) = (S1 ∩ S2) ∪ (S1 ∩ S3) 22 Estad́ıstica 3.3.4. Diferencia de sucesos Dados dos sucesos S1 y S2, la operación diferencia (S1 − S2) es el suceso integrado por los elementos de S1 que no pertenecen a S2. Es decir, el suceso que tiene lugar cuando sucede S1 y no sucede S2. La operación diferencia no goza de la propiedad conmutativa, pues, en general, S1 − S2 6= S2 − S1. 3.3.5. Suceso complementario El complementario de un suceso S, que notaremos por S̄, es la diferencia entre el espacio muestral, E, y el suceso S, es decir S̄ = E − S. Es el suceso compuesto por los elementos de E que no pertenecen a S. Se comprueba fácilmente que S ∪ S̄ = E, S ∩ S̄ = ∅ y ¯̄S = S • Leyes de De Morgan ( n⋃ i=1 Si ) = n⋂ i=1 S̄i ( n⋂ i=1 Si ) = n⋃ i=1 S̄i 4 Teoŕıa de la probabilidad Índice 4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . 24 4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . 24 4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . 26 4.1.3.1. Álgebra de sucesos . . . . . . . . . . . . . . . . . . . . 26 4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . 28 4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . 29 4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 31 4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . 32 4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . 33 4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . 34 23 24 Estad́ıstica 4.1. Concepto de probabilidad 4.1.1. Probabilidad clásica Laplace define la probabilidad de un suceso como el cociente entre el número de casos favorables y el número de casos posibles, siempre que todos sean igualmente posibles. De la definición clásica de probabilidad se desprenden una serie de propiedades (S denota cualquier suceso ya sea compuesto o elemental): • P (S) ≥ 0 • P (S) ≤ 1 • Si tenemos dos sucesos disjuntos S1 y S2, y su unión es S = S1 ∪ S2, entonces P (S) = P (S1 ∪ S2) = P (S1) + P (S2) • Si S̄ es el suceso complementario de S, entonces P (S̄) = 1− P (S) La probabilidad clásica supone que el número de casos posibles sea finito. 4.1.2. Probabilidad frecuentista Esta teoŕıa se basa en dos aspectos fundamentales : – La estabilidadde las frecuencias o regularidad estad́ıstica : En un experimento aleatorio, a pesar del comportamiento irregular de los resultados individuales, los resultados promedios, en largas sucesiones de experimentos aleatorios, muestran una sorprendente regularidad. – La objetividad de la probabilidad La probabilidad es una propiedad f́ısica de los objetos como la densidad, la temperatura, etc, y por tanto, medible. 4 Teoŕıa de la probabilidad 25 Si realizamos un experimento N veces, el número de veces, n, que ocurre un suceso particular, S, es su frecuencia absoluta, mientras que la frecuencia relativa se define como f(S) = n/N . Aśı, la teoŕıa frecuentista define la probabilidad del suceso S como el ĺımite P (S) = ĺım N→∞ f(S) = ĺım N→∞ n N Las frecuencias relativas verifican una serie de propiedades fácilmente demostrables: • 0 ≤ f(S) ≤ 1 • Sean S1, S2, . . . , Sn sucesos disjuntos dos a dos y S = n⋃ i=1 Si, entonces f(S) = n N = 1 N n∑ i=1 ni = n∑ i=1 ni N = n∑ i=1 f(Si) Por todo ello, al identificar la probabilidad de un suceso con el valor tomado en el ĺımite por la frecuencia relativa, se admite que 0 ≤ P (S) ≤ 1 y P (S) = n∑ i=1 P (Si) Para poder definir la probabilidad frecuentista, debemos imponer dos condiciones 1. En la secuencia de observaciones, existe el ĺımite de las frecuencias relativas (prin- cipio de existencia del ĺımite). 2. Considerada aleatoriamente cualquier subsecuencia dentro del colectivo, existe en ella el ĺımite de la frecuencia relativa y es igual al obtenido en todo el colectivo (principio de aleatoriedad). Al igual que la teoŕıa clásica, esta teoŕıa también tiene sus inconvenientes : – Del principio de existencia del ĺımite se deduce que esta teoŕıa de la probabilidad no puede aplicarse a sucesos que no puedan repetirse. – Es necesario realizar el experimento para obtener la frecuencia relativa corres- pondiente al suceso en cuestión. – Habŕıa que realizar el experimento infinitas veces para calcular el ĺımite, pues las reglas del cálculo de ĺımites sólo son aplicables a sucesiones no aleatorias, donde se supone que existe un término general. 26 Estad́ıstica 4.1.3. Axiomática del cálculo de probabilidades Las limitaciones de las teoŕıas clásica y frecuentista de la probabilidad hacen im- posible la formalización matemática de la asignación de un modelo matemático a la pro- babilidad, consiguiéndose éste con el planteamiento axiomático de Kolmogorov (1933), al poner en relación la teoŕıa de la probabilidad con la de conjuntos y con la teoŕıa de la medida. El planteamiento de Kolmogorov presenta la limitación de no proporcionar un méto- do práctico de obtención de probabilidades de sucesos en el mundo real. Para salvar esta importante limitación, Kolmogorov establece la conexión del modelo matemático con el mundo real recurriendo a la base emṕırica de la teoŕıa frecuentista, al considerar que si un experimento aleatorio se repite gran número de veces, la frecuencia relativa de un suceso diferirá ligeramente de la probabilidad del suceso. 4.1.3.1. Álgebra de sucesos En el experimento del dado, el espacio muestral es el conjunto E = {1, 2, 3, 4, 5, 6}, pudiendo plantearse preguntas como : ¿qué probabilidad hay de obtener el número 5 en una tirada? En la pregunta, el suceso es 5, uno de los sucesos elementales constitutivos del espacio muestral E. Sin embargo, existen otras muchas preguntas en las que se formulan sucesos compuestos, como la obtención de : {número par}, {número distinto de 5}, etc. Todos estos sucesos compuestos tienen un denominador común : no figuran expĺıcitamente en el espacio muestral E, aunque proceden de los elementos constitutivos de él. Esto tiene como consecuencia que el número de sucesos que pueden plantearse en un experimento aleatorio es superior al de sucesos elementales integrantes de E, y son generados desde E mediante las operaciones de unión, intersección y complementariedad, constituyendo todos ellos un nuevo conjunto denominado álgebra. Lo anterior puede formalizarse de la siguiente manera : sea E el espacio muestral in- tegrado por sucesos elementales. Sea A una colección de subconjuntos de E, cumpliéndose las siguientes condiciones : 1. El espacio muestral, E, pertenece a A. 2. Si un suceso S pertenece a A, también pertenece su complementario S̄. Como consecuencia, el conjunto vaćıo, ∅, pertenece a A. 4 Teoŕıa de la probabilidad 27 3. Si S1 y S2 son dos subconjuntos de A, su unión, S1 ∪ S2, pertenece a A; y por tanto también su intersección, S1 ∩ S2. La colección de sucesos que cumple las tres condiciones se denomina álgebra de Boole, siendo extensible a cualquier número finito de sucesos, sin más que reiterar las operaciones de unión e intersección. Si en vez de tener n sucesos tenemos una sucesión numerable, S1, S2, . . . , Sn, . . . , pertenecientes a A, entonces ∞⋃ i=1 Si y ∞⋂ i=1 Si también pertenecen a A, la colección recibe el nombre de σ-álgebra, que representaremos por Ω. El par (E,Ω) recibe el nombre de espacio probabilizable o medible. Mediante dos ejemplos podremos apreciar con claridad la formación de una σ-álgebra de sucesos, Ω, a partir de los elementos de un espacio muestral, E. En el primer caso tenemos el espacio muestral E = {1, 2, 3} y como σ-álgebra Ω, la σ-álgebra completa que puede generarse desde él : E −−−−−−−−−−−→ Ω 1 2 3 −→ {ningún elemento}={∅} {1} {2} {3} {no obtener el 1}={{2} ∪ {3}} {no obtener el 2}={{1} ∪ {3}} {no obtener el 3}={{1} ∪ {2}} {cualquier elemento}={E} En el segundo ejemplo hemos elegido como σ-álgebra Ω de interés el número de caras resultante de lanzar una moneda dos veces : E −−−−−−−−−−−→ Ω c c c+ + c ++ −→ {ningún elemento}={∅} {2 caras}={c c} {como mı́nimo una cara}={{c c} ∪ {c+} ∪ {+ c}} {como máximo una cara}={{c+} ∪ {+ c} ∪ {++}} {1 cara}={{c+} ∪ {+ c}} {no obtener una cara}={{c c} ∪ {++}} {0 caras}={++} {cualquier elemento}={E} 28 Estad́ıstica 4.1.4. Axiomática de Kolmogorov El sistema axiomático de Kolmogorov consta de tres axiomas : A1. Si S es un suceso de una σ-álgebra, Ω, existe un número P (S) ≥ 0, denominado probabilidad del suceso S A2. P (E) = 1 A3. Dada una sucesión numerable de sucesos S1, S2, . . . , Sn, . . ., disjuntos dos a dos, se verifica que P ( ∞⋃ i=1 Si) = ∞∑ i=1 P (Si) La tripleta (E,Ω, P ) se conoce como espacio probabiĺıstico. Ampliamos el doble ejemplo de espacio probabilizable (E,Ω) para disponer del es- pacio probabiĺıstico (E,Ω, P ). En el primer caso, suponemos que P (1) = 3/12, P (2) = 4/12 y P (3)=5/12 E −−−−−−−−−−−→ Ω −−−−−−−−→ P 1 2 3 −→ {ningún elemento}={∅} {1} {2} {3} {no obtener el 1}={{2} ∪ {3}} {no obtener el 2}={{1} ∪ {3}} {no obtener el 3}={{1} ∪ {2}} {cualquier elemento}={E} −→ −→ −→ −→ −→ −→ −→ −→ 0 3/12 4/12 5/12 9/12 8/12 7/12 1 4 Teoŕıa de la probabilidad 29 En el segundo ejemplo, se supone que P (c c) = P (c+) = P (+ c) = P (++) = 1/4 E −−−−−−−−−−−−−−−−−−→ Ω −−−−−−−−−−−−−−−−−→ P c c c+ + c ++ −→ {ningún elemento}={∅} {2 caras}={c c} {como mı́nimo una cara}={{c c} ∪ {c+} ∪ {+ c}} {como máximo una cara}={{c+} ∪ {+ c} ∪ {++}} {1 cara}={{c+} ∪ {+ c}} {no obtener una cara}={{c c} ∪ {++}} {0 caras}={++} {cualquier elemento}={E} −→ −→ −→ −→ −→ −→ −→ −→ 0 1/4 3/4 3/4 2/4 2/4 1/4 1 4.2. Teoremas del cálculo de probabilidades TEOREMA 1. La probabilidad del suceso imposible es cero : P (∅) = 0 Sea una sucesión de sucesos disjuntos dos a dos S1, . . . , Sn, . . . , todos ellos iguales al suceso imposible (Si = ∅). Según el tercer Axioma P ( ∞⋃ i=1 Si ) = ∞∑ i=1 P (Si), es decir P (∅) = ∞∑ i=1 P (∅), y por el Axioma 1, debe ser P (∅) = 0 TEOREMA 2. La probabilidad de la unión de n sucesos disjuntos dos a dos, S1, . . . , Sn, es igual a la suma de las probabilidades : P ( n⋃ i=1 Si ) = n∑ i=1 P (Si) Consideremos la sucesión numerable S1, . . . , Sn, Sn+1, Sn+2, . . ., siendo los sucesos Sn+1 = ∅, Sn+2 = ∅, . . . Según el tercer Axioma P ( ∞⋃ i=1 Si ) = ∞∑ i=1 P (Si) es decir, P ( ∞⋃ i=1 Si ) = P [( n⋃ i=1 Si ) ∪ ( ∞⋃ i=n+1 Si )] = P [( n⋃ i=1 Si )] = ∞∑ i=1 P (Si) = n∑ i=1 P (Si) TEOREMA 3. La probabilidad de la unión de dos sucesos cualesquiera, S1 y S2 viene dada por P (S1 ∪ S2) = P (S1) + P (S2)− P (S1 ∩ S2) Descomponemos los sucesos S1 ∪ S2, S1 y S2 en uniones de sucesos disjuntos : 30 Estad́ıstica S1 ∪ S2 = (S1 ∩ S̄2) ∪ (S̄1 ∩ S2) ∪ (S1 ∩ S2) S1 = (S1 ∩ S̄2) ∪ (S1 ∩ S2) S2 = (S̄1 ∩ S2) ∪ (S1 ∩ S2) por el teorema 2, P (S1 ∪ S2) = P (S1 ∩ S̄2) + P (S̄1 ∩ S2) + P (S1 ∩ S2) P (S1) = P (S1 ∩ S̄2) + P (S1 ∩ S2) P (S2) = P (S̄1 ∩ S2) + P (S1 ∩ S2) por tanto, P (S1 ∪ S2) = P (S1) + P (S2)− P (S1 ∩ S2) Para n sucesos : P ( n⋃ i=1 Si ) = n∑ i=1 P (Si) − n∑ i<j P (Si ∩ Sj) + n∑ i<j<k P (Si ∩ Sj ∩ Sk) + + · · ·+ (−1)n+1P (S1 ∩ S2 ∩ · · · ∩ Sn) TEOREMA 4. Si un suceso S1 está contenido en otro S, (S1 ⊂ S), se verifica que P (S1) ≤ P (S) Descomponemos el suceso S en la unión de dos sucesos disjuntos S = (S1 ∩ S) ∪ (S̄1 ∩ S) por el teorema 2, P (S) = P (S1 ∩ S) + P (S̄1 ∩ S) Por el Axioma 1, P (S̄1 ∩ S) ≥ 0, por tanto P (S) ≥ P (S1 ∩ S), pero S1 ∩ S = S1, con lo que P (S1) ≤ P (S) TEOREMA 5. La probabilidad de cualquier suceso es menor o igual que la unidad : P (S) ≤ 1 Todo suceso, S, está contenido en el suceso seguro (S ⊂ E), por tanto P (S) ≤ P (E) ≤ 1 TEOREMA 6. La probabilidad del suceso complementario S̄ es P (S̄) = 1− P (S) Siendo S y S̄ disjuntos y tales que S ∪ S̄ = E, se tiene que P (E) = P (S) + P (S̄) = 1 ⇒ P (S̄) = 1− P (S) 4 Teoŕıa de la probabilidad 31 4.3. Probabilidad condicional Consideremos las dos situaciones siguientes : acertar si la puntuación resultante de lanzar un dado perfecto es 2, o acertarla sabiendo que ha salido un número par. No cabe duda que las dos situaciones son distintas en cuanto a nuestra certidumbre de ganar, pues parece más fácil lograrlo en la segunda que en la primera. Este planteamiento conduce a un nuevo tipo de sucesos denominados condicionados, y de aqúı a la probabilidad condicional. En el ejemplo anterior, la probabilidad de obtener un 2 es 1/6. Si sabemos que ha salido un número par, la probabilidad de que sea 2 es 1/3. La diferencia en el valor de la probabilidad se debe a que tenemos más información en el segundo caso. El efecto de la información se centra en el espacio muestral. Si no existe ninguna información, el espacio muestral es E = {1, 2, 3, 4, 5, 6}, y si existe información, el espacio muestral se reduce a E = {2, 4, 6}. En esta situación, el conocimiento del suceso {par} condiciona la probabilidad de obtener el suceso {número 2}, denominando al primero condicionante y al segundo condicionado, y designándolo por {número 2/par}. Establecida la existencia de los sucesos condicionados, pasamos a su estudio. Dados dos sucesos S1 y S, el suceso S1 está condicionado por el suceso S si la proba- bilidad de que suceda S1 depende de que haya sucedido S, y la probabilidad condicional se define como P (S1/S) = P (S1 ∩ S) P (S) siempre que P (S) > 0. Hemos visto que la consecuencia de disponer de la información proporcionada por el conocimiento de la presencia del suceso S, radica en la modificación del espacio muestral E, dando lugar a un nuevo espacio muestral ES = E ∩S. Este espacio muestral genera, a su vez, una nueva σ-álgebra ΩS = Ω ∩ S y teniendo, por último, una nueva probabilidad sobre ΩS , que denominaremos PS y que ya hemos definido como PS(S1) = P (S1/S). El espacio probabiĺıstico resultante es (S,ΩS , PS), siempre que P (S) > 0. Para concluir que PS es realmente una probabilidad, debemos comprobar que verifica los tres axiomas de Kolmogorov. 1 PS(S1) ≥ 0 Según la definición de probabilidad condicional, PS(S1) = P (S1/S) = P (S1 ∩ S) P (S) y por el Axioma 1, P (S1 ∩ S) ≥ 0 y P (S) > 0, por tanto, PS(S1) ≥ 0 32 Estad́ıstica 2 PS(ES) = 1 PS(ES) = P (ES/S) = P (ES ∩ S) P (S) = P (S) P (S) = 1 3 PS ( ∞⋃ i=1 Si ) = ∞∑ i=1 PS(Si) siendo los Si disjuntos dos a dos Por la propiedad distributiva, ( ∞⋃ i=1 Si ) ∩ S = ∞⋃ i=1 (Si ∩ S) por tanto, PS ( ∞⋃ i=1 Si ) = P ( ∞⋃ i=1 Si/S ) = P [( ∞⋃ i=1 Si ) ∩ S ] P (S) = P [∞⋃ i=1 (Si ∩ S) ] P (S) = = ∞∑ i=1 P (Si ∩ S) P (S) = ∞∑ i=1 P (Si ∩ S) P (S) = ∞∑ i=1 P (Si/S) = ∞∑ i=1 PS(Si) La definición de probabilidad condicional se extiende fácilmente a más de dos suce- sos. Por ejemplo, para tres sucesos S1, S2 y S3, tenemos P (S1/S2 ∩ S3) = P (S1 ∩ S2 ∩ S3) P (S2 ∩ S3) P (S1 ∩ S2/S3) = P (S1 ∩ S2 ∩ S3) P (S3) 4.3.1. Regla de la multiplicación Dados n sucesos, S1, . . . , Sn, se verifica P ( n⋂ i=1 Si ) = P (S1)P (S2/S1)P (S3/S1 ∩ S2) · · ·P (Sn/S1 ∩ S2 ∩ · · · ∩ Sn−1) Demostramos este teorema por inducción. Comenzamos con dos sucesos S1 y S2 P (S2/S1) = P (S1 ∩ S2) P (S1) ⇒ P (S1 ∩ S2) = P (S1)P (S2/S1) Pasamos a tres sucesos S1, S2 y S3 P (S3/S1 ∩ S2) = P (S1 ∩ S2 ∩ S3) P (S1 ∩ S2) = P (S1 ∩ S2 ∩ S3) P (S1)P (S2/S1) ⇒ 4 Teoŕıa de la probabilidad 33 P (S1 ∩ S2 ∩ S3) = P (S1)P (S2/S1)P (S3/S1 ∩ S2) y aśı sucesivamente 4.3.2. Teorema de la probabilidad total Dados un suceso A y n sucesos, S1, . . . , Sn, disjuntos dos a dos, Si ∩ Sj = ∅, tales que n⋃ i=1 Si = E, y A ∩ Si 6= ∅ ∀i, se verifica P (A) = n∑ i=1 P (A/Si)P (Si) Para la demostración de este teorema, descomponemos el suceso A de la siguiente forma A = A ∩ E = A ∩ ( n⋃ i=1 Si ) = n⋃ i=1 (A ∩ Si) Tomando probabilidades, y teniendo en cuenta que los sucesos {A∩Si} son disjuntos dos a dos, P (A) = P [ n⋃ i=1 (A ∩ Si) ] = n∑ i=1 P (A ∩ Si) = n∑ i=1 P (A/Si)P (Si) 4.3.3. Teorema de Bayes Dados un suceso A y n sucesos, S1, . . . , Sn, disjuntos dos a dos, Si ∩ Sj = ∅, tales que n⋃ i=1 Si = E, y A ∩ Si 6= ∅ ∀i, se verifica P (Si/A) = P (A/Si)P (Si) n∑ i=1 P (A/Si)P (Si) Por la definición de probabilidad condicional P (A/Si) = P (A ∩ Si) P (Si) P (Si/A) = P (A ∩ Si) P (A) Por tanto, P (A ∩ Si) = P (Si/A)P (A) = P (A/Si)P (Si) ⇒ P (Si/A) = P (A/Si)P (Si) P (A) 34 Estad́ıstica y, del teorema de la probabilidad total resulta P (Si/A) = P (A/Si)P (Si) n∑ i=1 P (A/Si)P (Si) 4.4. Independencia de sucesos Consideremos el siguiente ejemplo. Una urna contiene 8 bolas blancas y 4 bolas negras. Se extraen consecutivamente dos bolas, y queremos determinar la probabilidad de que la segunda bola sea blanca. Para calcular esta probabilidad, debemos diferenciar los dos tipos de extracción, con o sin reemplazamiento. Cuando realizamos la extracción sin reemplazamiento, la probabilidad buscada es- tará condicionada por el color de la primera bola. Es decir, si la primera bola sacada es blanca, la probabilidad de que la segunda también lo sea es 7/11, mientras que si la primera bola es negra, la probabilidad de que la segunda sea blanca es 8/11. Si realizamos la extracción con reemplazamiento, la probabilidad de que la segunda bola sea blanca es 8/12, sea cual sea el color de la primera bola sacada. En el primer caso, el color de la segunda bola está condicionado por el color de la primera bola (sucesos condicionados), mientras que en la extracción con reemplazamien- to, el color de la segunda bola es independiente del color de la primera bola (sucesos independientes). Dos sucesos, S1 y S2, son independientes si P (S1 ∩ S2) = P (S1)P (S2) es decir, cuando P (S1/S2) = P (S1) y P (S2/S1) = P (S2) En el caso de tres sucesos, S1, S2, S3, para que sean independientes, han de cumplirse las cuatro condiciones siguientes P (S1 ∩ S2) = P (S1)P (S2) P (S1 ∩ S3) = P (S1)P (S3) P (S2 ∩ S3) = P (S2)P (S3) P (S1 ∩ S2 ∩ S3) = P (S1)P (S2)P (S3) El cumplimiento de las tres primeras condiciones no implica el de la cuarta. Los sucesos que cumplen sólo las tres primeras condiciones reciben el nombre de sucesos independientes dos a dos. 4 Teoŕıa de la probabilidad 35 Propiedad.Si S1 y S2 son dos sucesos independientes. Entonces, S1 y S̄2 son independientes (⇒ S̄1 y S̄2 son independientes) Descomponemos el suceso S1 en unión de dos sucesos disjuntos, S1 = (S1 ∩ S̄2) ∪ (S1 ∩ S2) entonces P (S1) = P (S1 ∩ S̄2) + P (S1 ∩ S2) = P (S1 ∩ S̄2) + P (S1)P (S2) ⇒ P (S1 ∩ S̄2) = P (S1)− P (S1)P (S2) = P (S1)[1− P (S2)] = P (S1)P (S̄2) 36 Estad́ıstica 5 Variable aleatoria unidimensional Índice 5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 40 5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . 40 5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 41 5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . 42 5.3.1. Función de distribución y función de densidad . . . . . . . . . . 42 5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . 44 5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . 46 5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 46 5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . 48 5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . 49 5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . 50 37 38 Estad́ıstica 5.1. Variable aleatoria 5.1.1. Definición matemática Dado un espacio probabiĺıstico, (E,Ω, P ), pretendemos asignar un número a cada uno de los sucesos elementales, Ai, del espacio muestral. Es decir, creamos una función X , llamada variable aleatoria, definida en E, que toma valores en R, con la condición de que X−1(b) = {Ai ∈ E/X(Ai) ∈ b} ∈ Ω siendo b = (x, y) ó [x, y] ó (x, y] ó [x, y) ó [x, x] con −∞ ≤ x, y ≤ +∞ es decir, b es un subconjunto de la σ-álgebra completa de R, llamada σ-álgebra de Borel. Veamos un par de ejemplos. Consideremos el experimento de lanzar una moneda dos veces. Entonces E = {{c, c}, {c, +}, {+, c}, {+, +}} = {A1, A2, A3, A4} Ω = {∅, A1, A4, A2 ∪ A3, A1 ∪ A2 ∪ A3, A4 ∪A2 ∪ A3, A1 ∪A4, E} = {S1, . . . , S8} Y : E −→ R A1 −→ 2 A2 −→ 1 A3 −→ 5 A4 −→ 0 X : E −→ R A1 −→ 2 A2 −→ 1 A3 −→ 1 A4 −→ 0 En el primer caso, Y −1 ((4, 5]) = {Ai ∈ E/4 < Y (Ai) ≤ 5} = A3 ∈/ Ω por tanto, Y no es una variable aleatoria de este espacio probabiĺıstico (E,Ω, P ). En cambio, si consideramos la σ−álgebra completa, Y śı es una variable aleatoria para este nuevo espacio probabiĺıstico. En el segundo caso, es fácil comprobar que X−1(b) = {Ai ∈ E/X(Ai) ∈ b} ∈ Ω ∀ b ∈ B El hecho de que X sea una v.a. de (E,Ω, P ) está directamente relacionado con la intención con la que se creó el σ−álgebra Ω. Al tomar como sucesos que definen Ω los sucesos A1, A4 y A2 ∪A3, estamos diciendo que lo que nos interesa del experimento es el número de caras, lo que está de acuerdo con la filosof́ıa de X . Si el número de valores que toma la variable aleatoria es finito o infinito numerable, se dice que es una variable aleatoria discreta. Si toma un número infinito no numerable 5 Variable aleatoria unidimensional 39 de valores se dice que es continua. Además, una v.a. puede ser discreta en un conjunto numerable de puntos y continua en el resto. En este caso, se dice que es mixta. 5.1.2. Definición intuitiva Una variable aleatoria es una regla que asigna a cada suceso un número real. Se puede interpretar, por tanto, como una función que toma valores en el espacio muestral E y devuelve números reales. El uso de variables aleatorias permite, como veremos, cambiar el álgebra de sucesos por el cálculo con números reales, facilitando enormemente el manejo de probabilidades asociadas a experimentos aleatorios. Al definir una variable aleatoria cada suceso se convierte en un subconjunto de la recta real (en general un intervalo o un punto). En este sentido, uno de los conceptos fundamentales es el de sucesos generados por variables aleatorias. Supongamos un ex- perimento aleatorio con espacio muestral E. Si asignamos a cada suceso elemental un número real (en principio de manera arbitraria) hemos definido una variable aleatoria X . Manejaremos la notación {X ≤ x} ≡ conjunto unión de todos los sucesos de E a los que X asigna un número menor o igual que x. De la misma manera se pueden definir los conjuntos {x1 < X ≤ x2} ó {x1 ≤ X ≤ x2} ó {X ≥ x} ó {X = x}. Obsérvese que en cada caso hemos convertido un determinado suceso (puesto que cualquier unión de sucesos elementales lo es) en un intervalo o punto de la recta real. P ({X ≤ x}) será entonces la probabilidad de que ocurra el suceso definido por {X ≤ x}. Abusando de la notación prescindiremos en lo sucesivo de las llaves y escribiremos P (X ≤ x). Consideremos por ejemplo el experimento de lanzar un dado. El espacio muestral está formado por seis sucesos elementales E = {Si}i=1,...,6 donde Si ≡ valor obtenido en la tirada es i. Podemos definir una variable aleatoria X asignando al suceso Si el número 10i. Aśı: • {X ≤ 35} = S1 ⋃ S2 ⋃ S3. El suceso representado es que salga 1, 2 ó 3. • {20 ≤ X ≤ 35} = S2 ⋃ S3. El suceso representado es que salga 2 ó 3. • {20 < X ≤ 35} = S2 ⋃ S3. El suceso representado es que salga 3. • {X ≤ 5} = ∅. Suceso imposible. 40 Estad́ıstica • {X = 40} = S4. El suceso representado es que salga un 4. • {X = 35} = ∅. Suceso imposible. Las probabilidades asociadas serán: P (X ≤ 35) = 1/2, P (20 ≤ X ≤ 35) = 1/3, P (20 < X ≤ 35) = 1/6, P (X = 5) = 0, P (X = 40) = 1/6, P (X = 35) = 0. Para el mismo experimento podŕıamos haber definido una variable asignando 0 a los sucesos S2, S4 y S6 y 1 a S1, S3 y S5. Parece claro que ésta última variable resultará útil si sólo nos interesa que el resultado del experimento haya sido la obtención de un número par o uno impar. 5.2. Variable aleatoria discreta 5.2.1. Función de probabilidad Una vez que hemos definido una variable aleatoria, X , podemos definir una función, llamada función de probabilidad asociada a X , de la siguiente forma f : R −→ [0, 1] x −→ f(x) = P (X = x) En particular, refiriéndonos al ejemplo de las dos monedas, tenemos f : R −→ [0, 1] 2 −→ f(2) = P (X = 2) = P (A1) = 1/4 1 −→ f(1) = P (X = 1) = P (A2 ∪A3) = 1/2 0 −→ f(0) = P (X = 0) = P (A4) = 1/4 En general, para que una función, f , sea la función de probabilidad asociada a una variable aleatoria X , debe cumplir : i) f(x) ≥ 0 ∀ x ∈ R ii) ∑ x f(x) = 1 donde la suma en x en la segunda condición se realiza sobre todos los posibles valores que puede tomar la variable aleatoria. 5 Variable aleatoria unidimensional 41 5.2.2. Función de distribución Dada una v.a. discreta, X , se llama función de distribución a la función F definida como F : R −→ [0, 1] x −→ F (x) = P (X ≤ x) Veamos algunas propiedades de la función de distribución. 1 F (−∞) = 0 F (−∞) = ĺım x→−∞ F (x) = ĺım x→−∞ P (X ≤ x) = P (∅) = 0 2 F (+∞) = 1 F (+∞) = ĺım x→+∞ F (x) = ĺım x→+∞ P (X ≤ x) = P (E) = 1 3 P (x1 < X ≤ x2) = F (x2)− F (x1) Consideremos los sucesos A = {X ≤ x2} B = {X ≤ x1} C = {x1 < X ≤ x2} como A = B ∪ C, siendo B ∩ C = ∅, tenemos P (A) = P (B) + P (C) =⇒ F (x2) = F (x1) + P (x1 < X ≤ x2) es decir, P (x1 < X ≤ x2) = F (x2)− F (x1) De forma análoga se demuestra : P (x1 ≤ X ≤ x2) = F (x2)− F (x1) + P (X = x1) P (x1 < X < x2) = F (x2)− F (x1)− P (X = x2) P (x1 ≤ X < x2) = F (x2)− F (x1) + P (X = x1)− P (X = x2) 4 F es monótona creciente Sean x1 < x2, por la propiedad anterior, F (x2) = F (x1) + P (x1 < X ≤ x2) ≥ F (x1) 5 F es continua por la derecha Tenemos que comprobar que, dado ε > 0, se cumple ĺım ε→0 (F (x+ ε)− F (x)) = 0 42 Estad́ıstica pero ĺım ε→0 (F (x+ ε)− F (x)) = ĺım ε→0 P (x < X ≤ x+ ε) = P (∅) = 0 Si calculamos el ĺımite por la izquierda, ĺımε→0 (F (x)− F (x− ε)) = ĺım ε→0 P (x− ε < X ≤ x) = P (X = x) y, esta probabilidad puede ser cero o no. Por tanto, la función de distribución, en general, no es continua por la izquierda. De hecho, F (x)− F (x−) = ĺım ε→0 (F (x)− F (x− ε)) = P (X = x) es decir, la probabilidad de que la v.a. discreta X tome un valor concreto es igual al salto de la función de distribución en ese punto. Ejemplo.- Sea X una v.a. discreta con función de probabilidad xi 1 2 3 4 P (X = xi) 0.1 0.4 0.2 0.3 La función de distribución asociada es F (x) = 0 x < 1 0.1 1 ≤ x < 2 0.5 2 ≤ x < 3 0.7 3 ≤ x < 4 1 x ≥ 4 - 6 x F (x) r r r r 1 2 3 4 0.1 0.5 0.7 1 5.3. Variable aleatoria continua 5.3.1. Función de distribución y función de densidad Dada una v.a. continua, X , se llama función de distribución a la función absoluta- mente continua, F , definida como F : R −→ [0, 1] x −→ F (x) = P (X ≤ x) 5 Variable aleatoria unidimensional 43 Decimos que F es absolutamente continua, si existe una función f : R −→ R, no negativa e integrable Lebesgue tal que F (x) = ∫ x −∞ f(t) dt ∀x ∈ R La función f se llama función de densidad. En general, una función f es función de densidad si verifica i) f(x) ≥ 0 ∀x ∈ R ii) ∫ ∞ −∞ f(x) dx = 1 Veamos algunas propiedades de la función de distribución. 1 F (−∞) = 0 y F (∞) = 1 2 F es monótona creciente 3 F es continua en R ĺım ε→0 (F (x+ ε)− F (x)) = ĺım ε→0 (∫ x+ε −∞ f(t) dt− ∫ x −∞ f(t) dt ) = ĺım ε→0 ∫ x+ε x f(t) dt Por ser f integrable en [x, x+ ε], ∃µ ∈ [inf f, sup f ] tal que ∫ x+ε x f(t) dt = µ ε (Primer Teorema de la Media). Por tanto, ĺım ε→0 (F (x+ ε)− F (x)) = ĺım ε→0 (µ ε) = 0 La continuidad por la izquierda se demuestra de forma análoga. Por ser F continua, se cumple P (X = x) = F (x)− F (x−) = 0 ∀x ∈ R por tanto P (x1 < X ≤ x2) = P (x1 < X < x2) = P (x1 ≤ X ≤ x2) = P (x1 ≤ X < x2) = = F (x2)− F (x1) Como consecuencia de esta propiedad, al ser la función de distribución continua en R, no tiene discontinuidades (saltos), por tanto la probabilidad de que la v.a. continua X tome un valor concreto es cero (P (X = x) = 0). 4 Si f es continua, entonces F es de clase C1 y F ′(x) = f(x) ∀x ∈ R F ′(x) = ĺım ε→0 F (x+ ε)− F (x) ε = ĺım ε→0 1 ε ∫ x+ε x f(t) dt 44 Estad́ıstica Por ser f continua en [x, x+ ε], ∃x0 ∈ [x, x+ ε] tal que ∫ x+ε x f(t) dt = f(x0) ε (Primer Teorema de la Media). Por tanto, F ′(x) = ĺım ε→0 F (x+ ε)− F (x) ε = ĺım ε→0 1 ε f(x0) ε = f(x0) Como x0 ∈ [x, x + ε] ∀ε ⇒ x0 = x. La derivabilidad por la izquierda se demuestra de forma análoga. Ejemplo.- Sea X una v.a. continua con función de densidad f(x) = 3 2 x2 x ∈ [−1, 1] 0 resto La función de distribución asociada es • Si x < −1 F (x) = ∫ x −∞ f(t) dt = ∫ x −∞ 0 dt = 0 • Si −1 ≤ x < 1 F (x) = ∫ x −∞ f(t) dt = ∫ −1 −∞ 0 dt+ ∫ x −1 3 2 t2 dt = 1 2 [x3 + 1] • Si x ≥ 1 F (x) = ∫ x −∞ f(t) dt = ∫ −1 −∞ 0 dt+ ∫ 1 −1 3 2 t2 dt+ ∫ x 1 0 dt = 1 F (x) = 0 x < −1 1 2 [x3 + 1] −1 ≤ x < 1 1 x ≥ 1 - 6 x F (x) -1 1 1 5.4. Variable aleatoria mixta Una v.a. mixta viene caracterizada por su función de distribución, definida de igual forma que en los casos anteriores, que es continua por la derecha, con un número de discontinuidades a lo sumo numerable, pero que no es escalonada. Es decir, en algunos puntos es discreta (puntos de discontinuidad) y en el resto es continua. Por ejemplo, la v.a. X con función de distribución 5 Variable aleatoria unidimensional 45 F (x) = 0 x < −1 (x+ 1)2 + 1/4 −1 ≤ x < −1/2 5/8 −1/2 ≤ x < 1/2 x+ 1/4 1/2 ≤ x < 3/4 1 x ≥ 3/4 - 6 x F (x) � � � r r r -1 -1/2 1/2 3/4 1/4 1/2 3/4 1 Para esta v.a. se cumple 1 P (X = −1) = F (−1+)− F (−1−) = 1/4− 0 = 1/4 P (X = −1/2) = F (−1/2+)− F (−1/2−) = 5/8− 1/2 = 1/8 P (X = 1/2) = F (1/2+)− F (1/2−) = 3/4− 5/8 = 1/8 P (X = x) = 0 ∀ x 6= −1,−1/2, 1/2 2 P (X = −1)+ ∫ −1/2 −1 (2x+2) dx+P (X = −1/2)+ ∫ 1/2 −1/2 0 dx+P (X = 1/2)+ ∫ 3/4 1/2 1 dx = 1 46 Estad́ıstica NOTA: Tanto en el caso de variables discretas como continuas o mixtas, el conocimiento de la función de distribución (o la de probabilidad o la de densidad) es toda la información que necesitamos para manejar la v.a. y estudiar el experimento para el que ha sido definida. De hecho estas funciones constituyen la máxima información posible acerca de la variable. 5.5. Transformaciones de variables aleatorias En muchas ocasiones deberemos hacer “operacionesçon variables aleatorias. Dada una variable aleatoria X una función de ella será una nueva variable aleatoria Y = u(X). En esta sección trataremos de calcular la distribución de esta nueva variable. Lo primero que debemos tener en mente es que la “aritmética” de las variables aleatorias no coincide con la de los números reales. Supongamos que lanzamos un dado y definimos la variable aleatoria X cuyo valor asignado al suceso Si ( ≡ el resultado de la tirada es i) es i. X toma seis posibles valores {1, 2, 3, 4, 5, 6} según la cara que haya mostrado el dado. Y1 = 2X es una nueva variable aleatoria que asigna un valor doble al definido anteriormente para cada suceso elemental. Sin embargo Y2 = X +X no tiene la misma interpretación. En este caso el dado es lanzado dos veces, sumándose la puntación obtenida en cada tirada. Los posibles valores de Y1 son {2, 4, 6, 8, 10, 12} mientras que los de Y2 son {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para evitar confusiones es conveniente asignar sub́ındices distintos a las variables que representan cada resultado de un determinado experimento que se repite varias veces, aun cuando cada una de ellas esté definida de la misma forma. En el caso de lanzar un dado dos veces podemos considerar la variable X definida anteriormente y obtener los posibles resultados como X1 + X2 donde cada Xi tiene la misma distribución de probabilidad que la X . 5.5.1. Variable aleatoria discreta Sea X una v.a. con función de probabilidad f(x) y función de distribución F (x) e, Y = u(X) otra v.a. con función de probabilidad g(y) y función de distribución G(y). Es decir, tenemos una función que relaciona a x e y, y = u(x) ⇒ x = u−1(y) = w(y). Entonces g(y) = P (Y = y) = P (u(X) = y) = P (X = u−1(y)) = P (X = w(y)) = f [w(y)] G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1(y)) = P (X ≤ w(y)) = F [w(y)] En general el paso de una v.a. a otra es sencilla, sólo hay que tener cuidado cuando la función u no es biyectiva. Veamos un par de ejemplos para aclarar esto último. 5 Variable aleatoria unidimensional 47 Ejemplo.- Sea X una v.a. con función de probabilidad xi -2 -1 0 1 2 P (X = xi) 0.1 0.2 0.2 0.4 0.1 La función de distribución de X es F (x) = 0 x < −2 0.1 −2 ≤ x < −1 0.3 −1 ≤ x < 0 0.5 0 ≤ x < 1 0.9 1 ≤ x < 2 1 x ≥ 2 Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1(y) = w(y) = y/2. Los valores que toma la v.a. Y son y = {−4,−2, 0, 2, 4}. Entonces g(y) = P (Y = y) = P (2X = y) = P (X = y/2) = f(y/2) es decir yi -4 -2 0 2 4 P (Y = yi) 0.1 0.2 0.2 0.4 0.1 Y, la función de distribución de Y es G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2) es decir G(y) = 0 y < −4 0.1 −4 ≤ y < −2 0.3 −2 ≤ y < 0 0.5 0 ≤ y < 2 0.9 2 ≤ y < 4 1 y ≥ 4 Sea ahora Y = u(X) = X2. Claramente, la función u no es biyectiva. Tenemos entonces que los valores que toma la v.a. Y son y = {0, 1, 4}, y la función de probabilidad es g(y) = P (Y = y) = P (X2 = y) = P ( (X = −√y ) ∪ (X = +√y ) ) = = P (X = −√y ) + P (X = +√y ) es decir 48 Estad́ıstica yi 0 1 4 P (Y = yi) 0.2 0.6 0.2 Y, la función de distribución de Y es G(y) = P (Y ≤ y) = P (X2 ≤ y) = P (−√y ≤ X ≤ +√y) = = P (X = −√y) + P (−√y < X ≤ +√y) = = f(−√y) + F (+√y)− F (−√y) es decir G(y) = 0 y < 0 0.2 0 ≤ y < 1 0.8 1 ≤ y < 4 1 y ≥ 4 5.5.2. Variable aleatoria
Compartir