Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA BÁSICA SEMESTRE 2017-I APLAZADO SÁBADO 22 DE JULIO DE 2017 Nombre:___________________________________________________________________________ Sección:___________________ Sólo puede consultarse el formulario y las tablas que se adjuntan. Utiliza 𝜶 = 𝟎. 𝟎𝟓 salvo que se indique lo contrario. Justifica todas tus respuestas. 1. A partir de las siguientes figuras, señala la correspondencia entre cada histograma y los box-plots, justificando tu respuesta. SOLUCIÓN: 1-A: El histograma 1 es asimétrico negativo, con la cola de la distribución apuntando hacia los valores bajos del eje X. Eso mismo se aprecia en el box-plot A, donde el bigote del primer cuartil es más largo 3-C: En este caso la asimetría es positiva, y la cola de la distribución está a la derecha, apuntando a +∞. Le corresponde el box-plot C, que muestra también esa asimetría. 2-D y 4-B: el histograma 2 muestras una gran varianza, debido a la bimodalidad, por eso le corresponde el box-plot D, donde el rango intercuartílico es mayor. El histograma 4 es el más simétrico, y al ser unimodal tiene menos varianza que el 2. Por eso le corresponde el box-plot B 2. Un laboratorio ha desarrollado un nuevo test para detectar un virus del que se estima se ha contagiado el 1% de la población. Esta detección es importante, pues ese virus puede facilitar el desarrollo de ciertas enfermedades. Este test no es infalible, pues se estima que el 20% de las personas que portan el virus no son detectadas por el nuevo test. Por el contrario, en las personas sanas, el test puede dar positivo (positivo=el test dice que tiene el virus) con una probabilidad de 0.001. a. ¿Cuál es la probabilidad de que una persona que tiene el virus dé positivo en el test? b. ¿Cuál es la probabilidad de que el test dé positivo en una persona seleccionada al azar? c. ¿Cuál es la probabilidad de que tenga el virus una persona que ha dado positivo en el test? d. ¿Cuál es la probabilidad de que una persona que ha dado positivo en el test no tenga el virus? SOLUCIÓN Definimos los siguientes sucesos: V: una persona tiene el virus p: resultado positivo en el test (detecta el virus) Los datos dicen que 𝑃(𝑉) = 0.01 𝑃(�̅�|𝑉) = 0.2 𝑃(𝑝|�̅�) = 0.001 a. Nos piden 𝑃(𝑝|𝑉). Del enunciado se deduce que 𝑃(�̅�|𝑉) = 0.2 ⇒ 𝑃(𝑝|𝑉) = 0.8. b. Nos piden 𝑃(𝑝). Aplicando el teorema de la probabilidad total tenemos: 𝑃(𝑝) = 𝑃(𝑝|𝑉)𝑃(𝑉) + 𝑃(𝑝|�̅�)𝑃(�̅�) De los datos del enunciado se deduce que 𝑃(𝑉) = 0.01 ⇒ 𝑃(�̅�) = 0.99 𝑃(�̅�|𝑉) = 0.2 ⇒ 𝑃(𝑝|𝑉) = 0.8. Con estos valores se obtiene: 𝑃(𝑝) = 0.8(0.01) + 0.001(0.99) = 0.00899. c. Ahora nos piden 𝑃(𝑉|𝑝). Aplicando el teorema de Bayes se obtiene: 𝑃(𝑉|𝑝) = 𝑃(𝑝|𝑉)𝑝(𝑉) 𝑃(𝑝) = 0.8(0.01) 0.00899 = 0.8899. d. Nos piden 𝑃(�̅�|𝑝), que es justo el complementario del resultado anterior: 𝑃(�̅�|𝑝) = 1 − 𝑃(𝑉|𝑝) = 1 − 0.8899 = 0.1101 3. Dada la función de distribución 𝐹(𝑥) = 8𝑥3, 0 ≤ 𝑥 ≤ 𝑎, se pide: a. Demuestra que 𝑎 = 0.5 b. Calcula la función de densidad. c. Calcula el rango intercuartílico de esta distribución. d. Calcula la media. SOLUCIÓN: a. En 𝑥 = 𝑎 debemos tener ya toda la probabilidad acumulada. Por tanto 𝐹(𝑎) = 1 ⇒ 8𝑎3 = 1 ⇒ 𝑎 = ( 1 8 ) 1 3 = 0.5 b. La función de densidad es la derivada de la función de distribución 𝑓(𝑥) = 𝑑𝐹(𝑥) 𝑑𝑥 = 24𝑥2; 0 ≤ 𝑥 ≤ 0.5 c. El rango intercuartílico es la diferencia entre el tercer cuartil y el primero. Los cuartiles 1 y 3 son: 𝐹(𝑄1) = 0.25 ⇒ 8𝑄1 3 = 1 4 ⇒ 𝑄1 = ( 1 32 ) 1 3 = 0.3150 𝐹(𝑄3) = 0.75 ⇒ 8𝑄3 3 = 3 4 ⇒ 𝑄3 = ( 3 32 ) 1 3 = 0.4543 𝑅𝐼 = 0.4543 − 0.3150 = 1393. d. La media es 𝐸(𝑋) = ∫ 𝑥𝑓(𝑥)𝑑𝑥 0.5 0 = ∫ 24𝑥3𝑑𝑥 0.5 0 = 24 [ 𝑥4 4 ] 0 0.5 = 0.3750 4. El gerente de una empresa de servicios de taxi quiere averiguar si el día de la semana influye en el número de servicios solicitados. Para ello, toma datos al azar de 280 servicios registrados en el sistema y los resume en la siguiente tabla: Día de la semana Lunes Martes Miércoles Jueves Viernes Sábado Domingo Número de servicios solicitados 43 38 36 36 40 45 42 Además, se sabe que el número de horas de atención y prestación del servicio es el mismo todos los días. ¿Qué puede concluir el gerente? (2.5 p) SOLUCIÓN Se debe realizar una prueba de bondad de ajuste para averiguar si él número de servicios cada día sigue una distribución uniforme (0.5 p): I. En primer lugar, se establecen las hipótesis: 𝐻𝑜: 𝑋 ~ 𝑈𝑑(1,7) 𝐻𝑜: 𝑋 ≁ 𝑈𝑑(1,7) II. Se calcula el estadístico de contraste: 𝝌𝟎 𝟐 = ∑ (𝑶𝒊 − 𝑬𝒊) 𝟐 𝑬𝒊 𝟕 𝒊=𝟏 Día 𝑶𝒊 Probabilidad 𝑬𝒊 (𝑶𝒊 − 𝑬𝒊) 𝟐 𝑬𝒊 𝝌𝟎 𝟐 Lunes 43 1 7⁄ 40 0.225 1.85 (1 p) Martes 38 1 7⁄ 40 0.1 Miércoles 36 1 7⁄ 40 0.4 Jueves 36 1 7⁄ 40 0.4 Viernes 40 1 7⁄ 40 0 Sábado 45 1 7⁄ 40 0.625 Domingo 42 1 7⁄ 40 0.1 III. Se establece la distribución de referencia del estadístico de contraste: El número de grados de libertad de la distribución ji-cuadrado de referencia será: 𝑔 = 𝑘 − 𝑣 − 1 = 7 − 0 − 1 = 6 grados de libertad (0.5 p) 𝜒0 2 ~𝜒6 2 IV. Se realiza el contraste Como 𝜒0 2 = 1.85 < 12.59, se Acepta 𝐻𝑜. Por tanto, se puede concluir que no existe influencia del día de la semana en el número de servicios solicitados (0.5 p). 5. Se quiere comparar la precisión de un calibre analógico y uno digital. Para ello, se mide la longitud (cm) de una muestra de tornillos. Cada tornillo se ha medido dos veces, una vez con un calibre digital y una segunda vez con un calibre analógico, obteniéndose los siguientes datos: Además, se puede afirmar que las longitudes de ambos calibres se distribuyen normalmente. a. Con base en los datos, ¿es posible afirmar que hay diferencias significativas entre ambos calibres? Use un nivel de significación de 0.05. (2 p) b. Si realiza la prueba del apartado a utilizando un nivel de significación de 0.01, ¿qué concluiría? (0.5 p) SOLUCIÓN a. Por ser ambas longitudes mediciones de los mismos tornillos, se pueden considerar datos apareados (0.5 p): De la muestra se tiene que: �̅� = −0.01 𝑠𝑑 2 = 0.000775 → 𝑠𝑑 = 0.0278 Para saber si existen diferencias significativas, tendrá que realizarse un contraste con las siguientes hipótesis (0.5 p): 𝐻𝑜: 𝜇𝑑 = 0 𝐻1: 𝜇𝑑 ≠ 0 Por ser ambas longitudes (calibre 1 y calibre 2) variables normales, su diferencia también es una variable normal. Debido a que se cuenta solo con información muestral de dicha variable, el estadístico de contraste será (0.5 p): 𝑡𝑜 = −0.01 − 0 0.0278 √9 = −1.08 El estadístico de contraste sigue la siguiente distribución: 𝑇𝑜~𝑡8 Tornillo 1 2 3 4 5 6 7 8 9 Long. Calibre 1 2.54 2.61 2.49 2.54 2.52 2.57 2.62 2.48 2.49 Long. Calibre 2 2.53 2.63 2.51 2.52 2.52 2.58 2.60 2.50 2.56 Tornillo 1 2 3 4 5 6 7 8 9 Long. Calibre 1 2.54 2.61 2.49 2.54 2.52 2.57 2.62 2.48 2.49 Long. Calibre 2 2.53 2.63 2.51 2.52 2.52 2.58 2.60 2.50 2.56 Diferencia (D) 0.01 -0.02 -0.02 0.02 0 -0.01 0.02 -0.02 -0.07 Por lo tanto: El estadístico de contraste se encuentra en la zona de aceptación. Se acepta la hipótesis nula, es decir, no existen diferencias significativas entre ambos calibres (0.5 p). b. Si ahora 𝛼 = 0.01, el valor crítico es ahora 𝑡8;0.005 = 3.355 El estadístico de contraste aún se encuentra en la zona de aceptación. Se acepta la hipótesis nula, es decir, no existen diferencias significativas entre ambos calibres (0.5 p). 6. Se poseen datos de una muestra de estudiantes de EDB. La información que se tiene es: Promedio: nota final obtenida en la asignatura (sin descuentos por inasistencias) IA: índice académicode cada estudiante Frec: variable binaria que representa que el alumno asiste frecuentemente a clase. 1=menos de 5 inasistencias, 0=5 ó más inasistencias. Con estas variables se realiza una regresión que explique la variable Promedio en función de IA y Frec. Los resultados se resumen en la siguiente tabla. Asumiendo que se cumplen las hipótesis básicas del modelo, conteste, con base en los datos de la tabla: a. ¿Qué promedio espera obtener un alumno con índice académico 12.45 que nunca asistió a clase? (0.5 p) b. ¿Cuál es la probabilidad de que dicho alumno (del apartado a) obtenga un promedio aprobatorio (mayor que 10.5)? (1.5 p) SOLUCIÓN a. Como nunca asistió a clase, tiene más de 5 inasistencias: 𝐹𝑟𝑒𝑐 = 0 �̂� = �̂� 0 + �̂� 1 𝐼𝐴 + �̂� 2 𝐹𝑟𝑒𝑐 �̂� = −2.13398 + 0.89152 × 12.45 + 1.69074 × 0 �̂� = 𝟖. 𝟗𝟔𝟓𝟒 (0.5 p) b. Dados los valores: 𝐼𝐴 = 12.45, 𝐹𝑟𝑒𝑐 = 0, la varianza de 𝑌 es la varianza es la varianza del error: 3.366782 Como se cumplen las hipótesis básicas del modelo, el error es normal, por tanto: 𝑌 ~ 𝑁(8.9654, 3.366782) (0.5 p) Entonces: 𝑃(𝑌 > 10.5) = 𝑃 (𝑍 > 10.5−8.9654 3.36678 ) = 𝑃(𝑍 > 0.46)(0.5 p) 𝑃(𝑌 > 10.5) = 1 − 0.6772 = 𝟎. 𝟑𝟐𝟐𝟖 (0.5 p) PARTE TEÓRICA Responda cada una de las siguientes cuestiones en no más de dos líneas (0.5 cada una): a. Explique por qué usted no puede realizar inferencia para la media cuando la muestra es pequeña y la población no es normal. Porque si no se cumplen ambas condiciones, no se puede asegurar que la media muestral (�̅�) se distribuye normalmente. b. ¿Qué intervalo de confianza es más ancho, uno de nivel de confianza de 90%, o uno de 95%? Fundamente su respuesta. Uno del 95%, pues para tener más confianza de encontrar la media dentro del intervalo, hará falta tener un rango de datos mayor. c. Dado un conjunto de datos univariantes, indique para qué sirve la transformación Box-Cox y explique brevemente cómo la aplicaría en el siguiente conjunto de datos de la variable 𝑿: Sirve para transformar los datos a una distribución más simétrica. (Ver apuntes). La aplicación con este conjunto de datos sería: 𝑌 = 𝑋λ; λ < 1, por tener asimetría positiva. d. Para averiguar si la variable 𝑿𝟏 es relevante o no para el modelo de regresión 𝒚 = 𝜷𝟎 + 𝜷𝟏𝒙 + 𝒖, se utiliza el p-valor relacionado con ella. Si este es mayor que el nivel de significación (𝜶), se concluye que la variable no es relevante para el modelo. ¿Por qué? Porque el contraste de hipótesis que se realiza tiene: 𝐻0: 𝛽1 = 0; 𝐻1: 𝛽1 ≠ 0. Si el p-valor es mayor que 𝛼, se acepta la hipótesis nula 𝛽 1 = 0. e. ¿Cuál es mejor para estimar la varianza poblacional: la varianza muestral o la cuasivarianza? Justifique su respuesta. Es mejor la cuasivarianza, porque es un estimador insesgado de la varianza poblacional. f. Sea 𝑿 una variable aleatoria normal, ¿se puede considerar a la media (𝝁) como una variable aleatoria normal? Justifique su respuesta. La media poblacional (𝜇) es un parámetro, y, por tanto, es constante. No es una variable aleatoria.
Compartir