Aplazado_EDB_2017_I_solucion

•
SIN SIGLA

Sebastian Sanchez Guerrero
26.5.2023
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística I

56.140 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
ESTADÍSTICA BÁSICA 
SEMESTRE 2017-I 
APLAZADO 
SÁBADO 22 DE JULIO DE 2017 
Nombre:___________________________________________________________________________ 
Sección:___________________ 
Sólo puede consultarse el formulario y las tablas que se adjuntan. Utiliza 𝜶 = 𝟎. 𝟎𝟓 salvo que se indique lo contrario. 
Justifica todas tus respuestas. 
 
 
1. A partir de las siguientes figuras, señala la correspondencia entre cada histograma y los box-plots, justificando tu 
respuesta. 
 
 
 
 
SOLUCIÓN: 
 
1-A: El histograma 1 es asimétrico negativo, con la cola de la distribución apuntando hacia los valores bajos del eje X. 
Eso mismo se aprecia en el box-plot A, donde el bigote del primer cuartil es más largo 
3-C: En este caso la asimetría es positiva, y la cola de la distribución está a la derecha, apuntando a +∞. Le corresponde 
el box-plot C, que muestra también esa asimetría. 
2-D y 4-B: el histograma 2 muestras una gran varianza, debido a la bimodalidad, por eso le corresponde el box-plot D, 
donde el rango intercuartílico es mayor. El histograma 4 es el más simétrico, y al ser unimodal tiene menos 
varianza que el 2. Por eso le corresponde el box-plot B 
 
 
 
 
 
 
 
 
2. Un laboratorio ha desarrollado un nuevo test para detectar un virus del que se estima se ha contagiado el 1% de la 
población. Esta detección es importante, pues ese virus puede facilitar el desarrollo de ciertas enfermedades. Este test 
no es infalible, pues se estima que el 20% de las personas que portan el virus no son detectadas por el nuevo test. Por 
el contrario, en las personas sanas, el test puede dar positivo (positivo=el test dice que tiene el virus) con una 
probabilidad de 0.001. 
a. ¿Cuál es la probabilidad de que una persona que tiene el virus dé positivo en el test? 
b. ¿Cuál es la probabilidad de que el test dé positivo en una persona seleccionada al azar? 
c. ¿Cuál es la probabilidad de que tenga el virus una persona que ha dado positivo en el test? 
d. ¿Cuál es la probabilidad de que una persona que ha dado positivo en el test no tenga el virus? 
 
 
SOLUCIÓN 
Definimos los siguientes sucesos: 
V: una persona tiene el virus 
p: resultado positivo en el test (detecta el virus) 
 
Los datos dicen que 
𝑃(𝑉) = 0.01 
𝑃(�̅�|𝑉) = 0.2 
𝑃(𝑝|�̅�) = 0.001 
 
a. Nos piden 𝑃(𝑝|𝑉). Del enunciado se deduce que 
𝑃(�̅�|𝑉) = 0.2 ⇒ 𝑃(𝑝|𝑉) = 0.8. 
 
b. Nos piden 𝑃(𝑝). Aplicando el teorema de la probabilidad total tenemos: 
𝑃(𝑝) = 𝑃(𝑝|𝑉)𝑃(𝑉) + 𝑃(𝑝|�̅�)𝑃(�̅�) 
 
De los datos del enunciado se deduce que 
𝑃(𝑉) = 0.01 ⇒ 𝑃(�̅�) = 0.99 
𝑃(�̅�|𝑉) = 0.2 ⇒ 𝑃(𝑝|𝑉) = 0.8. 
 
Con estos valores se obtiene: 
𝑃(𝑝) = 0.8(0.01) + 0.001(0.99) = 0.00899. 
 
 
c. Ahora nos piden 𝑃(𝑉|𝑝). Aplicando el teorema de Bayes se obtiene: 
𝑃(𝑉|𝑝) =
𝑃(𝑝|𝑉)𝑝(𝑉)
𝑃(𝑝)
=
0.8(0.01)
0.00899
= 0.8899. 
 
d. Nos piden 𝑃(�̅�|𝑝), que es justo el complementario del resultado anterior: 
𝑃(�̅�|𝑝) = 1 − 𝑃(𝑉|𝑝) = 1 − 0.8899 = 0.1101 
 
 
3. Dada la función de distribución 𝐹(𝑥) = 8𝑥3, 0 ≤ 𝑥 ≤ 𝑎, se pide: 
a. Demuestra que 𝑎 = 0.5 
b. Calcula la función de densidad. 
c. Calcula el rango intercuartílico de esta distribución. 
d. Calcula la media. 
SOLUCIÓN: 
 
a. En 𝑥 = 𝑎 debemos tener ya toda la probabilidad acumulada. Por tanto 
𝐹(𝑎) = 1 ⇒ 8𝑎3 = 1 ⇒ 𝑎 = (
1
8
)
1
3
= 0.5 
b. La función de densidad es la derivada de la función de distribución 
𝑓(𝑥) =
𝑑𝐹(𝑥)
𝑑𝑥
= 24𝑥2; 0 ≤ 𝑥 ≤ 0.5 
c. El rango intercuartílico es la diferencia entre el tercer cuartil y el primero. Los 
cuartiles 1 y 3 son: 
𝐹(𝑄1) = 0.25 ⇒ 8𝑄1
3 =
1
4
⇒ 𝑄1 = (
1
32
)
1
3
= 0.3150 
𝐹(𝑄3) = 0.75 ⇒ 8𝑄3
3 =
3
4
⇒ 𝑄3 = (
3
32
)
1
3
= 0.4543 
𝑅𝐼 = 0.4543 − 0.3150 = 1393. 
 
d. La media es 
𝐸(𝑋) = ∫ 𝑥𝑓(𝑥)𝑑𝑥
0.5
0
= ∫ 24𝑥3𝑑𝑥
0.5
0
= 24 [
𝑥4
4
]
0
0.5
= 0.3750 
 
4. El gerente de una empresa de servicios de taxi quiere averiguar si el día de la semana influye en el número de servicios 
solicitados. Para ello, toma datos al azar de 280 servicios registrados en el sistema y los resume en la siguiente tabla: 
 
Día de la 
semana 
Lunes Martes Miércoles Jueves Viernes Sábado Domingo 
Número de 
servicios 
solicitados 
43 38 36 36 40 45 42 
 
Además, se sabe que el número de horas de atención y prestación del servicio es el mismo todos los días. ¿Qué puede 
concluir el gerente? (2.5 p) 
 
SOLUCIÓN 
 
Se debe realizar una prueba de bondad de ajuste para averiguar si él número de servicios cada día sigue una distribución 
uniforme (0.5 p): 
 
I. En primer lugar, se establecen las hipótesis: 
 
𝐻𝑜: 𝑋 ~ 𝑈𝑑(1,7) 
𝐻𝑜: 𝑋 ≁ 𝑈𝑑(1,7) 
 
II. Se calcula el estadístico de contraste: 
 
𝝌𝟎
𝟐 = ∑
(𝑶𝒊 − 𝑬𝒊)
𝟐
𝑬𝒊
𝟕
𝒊=𝟏
 
 
Día 𝑶𝒊 Probabilidad 𝑬𝒊 
(𝑶𝒊 − 𝑬𝒊)
𝟐
𝑬𝒊
 𝝌𝟎
𝟐 
Lunes 43 1 7⁄ 40 0.225 1.85 (1 p) 
Martes 38 1 7⁄ 40 0.1 
Miércoles 36 1 7⁄ 40 0.4 
Jueves 36 1 7⁄ 40 0.4 
Viernes 40 1 7⁄ 40 0 
Sábado 45 1 7⁄ 40 0.625 
Domingo 42 1 7⁄ 40 0.1 
 
III. Se establece la distribución de referencia del estadístico de contraste: 
 
El número de grados de libertad de la distribución ji-cuadrado de referencia será: 
 
𝑔 = 𝑘 − 𝑣 − 1 = 7 − 0 − 1 = 6 grados de libertad (0.5 p) 
 
𝜒0
2 ~𝜒6
2 
 
 
IV. Se realiza el contraste 
 
 
 
Como 𝜒0
2 = 1.85 < 12.59, se Acepta 𝐻𝑜. Por tanto, se puede concluir que no existe influencia del día de la 
semana en el número de servicios solicitados (0.5 p). 
 
5. Se quiere comparar la precisión de un calibre analógico y uno digital. Para ello, se mide la longitud (cm) de una muestra 
de tornillos. Cada tornillo se ha medido dos veces, una vez con un calibre digital y una segunda vez con un calibre 
analógico, obteniéndose los siguientes datos: 
 
 
 
 
 
 
 
Además, se puede afirmar que las longitudes de ambos calibres se distribuyen normalmente. 
 
a. Con base en los datos, ¿es posible afirmar que hay diferencias significativas entre ambos calibres? Use un nivel de 
significación de 0.05. (2 p) 
b. Si realiza la prueba del apartado a utilizando un nivel de significación de 0.01, ¿qué concluiría? (0.5 p) 
SOLUCIÓN 
a. Por ser ambas longitudes mediciones de los mismos tornillos, se pueden considerar datos apareados (0.5 p): 
 
 
 
 
 
 
De la muestra se tiene que: 
�̅� = −0.01 
𝑠𝑑
2
= 0.000775 → 𝑠𝑑 = 0.0278 
 
Para saber si existen diferencias significativas, tendrá que realizarse un contraste con las siguientes hipótesis (0.5 p): 
𝐻𝑜: 𝜇𝑑 = 0 
𝐻1: 𝜇𝑑 ≠ 0 
 
Por ser ambas longitudes (calibre 1 y calibre 2) variables normales, su diferencia también es una variable normal. Debido 
a que se cuenta solo con información muestral de dicha variable, el estadístico de contraste será (0.5 p): 
𝑡𝑜 =
−0.01 − 0
0.0278
√9
= −1.08 
 
El estadístico de contraste sigue la siguiente distribución: 
𝑇𝑜~𝑡8 
Tornillo 1 2 3 4 5 6 7 8 9 
Long. 
Calibre 1 
2.54 2.61 2.49 2.54 2.52 2.57 2.62 2.48 2.49 
Long. 
Calibre 2 
2.53 2.63 2.51 2.52 2.52 2.58 2.60 2.50 2.56 
Tornillo 1 2 3 4 5 6 7 8 9 
Long. 
Calibre 1 
2.54 2.61 2.49 2.54 2.52 2.57 2.62 2.48 2.49 
Long. 
Calibre 2 
2.53 2.63 2.51 2.52 2.52 2.58 2.60 2.50 2.56 
Diferencia 
(D) 
0.01 -0.02 -0.02 0.02 0 -0.01 0.02 -0.02 -0.07 
 
Por lo tanto: 
 
El estadístico de contraste se encuentra en la zona de aceptación. Se acepta la hipótesis nula, es decir, no existen diferencias 
significativas entre ambos calibres (0.5 p). 
 
b. Si ahora 𝛼 = 0.01, el valor crítico es ahora 𝑡8;0.005 = 3.355 
 
El estadístico de contraste aún se encuentra en la zona de aceptación. Se acepta la hipótesis nula, es decir, no existen 
diferencias significativas entre ambos calibres (0.5 p). 
 
6. Se poseen datos de una muestra de estudiantes de EDB. La información que se tiene es: 
 Promedio: nota final obtenida en la asignatura (sin descuentos por inasistencias) 
 IA: índice académicode cada estudiante 
 Frec: variable binaria que representa que el alumno asiste frecuentemente a clase. 1=menos de 5 inasistencias, 
0=5 ó más inasistencias. 
Con estas variables se realiza una regresión que explique la variable Promedio en función de IA y Frec. Los resultados 
se resumen en la siguiente tabla. 
 
Asumiendo que se cumplen las hipótesis básicas del modelo, conteste, con base en los datos de la tabla: 
a. ¿Qué promedio espera obtener un alumno con índice académico 12.45 que nunca asistió a clase? (0.5 p) 
b. ¿Cuál es la probabilidad de que dicho alumno (del apartado a) obtenga un promedio aprobatorio (mayor que 
10.5)? (1.5 p) 
 
SOLUCIÓN 
 
a. 
Como nunca asistió a clase, tiene más de 5 inasistencias: 𝐹𝑟𝑒𝑐 = 0 
 
�̂� = �̂�
0
+ �̂�
1
𝐼𝐴 + �̂�
2
𝐹𝑟𝑒𝑐 
 
�̂� = −2.13398 + 0.89152 × 12.45 + 1.69074 × 0 
 
�̂� = 𝟖. 𝟗𝟔𝟓𝟒 (0.5 p) 
 
b. 
Dados los valores: 𝐼𝐴 = 12.45, 𝐹𝑟𝑒𝑐 = 0, la varianza de 𝑌 es la varianza es la varianza del error: 3.366782 
 
Como se cumplen las hipótesis básicas del modelo, el error es normal, por tanto: 
 
𝑌 ~ 𝑁(8.9654, 3.366782) (0.5 p) 
 
 
Entonces: 
𝑃(𝑌 > 10.5) = 𝑃 (𝑍 >
10.5−8.9654
3.36678
) = 𝑃(𝑍 > 0.46)(0.5 p) 
𝑃(𝑌 > 10.5) = 1 − 0.6772 = 𝟎. 𝟑𝟐𝟐𝟖 (0.5 p) 
 
 
 
 
PARTE TEÓRICA 
Responda cada una de las siguientes cuestiones en no más de dos líneas (0.5 cada una): 
 
a. Explique por qué usted no puede realizar inferencia para la media cuando la muestra es pequeña 
y la población no es normal. 
Porque si no se cumplen ambas condiciones, no se puede asegurar que la media muestral (�̅�) 
se distribuye normalmente. 
b. ¿Qué intervalo de confianza es más ancho, uno de nivel de confianza de 90%, o uno de 95%? 
Fundamente su respuesta. 
Uno del 95%, pues para tener más confianza de encontrar la media dentro del intervalo, hará 
falta tener un rango de datos mayor. 
c. Dado un conjunto de datos univariantes, indique para qué sirve la transformación Box-Cox y 
explique brevemente cómo la aplicaría en el siguiente conjunto de datos de la variable 𝑿: 
 
 
 
Sirve para transformar los datos a una distribución más simétrica. (Ver apuntes). 
La aplicación con este conjunto de datos sería: 𝑌 = 𝑋λ; λ < 1, por tener asimetría positiva. 
d. Para averiguar si la variable 𝑿𝟏 es relevante o no para el modelo de regresión 
𝒚 = 𝜷𝟎 + 𝜷𝟏𝒙 + 𝒖, se utiliza el p-valor relacionado con ella. Si este es mayor que el nivel de 
significación (𝜶), se concluye que la variable no es relevante para el modelo. ¿Por qué? 
Porque el contraste de hipótesis que se realiza tiene: 𝐻0: 𝛽1 = 0; 𝐻1: 𝛽1 ≠ 0. Si el p-valor 
es mayor que 𝛼, se acepta la hipótesis nula 𝛽
1
= 0. 
e. ¿Cuál es mejor para estimar la varianza poblacional: la varianza muestral o la cuasivarianza? 
Justifique su respuesta. 
Es mejor la cuasivarianza, porque es un estimador insesgado de la varianza poblacional. 
 
f. Sea 𝑿 una variable aleatoria normal, ¿se puede considerar a la media (𝝁) como una variable 
aleatoria normal? Justifique su respuesta. 
La media poblacional (𝜇) es un parámetro, y, por tanto, es constante. No es una variable 
aleatoria.