1S 2017

•
Outros

Estudiando Ingenieria
24/5/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Ingeniería Civil

106.424 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Econometŕıa
Examen - con Pauta
Profesor: Pilar Alcalde, Universidad de los Andes
Fecha: 28 Junio 2017
Ojo que esta pauta es una referencia, algunas respuestas pueden variar en la redacción, pero lo importante
es que los conceptos estén claros.
1 Preguntas Cortas (50 pts)
Responda las siguientes preguntas. Cada pregunta debe ser respondida en un máximo de 10 ĺıneas, respuestas
adicionales no serán consideradas - piense antes de escribir. (5 pts cada una).
1. Cometer un error tipo I siempre es más grave que cometer un error tipo II, por las consecuencias que
cada error tiene en la estimación. De hecho, en un test de Box-Cox de que Y debe ir especificado
en logaritmos es más grave cometer un error tipo I que un error tipo II, al igual que en un test de
significancia conjunta. Comente si es verdadero o falso y justifique.
R. Falso (0.5 pt), cada error tiene consecuencias distintas dependiendo del test que se trate, y por
lo tanto no hay uno siempre más grave que otro (0.5 pt). En el test de Box-Cox que aparece en el
enunciado, el error tipo I corresponde a especificar Y en niveles cuando debiera ir en logaritmos (0.5
pt) y el error tipo II corresponde a especificar Y en logaritmos cuando debiera ir en niveles (0.5), ambos
son igual de graves porque ambos hacen que se rompa el supuesto de media condicional nula y generan
sesgo en la estimación (1 pt). En cambio, en el test de significacia conjunta el error tipo I corresponde
a incluir dos o más variables irrelevantes (0.5 pt), lo cual no produce sesgo en la estimación pero
aumenta las varianzas de los coeficientes (0.5 pt), pero el error tipo II corresponde a eliminar dos o
más variables relevantes (0.5 pt), lo cual śı produce sesgo en los coeficientes estimados pero podŕıa
disminuir las varianzas (0.5 pt). Descontar puntaje si responde como si fuera una variable - test de
significancia individual.
2. En un modelo de regresión, un mayor error de medición en la variable independiente tiene el mismo
efecto en la regresión que un mayor error de medición en la variable dependiente. Comente si es
verdadero o falso y justifique.
R. Falso (1 pt). Un mayor error de medición en X rompe el supuesto de media condicional nula, por
lo que los coeficientes quedan sesgados a la baja, lo que se conoce como sesgo de atenuación (2 pt).
En cambio, un mayor error de medición en Y sólo entra como un error adicional, no se rompen los
supuestos por lo que el estimador sigue siendo insesgado y eficiente, y sólo aumenta la varianza de los
coeficientes (2 pt).
3. Suponga el siguiente modelo con interacciones:
Y = β0 + β1X1 + β2X2 + β3X3 + β4X2 ·X3 + ui
¿Cuál es el efecto esperado en Y si X2 aumenta en una unidad y X3 aumenta también en una unidad?
¿Cómo se interpreta β4? ¿Cuál es la diferencia entre ambos, en términos de los parámetros del modelo?
R. El efecto esperado en Y si X2 aumenta en una unidad y X3 aumenta también en una unidad
corresponde a
∆E(Y |X) = β2 · 1 + β3 · 1 + β4 · 1 · 1 = β2 + β3 + β4
(2 pt, descontar puntaje si faltan parámetros, agregan el error u otras faltas). En cambio, β4 es el
efecto que tiene un aumento de X2 en el efecto que tiene un aumento de X3 en Y (2 pt, o el efecto
de un aumento de X3 en el efecto que tiene un aumento de X2 en Y ). La diferencia entre ambos
conceptos está dada por β2 + β3, el efecto en Y de un cambio en cada variable cuando la otra es cero
(1 pt).
1
4. La pendiente de una regresión siempre representa el cambio causal en el valor esperado de Y ante un
cambio de una unidad de X. Comente si es verdadero o falso y justifique.
R. Falso (0.5 pt), en realidad la pendiente de una regresión sólo representa la correlación parcial entre
X e Y , manteniendo constantes las otras variables incluidas (1.5 pt). Si es que existen variables
omitidas que estén relacionadas con X ya no se puede interpretar como el efecto causal porque la
estimación estará sesgada (1.5 pt, también pueden hablar del sesgo de selección), y sólo podemos estar
seguros de que es el efecto causal cuando estamos frente a un experimento o asignación aleatoria (1.5
pt).
5. Los supuestos de Gauss-Markov sobre el error de la regresión equivalen a suponer que tanto la media
como la varianza condicional de Y vaŕıan con X. Comente si es verdadero o falso y justifique.
R. Falso (1 pt). El supuesto de media condicional nula efectivamente equivale a suponer que la media
condicional E(Y |X) vaŕıa con X - de hecho E(Y |X) = Xβ (2 pt), pero el supuesto de homocedasticidad
V (u|X) = σ2 implica que la varianza condicional V (Y |X) no vaŕıa con X - de hecho V (Y |X) = σ2 (2
pt).
6. Considere las posibles soluciones que vimos en el curso para la heterocedasticidad. Si en el test de
Breusch-Pagan Ud. comete un error tipo I, y en base a esto corrige o cambia su modelo, ¿qué efectos
tendrá su decisión en su estimación? ¿Cómo cambia el efecto de su decisión si en realidad comete un
error tipo II?
R. En el test de Breusch-Pagan, el error tipo I corresponde a creer que el modelo es heterocedástico
cuando no lo es (0.5 pt). Si para corregir la heterocedasticidad se usan errores robustos, los coeficientes
son los mismos por lo que siguien siendo insesgados, si la muestra es chica las nuevas varianzas es-
tarán mal calculadas y el estimador no será eficiente, pero si la muestra es grande las nuevas varianzas
serán muy similares a las correctas (2 pt por la explicación completa). En cambio si para corregir la
heterocedasticidad se usa Mı́nimos Cuadrados Ponderados, los coeficientes cambian pero también son
insesgados aunque la varianza no es la mı́nima (1 pt).
Por otro lado, el error tipo II corresponde a creer que el modelo es homocedástico cuando es hete-
rocedástico (0.5 pt). En ese caso no se corrige el modelo, la estimación será insesgada pero no es
eficiente, y los test de hipótesis no son válidos (1 pt).
7. La facultad está considerando cambiar la malla de la carrera. Para ver si el cambio fue positivo, un
integrante del Centro de Alumnos propone comparar los sueldos al egresar de los alumnos que tuvieron
la malla nueva y la malla antigua. Otro integrante propone seguir a aquellos alumnos que trabajan y
estudian al mismo tiempo y compararlos al principio y al final de la carrera. Señale en cada situación
cuál es el grupo de tratamiento y cuál el de control, y un potencial problema de cada comparación.
R. En la primera situación, el grupo de tratamiento son los alumnos de un año que egresaron con
la malla nueva (0.75p) y el grupo de control son los alumnos de un año anterior que egresaron con
la malla antigua (0.75p). El problema de comparar ambos grupos es que éstos son distintos tanto en
factores observados como no observados, y por lo tanto la comparación no muestra el efecto causal
de cambiar la malla; pueden dar cualquier ejemplo concreto, por ejemplo que los alumnos de la malla
nueva pueden tener mejores puntajes de ingreso que la generación anterior y eso puede afectar sus
sueldos (1 p). Otro problema podŕıa ser que además son años distintos por lo que podŕıa haber un
efecto del tiempo, por ej puede que haya una recesión en cualquiera de los dos años que afecte los
salarios de forma distinta (también vale 1p como potencial problema).
En la segunda situación, el grupo de tratamiento son los alumnos de la malla nueva que trabajan
y estudian al mismo tiempo, observados al final de la carrera (0.75p) y el grupo de control son los
mismos alumnos observados al principio de la carrera (0.75p). Aqúı pueden haber varias causas de
problemas, cualquiera vale de forma teórica o con un ejemplo concreto (1pt): (1) es un grupo sesgado
de los alumnos de la carrera por lo que no son representativos, (2) naturalmente habrá un efecto de
aumento de sueldo por el solo hecho de terminar la carrera por lo que no mediŕıa el efecto de la malla
propiamente tal, (3) uevamente puede haber un problema temporal, por ej puede que haya una recesión
en cualquiera de los dos años que afecte los salarios de formadistinta.
8. Un alumno comenta: “en este modelo vemos que se cumple el supuesto de media condicional nula
porque los residuos tienen media cero.” Expĺıquele a este alumno si está en lo correcto o no y por qué.
2
R. Está equivocado (1pt), porque el supuesto de media condicional nula se hace sobre el error de la
regresión, es decir que los factores no observados no cambian su media a medida que se mueven los
factores observados (2pt). En cambio, los residuos tienen media cero de forma mecánica, cada vez que
la regresión incluye un intercepto (2 pt).
9. Considere un modelo que satisface todos los supuestos del modelo lineal clásico. Ceteris paribus, la
varianza del estimador de la pendiente será menor si tanto la distribución de Y y la distribución de X
están cada vez más concentradas en su respectivo promedio muestral.
R. Falso (1 pt). La fórmula de la varianza del estimador de la pendiente está dada por (1 pt):
V (β̂j) =
σ2
SCTj(1−R2j )
y por lo tanto si la varianza de Y es menor entonces σ2 disminuye y V (β̂j) también (1.5 pt), en cambio
si la varianza de X es menor entonces SCTj disminuye y V (β̂j) aumenta (1.5 pt).
10. En un modelo de regresión, si la muestra está sesgada en base a la variable independiente tiene el
mismo efecto en la regresión que si la muestra está sesgada en base a la variable dependiente. Comente
si es verdadero o falso y justifique.
R. Falso (1 pt). Aunque se rompa el supuesto de muestra aleatoria, si la muestra está sesgada en
base a la variable independiente no se genera sesgo porque se está condicionando en esa variable,
sólo aumentan las varianzas (2 pt). Si la muestra está sesgada en base a la variable dependiente
entonces śı se genera sesgo porque la muestra no sigue la misma distribución de la población (2 pt), o
porque la regresión ya no corresponde a la media condicional E(Y |X), sino a otra condicional distinta,
E(Y |X,Y > Y ∗) (también vale 2 pt si está bien explicado). Ojo: poner que se rompe el supuesto de
media condicional nula en ambos casos por lo que el efecto es siempre el mismo vale sólo 2 pt máximo.
3
2 Precios de Venta de Autos Usados (62 pts)
Una conocida automotora lo contrata para realizar una asesoŕıa respecto a los precios de venta de su ĺınea
de autos usados de marca BMW. Ud. obtiene una muestra aleatoria con información de 201 autos, con las
siguientes variables:
• precio : precio de venta del auto i, en dólares - desde $19,595 a $41,575.
• antig : años de antigüedad del auto i - desde 0 a 5 años.
• millas : uso del auto i medido en millas recorridas - desde 736 a 71,994.
• model : categoŕıas del modelo de auto: 325 ó 330.
• tipo : categoŕıas de tipo de auto: i, ci, ó xi.
Responda las siguientes preguntas. Si no sabe alguna respuesta, sáltese la pregunta; no todas están
unidas entre śı.
1. (6 pts) La siguiente tabla muestra, para las distintas combinaciones de modelo y sólo 2 tipos de auto,
la distribución en la muestra y el promedio de precio de venta.
Distribución Precio Promedio
325 330 325 330
i 65 29 27,150 31,637
ci 37 26 32,156 33,937
Plantee expĺıcitamente un modelo econométrico que explique el precio de venta de un auto usado en
función de las distintas combinaciones de modelos y tipos de auto de la tabla; sólo esos: note que
hay otros tipos de autos que no están incluidos en la tabla. Sea expĺıcito en definir la muestra que
necesita para estimar el modelo, cuál es el tamaño de la muestra, qué variables necesita y cuáles son
los parámetros.
R. Para estimar el modelo se necesita restrigir la muestra a sólo los autos de cualquier modelo, pero
tipo i o ci solamente (1pt), por lo que el tamaño de muestra ahora será N = 157 (1pt). Para definir
las variables, se puede hacer de dos formas igualmente correctas: una es definir dos variables binarias
y usar interacciones, y otra es definir tres variables binarias.
Para la primera opción necesitamos definir las siguientes variables (2 pt, naturalmente los nombres no
son relevantes, sólo ser consistente):
• M330i : toma valor 1 si el auto es modelo 330, 0 si es modelo 325.
• Tcii : toma valor 1 si el auto es tipo ci, 0 si es tipo i.
Entonces el modelo que se necesita estimar es (2 pt):
Pi = β0 + β1M330i + β2Tcii + β3M330i · Tcii + ui
Para la segunda opción, los puntajes son los mismos.. hay que definir:
• M325Tcii : toma valor 1 si el auto es modelo 325 y tipo ci, 0 si no.
• M330Tii : toma valor 1 si el auto es modelo 330 y tipo i, 0 si no.
• M330Tcii : toma valor 1 si el auto es modelo 330 y tipo ci, 0 si no.
Entonces el modelo que se necesita estimar es:
Pi = β0 + β1M325Tcii + β2M330Tii + β3M330Tci+ ui
En ambas opciones, naturalmente se puede tomar cualquier grupo de referencia, mientras sea consis-
tente en su definición.
4
2. (4 pts) Si Ud. estimara el modelo que planteó en la pregunta anterior, señale cuáles seŕıan todos los
valores de los coeficientes que encontraŕıa.
R. Los valores espećıficos dependen del modelo que hayan escrito y cuál sea el grupo de referencia
que consideraron. Lo que śı es importante es que recuerden que en un modelo que sólo tiene variables
binarias, los coeficientes corresponden al promedio de cada grupo o a las diferencias entre los promedios
de distintos grupos.
Para encontrar los coeficientes sólo hay que pesar en cuáles dos grupos se están comparando. Por
ejemplo, para las dos opciones que consideré yo arriba, los coeficientes estimados seŕıan (1 pt cada
coeficiente, puntaje parcial si no encuentran el valor pero explican de dónde sale o qué significa el
coeficiente de forma correcta):
β̂0 β̂1 β̂2 β̂3
Opción 1 27,150 4,487 5,006 -2,706
Opción 2 27,150 5,006 4,487 6,787
3. (3 pts) Considere ahora el siguiente modelo, estimado con la muestra completa:
Pi = β0 + β1antigi + β2millasi + β3tipocii + β4tipoxii + ui (1)
donde las variables tipocii y tipoxii toman valor 1 si el tipo del auto corresponde a ci y xi respectiva-
mente, y 0 si no. Interprete de la forma más completa posible los parámetros β1 y β3.
R. Las interpretaciones pedidas son (1.5 pt cada una, tener ojo que es sobre el precio esperado y qué
es lo que se mantiene constante):
• β1: representa el aumento en el precio esperado por un aumento de la antigüedad en un año,
manteniendo constante el uso del auto y su tipo.
• β4: representa el aumento en el precio esperado de un auto tipo ci versus uno tipo i, manteniendo
contante el uso del auto y su antigüedad.
4. (12 pts) Ud. evalúa si en el modelo (1) corresponde especificar la variable dependiente en niveles o
en logaritmos. Para eso cuenta con la siguiente información (de las salidas de Stata y la tabla):
Pi ln(Pi)
R2 0.5401 0.5542
AIC 3724.81 -421.9267
Max VIF 1.92 1.92
Test Ramsey: valor-p 0.4059 0.0843
Test Link: valor-p 0.582 0.069
Test White: valor-p 0.9186 0.1443
Test Shapiro-Wilk: valor-p 0 0.00001
5
Para cada modelo, señale claramente si se cumplen o no los supuestos de Gauss-Markov y porqué. La
justificación es importante para su respuesta.
R. 1 pt cada supuesto de cada modelo, incluyendo la justificación; decir si sólo se cumple o no vale 0.3
y la justificación es 0.7, aceptar puntaje parcial. Para el primer modelo (precio lineal) se tiene que:
(a) Linealidad: No se cumple, el test de Box-Cox muestra que corresponde especificar en logs.
(b) Muestreo aleatorio: Se asume por el enunciado.
(c) No colinealidad perfecta: No existe colinealidad perfecta, tampoco hay multicolinealidad porque el
VIF es muy pequeño.
(d) Media condicional nula: Se cumple porque no se rechaza el test de Ramsey (no hay variables
omitidas) ni el test de Link (no hay problemas de forma funcional, más allá del supuesto 1).
También está correcto decir que se rompe por el problema de forma funcional en el test de Box-
Cox.
(e) Homocedasticidad: Se cumple porque no se rechaza el test de White.
(f) Normalidad: No se cumple porque se rechaza el test de Shapiro-Wilk.
Para el segundo modelo (precio en logs) se tiene que:
(a) Linealidad:Se cumple, el test de Box-Cox muestra que corresponde especificar en logs.
6
(b) Muestreo aleatorio: Se asume por el enunciado.
(c) No colinealidad perfecta: No existe colinealidad perfecta, tampoco hay multicolinealidad porque el
VIF es muy pequeño.
(d) Media condicional nula: No se cumple porque al 10% se rechaza el test de Ramsey (hay variables
omitidas) y el test de Link (hay problemas de forma funcional).
(e) Homocedasticidad: Se cumple porque no se rechaza el test de White.
(f) Normalidad: No se cumple porque se rechaza el test de Shapiro-Wilk.
5. (5 pts) Comente la siguiente afirmación de la forma más completa posible: “Cambiar la variable
dependiente de niveles a logaritmos hace que el coeficiente de la variable millas se vuelva cero y no
significativo.”
R. Falso (1 pt), el coeficiente se vuelve cercano a cero pero śı es significativo (1 pt), y lo que ocurre
es que cambia la interpretación por un problema en la magnitud de las unidades de medida - es que
aumentar el uso de un auto en una milla es muy poquito: en el modelo en niveles un aumento de una
milla de uso disminuye el precio en US$0.11, en cambio en el modelo en niveles disminuye el precio
en 0.0004%, que con un precio de US$20,000 también son US$0.08 (3 pt por la explicación).
6. (3 pts) Si los modelos se hubieran redefinido tal que el grupo de referencia fuera el tipo ci, ¿qué es lo
más probable que hubiera ocurrido con β̂4?
R. Vemos que tanto en el modelo en niveles como el modelo en log, en los cuales el tipo i es el grupo
de referencia, el coeficiente de tipoci y tipoxi son casi idénticos – la diferencia de precio de un auto
tipo i con cualquiera de esos dos tipos es casi el mismo (1pt). Entonces si ci es el grupo de referencia,
β̂4 seŕıa la diferencia en el precio predicho entre un auto tipo xi y uno tipo ci (1 pt), y entonces lo más
probable es que este coeficiente sea muy pequeño y no significativo (1 pt).
7. (3 pts) En la tabla de la pregunta 4, el máximo V IF es igual en ambos modelos, ¿por qué? Explique
cuidadosamente su respuesta.
R. El V IF mide la correlación que existe entre las variables independientes del modelo, usando re-
gresiones auxiliares (1 pt), y como las variables independientes son las mismas entre ambos modelos
(sólo cambia la forma funcional de la variable depediente, 1pt), entonces el V IF para cada variable del
modelo es el mismo (1 pt).
8. (6 pts) Explique claramente qué ocurriŕıa con los coeficientes estimados de ambos modelos si, partiendo
siempre desde el modelo original:
(a) el precio de venta se definiera en miles de dólares.
(b) el uso del auto se definiera en miles de millas.
R. En ambos casos la variable correspondiente se divide por 1,000. En el caso (a), si cambia la unidad
de medida de la variable dependiente, cuando está en niveles entonces todos los β se dividen por 1,000
(2pt), en cambio si está en logs las pendientes no cambian pero el intercepto disminuye en ln(1, 000) (2
pt). En el caso (b), si cambia la unidad de medida de una variable independiente, en ambos modelos
aumenta el coeficiente de millasi en 1,000 y no cambia ningún otro coeficiente (2 pt).
9. (3 pts) De acuerdo a la información de la pregunta 4, ¿cuál especificación prefiere para la variable
dependiente, y por qué? Explique cuidadosamente su respuesta.
R. Se prefiere el modelo en logs porque no se rechaza esa hipótesis nula en el test de Box-Cox. Podŕıan
equivocarse en creer que hay que elegir segun Akaike, o el modelo que cumpla con más supuestos. 1 pt
para cuál se prefiere, 2 pt porqué.
10. (6 pts) Considere el siguiente modelo con interacciones:
Escriba la ecuación del modelo que se está estimando, y haga un gráfico lo más completo posible
que muestre las relaciones descritas por estos resultados, considerando el signo, la magnitud y la
7
significancia de los coeficientes (considere α =0.9 para este gráfico).
R. La ecuación del modelo que se estima está dada por:
Pi = β0 + β1mod330i + β2tipoii + β3millasi + β4mod330i ·millasi + β5tipoii ·millasi + ui
1.5 pt por la ecuación completa, incluyendo todas las variables, y siendo consistentes si ponen parámetros-
error, o coeficientes-residuo. Para el gráfico, con α =0.9 entonces β2 es no significativo pero β5 śı lo
es. Entonces el gráfico pedido está dado por: Asignar 4.5 pt al gráfico: 0.5p a cada coeficiente correcto,
0.5 a los nombres de las funciones.Pueden poner los valores o los coeficientes.
11. (3 pts) Interprete de la forma más completa posible los coeficientes que acompañan a modelo330 y
tipoi · millas.
R. Las interpretaciones pedidas son:
8
• β1: la diferencia en el precio predicho entre un auto modelo 330 y un modelo 325, condicional en
el tipo de auto y su uso (1 pt).
• β5: la diferencia en el efecto que tiene en el precio predicho una milla de uso adicional, entre un
auto tipo i y cualquier otro modelo de auto, condicional en el modelo (2 pt).
12. (8 pts) A partir de la información anterior, comente las siguientes afirmaciones, señalando si son
verdaderas o falsas y porqué:
(a) “El precio de venta esperado de un auto tipo i siempre es más bajo que otros tipos, para cualquier
modelo y nivel de uso.”
R. Verdadera (1pt), efectivamente en el gráfico se puede ver que el precio predicho para autos
tipo i es siempre más bajo que para otros tipos de auto, condicional en el modelo y uso (3 pt por
explicación).
(b) “El precio de venta esperado de un auto modelo 325 siempre es más bajo que un modelo 330,
para cualquier tipo y nivel de uso.”
R. Falso (1 pt), cuando el auto tiene poco uso el precio predicho es mayor para un modelo 330,
pero cuando el auto tiene mucho uso el precio predicho es mayor para un modelo 325, el punto de
corte exacto depende del tipo de auto ((3 pt por explicación).
9
3 Limones (32 pts)
Siguiendo con los datos de la pregunta anterior, un “limón” es un auto de mala calidad que el comprador
se da cuenta de que es defectuoso después de comprarlo, y por lo tanto sólo es posible en un contexto de
información asimétrica. Para nuestro curso, suponga que un “limón” es un auto de peor calidad que la
esperada dadas sus caracteŕısticas observables. La siguiente muestra la tabla de frecuencia de limones en los
datos, dada la antigüedad del auto.
limón
antig 0 1 total
0 4 0 4
1 6 0 6
2 23 1 24
3 46 9 55
4 45 53 98
5 1 13 14
total 125 76
1. (4 pts) Use la información de la tabla para calcular la probabilidad total de que un auto sea un limón,
y la probabilidad de que sea un limón según su antigüedad. Explique brevemente su procedimiento.
R. Para calcular las probabilidades pedidas es necesario considerar la frecuencia de cada caso, es decir
(1 pt por una explicación correcta)
P̂ r(Li = 1) =
casos favorables
casos totales
Entonces, la probabilidad total en la muestra de que un auto sea un limón es de 76/201 = 37.8%
(0.75p), y la probabilidad de que sea un limón según su antigüedad es de (2.25 pt):
antig %
0 0%
1 0%
2 4.17%
3 16.36%
4 54.08%
5 92.85%
2. (4 pts) Usando un punto de corte c = 1/3 y su cálculo anterior, obtenga el porcentaje de casos
correctamente clasificados.
R. Para clasificar las observaciones, se usa la siguiente regla: si P̂ r(Li = 1) > c, entonces L̂i = 1 (1
pt por la regla). Con el punto de corte dado, la tabla de predicciones está dada por (2 pt por la tabla o
similar):
y por lo tanto el porcentaje de correctamente clasificados es 145/201 = 71.14% (1 pt).
10
antig L̂i = 0 L̂i = 1 bien clasificados
0 4 0 4
1 6 0 6
2 24 0 23
3 55 0 46
4 0 98 53
5 0 14 13
total 145
3. (2 pts) Ud estima el siguiente modelo:
Interprete el parámetro que acompaña a antig.
R. Cuando la antigüedad del auto aumenta en un año adicional, la probabilidad predicha de que el auto
sea un limón (0.5 pt) aumenta en 11.96 (0.5 pt) puntos porcentuales (0.5 pt por la medida), condicional
en el uso del auto (0.5 pt).
4. (3 pts) Señale tres problemas concretos que tiene esta estimación.
R. La respuesta tiene que ser en base a las tablasde la pregunta anterior. Presenta los siguientes
11
problemas, sólo tienen que nombrar 3, 1 pt cada uno:
• Las probabilidades predichas están fuera del intervalo [0, 1].
• Presenta variables omitidas porque se rechaza el test de Ramsey.
• Presenta problemas en la forma funcional de las variables porque se rechaza el test Link.
• Presenta heterocedasticidad porque se rechaza el test de Breusch-Pagan.
5. (3 pts) Si el uso de auto promedio de la muestra son 32,765.1 millas, obtenga de acuerdo al modelo
de la pregunta 3 la probabilidad predicha de que un auto sea un limón para los distintos niveles de
antigüedad posible.
R. De acuerdo a los parámetros estimados, la probabilidad predicha de que un auto sea un limón según
su antigüedad está dada por P̂ r(Li = 1) = −0.4814 + 0.0000139 · 32, 765.1 + 0.1196antig (0.5 pt), lo
que corresponde a (2.5 pt, 0.25 cada uno):
antig %
0 -2.56%
1 9.36%
2 21.32%
3 33.29%
4 45.25%
5 57.21%
6. (4 pts) Usando un punto de corte c = 1/3 y su cálculo anterior, obtenga nuevamente el porcentaje de
casos correctamente clasificados y compare con su respuesta en la pregunta 2.
R. Para clasificar las observaciones, se usa la misma regla anterior: si P̂ r(Li = 1) > c, entonces
L̂i = 1, ahora no vale puntaje. Con el punto de corte dado, la tabla de predicciones está dada por (2
pt por la tabla o similar):
antig L̂i = 0 L̂i = 1 bien clasificados
0 4 0 4
1 6 0 6
2 24 0 23
3 0 55 9
4 0 98 53
5 0 14 13
total 108
y por lo tanto el porcentaje de correctamente clasificados es 108/201 = 53.73% (1 pt). En el modelo
de probabilidad lineal usado, el porcentaje de casos correctamente clasificados es menor que cuando se
usa la tabla de frecuencias (1 pt).
12
7. (3 pts) Ud estima el siguiente modelo:
¿Cuál es ahora el efecto de tener un auto un año más antiguo en la probabilidad de que sea un limón?
A la luz de este resultado, ¿qué puede decir de su respuesta en la pregunta 3?
R. Ahora el efecto de tener un año más de antigüedad en la probabilidad de que el auto sea un limón es
de 28.6 puntos porcentuales, medida en la media de las caracteŕısticas observables (1.5 pt, si contesta
que el efecto es el β̂ = 1.57 tiene 0.5 pt). De acuerdo a esto, la respuesta de la pregunta anterior
está subestimada, el año adicional de antigüedad tiene un efecto mucho mayor en el precio cuando se
considera una relación no lineal, aunque esto es cierto sólo en la media (1.5 pt por la comparación).
8. (4 pts) Si el uso de auto promedio de la muestra son 32,765.1 millas, la siguiente tabla muestra la
probabilidad predicha de que un auto sea un limón para los distintos niveles de antigüedad posible
usando el modelo de la pregunta 7. Usando un punto de corte c = 1/3 y su cálculo anterior, obtenga
nuevamente el porcentaje de casos correctamente clasificados y compare con su respuesta en las pre-
guntas 2 y 6.
antig P̂ r(Li = 1)
0 0.0015
1 0.0074
2 0.0344
3 0.1461
4 0.4513
5 0.7981
R. Con el punto de corte dado, la tabla de predicciones está dada por (2 pt por la tabla o similar):
y por lo tanto el porcentaje de correctamente clasificados es 145/201 = 71.14% (1 pt). Es más alto que
la capacidad de predicción del MPL, pero igual a la capacidad de predicción usando frecuencias (1 pt).
9. (5 pts) ¿Por qué en su respuesta anterior, ninguno de los dos modelos es capaz de mejorar el porcentaje
de clasificación con respecto a la tabla de frecuencias de la pregunta 2? ¿Qué haŕıa Ud. para mejorar
13
antig L̂i = 0 L̂i = 1 bien clasificados
0 4 0 4
1 6 0 6
2 24 0 23
3 55 0 46
4 0 98 53
5 0 14 13
total 145
su predicción (sin cambiar la estimación)?
R. El problema es que al predecir usando los dos modelos, no se está usando el uso ni la antigüedad de
cada una de las observaciones, sino sólo se está usando el uso promedio y todo el rango de antigüedades
posibles, por eso no es posible mejorar la capacidad de predicción con respecto al cálculo de frecuencias
(3 pt por una explicación completa, asignar puntaje intermedio). Para mejorar la predicción, usaŕıa el
uso y la antigüedad propia de cada observación (2 pt).
14
1S 2017

Outros

Ingeniería Civil

Continuar navegando

Otros materiales