Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1. Relaciones entre variables Relaciones entre variables Sean x y Y dos características que podemos medir conjuntamente en sus respectivas unidades de observación. Por ejemplo: la longitud en cm, el peso en gramos, respectivamente. Podríamos escoger una de ellas, denotada como Y, como la variable dependiente, y expresarla en función de otra variable x, la variable independiente. Y≈f(x) El rol de la variable dependerá del significado de las variables, y del propósito de nuestro análisis. En circunstancias especiales existe una relación exacta entre las variables x y Y que puede ser escrita en forma funcional: Y=f(x) Regresión no lineal Considere, por ejemplo, la relación farmacocinética entre el tiempo t y la concentración C(t) de la dosis de un fármaco en la sangre, después de una inyección de bolo (de absorción instantánea) en un tiempo t=0 : 𝐶 𝑡 = 𝛽0𝑒 −𝛾0𝑡 A menudo y=f(x) indica una tendencia alrededor de la cual varían las observaciones. Relaciones entre variables A continuación se muestra un modelo más complicado para las concentraciones de fármacos iniciales luego de la administración de anestesia con propofol. Farmacocinética del propofol: Se ha simulado el mismo régimen de dosificación manual para un individuo de 25 años y 85 años respectivamente. Relaciones entre variables Otro ejemplo – en ventas Un producto es vendido a un precio fijo (2 euros) y Diferente cantidad de unidades (x) son vendidas en diferentes días, Siempre al mismo precio. Al ver nuestro suministro, podemos darnos cuenta de cuantas unidades fueron vendidas y la cantidad de dinero (Y) se deriva exactamente del número de unidades vendidas: Y = f(x) = 2x Las observaciones a continuación han sido tabuladas y graficadas: Relaciones entre variables Relaciones entre variables Relaciones entre variables Y = f(x) = 2x En un caso similar con la misma relación, vemos los reportes al final del día, y observamos una cantidad de dinero x2 = y Podemos obtener el número de unidades que dejaron nuestro stock y2 = x Una vez que hemos establecido f, podemos obtener formalmente que: 𝑦2 = f -1(𝑥2) = 1 2 𝑥2 ¿Qué variables tomamos como variable (in)dependiente? Pueden ser formalmente equivalentes, pero usualmente esto no se da en la práctica, con alguna diferencia razonable sea A través del diseño del estudio: ¿Qué se mantuvo fijo? Y/o en el análisis: ¿Qué es lo que esperamos predecir en base a qué? Relaciones entre variables Relaciones entre variables Una compañía pequeña Recibe pedidos mensuales para producir n unidades de un producto. Se observa cuanto tiempo T le toma producir cada n. Tomamos como variable independiente x = n Tomamos como variable dependientes Y = T El tiempo promedio determinará el costo promedio, y por lo tanto el costo total de producción (a largo plazo). Relaciones entre variables Una compañía pequeña Recibe pedidos mensuales para producir n unidades de un producto. Se observa cuanto tiempo T le toma producir cada n. Tomamos como variable independiente x = n Tomamos como variable dependientes Y = T El tiempo promedio determinará el costo promedio, y por lo tanto el costo total de producción (a largo plazo). Otra compañía Utiliza el tiempo que le sobra t, cada semana, para hacer estos productos y observa cuántos N pueden fabricar para una cantidad dada de tiempo. Los roles de variables dependiente e independiente están invertidos en este caso. Notas acerca del uso de la notación La notación debe ser: Exacta, bien definida, sin ambigüedades. Tan simple y sugestivo como sea posible. Por ejemplo, de aquí en adelante indicaremos sistemáticamente: Las variables aleatorias en letras mayúsculas. Por ejemplo: Y Las constantes fijas o valores observados con letras minúsculas. Por ejemplo: x, y, constantes especiales (que se especificarán) serán escritas como letras griegas σ, ρ, θ, µ,... Los índices i representan los subíndices de resultados observados o aleatorios correspondientes a observaciones individuales en el conjunto de datos. Por ejemplo: Yi, yi. Relaciones entre variables 2. Modelos de regresión ¿Qué hay en un nombre? Históricamente, Francis Galton (siglo 19) Estudió las alturas de los padres (x) y sus hijos (Y) Descubrió: Regresión hacia la media Estudió si la altura de las personas se distribuye normalmente en cada generación y si era una característica hereditaria Halló que los padres altos tendían a tener hijos que eran más altos que el promedio de su generación, pero menos altos que sus padres “Regresión hacia la mediocridad” Pregunta: ¿Cuál es la diferencia entre Y y y? Modelos de regresión - ¿Qué hay en un nombre? Un modelo de regresión Describe una relación estadística entre una variable aleatoria Y, y una variable fija x o aleatoria X, describe: Como varía la distribución de la variable aleatoria Y para valores x dados (que pueden ser resultados fijos de una variable aleatoria X). El modelo de regresión simple captura esto a través de: Una forma paramétrica para la distribución de Y para cada nivel x (de X). Por ejemplo: la distribución normal con media µx y varianza σx 2 Una forma funcional para las medias de estas distribuciones µx , que pueden depender de parámetros desconocidos. Por ejemplo: µx=𝛽0 + 𝛽1𝑥 Algunos ejemplos… Modelos de regresión - ¿Qué hay en un nombre? Notas obtenidas en un proyecto y un examen Modelos de regresión - ¿Qué hay en un nombre? Modelos de regresión - ¿Qué hay en un nombre? Los modelos de regresión difieren en términos de La forma de la curva de regresión Puede haber conocimiento teórico a priori O podemos intentar una aproximación lineal, cuadrática, polinomial, cualquier forma que tenga la función y dejar que las observaciones nos guíen. El significado de los puntos sobre la curva; con respecto a la distribución de Y podrían significar… La media, la mediana, percentiles,…, dependiendo de lo que sea nuestro principal interés. -> Modelaremos la media en este curso. La forma de la distribución alrededor de la curva. Lo que los modelos simples de regresión tienen en común: consideran una distribución de probabilidad de Y para un conjunto de valores x dados. Modelos de regresión - ¿Qué hay en un nombre? Modelos de regresión con más de un predictor Ejemplo 1: Un estudio de precios de casas (respuesta Y) Tenemos varios predictores: Cantidad de cuartos en la casa Tamaño promedio de cuartos en la casa Distancia del centro de la ciudad Distancia de las escuelas Modelos de regresión - ¿Qué hay en un nombre? Modelos de regresión con más de un predictor Ejemplo 2: Estudiantes y sus puntos obtenidos al final del año académico (respuesta Y) Se tiene posiblemente varios predictores: Educación previa Carrera de estudio Puntos obtenidos para el proyecto Cantidad de horas de estudio Modelos de regresión - ¿Qué hay en un nombre? Modelos de regresión con más de un predictor Ejemplo 3: Un estudio experimental sobre reducción de presión arterial Respuesta de interés Y = reducción de la presión arterial diastólica durante 2 meses desde la entrada al estudio Predicho por muchas variables, incluyendo: Tratamiento (experimental o placebo) Cumplimiento del tratamiento (% de la dosis prescrita que fue realmente tomada) Presión arterial de base Edad Género Altura Peso … Modelos de regresión - ¿Qué hay en un nombre? Regresión con dos variables predictoras (x1, x2) Se asume un modelo para la distribución de probabilidad de la variable de respuesta en cada combinación (x1, x2). La relación sistemática entre, por ejemplo: La media de la variable de respuesta para una combinación dada de variables predictoras está dada por una superficie de regresión. Modelos de regresión - ¿Qué hay en un nombre? Modelos de regresión - ¿Qué hay en un nombre? Construcción de modelosde regresión Se necesita considerar: Selección de la variable de respuesta Selección de la(s) variable(s) predictora(s) Forma paramétrica de la curva de regresión Forma de la distribución de las respuestas alrededor de la curva de regresión Alcance del modelo (!) – para qué valores de x podemos interpretar de manera confiable el modelo. Uso del análisis de regresión Descripción / explicación Predicción Control Modelos de regresión - ¿Qué hay en un nombre? Asociación ≠ causalidad (!) En los países con mas televisores por persona, se tiene una mayor expectativa de vida. Esto es verdad, pero… El análisis de regresión por si solo, no proporciona información alguna sobre efectos causales. El hecho que dos variables tiendan a ir en la misma dirección no quiere decir que un cambio en la una causa que la otra cambie. Puede ser que ambas estén respondiendo causalmente a un tercer factor que esté cambiando… De allí, se tiene que la asociación entre Y y X en un modelo de regresión debe complementarse con supuestos adicionales (o datos) antes de que pueda interpretarse como una relación causal. Esto es especialmente importante si se espera tener un impacto específico en Y (en el futuro) al cambiar x. Modelos de regresión - ¿Qué hay en un nombre? 3. Regresión lineal simple (RLS) con distribución de errores no especificada El modelo de Regresión Lineal Simple (RLS) toma la siguiente forma matemática: 𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖 (1) Con: 𝑖 = 1,⋯ , 𝑛 Tenemos una muestra de 𝑛 observaciones individuales de una población 𝑌𝑖 Un valor aleatorio, la respuesta para la 𝑖-ésima observación 𝛽0 𝑦 𝛽1 Parámetros poblacionales, por lo general son desconocidos y son estimados a partir de los datos. 𝑥𝑖 Una constante conocida (observada), el valor de la variable predictora para la 𝑖 -ésima observación 𝜀𝑖 El término del error aleatorio con valor esperado o media E(𝜀𝑖)=0 y varianza Var(𝜀𝑖) = σ 2 𝜀𝑖 y 𝜀𝑗 No están correlacionados para todo i≠j : la covarianza σ(𝜀𝑖 , 𝜀𝑗)=0 𝑌 = 𝛽0 + 𝛽1𝑥 Es la función de la regresión: una línea recta RLS con distribución de errores no especificada El modelo de regresión lineal simple Lo que hay en un nombre… Simple: un único predictor Lineal: En los parámetros de la función de regresión 𝛽0, 𝛽1, ningún parámetro aparece como exponencial o es multiplicado por otro parámetro: Esto hace que la estimación sea mucho más simple También es lineal en la variable predictora Esto hace que la interpretación / expresión sea mucho más simple No simplifica la estimación realmente Modelo lineal en los parámetros y en los predictores es llamado aproximación de primer orden de la función de regresión E(Y|x) RLS con distribución de errores no especificada Características importantes del modelo 𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖 La variable 𝑌𝑖 es la suma de un termino constante (por ahora) 𝛽0 + 𝛽1𝑥𝑖 y de un termino aleatorio 𝜀𝑖 con media igual a cero: E(𝜀𝑖)=0 (¡esencial!) Como consecuencia: 𝐸 𝑌𝑖 = 𝐸 𝑌𝑖; 𝑥𝑖 = E(𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖) = 𝛽0 + 𝛽1𝑥𝑖 + E 𝜀𝑖 = 𝛽0 + 𝛽1𝑥𝑖 También decimos que La función de regresión relaciona la media de Y con un valor dado x. 𝐸 𝑌 ; 𝑥 = 𝛽0 + 𝛽1𝑥 La variable de respuesta 𝑌𝑖, excede o es menor que la función de regresión por 𝜀𝑖 Se asume que los términos del error 𝜀𝑖 tienen varianza constante σ2: no es dependiente de los valores x por lo tanto: Var(𝑌𝑖)=σ2 sin importar el valor de x RLS con distribución de errores no especificada Los términos del error 𝜀𝑖 y 𝜀𝑗 para i≠j no están correlacionados: El resultado de una observación individual no afecta el resultado de otra Por lo tanto, las respuestas 𝑌𝑖 y 𝑌𝑗 tampoco están correlacionadas. En resumen: las respuestas 𝑌𝑖 provienen de Distribuciones de probabilidad Con media 𝐸 𝑌𝑖; 𝑥𝑖 = 𝛽0 + 𝛽1𝑥𝑖 Varianza Var 𝑌𝑖; 𝑥𝑖 = σ 2 donde 𝑌𝑖 , 𝑌𝑗, no están correlacionadas Cor(𝑌𝑖; 𝑌𝑗)=0 RLS con distribución de errores no especificada Recuerde la correlación En general, para dos variables aleatorias X, Y definidas en las mismas unidades (espacio de probabilidad), definimos la correlación, Cor(X, Y), y la covarianza, Cov(X, Y) ,entre X y Y: Por lo tanto: Definiciones similares se mantienen en una muestra de n observaciones conjuntas. RLS con distribución de errores no especificada Para 𝑥𝑖, 𝑦𝑖, i= 1, …, n: una muestra de n observaciones conjuntas sobre X y Y: Con la notación estándar para la media muestral, y Ilustraremos esto en las siguientes diapositivas. SLR con distribución de errores no especificada RLS con distribución de errores no especificada RLS con distribución de errores no especificada Ejemplo Consideramos el número de pedidos de equipos de iluminación requeridos por los contratistas, cada semana, y el tiempo que se tarda en preparar los pedidos cada semana. Supongamos que se puede aplicar el modelo de regresión lineal (1) tal que: siendo xi el número de pedidos preparados en una semana (el rango observado hasta ahora es de 20 a 80) y Yi el número de horas necesarias para preparar el lote de pedidos. Cuando xi =40, obtenga E(Y, x), E(Yi), Yi Número de pedidos requeridos y tiempo de preparación RLS con distribución de errores no especificada Las siguientes dos figuras muestran: Primero, el modelo teórico Y luego la recta teórica, acompañada de una muestra aleatoria de tamaño 10, extraída del modelo anterior con RLS con distribución de errores no especificada SLR con distribución de errores no especificada SLR con distribución de errores no especificada 𝛽𝑜 y 𝛽1 son coeficientes de regresión 𝛽1 es la pendiente de la recta de regresión: por unidad de incremento en x, se espera que Y tenga un incremento de cantidad igual a 𝛽1 o que la media de Y aumenta en una cantidad igual a 𝛽1 para cada unidad de incremento de x. Lo anterior implica que para un aumento de a unidades en x, se espera que Y tenga un incremento de a x 𝛽1 Más información sobre el significado de los parámetros de regresión SLR con distribución de errores no especificada 𝛽𝑜 es el intercepto de la recta de regresión Cuando el alcance del modelo incluye a x=0, 𝛽0 da la media de la distribución de probabilidad de Y en x=0 De lo contrario, 𝛽0 no tienen ningún significado en particular Tenga en cuenta que el número de pedidos pueden tomar únicamente números enteros. Por lo tanto, no tiene sentido intentar interpretar E(Y, x=29.5) en el ejemplo de las ofertas para los contratistas. Si la cantidad más pequeña que produce una máquina son 10 pedidos, debemos de tomar esto en cuenta en la interpretación. Más información sobre el significado de los parámetros de regresión SLR con distribución de errores no especificada SLR con distribución de errores no especificada Sea x0 una variable ‘dummy’ igual a 1, tenemos: Otra forma de escribir el modelo (diferente parametrización): ¿Puede ver una ventaja de escribir el modelo de esta forma? ¿Por qué es el mismo modelo? Escriba el nuevo parámetro 𝛽0 ∗ en términos de los parámetros del primero modelo. Versión alternativa del modelo de regresión Apariencias diferentes SLR con distribución de errores no especificada 4. Datos para el análisis de regresión Datos observacionales: Particularmente útiles para la descripción y predicción Se fija los x, y describe la variable Y aleatoria O se toma una muestra (X,Y) y se obtiene inferencias sobre Y dado que X=x. Datos experimentales: con control sobre la variable explicativa Particularmente útil para relaciones de causa y efecto Ejemplo 1: duración del entrenamiento y productividad de 9 trabajadores, 3 son seleccionados de forma aleatoria para entrenarlos durante 2 semanas, otros 3 durante 3 semanas, y 3 trabajadores durante 5 semanas. La respuestaes la productividad a lo largo de las siguientes 10 semanas. Ejemplo 2: Un ensayo clínico que asigna aleatoriamente pacientes ligeramente hipertensos a uno de dos tratamientos diferentes o un placebo, donde se observa la reducción de la presión arterial después de un mes de tratamiento. Datos para el análisis de regresión 5. Resumen de los pasos para el análisis de la regresión Resumen de los pasos para el análisis de la regresión 6. Estimación de la función de regresión E(Y;x)=β0+β1 x Datos de observación o experimentales Consideramos una muestra aleatoria de tamaño n que sigue un modelo RLS. Para cada unidad de observación i, i=1,…,n observamos un xi fijo y el valor de la variable aleatoria Yi correspondiente. Estudio de persistencia Tres sujetos de diferentes edades (xi) Se les da una tarea muy difícil de realizar La respuesta Yi es el número de intentos, antes de darse por vencido. Estimación de la función de regresión E(Y;x)=β0+β1 x Para encontrar ‘buenos’ estimadores de 𝛽0 y 𝛽1 se puede minimizar la distancia (vertical) entre los valores yi observados y la línea de regresión. la desviación de yi de su valor esperado: yi − ( 𝛽0 + 𝛽1xi) El método de los mínimos cuadrados encuentra valores b0 y b1 que minimizan ¿Cómo minimizar q(b0, b1 )? Ejercicio: ¿Cuál es el valor de m que minimiza ? Estimación de la función de regresión E(Y;x)=β0+β1 x Minimizando la función Q 1. Una búsqueda numérica podría ser usada para buscar sistemáticamente los valores (b0, b1 ) para (𝛽0, 𝛽1) que minimizan q. Compare, por ejemplo, la distancia ‘residual’ de la observación: (x1, y1) = (20, 5) en relación a dos líneas diferentes: y Estimación de la función de regresión E(Y;x)=β0+β1 x Estimación de la función de regresión E(Y;x)=β0+β1 x 2. Un procedimiento analítico es factible cuando el modelo no es matemáticamente complejo. En nuestro caso, esto conduce a resolver un conjunto de ecuaciones simultáneas, las Ecuaciones Normales: La solución produce estimaciones de punto b0 y b1 de 𝛽0 y 𝛽1 respectivamente. Estimación de la función de regresión E(Y;x)=β0+β1 x Recuerda: Utilizamos el término ‘estimadores’ para las variables aleatorias B0 y B1 y ‘estimaciones’ para los valores obtenidos (realizados) en un conjunto de datos observados b0 y b1 : Los estimadores de un parámetro a veces se denotan con un ‘sombrero’, por ejemplo: B0 = መ𝛽0 y Estimación de la función de regresión E(Y;x)=β0+β1 x Propiedades de los estimadores de Mínimos Cuadrados Teorema de Gauss-Markov Bajo las condiciones del modelo de regresión lineal simple con distribución de errores desconocida, los estimadores por mínimos cuadrados B0 y B1 : son insesgados E(B0)= 𝛽0 , E(B1)= 𝛽1 y tienen varianza mínima entre todos los estimadores lineales insesgados: Cada estimador insesgado de la forma σ𝑖=1 𝑛 𝑤𝑖𝑌𝑖 tiene una varianza que es mayor o igual que la varianza del estimador por mínimos cuadrados. Observe que B1 es de la forma: Esto último depende del supuesto de varianza constante para los términos del error Estimación de la función de regresión E(Y;x)=β0+β1 x Propiedades de los estimadores de Mínimos Cuadrados Teorema de Gauss-Markov Es decir, los estimadores por mínimos cuadrados B0 y B1 son insesgados, esto es: E(B0)= 𝛽0 , E(B1)= 𝛽1 si y sólo si E(𝜀𝑖) = 0 Los estimadores B0 y B1 son insesgados y tienen una varianza mínima entre todos los estimadores lineales insesgados si y sólo si Var(𝜀𝑖 )=σ 2 (varianza constante) Estimación de la función de regresión E(Y;x)=β0+β1 x El ejemplo Toluca La empresa Toluca lleva a cabo un programa de mejora de costos, para determinar el tamaño óptimo del lote para la producción de piezas de repuesto (de equipos de refrigeración). Para ello, necesitan comprender la relación entre el tamaño del lote y las horas de mano de obra requeridas para producir el lote. Para evaluar esto, se registraron datos sobre el tamaño del lote y sobre las horas de trabajo para 25 corridas de producción. Las condiciones de producción fueron estables durante el periodo de 6 meses en el cual se ejecutaron las 25 corridas de producción, y se esperaba que se mantuvieran estables para los siguientes 3 años, que es el periodo de planificación para el cual el programa de mejora de costos estuvo siendo llevado a cabo. Estimación de la función de regresión E(Y;x)=β0+β1 x Toluca: Horas de trabajo (Y) para lotes de diferentes tamaños (x) Estimación de la función de regresión E(Y;x)=β0+β1 x Toluca: Horas de trabajo (Y) para lotes de diferentes tamaños (x) Calculamos los valores b1 y b0 para B1 y B0, respectivamente, usando las observaciones de las 25 corridas del proceso de producción. Se argumenta que las corridas se llevan a cabo bajo condiciones similares, por ello se puede utilizar el mismo modelo para todas las corridas, y los resultados de las diferentes corridas pueden ser tratados como independientes. En R: Estimación de la función de regresión E(Y;x)=β0+β1 x Toluca: Horas de trabajo (Y) para lotes de diferentes tamaños (x) Estimación de la función de regresión E(Y;x)=β0+β1 x Estimación de la función de regresión E(Y;x)=β0+β1 x Estimación de punto de la respuesta promedio La respuesta promedio para un valor x dado (por ejemplo: un lote de tamaño 70) E(Y; x)= β0+β1 x tiene el estimador: 𝑌= B0+B1 x Por ejemplo, la estimación para x = 70 es: ො𝑦 = 62.3659 + 3.5702 x 70 = 312.2799 Sabiendo que ҧ𝑥 = 70, podemos encontrar 𝑏0 ∗ al ajustar el modelo con E(Yi; xi) = β0 *+β1 (xi - ҧ𝑥) Estimación de la función de regresión E(Y;x)=β0+β1 x El i-ésimo residuo Es Ei = Yi - 𝑌i con valor observado: Para el caso i = 25, tenemos x25= 70 y encontramos No confundamos esto con el término del error del modelo que es la desviación con respecto a la verdadera línea de regresión, el cual es desconocido. Los residuos son de mucho interés: para descubrir valores aberrantes que pueden ser errores o que pueden indicarnos algún fraude. para decidir si el modelo es apropiado. Estimación de la función de regresión E(Y;x)=β0+β1 x Propiedades de la línea de regresión ajustada Piense en ello: ¿Letras mayúsculas o minúsculas? es un mínimo (sobre todas las líneas rectas posibles). Estimación de la función de regresión E(Y;x)=β0+β1 x La línea de regresión siempre pasa por el punto ( ҧ𝑥, ത𝑦) Entonces, ¿qué es ത𝑦 ? Verifique esto a través de las ecuaciones normales. Estimación de la función de regresión E(Y;x)=β0+β1 x 7. Estimación de Var(𝜀𝑖) Para entender la variación de las observaciones alrededor de la línea, recordemos la variación estimada alrededor de la ‘gran’ media: En el modelo de regresión lineal, estimamos Var(𝜀1) como: MSE es el ‘Error cuadrático medio’ o la ‘Media Cuadrática del Error’ o ‘Residuo cuadrático medio’. Estimación de Var(𝜀1) En el denominador tenemos n-2 Intuitivamente: se pierden 2 grados de libertad porque los 2 parámetros 𝛽0 y 𝛽1 fueron estimados a partir de los datos, antes de estimar la desviación residual con respecto a la línea de regresión. Se puede mostrar: Podemos estimar σ como Por tanto, MSE es un estimador insesgado del parámetro σ2. ¿ ෝσ es un estimador insesgado del parámetro σ? Estimación de Var(𝜀1) 8. Error Estándar del modelo de regresión Hasta ahora, solo necesitábamos conocer la media y la varianza de los términos del error. Ahora, utilizaremos un supuesto para la distribución de Yi|xi afín de obtener estimaciones por intervalo. Supuesto estándar: en el modelo con errores no correlacionados. Errores no correlacionados y normalmente distribuidos 1. implica errores independientes. 2. y que los Yi siguen una distribución normal en cada nivel dado xi con media y varianza σ2, e independientes uno con respecto a otro. Estrategia general: siempre que asuma algún modelo, examine las restricciones impuestas por el modelo en los datos observados (para juzgar si elmodelo es correcto o no). Error Estándar del modelo de regresión Los errores representan los efectos de factores omitidos del modelo que afectan a Y de alguna manera y que varían aleatoriamente sin referencia a la variable X La justificación teórica del modelo de errores normales puede ser a veces basado en el Teorema de Límite Central: cuando los errores son el resultado de añadir el impacto de algunos factores influyentes aleatorios e independientes, por ejemplo, en el caso de las horas de trabajo para la corrida de producción podemos considerar los efectos añadidos de: lapso de tiempo desde la ultima corrida de producción, tipo de máquinas utilizadas, estación del año, personal utilizado, etc. error de medición aleatorio al registrar valores de Y En tanto que estos efectos aleatorios tengan un grado de independencia, el error 𝜀𝑖 que representa todos estos factores tenderá a cumplir con el teorema del límite central, y la distribución del error 𝜀𝑖 se acercará a la normal a medida que el número de estos factores sea más y más grande. A veces es justificado usar el modelo de errores normales debido a que los resultados y las conclusiones (coeficiente de confianza, riesgo de errores) basados en el modelo de errores normales son bastante robustos, es decir: insensibles a desviaciones sustanciales del supuesto de normalidad. Sin embargo, ¡el sesgo pronunciado es un problema! Error Estándar del modelo de regresión 9. Estimación de parámetros mediante la probabilidad Estimación de parámetros mediante la probabilidad Inferencia Un método muy general para la estimación, cuando se propone un modelo paramétrico para los datos observados, es el método de máxima verosimilitud. Asumamos que la densidad de probabilidad de los resultados tome una forma matemática particular f(y; θ), donde θ representa a los parámetros desconocidos. Por ejemplo, en el modelo de regresión lineal simple Por lo tanto, podemos escribir θ = (β1, β2, σ 2) y Estimación de parámetros mediante la probabilidad Maximizamos la función de probabilidad sobre θ. De forma equivalente, podemos maximizar Analíticamente, se encuentra el máximo resolviendo la ecuación: Estimación de parámetros mediante la probabilidad Estimación por máxima verosimilitud para el modelo de regresión lineal simple es encontrada al maximizar resolviendo: Con resultados: Estimación de parámetros mediante la probabilidad Propiedades de estimadores por máxima verosimilitud Con consistentes. Son suficientes. Son asintóticamente insesgados. Tienen una varianza mínima asintótica entre todos los estimadores insesgados.
Compartir