Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ANÁLISIS DE REGRESIÓN EDA 2018 Prof. Valeria Quevedo Contenido • Introducción • Regresión lineal simple • Regresión múltiple • Análisis de residuos • Regresión logística De datos a información 1211109876 8 7 6 5 4 3 2 1 Log de Income per capita 2017 Ch ild re n pe r w om an 2 01 7 INTRODUCCIÓN Introducción • Un análisis de regresión estudia la relación que existe entre variables. • Estas relaciones pueden ser expresadas a través de ecuaciones que describen la relación estadística entre la variable de respuesta y una o más variables predictoras. • Ejemplos: • Qué tanto los años de experiencia, de educación y el género influyen en el sueldo de una empresa. • Cómo el consumo de energía anual en una empresa, depende del cambio climático, área construida y/o máquinas instaladas. • El impacto de la temperatura en la presión del vapor de un líquido. • ¿El gasto en marketing puede ayudarnos a predecir las ventas de una empresa? • ¿El tiempo de permanencia de un paciente en un hospital puede ser estimado en base a su relación con la severidad de la operación? • … Relaciones entre variables • Nos interesa ver si dos o más variables están relacionadas. Si lo están, podremos plantear un modelo (una relación funcional) que describa dicha relación. • Lo primero que debemos distinguir es la diferencia entre relación funcional y relación estadística entre dos variables. Relaciones entre variables Relación funcional: Y=f(X) oY es la variable dependiente o X es la variable independiente. Relaciones entre variables Relación estadística: Y=f(X) + e oNo es una relación perfecta. oY es la variable de respuesta y X la variable predictora o explicativa. Correlación y causalidad Correlación no implica causalidad, es decir, no implica una relación causa-efecto. Recolección de datos • Tipos de recolección de datos: • Data histórica. • Data Observacional. Por ejemplo, a través de encuestas. El investigador observa y puede decidir qué variables recolectar pero no tiene control sobre ellas. • Diseño de experimentos. Se tiene control sobre las variables que intervienen en el proceso. Data de tipo corte transversal Temperatura Concentración Porcentaje de impurezas 85.8 42.3 14.9 83.8 43.4 16.9 84.5 42.7 17.4 86.3 43.6 16.9 85.2 43.2 16.9 83.8 43.7 16.7 86.1 43.3 17.1 85.9 43.4 16.9 85.7 43.3 16.7 86.3 42.6 16.9 83.5 44 16.7 85.8 42.8 17.1 85.9 43.1 17.6 84.2 43.5 16.9 Data de tipo corte transversal Series de tiempo Mes Temperatura Libras de vapor de aire/1000 pie cúbico Ene 21 185.79 Feb 24 214.47 Mar 32 288.03 Abr 47 424.84 May 50 454.58 Jun 59 539.03 Jul 68 621.55 Ago 74 675.06 Set 62 562.03 Oct 50 452.93 Nov 41 369.95 Dic 30 273.98 Tres herramientas • Hay tres herramientas que podemos usar para describir y cuantificar la relación entre dos variables cuantitativas: 1. Gráfico de dispersión. 2. Correlación: medida estática que mide la fuerza y dirección de la relación lineal entre dos variables cuantitativas. 3. Regresión lineal: Ecuación que describe la relación promedio entre una variable respuesta (y) y las explicativas o predictoras (x’s) Gráfico de dispersión Con la gráfica de dispersión podremos observar la relación entre dos variables. 4.54.03.53.02.52.01.5 4.5 4.0 3.5 3.0 2.5 2.0 1.5 lnLab ln Fi el d Scatterplot of lnField vs lnLab 1211109876 8 7 6 5 4 3 2 1 Log de Income per capita 2017 Ch ild re n pe r w om a n 2 0 1 7 Gráfico de dispersión Estadística Aplicada Facultad de Ingeniería 2017-I Universidad de Piura Gráfico de dispersión ¿Hay alguna relación? Gráfico de dispersión Medidas de asociación Medidas de relaciones lineales entre dos variables: 1. Covarianza • Mide la fuerza de la relación entre dos variables. • Puede ser positiva o negativa. • Si no hay relación entre las variables, la covarianza será cercana a cero. • No se puede sin embargo interpretar la magnitud de la covarianza. Medidas de asociación 2. Correlación (r) • Medida numérica que mide la fuerza de la relación lineal entre dos variables. • El numerador indica la asociación entre dos variables X y Y (Covarianza). • Dependiendo del signo, positivo o negativo, se puede ver si están relacionados positiva o negativamente. • Sólo toma valores de entre -1 y 1. (-1 ≤ r ≤ 1) • Si el valor se acerca a 1 o -1, significa que la relación entre estas dos variables es fuerte. • Si se acerca a 0, la relación entre estas dos variables es débil. Correlación Limitación: La correlación puede sólo medir la fuerza de una relación LINEAL entre dos variables. Si son relaciones no lineales, ese valor de correlación puede ser erróneo. Correlación Correlación Correlación Matriz de correlación Temperatura Concentraci ón Porcentaje de impurezas 85.8 42.3 14.9 83.8 43.4 16.9 84.5 42.7 17.4 86.3 43.6 16.9 85.2 43.2 16.9 83.8 43.7 16.7 86.1 43.3 17.1 85.9 43.4 16.9 85.7 43.3 16.7 86.3 42.6 16.9 83.5 44 16.7 85.8 42.8 17.1 85.9 43.1 17.6 84.2 43.5 16.9 14.5 15 15.5 16 16.5 17 17.5 18 83 83.5 84 84.5 85 85.5 86 86.5 Po rc en ta je d e im pu re za s Temperatura (F) 14.5 15 15.5 16 16.5 17 17.5 18 42 42.5 43 43.5 44 44.5 Po rc en ta je d e im pu re za s Concentración 42.2 42.4 42.6 42.8 43 43.2 43.4 43.6 43.8 44 44.2 83 83.5 84 84.5 85 85.5 86 86.5 C on ce nt ra ci ón Temperatura Matriz de correlación Temperatura Concentraci ón Porcentaje de impurezas 85.8 42.3 14.9 83.8 43.4 16.9 84.5 42.7 17.4 86.3 43.6 16.9 85.2 43.2 16.9 83.8 43.7 16.7 86.1 43.3 17.1 85.9 43.4 16.9 85.7 43.3 16.7 86.3 42.6 16.9 83.5 44 16.7 85.8 42.8 17.1 85.9 43.1 17.6 84.2 43.5 16.9Matriz de Correlación Temperatura Concentración Porcentaje de impurezas Temperatura 1 Concentración -0.4987 (0.069) 1 Porcentaje de impurezas -0.0296 (0.920) 0.3091 (0.282) 1 Matriz de correlación Temperatura Concentraci ón Porcentaje de impurezas 85.8 42.3 14.9 83.8 43.4 16.9 84.5 42.7 17.4 86.3 43.6 16.9 85.2 43.2 16.9 83.8 43.7 16.7 86.1 43.3 17.1 85.9 43.4 16.9 85.7 43.3 16.7 86.3 42.6 16.9 83.5 44 16.7 85.8 42.8 17.1 85.9 43.1 17.6 84.2 43.5 16.9 86 85 84 171615 44.043.242.4 44.0 43.2 42.4 868584 17 16 15 Temperatura Concentración Porcentaje de impurezas Matrix Plot of Temperatura, Concentración, Porcentaje de impurezas Correlación - ejemplo Mini-caso de estudio Pregunta de estudio: Evaluar el impacto que tiene la religión sobre el número de bebés nacidos por mujer en el mundo vs. Ingreso per-cápita promedio en cada país. Usaremos el Gapminder (herramienta gratuita) https://www.gapminder.org/ Mini-caso de estudio El gráfico muestra el crecimiento la población en el tiempo. ¿Qué tiene que ver la religión en esta tendencia? 2016198019441908187218361800 8000 7000 6000 5000 4000 3000 2000 1000 0 Year To ta l P op ul at io n in m ill io ns Time Series Plot of Total Population Mini-caso de estudio Evaluemos primero el mundo por religión Mini-caso de estudio Evaluemos ahora el número de bebés nacidos por mujer vs. ingreso per cápita, y cómo ha evolucionado esta relación en el tiempo. Mini-caso de estudio Ahora, analicemos esa relación (#de bebés nacidos por mujer vs. ingresos en el tiempo) para cada tipo de religión en el 2018. ¿Qué observamos? ¿La religión actualmente impacta el número de bebes nacidos/mujer? El análisis visual ayuda y puede responder preguntas importantes pero falta un análisis objetivo. REGRESIÓN LINEAL SIMPLE Regresión lineal simple • Se trata de plantear un modelo matemático que mida la relación entre dos variables: “x” y “y”. • A la variable “x” se le llama variable explicativa o predictora. A la variable “y” se le llama variable de respuesta. • El modelo de regresión lineal simple es: 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 Siendo: yi el valor i-ésimo observado de y. xi el valor i-ésimo observado de x. β0 es el interceptoy β1 es la pendiente. 𝜖𝜖 i el error aleatorio. Regresión lineal simple 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 𝛽𝛽0 y 𝛽𝛽1 se desconocen. Se pueden estimar usando el método de mínimos cuadrados para el cual se necesita que se cumplan los siguientes supuestos: Linealidad Los errores se distribuyen normalmente, con media igual a 0 y varianza σ2: 𝜖𝜖𝑖𝑖 ~ N(0, σ2) Tienen varianza (σ2) constante. 𝜖𝜖𝑖𝑖 son independientes entre sí. Regresión lineal simple Regresión lineal 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑙𝑙𝑙𝑙(𝑥𝑥𝑖𝑖) + 𝜖𝜖𝑖𝑖 𝑙𝑙𝑙𝑙(𝑦𝑦𝑖𝑖) = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 1 𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 Regresión no lineal 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝑒𝑒𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 Regresión lineal simple ¿Qué representa β0 ? ¿y β1? ¿Qué significa si β1 =0? ¿y si β1 <0 o β1>0? 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 Modelo de regresión simple – ejemplo 1 Establezcamos el supuesto de que la producción de soja está determinada por el modelo: 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑙𝑙 𝑝𝑝𝑒𝑒 𝑠𝑠𝑝𝑝𝑠𝑠𝑠𝑠 = 𝛽𝛽0 + 𝛽𝛽1 ∗ 𝑓𝑓𝑒𝑒𝑝𝑝𝑓𝑓𝑝𝑝𝑙𝑙𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙𝑓𝑓𝑒𝑒 + 𝜖𝜖 ¿Qué le interesará saber al agrónomo? - El efecto de los fertilizantes sobre la producción de soja. - Este efecto nos lo da 𝛽𝛽1. - El término 𝜖𝜖 contiene factores como la calidad de la tierra, la lluvia, etc. Modelo de regresión simple – ejemplo 2 El siguiente modelo relaciona el salario de una persona con la educación observada: 𝑠𝑠𝑠𝑠𝑙𝑙𝑠𝑠𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝 ℎ𝑝𝑝𝑝𝑝𝑠𝑠 = 𝛽𝛽0 + 𝛽𝛽1 ∗ 𝑒𝑒𝑝𝑝𝑝𝑝𝑝𝑝𝑠𝑠𝑝𝑝𝑝𝑝𝑝𝑙𝑙 + 𝜖𝜖 ¿Qué interesa saber? - Si educación corresponde al número de años de formación, 𝛽𝛽1 mide el cambio en el salario por hora cuando se introduce un año de formación adicional manteniendo todos los demás factores fijos. - Entre los demás factores (𝜖𝜖) se incluyen la experiencia en el trabajo, la habilidad innata, la antigüedad en el empleo actual y otros. Modelo de regresión simple – ejemplo 3 El siguiente modelo relaciona el porcentaje de austenita en diversos aceros con la cantidad de níquel: 𝑃𝑃𝑝𝑝𝑝𝑝𝑝𝑝𝑒𝑒𝑙𝑙𝑓𝑓𝑠𝑠𝑠𝑠𝑒𝑒 𝑝𝑝𝑒𝑒 𝑠𝑠𝑝𝑝𝑠𝑠𝑓𝑓𝑒𝑒𝑙𝑙𝑝𝑝𝑓𝑓𝑠𝑠 = 𝛽𝛽0 + 𝛽𝛽1 ∗ 𝑝𝑝𝑠𝑠𝑙𝑙𝑓𝑓.𝑝𝑝𝑒𝑒 𝑙𝑙𝑛𝑛𝑛𝑝𝑝𝑒𝑒𝑙𝑙 + 𝜖𝜖 ¿Qué interesa saber? - 𝛽𝛽1 mide el efecto en el porcentaje de austenita cuando hay una unidad más de níquel en la pieza de fierro. Ajuste lineal • El �𝑦𝑦𝑖𝑖 (“y” sombrero) es un estimado del “y” real. • La diferencia entre valor observado o real (𝑦𝑦𝑖𝑖) y el valor estimado (�𝑦𝑦𝑖𝑖) se le llama residuo: 𝑒𝑒𝑖𝑖 = �𝑦𝑦𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 �𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖 Ajuste lineal 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 𝐸𝐸 𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 = �𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖 Residuo:𝑒𝑒𝑖𝑖 = �𝑦𝑦𝑖𝑖 − 𝑦𝑦𝑖𝑖 Valor observado (real): yi Valor ajustado o de predicción: �𝑦𝑦𝑖𝑖 Residuo: 𝑒𝑒𝑛𝑛 = �𝑦𝑦𝑛𝑛 − 𝑦𝑦𝑛𝑛 𝑒𝑒1 = �𝑦𝑦1 − 𝑦𝑦1 Ajuste lineal �𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖 Ajuste lineal • El objetivo es estimar los coeficientes. • Una de las técnicas para ello es el método de los mínimos cuadrados. • La idea es que estos residuos (𝑒𝑒𝑖𝑖) sean los más pequeños posibles. Objetivo: minimizar la suma de los residuos cuadrados (SSRes por sus siglas en inglés) Minimizar 𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 = ∑𝑖𝑖=1𝑛𝑛 𝑒𝑒𝑖𝑖2 𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 = � 𝑖𝑖=1 𝑛𝑛 {𝑦𝑦𝑖𝑖 − 𝛽𝛽0 − 𝛽𝛽1𝑥𝑥𝑖𝑖 }2 Ajuste lineal Resolviendo, se obtiene: Esto no es necesario hacerlo pues cualquier software nos hallará dichas estimaciones. 𝑏𝑏0 = �𝑦𝑦 − 𝑏𝑏1�̅�𝑥𝑏𝑏1 = ∑(𝑦𝑦𝑖𝑖−�𝑦𝑦)(𝑥𝑥𝑖𝑖−�̅�𝑥) ∑ 𝑥𝑥𝑖𝑖 − �̅�𝑥 2 �𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖 Estimación de σ2 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 Donde los errores son independientes entre sí y 𝜖𝜖𝑖𝑖 ~ N(0, σ2) Podemos hallar el SSRes (o SSE): suma de los errores cuadrados: 𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 = � 𝑖𝑖=1 𝑛𝑛 𝑒𝑒𝑖𝑖2 Resulta que: �𝝈𝝈𝟐𝟐 = 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒏𝒏−𝟐𝟐 ¿Por qué los grados de libertad es n-2? �𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖 Análisis del modelo ¿Hay relación entre la variable de respuesta y la predictora? 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 Si 𝛽𝛽1 = 0, entonces podemos decir que 𝑦𝑦 no depende de 𝑥𝑥. Si 𝛽𝛽1 > 0, entonces ambas tienen una relación positiva. Si 𝛽𝛽1 < 0, entonces ambas tienen una relación negativa. Prueba de hipótesis de la pendiente ¿Es 𝛽𝛽1=0? 𝐻𝐻0: 𝛽𝛽1 = 0 𝐻𝐻𝑎𝑎: 𝛽𝛽1 ≠ 0 Rechazamos la hipótesis nula si el 𝑓𝑓 > 𝑓𝑓𝑛𝑛−2,∝/2… o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 𝛼𝛼 Al rechazar 𝐻𝐻0, podemos concluir que sí existe relación entre la “x” y la “y”. Ejemplo Ejemplo: Se analiza la relación entre la cantidad de níquel (x) y el porcentaje de austenita (y) en diversos aceros. Cantidad de Níquel Porcentaje de Austenita 0.608 2.11 0.634 1.95 0.651 2.27 0.658 1.95 0.675 2.05 0.677 2.09 0.702 2.54 0.71 2.51 0.73 2.33 0.75 2.26 0.772 2.47 0.802 2.8 0.819 2.95 Ejemplo Primer paso: generar un gráfico de dispersión. En Minitab: Gráficos > Gráfico de dispersión 0.850.800.750.700.650.60 3.0 2.8 2.6 2.4 2.2 2.0 Cantidad de Níquel Po rc en ta je d e Au st en ita Scatterplot of Porcentaje de Austenita vs Cantidad de Níquel Estadísticas > Regresión > Regresión > Ajustar modelo de regresión Ejemplo: ¿Es 𝛽𝛽1=0? Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.8462 0.84622 27.63 0.000 Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000 Error 11 0.3369 0.03062 Total 12 1.1831 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.175000 71.53% 68.94% 59.98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0.555 0.551 -1.01 0.335 Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00 Regression Equation Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel 𝐻𝐻0: 𝛽𝛽1 = 0 𝐻𝐻𝑎𝑎: 𝛽𝛽1 ≠ 0 Si el p-valor <0.05 Rechazamos la 𝐻𝐻0 Estadísticas > Regresión > Regresión > Ajustar modelo de regresión Ejemplo: modelo matemático Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.8462 0.84622 27.63 0.000 Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000 Error 11 0.3369 0.03062 Total 12 1.1831 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.175000 71.53% 68.94% 59.98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0.555 0.551 -1.01 0.335 Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00 Regression Equation Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel �𝒚𝒚 = − 𝟎𝟎.𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟒𝟒.𝟎𝟎𝟎𝟎𝟐𝟐𝟎𝟎 Se estima un 2.383 % de austenita en promedio. Ejemplo en clase: modelo matemático E(y|x) = �𝒚𝒚 = − 𝟎𝟎.𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟒𝟒.𝟎𝟎𝟎𝟎𝟐𝟐𝟎𝟎 E(y|x) = �𝒚𝒚 = − 𝟎𝟎.𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟒𝟒.𝟎𝟎𝟎𝟎𝟐𝟐 ∗ 𝟎𝟎.𝟕𝟕𝟐𝟐 E(y|x) = �𝒚𝒚 = 𝟐𝟐.𝟑𝟑𝟎𝟎𝟑𝟑 • Para este ejemplo, usando el modelo lineal simple, ¿cuál es el estimado promedio de porcentaje de austenita para una cantidad níquel de 0.72? Estimación de la varianza Recordemos que 𝜖𝜖i ~ N(0, σ2) La varianza de los errores 𝜎𝜎2 es desconocida pero podemos estimarla también a través de: �𝜎𝜎2 = 𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 𝑙𝑙 − 𝑝𝑝 En donde, 𝑙𝑙 es el número total de observaciones 𝑝𝑝 es el número de coeficientes a estimar. En este caso solo son dos: 𝛽𝛽0 y 𝛽𝛽1 → p = 2 NOTA: Var(y|x)=𝝈𝝈𝟐𝟐. Ejemplo: varianza estimada: �𝜎𝜎2 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.8462 0.84622 27.63 0.000 Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000 Error 11 0.3369 0.03062 Total12 1.1831 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.175000 71.53% 68.94% 59.98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0.555 0.551 -1.01 0.335 Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00 Regression Equation Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel �𝜎𝜎2 = 𝟎𝟎.𝟎𝟎𝟑𝟑𝟎𝟎𝟎𝟎𝟐𝟐 Se estima un 2.383 % de austenita en promedio, con una desviación estándar de 𝟎𝟎.𝟎𝟎𝟑𝟑𝟎𝟎𝟎𝟎𝟐𝟐 = 𝟎𝟎.𝟏𝟏𝟕𝟕𝟓𝟓. Se puede formar intervalos de confianza usando la �𝜎𝜎 Ejemplo en clase: modelo matemático E(y|x) = �𝒚𝒚 = 𝟐𝟐.𝟑𝟑𝟎𝟎𝟑𝟑 • ¿Cuál es la desviación estándar del estimado del % de austenita hallado para una cantidad de 0.72 de níquel? ANOVA Tabla ANOVA en Regresión lineal simple: Medidas de variabilidad 𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙 = 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑠𝑠 Ejemplo: ANOVA Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.8462 0.84622 27.63 0.000 Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000 Error 11 0.3369 0.03062 Total 12 1.1831 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.175000 71.53% 68.94% 59.98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0.555 0.551 -1.01 0.335 Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00 Regression Equation Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel 𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙 = 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑠𝑠 1.1831 = 0.8462 + 0.3369 Prueba de hipótesis para la adecuación del modelo lineal general 𝐻𝐻0: 𝛽𝛽1 = 𝛽𝛽2 = ⋯𝛽𝛽𝑝𝑝 = 0 𝐻𝐻𝑎𝑎: 𝑠𝑠𝑙𝑙 𝑚𝑚𝑒𝑒𝑙𝑙𝑝𝑝𝑠𝑠 𝑝𝑝𝑙𝑙𝑠𝑠 𝛽𝛽𝑖𝑖 ≠ 0 Se calcula 𝐹𝐹 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 , el que se obtiene de la tabla ANOVA. Rechazamos 𝐻𝐻0 si el 𝐹𝐹 > 𝐹𝐹𝑝𝑝−1,𝑛𝑛−𝑝𝑝,∝/2∗ … o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 0.05. Es decir, sí existe relación lineal. H0: No existe alguna relación entre la variable de respuesta y las variables regresoras. Ha: Sí existe relación lineal Ejemplo: Modelo general Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.8462 0.84622 27.63 0.000 Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000 Error 11 0.3369 0.03062 Total 12 1.1831 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.175000 71.53% 68.94% 59.98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0.555 0.551 -1.01 0.335 Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00 Regression Equation Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel El p-valor=0.000 < 0.05. Por lo que se puede afirmar que sí existe relación lineal entre “y” y las variables “x”. Coeficiente de determinación (𝑆𝑆2) Recordar: Coeficiente de Regresión: 𝑆𝑆2 = 𝑀𝑀𝑀𝑀𝑆𝑆𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀𝑇𝑇𝑇𝑇𝑇𝑇𝑎𝑎𝑇𝑇 • 0 < 𝑆𝑆2 < 1 • Mide qué tanto el modelo explica la variabilidad en y. • No mide qué tan adecuado es el modelo. 𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙 = 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑠𝑠 Ejemplo: R2 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.8462 0.84622 27.63 0.000 Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000 Error 11 0.3369 0.03062 Total 12 1.1831 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.175000 71.53% 68.94% 59.98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0.555 0.551 -1.01 0.335 Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00 Regression Equation Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel El 71.53% de la variabilidad de “y” se puede explicar por el modelo planteado. ANÁLISIS DE RESIDUOS Análisis de residuos • Recordemos el modelo de regresión: 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖 En donde Ɛi ~ N(0, σ2 ) Cuatro supuestos se deben verificar: • La data debe seguir una tendencia lineal. • Residuos se distribuyan normalmente con media igual a 0. • Varianza constante. • Independencia de los residuos. Esto se puede verificar gráficamente. Análisis de residuos: ¿qué observamos? Y vs. X Residuos vs. X Análisis de residuos • Patrón de residuos ideal: • Residuos alrededor de 0. • No se encuentra ningún patrón. • La variabilidad de los residuos es constante. Análisis de residuos • Patrón de residuos con curvatura: • Este gráfico nos indica que el modelo lineal no es adecuado. Quizá se necesita ajustar un modelo no-lineal, o se necesite transformar las variables. Análisis de residuos • Patrón de residuos “embudo”: • Este gráfico muestra que la varianza de los residuos no es constante. Laboratorio Se analizarán ejemplos en laboratorio usando Minitab. ¿Qué hacer si no se cumplen los supuestos? Se usan transformaciones. Usualmente transformamos a la variable de respuesta o las predictoras cuando encontramos problemas con la linealidad. Cuando encontramos problemas con la varianza constante, o cuando los residuos no siguen distribución normal, transformamos a la variable de respuesta. Las más comunes son: La transformación logarítmica. Transformación raíz cuadrada. Transformación Box-Cox de tipo yc, para c<1. Estas transformaciones ayudan a hacer la varianza de los residuos más consistentes y los hacen más “normales”. ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? Problema Transformación sugerida Si la varianza crece con respecto a y. 𝑦𝑦 𝑦𝑦𝑐𝑐, cuando c<1 Si la varianza crece a un ritmo mayor, con respecto a y. 𝑙𝑙𝑙𝑙(𝑦𝑦) ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? Observamos que la varianza se estabiliza. 121086420 2 1 0 -1 -2 -3 Fitted Value D el et ed R es id ua l Versus Fits (response is y (kW)) 2.22.01.81.61.41.21.0 2 1 0 -1 -2 -3 -4 Fitted Value D el et ed R es id ua l Versus Fits (response is raizY) 𝑦𝑦∗ = 𝑦𝑦 ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? Observamos que la varianza se estabiliza. 706050403020100 4 3 2 1 0 -1 -2 -3 Fitted Value St an da rd iz ed R es id ua l Versus Fits (response is Field) 4.54.03.53.02.52.01.5 2 1 0 -1 -2 Fitted Value St an da rd iz ed R es id ua l Versus Fits (response is lnField) 𝑦𝑦∗ = ln 𝑦𝑦 𝑥𝑥∗ = ln(𝑥𝑥) Usar el set de datos DEMANDA_ENERGIA. Usar transformaciones en y y/o x para estabilizar la varianza. ¿Ahora podemos decir que los supuestos del modelo lineal se cumplen? Es decir, ¿es adecuado el modelo lineal planteado? ¿Cuál sería el modelo final? ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? ¿Qué hacer si no se cumple la linealidad? Problema Transformación sugerida Si la relación de x y y presenta curvatura. 𝑙𝑙𝑙𝑙(𝑦𝑦), y/o 𝑙𝑙𝑙𝑙(𝑥𝑥) 𝑦𝑦∗ = 1 𝑦𝑦 ; 𝑥𝑥∗ = 1 𝑥𝑥 Si la relación de x y y presenta relación exponencial. 𝑙𝑙𝑙𝑙(𝑦𝑦) 111098765432 2.5 2.0 1.5 1.0 0.5 0.0 VelViento (x) Co rr ie nt eC on tin ua (y ) Scatterplot of CorrienteContinua (y) vs VelViento (x) ¿Qué hacer si no se cumple la linealidad? 2.52.01.51.00.5 2 1 0 -1 -2 -3 Fitted Value D el et ed R es id ua l Versus Fits (response is CorrienteContinua (y)) ¿Qué hacer si no se cumple la linealidad? 𝑦𝑦∗ = 𝑦𝑦2 111098765432 2.5 2.0 1.5 1.0 0.5 0.0 VelViento (x) Co rr ie nt eC on tin ua (y ) Scatterplot of CorrienteContinua (y) vs VelViento (x) 2.52.01.51.00.5 2 1 0 -1 -2 -3 Fitted Value De le te d Re sid ua l Versus Fits (response is CorrienteContinua (y)) 111098765432 6 5 4 3 2 1 0 VelViento(x) y2 Scatterplot of y2 vs VelViento (x) 6543210 2 1 0 -1 -2 Fitted Value De le te d Re sid ua l Versus Fits (response is y2) Observamos que la linealidad se corrige pero la varianza aún presenta curvatura. ¿Qué hacer si no se cumple la linealidad? 𝑥𝑥∗ = 1 x 111098765432 2.5 2.0 1.5 1.0 0.5 0.0 VelViento (x) Co rr ie nt eC on tin ua (y ) Scatterplot of CorrienteContinua (y) vs VelViento (x) 2.52.01.51.00.5 2 1 0 -1 -2 -3 Fitted Value De le te d Re sid ua l Versus Fits (response is CorrienteContinua (y)) 2.52.01.51.00.50.0 1 0 -1 -2 -3 Fitted Value D el et ed R es id ua l Versus Fits (response is CorrienteContinua (y)) Observamos que la linealidad se satisface, así como también la varianza constante. 0.450.400.350.300.250.200.150.10 2.5 2.0 1.5 1.0 0.5 0.0 1/x Co rr ie nt eC on tin ua (y ) Scatterplot of CorrienteContinua (y) vs 1/x Usar el set de datos MOLINOS_VIENTO y NIST. Usar transformaciones en y y/o x para que se cumpla la linealidad. ¿Ahora podemos decir que los supuestos del modelo lineal se cumplen? Es decir, ¿es adecuado el modelo lineal planteado? ¿Cuál sería el modelo final? ¿Qué hacer si no se cumple la linealidad? REGRESIÓN LINEAL MÚLTIPLE Regresión lineal múltiple • Es es una extensión de la regresión lineal simple. 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖1 + 𝛽𝛽2𝑥𝑥𝑖𝑖2 … + 𝛽𝛽𝑘𝑘𝑥𝑥𝑖𝑖𝑘𝑘 + 𝜖𝜖𝑖𝑖 Se asume que los errores siguen una distribución normal con media igual a 0 y varianza igual a σ2 y son independientes: 𝜖𝜖𝑖𝑖~𝑁𝑁(0,𝜎𝜎2) Regresión lineal múltiple • Regresión lineal múltiple significa que el modelo es lineal con respecto a sus coeficientes. • Por ejemplo: Regresión lineal múltiple 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖1 + 𝛽𝛽2𝑥𝑥𝑖𝑖2 … + 𝛽𝛽𝑘𝑘𝑥𝑥𝑖𝑖𝑘𝑘 + 𝜖𝜖𝑖𝑖 ¿Qué representan los coeficientes? • Cambio esperado en la variable de respuesta por una unidad de cambio en xi, manteniendo las otras variables regresoras constantes. Ejemplo Un distribuidor de bebidas, desea analizar el servicio del llenado de las máquinas dispensadoras en uno de los supermercado más grandes. Está interesado en predecir el tiempo requerido por el encargado de este servicio en base a dos variables: número de bebidas a llenar y tiempo que debe recorrer para llegar a cada máquina dispensadora. Observación Tiempo de delivery (min) Número de casos Distancia (pie) 1 16.68 7 560 2 11.5 3 220 3 12.03 3 340 4 14.88 4 80 5 13.75 6 150 6 18.11 7 330 7 8 2 110 8 17.83 7 210 9 79.24 30 1460 10 21.5 5 605 11 40.33 16 688 12 21 10 215 13 13.5 4 255 14 19.75 6 462 15 24 9 448 16 29 10 776 17 15.35 6 200 18 19 7 132 19 9.5 3 36 20 35.1 17 770 21 17.9 10 140 22 52.32 26 810 23 18.75 9 450 Ejemplo. Resultados en Minitab 80 40 0 16008000 302010 30 20 10 80400 1600 800 0 Tiempo de delivery (min) Número de casos Distancia (pie) Matrix Plot of Tiempo de delive, Número de casos, Distancia (pie) Tiempo de delive Número de casos Número de casos 0.965 0.000 Distancia (pie) 0.892 0.824 0.000 0.000 Cell Contents: Pearson correlation P-Value Prueba de hipótesis para la adecuación del modelo lineal general Hacemos la prueba de hipótesis para ver si hay o no relación entre X e Y: 𝐻𝐻0: 𝛽𝛽1 = 𝛽𝛽2 = ⋯𝛽𝛽𝑘𝑘 = 0 𝐻𝐻1:𝑠𝑠𝑙𝑙 𝑚𝑚𝑒𝑒𝑙𝑙𝑝𝑝𝑠𝑠 𝑝𝑝𝑙𝑙 𝑝𝑝𝑝𝑝𝑒𝑒𝑓𝑓𝑝𝑝𝑝𝑝𝑝𝑝𝑒𝑒𝑙𝑙𝑓𝑓𝑒𝑒 𝑙𝑙𝑝𝑝 𝑒𝑒𝑠𝑠 𝑝𝑝𝑆𝑆𝑝𝑝𝑠𝑠𝑙𝑙 𝑠𝑠 0. Se calcula 𝐹𝐹 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 , el que se obtiene de la tabla ANOVA. Rechazamos la hipótesis nula si el 𝐹𝐹 > 𝐹𝐹𝑝𝑝−1,𝑛𝑛−𝑝𝑝,∝/2∗ … o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 0.05 Es decir, concluimos que sí existe relación lineal. *Siendo p el número de parámetros. Prueba de hipótesis para la adecuación del modelo lineal general Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5550.8 2775.41 261.24 0.000 Número de casos 1 951.7 951.66 89.58 0.000 Distancia (pie) 1 168.4 168.40 15.85 0.001 Error 22 233.7 10.62 Total 24 5784.5 Model Summary S R-sq R-sq(adj) R-sq(pred) 3.25947 95.96% 95.59% 92.06% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2.34 1.10 2.13 0.044 Número de casos 1.616 0.171 9.46 0.000 3.12 Distancia (pie) 0.01438 0.00361 3.98 0.001 3.12 Regression Equation Tiempo de delivery (min) = 2.34 + 1.616 Número de casos + 0.01438 Distancia (pie) Concluimos que sí existe relación lineal. R2 ajustado o corregido Recordemos que 𝑆𝑆2 = 𝑀𝑀𝑀𝑀𝑆𝑆𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀𝑇𝑇𝑇𝑇𝑇𝑇𝑎𝑎𝑇𝑇 = 1 − 𝑀𝑀𝑀𝑀𝑆𝑆𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀𝑇𝑇𝑇𝑇𝑇𝑇𝑎𝑎𝑇𝑇 El 𝑆𝑆2 se incrementa si incrementamos 𝑝𝑝 (variables predictoras o 𝑥𝑥’s), a pesar de que algunas de esas variables no sean significativas. Esto no quiere decir necesariamente que a mayor 𝑝𝑝 sea un mejor modelo, pues puede que también el �𝜎𝜎2aumente. Por ello, para corregir este problema, en regresión múltiple se usa el 𝑆𝑆2 ajustado o corregido: 𝑺𝑺𝟐𝟐 ajustado = 1 − 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺/(𝒏𝒏 − (𝒑𝒑 + 𝟏𝟏)) 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺/(𝒏𝒏 − 𝟏𝟏) R2 ajustado Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5550.8 2775.41 261.24 0.000 Número de casos 1 951.7 951.66 89.58 0.000 Distancia (pie) 1 168.4 168.40 15.85 0.001 Error 22 233.7 10.62 Total 24 5784.5 Model Summary S R-sq R-sq(adj) R-sq(pred) 3.25947 95.96% 95.59% 92.06% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2.34 1.10 2.13 0.044 Número de casos 1.616 0.171 9.46 0.000 3.12 Distancia (pie) 0.01438 0.00361 3.98 0.001 3.12 Regression Equation Tiempo de delivery (min) = 2.34 + 1.616 Número de casos + 0.01438 Distancia (pie) El modelo explica casi el 96% de la variabilidad de y. Prueba de hipótesis de los coeficientes 𝐻𝐻0: 𝛽𝛽𝑖𝑖 = 0 𝐻𝐻𝑎𝑎: 𝛽𝛽𝑖𝑖 ≠ 0 Rechazamos la hipótesis nula si el 𝑓𝑓 > 𝑓𝑓𝑛𝑛−𝑝𝑝,∝/2… o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 𝛼𝛼 Al rechazar 𝐻𝐻0, podemos concluir que sí existe relación entre la “x” y la “y”. Prueba de hipótesis de los coeficientes Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5550.8 2775.41 261.24 0.000 Número de casos 1 951.7 951.66 89.58 0.000 Distancia (pie) 1 168.4 168.40 15.85 0.001 Error 22 233.7 10.62 Total 24 5784.5 Model Summary S R-sq R-sq(adj) R-sq(pred) 3.25947 95.96% 95.59% 92.06% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2.34 1.10 2.13 0.044 Número de casos 1.616 0.171 9.46 0.000 3.12 Distancia (pie) 0.01438 0.00361 3.98 0.001 3.12 Regression Equation Tiempo de delivery (min) = 2.34 + 1.616 Número de casos + 0.01438 Distancia (pie) Tanto el número de casos como la distancia recorrida contribuyen significativamente al modelo. Análisis de residuos ¿Es adecuado el modelo? 420-2 99 90 50 10 1 Standardized Residual Pe rc en t 806040200 2 0 -2 Fitted Value St an da rd iz ed R es id ua l 3210-1-2 8 6 4 2 0 Standardized Residual Fr eq ue nc y 24222018161412108642 2 0 -2 Observation Order St an da rd iz ed R es id ua l Normal Probability Plot Versus Fits Histogram Versus Order Residual Plots for Tiempo de delivery (min) Análisis de residuos 210-1-2 99 90 50 10 1 Standardized Residual Pe rc en t 9.07.56.04.53.0 2 1 0 -1 -2 Fitted Value St an da rd iz ed R es id ua l 1.51.00.50.0-0.5-1.0-1.5 4.8 3.6 2.4 1.2 0.0 Standardized Residual Fr eq ue nc y 24222018161412108642 2 1 0 -1 -2 Observation Order St an da rd ized R es id ua l Normal Probability Plot Versus Fits Histogram Versus Order Residual Plots for Tiempo de delivery (min) Selección de variables El “Mallow Cp” (Cp de Mallows) compara la precisión y el sesgo del modelo completo con las otras opciones. Se debe buscar modelos donde el valor del Cp de Mallows sea pequeño y esté cercano al número de predictores del modelo más la constante (p). Response is Tiempo de delivery (min) C a D s i R-Sq R-Sq Mallows o s Vars R-Sq (adj) (pred) Cp S s t 1 93.0 92.7 87.3 16.9 4.1814 X 1 79.5 78.6 70.1 90.6 7.1791 X 2 96.0 95.6 92.1 3.0 3.2595 X X MINITAB: Estadísticas > Regresión > Regresión > Mejores subconjuntos. Laboratorio Se trabajará con algunos set de datos para reforzar el tema. REGRESIÓN LOGÍSTICA Regresión logística Considere la situación en donde la variable de respuesta 𝑦𝑦 solo puede tomar valores de 0 y 1. Es decir,𝑦𝑦 es una variable binaria. Es una situación muy común, por ejemplo, cuando se analiza si los alumnos aprobaron un curso o no, si los pacientes se curaron o no, si el equipo falló o no, si los clientes compraron el nuevo producto o no, etc. Dado que 𝑦𝑦 puede tomar 0 o 1, se puede asumir que sigue una distribución de Bernulli (𝑦𝑦~𝐵𝐵𝑒𝑒𝑝𝑝𝑙𝑙𝑝𝑝𝑙𝑙𝑙𝑙𝑝𝑝(𝑝𝑝)): Entonces, el promedio o 𝐸𝐸 𝑦𝑦 = 1 ∗ 𝑝𝑝 + 0 ∗ 1 − 𝑝𝑝 = 𝑝𝑝 𝑦𝑦 Probabildad 1 𝑃𝑃(𝑦𝑦 = 1) = 𝑝𝑝 0 𝑃𝑃(𝑦𝑦 = 1) = 1 − 𝑝𝑝 Regresión logística Considere el siguiente modelo: 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + ϵ𝑖𝑖 Pero al ser 𝑦𝑦𝑖𝑖~𝐵𝐵𝑒𝑒𝑝𝑝𝑙𝑙𝑝𝑝𝑙𝑙𝑙𝑙𝑝𝑝(𝑝𝑝𝑖𝑖), sabemos que 𝐸𝐸 𝑦𝑦𝑖𝑖 = 𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 ¿Cómo interpretamos esto? La predicción �𝑦𝑦𝑖𝑖 estima la probabilidad de que un individuo con características definidas por 𝑥𝑥 = 𝑥𝑥𝑖𝑖, tenga 𝑦𝑦𝑖𝑖 = 1 (compre el producto, falle el equipo, éxito en la operación, etc.). Regresión logística Entonces: 𝐸𝐸 𝑦𝑦𝑖𝑖 = 𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 El problema es que 𝑝𝑝𝑖𝑖 debe ser entre 0 y 1, entonces debe haber una función que transforme el valor 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 a un valor entre 0 y 1. Podemos entonces escribir esa relación en forma general: 𝐸𝐸 𝑦𝑦𝑖𝑖 = 𝑆𝑆 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 La función 𝑆𝑆 es llamada la función logit que conecta 𝐸𝐸 𝑦𝑦 y la variable predictora 𝑥𝑥. ln( 𝑝𝑝𝑖𝑖 1−𝑝𝑝𝑖𝑖 ) = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 Regresión logística Ejemplo Analizaremos un set de datos que contiene los resultados de 25 pruebas de disparos a objetivos con diferentes velocidades. Los resultados fueron: dar al blanco (y=1), o fallar (y=0). 500450400350300250200 1.0 0.8 0.6 0.4 0.2 0.0 TargetSpeed y Scatterplot of y vs TargetSpeed Ejemplo En Minitab ir a: Estadísticas > Regresión > Regresión logística binaria > Ajustar modelo logístico binario. Ejemplo – resultados del Minitab Method Link function Logit Rows used 25 Response Information Variable Value Count y 1 13 (Event) 0 12 Total 25 Deviance Table Source DF Adj Dev Adj Mean Chi-Square P-Value Regression 1 14.25 14.2537 14.25 0.000 TargetSpeed 1 14.25 14.2537 14.25 0.000 Error 23 20.36 0.8854 Total 24 34.62 Model Summary Deviance Deviance R-Sq R-Sq(adj) AIC 41.17% 38.29% 24.36 Si p-valor< 0.05, entonces decimos que hay una asociación significativa entre y y x. Mientras más alta sea la desviación R2, mejor se ajustará el modelo a los datos. En este ejm., el modelo explica 41.17% de la desviación en la variable de respuesta Ejemplo – resultados del Minitab Coefficients Term Coef SE Coef VIF Constant 6.07 2.11 TargetSpeed -0.01770 0.00608 1.00 Odds Ratios for Continuous Predictors Odds Ratio 95% CI TargetSpeed 0.9825 (0.9708, 0.9942) Regression Equation P(1) = exp(Y')/(1 + exp(Y')) Y' = 6.07 - 0.01770 TargetSpeed Los coeficientes positivos indican que el evento se vuelve más probable a medida que aumenta el predictor. Los coeficientes negativos indican que el evento se vuelve menos probable a medida que aumenta el predictor. *Odds Ratios = Relaciones de probabilidad Ejemplo - predicción Regression Equation P(1) = exp(Y')/(1 + exp(Y')) Y' = 6.07 - 0.01770 TargetSpeed Use el modelo para predecir si es que el misil le dará al blanco si es que el objetivo viaja a 400 km/h. ln( 𝑝𝑝𝑖𝑖 1 − 𝑝𝑝𝑖𝑖 ) = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 = 6.07 - 0.01770*400=-1.01 ln 𝑝𝑝𝑖𝑖 1 − 𝑝𝑝𝑖𝑖 = −1.01 𝑝𝑝𝑖𝑖 1 − 𝑝𝑝𝑖𝑖 = 𝑒𝑒 − 1.01 = 0.36421 𝑝𝑝𝑖𝑖=0.2668 La probabilidad de darle al blanco a un objeto que viaja a 400 km/h es de 26.69% Ejemplo - predicción La manera más rápida en Minitab de precedir es ir a Stadísticas > Regresión > Regresión logística > Predecir Regression Equation P(1) = exp(Y')/(1 + exp(Y')) Y' = 6.07 - 0.01770 TargetSpeed Variable Setting TargetSpeed 400 Fitted Probability SE Fit 95% CI 0.266785 0.135248 (0.0857913, 0.585198) Bibliografía Statistical Methods for Engineers (Autores: Vining & Kowalski) Applied Linear Regression Models (Autores: Kutner, Nachtsheim, Neter). 4ta edición. https://www.gapminder.org/ www.minitab.com https://www.gapminder.org/ Análisis de regresión Contenido De datos a información Introducción Introducción Relaciones entre variables Relaciones entre variables Relaciones entre variables Correlación y causalidad Recolección de datos Data de tipo corte transversal Data de tipo corte transversal Número de diapositiva 13 Tres herramientas Gráfico de dispersión Gráfico de dispersión Gráfico de dispersión Gráfico de dispersión Medidas de asociación Medidas de asociación Correlación Correlación Correlación Correlación Número de diapositiva 25 Número de diapositiva 26 Número de diapositiva 27 Número de diapositiva 28 Mini-caso de estudio Mini-caso de estudio Mini-caso de estudio Mini-caso de estudio Mini-caso de estudio regresión lineal simple Regresión lineal simple Regresión lineal simple Regresión lineal simple Regresión lineal simple Modelo de regresión simple – ejemplo 1 Modelo de regresión simple – ejemplo 2 Modelo de regresión simple – ejemplo 3 Ajuste lineal Ajuste lineal Número de diapositiva 44 Ajuste lineal Ajuste lineal Estimación de σ2 Análisis del modelo Prueba de hipótesis de la pendiente Ejemplo Ejemplo Número de diapositiva 52 Número de diapositiva 53 Número de diapositiva 54 Estimación de la varianza Número de diapositiva 56 Número de diapositiva 57 ANOVA Medidas de variabilidad Número de diapositiva 60 Prueba de hipótesis para la adecuación del modelo lineal general Número de diapositiva 62 Coeficiente de determinación ( 𝑅 2 ) Número de diapositiva 64 Análisis de residuos Análisis de residuos Análisis de residuos: ¿qué observamos? Análisis de residuos Análisis de residuos Análisis de residuos Laboratorio ¿Qué hacer si no se cumplen los supuestos? ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? ¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza? Número de diapositiva 76 ¿Qué hacer si no se cumple la linealidad? ¿Qué hacer si no se cumple la linealidad? ¿Qué hacer si no se cumple la linealidad? ¿Qué hacer si no se cumple la linealidad? Número de diapositiva 81 Regresión lineal múltiple Regresión lineal múltiple Regresión lineal múltiple Regresión lineal múltiple Ejemplo Número de diapositiva 87 Prueba de hipótesis para la adecuación del modelo lineal general Número de diapositiva 89 R2 ajustado o corregido R2 ajustado Prueba de hipótesis de los coeficientes Prueba de hipótesis de los coeficientes Análisis de residuos Análisis de residuos Selección de variables Laboratorio Regresión logística Regresión logística Regresión logísticaRegresión logística Regresión logística Ejemplo Ejemplo Ejemplo – resultados del Minitab Ejemplo – resultados del Minitab Ejemplo - predicción Ejemplo - predicción Bibliografía
Compartir