Resumen regresion lineal simple

•

UJAT

0

Yolanda Moreno torres

3/6/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5630 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Universidad Juárez Autónoma de Tabasco
Alumno:
Yolanda Moreno Torres
Profesor:
Manrique Iván Sánchez Ferrer
Grupo:
B02
Semestre:
3er semestre
Carrera:
Ingeniera ambiental
Fecha de entrega
04/02/2021
Regresión lineal simple
El modelo de Regresión Lineal es tan simple que muchos argumentan que no es digno de ser clasificado como Machine Learning. Este algoritmo es un método estadístico que nos permite resumir y estudiar las relaciones entre dos variables continuas cuantitativas.
La Regresión Lineal es una técnica paramétrica utilizada para predecir variables continuas, dependientes, dado un conjunto de variables independientes. Es de naturaleza paramétrica porque hace ciertas suposiciones basadas en el conjunto de datos. Si el conjunto de datos sigue esas suposiciones, la regresión arroja resultados increíbles, de lo contrario, tiene dificultades para proporcionar una precisión convincente.
Matemáticamente, la regresión usa una función lineal para aproximar o predecir la variable dependiente dada como:
Donde:
y – es la variable dependiente o la variable a predecir.
x – es la variable independiente o la variable que usamos para hacer una predicción.
a – es la pendiente o el valor que debe ser determinado, se le conoce como coeficiente y es una especie de magnitud de cambio que pasa por y cuando x cambia.
b – es la constante que debe ser determinada, se le conoce como intercepto porque cuando x es igual a 0, entonces y = b.
Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo hay una variable independiente involucrada, que vendría siendo “x”.
El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre todos los datos y nuestra línea, por lo tanto, para determinar la mejor línea, debemos minimizar la distancia entre todos los puntos y la distancia de nuestra línea. Existen muchos métodos para cumplir con este objetivo, pero todos estos métodos tienen un solo objetivo que es el de minimizar la distancia.
Una forma en que el modelo de regresión encuentre la mejor línea de ajustes es utilizando el criterio de mínimos cuadrados para reducir el error.
El error es una parte inevitable del proceso de predicción, no importa cuán poderoso sea el algoritmo que elijamos, siempre habrá un error irreductible. Sabemos que no podemos eliminar por completo el error, pero aún podemos intentar reducirlo al nivel más bajo. Justamente es en este momento en que se usa la técnica conocida como mínimos cuadrados.
La técnica de mínimos cuadrado intenta reducir la suma de los errores al cuadrado, buscando el mejor valor posible de los coeficientes de regresión.
Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal pero se selecciona debido:
Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que es más fácil diferencias y calcular el descenso del gradiente.
Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse rápidamente a conjuntos de datos que tienen miles de características.
La interpretación es mucho más fácil que otras técnicas de regresión.
El análisis de la regresión en Estadística intenta establecer alguna relación entre un conjunto de variables, a partir de la cual podamos obtener información relevante. Se busca un modelo o expresión matemática que describa el comportamiento de una variable de interés, en función de las demás. Esta metodología es ampliamente usada en problemas de economía, de la industria y de ciencias en general. El modelo lineal es el primero que se suele estudiar con detalle.
MODELOS ESTADÍSTICOS DE REGRESIÓN LINEAL.
Un modelo de regresión es un modelo matemático que busca determinar la relación entre una variable dependiente (Y), con respecto a otras variables, llamadas explicativas o independientes (X).El modelo de regresión se suele utilizar en las Ciencias Sociales con el fin de determinar si existe, o no, relación causal entre una variable dependiente (Y) y un conjunto de otras variables explicativas (X). Asimismo, el modelo busca determinar cuál será el impacto sobre la variable Y ante un cambio en las variables explicativas (X).
TIPOS DE VARIABLES
En regresión se trabaja con variables. Y lo que se hace es calcular siempre promedios (promedio de una variable, de una correlación, de una tendencia, de una función, de un ratio; promedios de variables estandarizadas, estudentizadas o renacionalizadas con cualquier otra función) y su desviación típica (la desviación típica es una denominación que se reserva a la muestra y a la población, cuando se refiere a un parámetro estimado - la media, la tendencia u otro - se suele denominar error estándar). Una vez calculados ambos se interpretan conjuntamente (si son altos, bajos, en términos absolutos o lo que es más usual, en relación con algo como por ejemplo una distribución normal). El 95% de lo que hacen los estadísticos es eso. Lo que hace tremendamente gruesos y desagradables los libros de estadística es que las variables tienen formas muy distintas y su cálculo, aunque similar es ligeramente distinto, por lo que hay que rehacer casi todos los conceptos exprofeso para cada tipo de variables.
Ejemplo de aplicación de un modelo de regresión lineal simple a fin de modelar la distribución conjunta de las variables “Estrategias de afrontamiento” y “Estrés”. En este ejemplo concreto, el modelo de regresión se concreta en el ajuste a los datos de la siguiente ecuación de regresión (también conocida como recta de regresión): ˆY X = 75, 4 + −( 0,7)
Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una recta de la forma: ˆ ˆ Y X a bX = + =+ α β ˆ de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en minimizarla suma de los cuadrados de los errores: ( ) 2 2 1 1 ˆ n n i ii i i e yy = = ∑ ∑= − Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados (yi) y los valores estimados ( ˆi y )
El coeficiente de correlación lineal
El coeficiente de correlación lineal entre X e Y viene dado por: , XY X Y S r S S = y trata de medir la dependencia lineal que existe entre las dos variables. Su cuadrado se denomina coeficiente de determinación, r 2 .
Estudio estadístico de la correlación entre contaminantes atmosféricos y variables meteorológicas en la zona norte de Chiapas, México
INTRODUCCIÓN
La concentración de los contaminantes en la atmósfera se afecta por variables meteorológicas como, la temperatura, la humedad relativa y la radiación solar, que controlan a su vez la velocidad con la que se realizan las reacciones químicas atmosféricas. Por otro lado, la dispersión de estos contaminantes es influenciada por la velocidad y dirección de los vientos, así como la estabilidad que predomina en la atmósfera. A nivel regional se ha puesto atención al problema de la contaminación atmosférica, debido principalmente a las actividades petroleras que se realizan en el suroeste de México. A través de una red de monitoreo automatizada conocida como Sistema Automatizado de la Región Sur (SAMARS) de Petróleos Mexicanos (PEMEX) se monitorean los principales contaminantes atmosféricos (excepto el ozono) y variables meteorológicas. Esta red opera desde 1999 y cuenta con seis estaciones de monitoreo ubicadas en las periferias de las instalaciones petroleras (Baterías y Compresoras). La información recopilada a la fecha se ha empleado principalmente en la evaluación de la calidad del aire en la periferia de estas instalaciones, en la calibración de modelos de dispersión de los contaminantes, y en la distribución espacial de estos.
MATERIALES Y MÉTODOS
El análisis se llevó a cabo en la ZNC (Figura 1) en una región ubicada entre los meridianos 92° 49' y 93° 34' y los paralelos 18° 34' y 17° 33'. Esta zona presenta un clima cálido húmedo con lluvias en verano; la temperatura promedio anual oscila alrededor de los 24 °C y la máxima precipitación anual del estado es de 3 977.5 mm (Anónimo 2003).
La base de datosse obtuvo de tres estaciones (Reforma, Giraldas y Artesa) de monitoreo de la red SAMARS. La distancia entre las estaciones de Reforma y Artesa es de 10.16 km, entre Artesa y Giraldas es de 25.94 km y entre Reforma y Giraldas es de 33.42 km. La estación Reforma, se ubica en la zona industrial de la ciudad de Reforma, Chiapas; la estación Artesa, se ubica en el poblado de Santa Teresa en un entorno rural; y la estación Giraldas, se ubica en el Campo San Manuel, una zona de tipo industrial, perteneciente al municipio de Huimanguillo, Tabasco (Tabla 1). De las tres estaciones, la primera y la última cuentan además, con una estación meteorológica.
RESULTADOS
Comportamiento anual del SO2
El SO2 monitoreado en Reforma fue el único contaminante con suficiente información horaria (mayor al 50 %) para estimar las medias anuales 2001–2004. Los resultados (Figura 2) muestran una tendencia a la disminución de la media anual con el tiempo en años.
Dicha tendencia se representó por el modelo de regresión simple: [SO2] = 14.10 –2.362t, donde t es el tiempo transcurrido en años. De acuerdo a este, para el 2005 (t = 5 años) se espera una media anual de 2.29 ppb. No obstante la media observada fue de 5 ppb, quedando dentro de los límites del intervalo de predicción para este año.
Comportamiento mensual y diario de los contaminante.
El comportamiento de la concentración mensual se muestra en las Figuras 3, 4 y 5 para las estaciones de Reforma, Artesa y Giraldas, respectivamente. Ninguna de las estaciones registró el 100% de las medias mensuales dentro del periodo de análisis (50 meses). Los casos críticos se dieron en Artesa y Giraldas y para los contaminantes NO2y H2S, donde el

CORRELACIÓN ENTRE ESTACIONES
Los gráficos de dispersión de las variables meteorológicas registradas por las estaciones de Reforma y Giraldas indican que los valores diarios de temperatura, humedad relativa, radiación solar y presión en Reforma se correlacionan fuertemente con los de Giraldas (Figura 10). La regresión ajustada explica arriba del 60 % de la variabilidad observada en las registros (Tabla 9). Esto significa que las estaciones se ubican en una zona de una atmósfera homogénea y están registrando mediciones muy similares entre ellas, por lo que la falta de información en alguna de estas estaciones puede subsanarse en algunos periodos con la información registrada en la otra. El coeficiente de correlación de la velocidad y dirección diaria del viento fue menor a 0.4.
DISCUSIÓN
En los últimos años se han instalado plantas recuperadoras de azufre y quemadores ecológicos en las instalaciones petroleras, con el objetivo de reducir las tasas de emisión de contaminantes a la atmósfera, entre ellos el SO2. Esto pudiera explicar la tendencia en la disminución de la concentración media anual de SO2. Un resultado semejante encontró Varó & Carratalá (2002) en donde el periodo en el que se dan las disminuciones de humos negros y SO2 en ALCOY, coinciden con la puesta en funcionamiento de una red de gas natural en las industrias y que reduce las emisiones debido a actividades industriales.
No se puede asegurar que la tendencia a la disminución de la media anual de SO2 persista, de modo que la función de regresión cuando mucho pudiera usarse para estimar la media anual del próximo año. Esto coincide con Correa (2004) quien aplicó la ecuación de regresión simple ajustada con los promedios anuales 1994 al 2000 de diversos contaminantes para predecir la tendencia en el 2001. Ni la humedad relativa, ni la radiación solar, ni el viento anual medio sirvieron como posibles variables descriptivas de la disminución observada en la media anual de SO2. En el caso de la humedad relativa, aunque se correlacionó fuertemente con el SO2(coeficiente de 0.80), los modelos ajustados de esta variable y el tiempo o usándola como única variable regresora no cumplieron las hipótesis inherentes a estos.
CONCLUSIÓN
Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable dependiente Y y una variable independiente X, en términos de la pendiente y la intersección de la línea que mejor se ajuste a las variables.
La correlación simple expresa el grado o la cercanía de la relación entre las dos variables en términos de un coeficiente de correlación que proporciona una medida indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto.
Bibliografía
Regresión lineal simple. (s. f.). membres. Recuperado 2 de febrero de 2021, de https://ljk.imag.fr/membres/Bernard.Ycart/emel/cours/sd/node14.html
Losilla, J. M., Navarro, B., Palmer, A., Rodrigo, M. F. y Ato, M. (2005). Del contraste de hipótesis al modelado estadístico. Documenta Universitaria. Recuperado de http://ocw.uv.es/ciencias-de-la-salud/pruebas-1/1-3/t_09nuevo.pdf
Anónimo (1993c) NOM–025–SSA1–1993; Salud ambiental. Criterios para evaluar la calidad del aire ambiente con respecto a material particulado. 11p.
Molina, Rodrigo.M.F. (2018) El modelo de regresión lineal. Open causerwuare. 18PP. Recuperado de http://ocw.uv.es/ciencias-de-la-salud/pruebas-1/1-3/t_09nuevo.pdf