Modelos de Regressão

•
SIN SIGLA

Belkys Sugilio
28/4/2024
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Econometría Básica I

194 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/323227561
MODELOS DE REGRESIÓN Y SUS APLICACIONES
Technical Report · February 2018
CITATIONS
0
READS
57,466
1 author:
Carlos N. Bouza
University of Havana
485 PUBLICATIONS   938 CITATIONS   
SEE PROFILE
All content following this page was uploaded by Carlos N. Bouza on 16 February 2018.
The user has requested enhancement of the downloaded file.
https://www.researchgate.net/publication/323227561_MODELOS_DE_REGRESION_Y_SUS_APLICACIONES?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_2&_esc=publicationCoverPdf
https://www.researchgate.net/publication/323227561_MODELOS_DE_REGRESION_Y_SUS_APLICACIONES?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_3&_esc=publicationCoverPdf
https://www.researchgate.net/?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_1&_esc=publicationCoverPdf
https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_4&_esc=publicationCoverPdf
https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_5&_esc=publicationCoverPdf
https://www.researchgate.net/institution/University-of-Havana?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_6&_esc=publicationCoverPdf
https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_7&_esc=publicationCoverPdf
https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_10&_esc=publicationCoverPdf
1 
 
 
 
 
 
MODELOS DE REGRESIÓN Y SUS 
APLICACIONES 
Carlos N. Bouza-Herrera 
Reporte Técnico 2018-62.02 
DOI: 
2 
 
 
Facultad de Matemática y Computación 
Universidad de La Habana 
___- 
 
Serie de Reportes Técnicos 
 
MODELOS CUANTITATIVOS PARA 
APLICACIONES EN ESTUDIOS DE SALUD 
HUMANA Y EL MEDIO-AMBIENTE 
 
Comité Editorial 
Editor: Carlos Bouza 
 
Agustin Santiago, Universidad Autónoma de Guerrero, 
Alberto Fernández, Universidad de La Habana 
Gemayqzel Bouza, Universidad de La Habana 
José Betancourt, Universidad de Camagüey 
Jose F. García, Universidad Juárez Autónoma de Tabasco 
Lourdes Sandoval, Benemérita Universidad Autónoma de Puebla 
Marcos Negreiros, Universidade Ceará 
María Amparo León, Universidad de Pinar del Río 
María del M. Rueda, Universidad de Granada 
Purificación Galindo, Universidad de Salamanca 
Sergio Hernández, Universidad Veracruzana 
Sira Allende, Universidad de La Habana 
Valentín Martinez, Universidade da Coruña, 
Vivian Sistachs, Universidad de La Habana 
Yanet Rodriguez, Universidad Central de Las Villas 
 
 
3 
 
MODELOS DE REGRESIÓN Y SUS APLICAICONES 
1. Ideas y Conceptos 
Es común el interés de estudiar la existencia de relaciones entre variables. Por ejemplo, 
podemos preguntarnos si hay alguna relación entre las el consumo de electricidad, las horas 
de trabajo, la eficiencia de las calderas y el tiempo de vida de los engranajes de las 
máquinas del taller. La primera aproximación seria representa pares de variables en un 
plano. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la 
existencia o no de algún tipo de relación entre las variables. 
 
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que hay 
entre ambas variables es definido por el coeficiente de correlación lineal simple 
 
 
Este es estimado por 
 
 
Propiedades que debemos apuntar son: 
1. Su valor siempre está entre -1 y 1. 
2. Si la relación es directa, la banda en que están las observaciones crece al 
movernos de izquierda a derecha, r>0. 
3. Si la relación es inversa, la banda en que están las observaciones disminuye al 
movernos de izquierda a derecha, r<0. 
4. Si la relación es directa y muy fuerte, la banda en que están las observaciones 
crece al movernos de izquierda a derecha y esta es casi un segmento de recta, r es 
aproximadamente 1. 
5. Si la relación es inversa y muy fuerte, la banda en que están las observaciones 
disminuye al movernos de izquierda a derecha y esta es casi un segmento de recta, r es 
aproximadamente -1. 
6. Si la relación es muy débil r es aproximadamente cero. 
Note que hay que tener en consideración que un valor de cero no indica necesariamente 
que no exista correlación, ya que las variables pueden presentar una relación no lineal. 
yx
xy


 
yxz
n
zz
S
SS
S
r
i
n
t
zz
yyxx
xy
,
)(
,
2





4 
 
El hacer un gráfico donde se reflejen las dos variables da una idea de cómo se correlacionan 
ellas. Este gráfico se conoce como diagrama de dispersión. Un ejemplo es el gráfico 
siguiente: 
 
Figura Un Diagrama de Dispersión 
Veamos algunos ejemplos en los que se puede determinar la fuerza de la correlación. 
 
Dependencia funcional lineal perfecta: r = 1. Relación lineal directa y fuerte: r1 
http://www.itl.nist.gov/div898/handbook/pmd/section4/plots/mspt1_f.gif
5 
 
 
Relación lineal inversa y fuerte: r-1 Observaciones “casi “independientes: r0 
 
Figura Diagramas de Dispersión que tipifican relaciones 
 
Se deseará, generalmente, realizar un contraste de hipótesis, basado en la distribución de X 
y Y para decidir sobre la significación del coeficiente de correlación. Los contrastes se 
realizan en base al conocimiento de la distribución muestral del estadístico usado. En este 
caso la distribución usada es la normal. Lo más común es desear establecer la significación 
estadística de si r es estadísticamente diferente de cero. Es decir plantear 
H0: =0 vs H1: 0 
La distribución de r es complicada aun si las variables se distribuyan normal teniéndose que 
la distribución de este no es normal. Para hacer las pruebas se debe hacer la transformación 
Existe una relación cuadrática: r0. 
6 
 
𝑧 =
1
2
𝑙𝑛 (
1 + 𝑟
1 − 𝑟
) 
 
Y se tiene que 
 
 
Entonces, para establecer si hay independencia entre X y Y, hacemos una prueba basada en 
la normal y se acepta H1 si, al fijar el percentil de orden p de la normal estándar 
|r|>Zp(n-3)-1. 
Note que si aceptamos que =0 esto implica la independencia de las variables solo si la 
distribución es normal. En otro caso solo se puede afirmar que están incorrelacionadas. 
2. La Regresión Como Modelo 
El análisis de regresión es una técnica usada para modelar la relación entre variables. Se 
desea establecer como una o varias variables dependientes se comportan respecto a una o 
más variables independientes. Mediante esta técnica podemos obtener información sobre 
como una variable de interés Y, variable dependiente, varia cuando una de las 
independientes lo hace. 
Es común considerar que la relación entre Y y X es descrita por una función. En diversos 
problemas de la física se aceptan tales modelos. Por ejemplo la extensión de un muelle es 
descrita en función de la fuerza F y esta es proporcional a una constante A. Es decir que cada 
vez que se aplique una fuerza Fi debe observarse 
𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖 
Sin embargo al hacer la medición de Ext no se obtienen el resultado que el modelo predice. 
Entonces al valorar lamedición se considera que en verdad se observa 
𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖 + 𝜀𝑖 
Estamos introduciendo en el estudio de la medición un error experimental para cada 
observación. Comúnmente se acepta que los errores son independientes y que su suma es 
cero. Eso puede ser soportado por un adecuado diseño del proceso de obtención de los datos. 
Desde el punto de vista formal el análisis de regresión se dedica a estimar la esperanza 
condicional de Y para dadas las independientes. Esto es como varia el promedio de Y a fijar 
valores de las independientes. Hay entonces un objetivo fijado que es la determinación de 

















3
1
,
1
1
ln
2
1
n
N


http://en.wikipedia.org/wiki/Dependent_variable
http://en.wikipedia.org/wiki/Dependent_variable
http://en.wikipedia.org/wiki/Independent_variable
7 
 
una función llamada función de regresión. En ocasiones el interés del investigador es 
también analizar la variación de Y respecto a esta función lo que plantea un problema que 
es descrito por una distribución de probabilidad. 
Dada la variopinta de problemas que aborda el análisis de regresión se han determinado 
varios tipos de modelos, y con ello diversas técnicas y teorías. Así se distinguen la 
regresión lineal; la regresión no-lineal; la regresión para datos categóricos. Estos son 
llamados métodos paramétricos. En estos modelos la función de regresión es definida a 
partir de la existencia de un número finito de parámetros que deben ser estimados a partir 
de los datos. Este es el más comúnmente de los enfoques usados. 
En el enfoque paramétrico se considera que se tiene: 
 Un vector de parámetros desconocidos B de dimensión k1. 
 Un vector de variables independientes, X de dimensión k1. 
 La variable dependiente Y. Esta puede ser un vector en cuyo caso se plantea un 
problema particular que es la Regresión Multivariada. 
 La función de regresión es una ecuación que liga Y con X y B. 
En algunos problemas se trabaja con problemas de dimensión infinita y se utiliza el llamado 
enfoque no No-paramétrico. En este la función de regresión pertenece a un cierto conjunto 
de funciones, que no tiene por qué especificarse en términos de parámetros. 
Los métodos van a depender de como los datos fueron obtenidos. No es lo mismo lo que 
ocurre en un proceso industrial, donde se pueden controlar una serie de efectos, que en un 
estudio biológico, donde hay variaciones no controladas modeladas por errores, como son 
los efectos ambientales. 
Otro enfoque es el uso de métodos que no reaccionan fuertemente ante las violaciones. Este 
es el enfoque robusto de la regresión. 
Si no conocemos como se generaron los datos deberemos hacer asunciones sobre el 
generador de los mismos. En ocasiones nuestras hipótesis se pueden contrastar en otras no. 
Si las violaciones de estas asunciones son poco importantes las condiciones de optimalidad, 
que se derivan en los modelos, se mantienen aproximadamente inalterables. Esta es la base 
de los conceptos de robustez estadística. 
Dada la amplia aplicación de la regresión los especialistas de distintas disciplinas han dado 
nombre diferentes a los términos. Similarmente ocurre con los softwares que implementan 
el ajuste de la ecuación de regresión. Mencionaremos algunos de ellos 
 X= variable controlada, predictora independiente, explicativa. 
 Y= variable respuesta, predicción, dependiente, regresando. 
 Y=f(X)+= función de regresión, de suavizado, ecuación de regresión 
http://en.wikipedia.org/wiki/Linear_regression
http://en.wikipedia.org/wiki/Linear_regression
http://en.wikipedia.org/wiki/Nonparametric_regression
http://en.wikipedia.org/wiki/Function_(mathematics)
8 
 
Al buscar una ecuación de regresión el experto usa su conocimiento para fijarla. En pocas 
ocasiones esta es conocida. De hecho el modelar conlleva a que el experto proponga 
ecuaciones, las determine y las compare, para determinar cuáles son adecuadas y, 
ocasionalmente, cual es la mejor. 
Ejemplo: La inversión hecha en poner a punto fábricas de helados en miles de pesos en una 
provincia y el valor de estas al precio del mercado se evalúa tras 10 años. Hay una serie de 
factores no controlados que se modelan por un error aleatorio . Se espera que este error al 
ser promediado se obtenga un equilibrio (E ()=0). Un modelo para describir este problema 
financiero estará dado por fijar 
Y = B0 + B1X + ε 
Se hacen mediciones y se obtienen los dados en la tabla siguiente: 
 
Inversión Valor actual 
160 126 
180 103 
200 82 
220 75 
240 82 
260 40 
280 20 
Tabla. Valor inversión y actual de fábricas de helados en una provincia en miles de pesos 
El diagrama de dispersión es 
 
Figura. Diagrama de Dispersión. Valor inversión y actual de fábricas de helados en una 
provincia en miles de pesos 
 
y
x
160 280
20
126
9 
 
Puede valorarse que la relación es caracterizada por una línea recta. Nunca podremos hallar 
una que pase por todos los puntos pero podemos considerar adecuada la brindada en la 
figura siguiente 
 
Figura. Ajuste lineal de Valor inversión y actual de fábricas de helados en una provincia en 
miles de pesos 
Es común que hay algunos forma enmarca que caractericen los datos. Tal es el caso de los 
datos en la figura próxima de un estudio de todas las fábricas tras 10 años de uso. 
 
Figura. Modelos alternativos para Valor inversión y actual de fábricas de helados en miles 
de pesos en la población total. 
3. Usos de la regresión 
y
x
 y Fitted values
160 280
20
126
10 
 
No siempre es sencillo hacer el gráfico y por tanto debemos buscar métodos matemáticos 
que determinen el lugar geométrico que caracteriza una función aceptable. El análisis de 
Regresión es muy usado para hacer predicciones. Actualmente sus conceptos aparecen dentro 
de campos modernos como las redes neuronales el aprendizaje, como en los problemas de 
“machine learning”. Cuando el objetivo es determinar la ecuación de regresión, o el hacer 
predicciones, se desea obtener un valor aceptable de Y al observar valores de las variables 
independientes, o de una proporción específica, de todas las observaciones futuras de Y, para 
una cierta combinación de valores de las variables controladas. Estas predicciones pueden 
hacerse para una combinación cualquiera de las variables independientes que se encuentre 
en el rango de las observadas para hacer el ajuste. 
Otro uso de la regresión es el de calibrar es decir relacionar como un sistema de medición se 
relaciona con otro. 
 
Es de particular importancia su uso para optimizar. En tales problemas, la ecuación 
determinada es usada para buscar combinaciones de los valores de la variable independientes 
que minimicen, o maximicen, el valor de Y. 
 
 Este problema plantea toda una disciplina denominada Superficies de Respuesta 
 
El análisis de regresión es también muy usado para comprender como variables 
independientes se relacionan con la variable dependiente. Esto permite evaluar que formas 
son aceptables para describir estas relaciones. Por ello estos modelos aparecen como una 
herramienta para inferir sobre relaciones de causa-efecto. En estos casos se desea determinar 
una función de regresión. Los valores de ella, obtenidos por valores de las variables 
independientes dentro del rango de observación, permiten hacer interpolaciones. 
 
4. La Regresión Lineal Simple 
 
Cuando el coeficiente de regresión lineal entre dos variables sea “cercano” a +1 o a –1, 
tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos. 
Esta recta permitirá establecer el lugar geométrico que describe la relación y puede ser 
utilizada para predecir o estimar los valores que tomaría de Y al fijar X. 
Consideremos que solo tenemos dos variables X y Y . La relación entre ellas es 
hipotéticamente descrita por la ecuación de una línea recta. Entonces elmodelo 
𝑓(𝑋, �⃗� ) = 𝑌 = 𝐵𝑜 + 𝐵1𝑋 
es considerado por el especialista como aceptable. 
B0 es la ordenada (valor de Y) cuando X=0 
B1 es la pendiente (cambio de Y al aumentar X en una unidad) 
http://en.wikipedia.org/wiki/Machine_learning
11 
 
Al considerar el problema de la estimación que determinar una esperanza condicional se tiene 
que el modelo es justificado al considerar que 
𝐸(𝑌|𝑋) = 𝐵𝑜 + 𝐵1𝑋 
Lo que sugiere el uso del modelo probabilístico 
𝑌𝑑𝑎𝑑𝑜 𝑋 = 𝐵𝑜 + 𝐵1𝑋 + 𝜀 
Y es denominada variable dependiente y X independiente. 
 
Se supone que: 
 
• Los valores de X son fijos y son medidos sin error. 
• La variable Y es aleatoria 
• Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones 
Y) 
• Las variancias de las subpoblaciones Y son todas iguales. 
• Todas las medias de las subpoblaciones de Y están sobre la recta. 
• Los valores de Y están normalmente distribuidos y son estadísticamente 
independientes 
 
Esto equivale a decir que si observamos una muestra aleatoria de n pares (X, Y)i, i=1,…,n, 
{(Yi, Xi ) , i=1,...,n }, y que 
𝑌𝑖 = 𝐵𝑜 + 𝐵1𝑋𝑖 + 𝜀𝑖 
Donde 
E(i )=0, V(i )=2 para todo i=1,..,n 
Cov (i ,j)=0 , para todo ij 
 
Lo que se desea es hallar la ecuación de una recta que se ajuste óptimamente a los datos. 
 
En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los 
coeficientes de la recta de regresión y la varianza de los errores. 
 
El método de los mínimos cuadrados es el que usualmente se utiliza para hacer este ajuste y 
elegir la recta de regresión. La recta obtenida es aquella que minimiza las distancias 
verticales de las observaciones a la recta. 
 
Este método, llamado de los MC ordinarios (MCO), nos plantea el problema de optimización 
(𝑏0, 𝑏1) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0,𝐵1) {∑(𝑌𝑖 − 𝐵𝑜 + 𝐵1𝑋𝑖)
2 =∑𝜀𝑖
2
𝑛
𝑖=1
𝑛
𝑖=1
} 
 
O sea que se tienen que resolver el sistema de ecuaciones 
 
𝜕{∑ (𝑌𝑖 − 𝐵𝑜 + 𝐵1𝑋𝑖)
2𝑛
𝑖=1 }
𝜕𝐵0
= 0 
http://www.monografias.com/trabajos11/travent/travent.shtml
12 
 
𝜕{∑ (𝑌𝑖 − 𝐵𝑜 + 𝐵1𝑋𝑖)
2𝑛
𝑖=1 }
𝜕𝐵1
= 0 
Su solución es 
XBY
n
X
B
n
Y
B
S
S
n
n
X
X
n
n
Y
Y
n
X
X
B
n
i i
n
i i
X
XY
n
i i
i
n
i
n
i i
i
n
i i
i
n
i
1
1
1
1
0
22
1
1
11
1
1
ˆˆˆ
1
1ˆ










































 
Estos estimadores son conocidos como “mínimo cuadráticos” 
Como no se ha hecho ninguna hipótesis sobre la distribución de las variables aleatorias, 
esta solución es óptima para cualquier distribución. 
 
Para valorar si el ajuste es adecuado se calcula la fracción de la varianza total explicada por 
la ecuación. Esta es 
 
𝑅2 =
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (�̂�)
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌)
=
𝑉(�̂�0 + �̂�1𝑋)
𝑆𝑌
2 
 
R2 es conocido como coeficiente de determinación, y se encuentra en el intervalo (0,1). 
Valores altos de R2 señalan que la ecuación ajustada es una buena representación de la 
relación existente entre Y y X. 
 
Note que: 
 
I. En este modelo R2 es igual al coeficiente de correlación entre las variables. 
II. 1− R2 indica el porcentaje de la variación que es explicada por el modelo de 
regresión ajustado. 
III. En muchas ocasiones se expresa este coeficiente como un por ciento. O sea se reporta 
100R2. 
 
Los datos pueden ser generados por varios modelos alternativos. El modelo más popular es 
el llamado modelo en el que se asume que: 
 
 i) X no es una variable aleatoria. 
 
 ii) Para cada valor xi de X existe una variable aleatoria. Y|X =xi cuya media está 
dada por el modelo. 
13 
 
 
 iii) Todas las variables Y|X=xi son normales, independientes y con igual varianza. 
 
Esto es ejemplificado en el siguiente gráfico. 
 
 
Gráfico de una Recta de regresión bajo el Modelo 
Note que la distribución es la misma excepto respecto a la esperanza 
Asumimos que para cada valor de X, Y no está determinada, sino que 
E(Y|X)=B0 +B1X=|X 
Ejemplo. Medimos el nivel de contaminación de un lago y el uso de detergentes en una 
barriada que desagua en este. El ajuste de un modelo de regresión simple nos dice que: 
 Nivel de contaminación al no usar detergentes (X=0). 
 B1 incremento de la contaminación al aumentar 1 %Kg del detergente. 
 Si B1= 0 entonces el uso de detergentes no afecta el nivel de contaminación. (las 
variables son independientes). 
 B1 indica que están correlacionadas y su magnitud mide la fuerza y sentido de 
esta asociación mutua 
Al considerar que tenemos una muestra de n pares {(Xi ,Yi), i=1,...,n} y dada la aleatoriedad 
de cada Y, generada por la de  , la teoría estadística permite: 
 i) Estimar los coeficientes (parámetros) Bj, j=0,1, del modelo usando 
14 
 
XBY
n
X
B
n
Y
B
S
S
n
n
X
X
n
n
Y
Y
n
X
X
B
n
i i
n
i i
X
XY
n
i i
i
n
i
n
i i
i
n
i i
i
n
i
1
1
1
1
0
22
1
1
11
1
1
ˆˆˆ
1
1ˆ










































 
 ii) Ajustar un modelo de predicción 
�̂� = 0B̂ + 1B̂ X 
Esta es la llamada ecuación de regresión lineal simple la que es utilizada para hacer 
predicciones de Y 
 iii) Estimar los errores (residuos) 
𝜀̂ = 𝑟 = 𝑌 − �̂� 
y su varianza 2 mediante 
𝑆𝑒
2 =
∑ �̂�𝑖
2𝑛
𝑖=1
𝑛−2
=
𝑆𝑦
2−�̂�1𝑆𝑥
2
𝑛−2
, 
1
2
1
1
2












 

n
n
Y
Y
S
n
i i
i
n
i
Y 
 iv) Deducir que �̂� es un estimador insesgado de Y. 
La varianza de las variables Y|xi es: 
 
  
















2
11
2
102
0
/
/1
)|(
nXX
nXX
n
XYV
i
n
ii
n
i
i
n
i 
A su raíz cuadrada se le llama error estándar de la estimación. 
 v) Derivar que �̂�0 es un estimador insesgado de B0 y su varianza es: 
15 
 
 
  















2
11
2
12
0
/
/1
)ˆ(
nXX
nX
n
BV
i
n
ii
n
i
i
n
i 
 vi) Derivar que �̂�1 es un estimador insesgado de B1 y su varianza es: 
  










 
2
11
2
1
/
1
)ˆ(
nXX
BV
i
n
ii
n
i
 
 vii) Demostrar que, como la distribución muestral de los errores  es una N(0, 2) y 
que la distribución de Y es una N(B0 +B1X, 2) . 
 viii) Derivar que los estimadores máximos verosímiles, dado que la función de 
verosimilitud es 
𝑀𝑎𝑥(𝐵0,𝐵1)𝐿(𝐵0, 𝐵1, 𝜎
2) =∏(
𝜎2
2𝜋
)
−1/2
𝑒𝑥𝑝 {
(𝑌𝑖 − 𝐵0 + 𝐵1𝑋𝑖)
2
𝜎2
}
𝑛
𝑖=1
 
Esto determina las mismas expresiones que las obtenidas al utilizar el criterio Mínimo 
cuadrático y deducir que poseen una distribución normal. 
Este último resultado permite hacer tanto la estimación por intervalos como el hacer pruebas 
de hipótesis usando los estimadores presentados. Para ello se utiliza la distribución T(n-2) y 
se trabaja con el estadístico normalizado usando la estimación del error típico. 
Los intervalos de confianza son: 
 
 
 
 
 
𝐼𝐶(𝐸(𝑌|𝑋)) = 







x
e
x
e
nS
S
ntB
nS
S
ntBBIC )2/1,2(ˆ,)2/1,2(ˆ)ˆ( 111 

























2
2
02
2
00 1
1
)2/1,2(ˆ,1
1
)2/1,2(ˆ)ˆ(
x
e
x
e
S
X
n
SntB
S
X
n
SntBBIC 
16 
 
= (�̂� − )2/1,2( nt Se √
1
𝑛
(1 +
(𝑋𝑖 − �̅�)2
𝑆𝑥2
) , �̂�
+ )2/1,2( nt Se √
1
𝑛
(1 +
(𝑋𝑖 − �̅�)2
𝑆𝑥2
)) 
Note que IC(E(YX)) es de amplitud mínima si XX i

 . 
Para hacer una predicción el investigador fija un valor X*(Min{X1,…,XN}, Max{X1,…,XN}) 
y la respuesta será 
𝑌∗ = 0B̂ + B̂1X
∗
 
Entonces se puede hacer una estimación por intervalos de confianza para una predicción 
utilizando 
𝐼𝐶(𝐸(𝑌∗|𝑋∗)) = 
= (𝑌∗ − )2/1,2( nt Se √
1
𝑛
(1 +
(𝑋∗ − �̅�)
2
𝑆𝑥2
) , 𝑌∗
+ )2/1,2( nt Se √
1
𝑛
(1 +
(𝑋∗ − �̅�)
2
𝑆𝑥2
) ) 
De estos resultados se derivan las pruebas de hipótesisnecesarias. 
Note que al hacer la prueba de hipótesis B1=0 se está haciendo el contraste del coeficiente de 
correlación =0 pues el �̂�1 = 𝑟
𝑆𝑥
𝑆𝑌
. 
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y. por tanto se 
distribuyen como una Ji-cuadrado. Se puede establecer entonces el siguiente resultado: 
𝑆𝑒
2
𝜎2
 𝑠𝑒 𝑑𝑖𝑡𝑟𝑖𝑏𝑢𝑦𝑒 
2
)2( n 
 
Ejemplo. Se quiere estudiar la asociación entre los niveles de contaminación de un río y la 
producción de leche en una vaquería que desagua en este. En una muestra de días se utilizan 
distintos niveles de detergentes usados en la limpieza de la vaquería midiéndose el 
incremento de la polución. 
17 
 
 Variable X: Kg. De detergente usado (variable no aleatoria) 
 Variable Y: incremento en la contaminación 
X Y 
1,8 100 
2,2 98 
3,5 110 
4,0 110 
4,3 112 
5,0 120 
La "salida" de un paquete estadístico es: 
 Coeficientes(a) 
 
Modelo 
Coef. no 
estand. 
Coeficientes 
estand. t Sig. 
Intervalo de 
confianza 
para B al 95% 
 B 
Error 
típ. Beta 
Límite 
inferior 
Límite 
superior B 
Error 
típ. 
1 (Constante) -
12,511 
2,122 -5,895 ,004 
-
18,403 
-
6,619 
 kgDet ,147 ,020 ,967 7,546 ,002 ,093 ,202 
a Variable dependiente: nivelcont 
 
Entonces 
�̂� = −12,511 + 0,147𝑋 
 Resumen del modelo(b) 
Modelo R R cuadrado 
R cuadrado 
corregida 
Error típ. de la 
estimación 
 
Cambio en R 
cuadrado 
Cambio en 
F gl1 gl2 
1 ,967(a) ,934 ,918 ,35575 
a Variables predictoras: (Constante), kgDet 
b Variable dependiente: nivelcont 
 
Esta ecuación es muy buena pues R2>0,90. 
 
Sin embargo esta lleva a contradicción pues si no se añade detergente el nivel de 
contaminación aparece como negativo. Hay alguna deficiencia en el experimento. Una 
solución es establecer restricciones en el problema de optimización. En este caso sería B00. 
Este es un problema complicado pues uno de optimización con restricciones. 
18 
 
 
La estimación del B1 es distinta de 0, esto indica que hay correlación entre X y Y. Sin 
embargo la normalidad es dudable y si son aceptables las inferencias. 
En Microsoft Excel, se tiene la función LINEST que permite hacer el ajuste de la 
regresión lineal. Esta brinda la opción de calcular Intervalos de Confianza. 
 
Ejemplo. Se mide el número de horas en que estuvo funcionando una maquinaria y la 
producción total sin defectos. Los datos obtenidos fueron 
2,00 15,50 
4,50 29,00 
5,00 32,50 
7,00 36,50 
2,00 18,50 
3,50 22,00 
6,00 30,00 
11,00 45,50 
,50 10,50 
8,50 42,00 
Usando SPSS se obtuvo como salida 
Resumen del modelo(b) 
 
Model
o R 
R 
cuadrado 
R 
cuadrado 
corregida 
Error típ. de 
la 
estimación 
1 ,976(a) ,953 ,947 2,64030 
a Variables predictoras: (Constante), horas 
b Variable dependiente: prod.total 
 
Por lo que el modelo representa un muy buen ajuste. 
 
Coeficientes(a) 
 
http://en.wikipedia.org/wiki/Microsoft_Excel
19 
 
Model
o 
Coeficientes no 
estandarizados 
Coeficiente
s 
estandariza
dos t Sig. 
Intervalo de 
confianza para B al 
95% 
 B Error típ. Beta 
Límite 
inferior 
Límite 
superior 
1 (Constante
) 
10,846 1,597 6,791 ,000 7,163 14,530 
 horas 3,471 ,272 ,976 12,745 ,000 2,843 4,099 ,976 
a Variable dependiente: prod.total 
 
De ahí que 
�̂� = 10,846 + 3,471𝑋 
 
Además se acepta que todos los coeficientes son distintos de cero. 
 
20 
 
 
Por otra parte 
𝑆𝑒 = √
∑ 𝜀�̂�
2𝑛
𝑖=1
𝑛 − 2
= 4,72 
Si queremos usar un valor redondeado y fijamos B1=3 . Hacemos la prueba de hipótesis 
usando el hecho de que el estadístico de prueba es 
𝑡𝐵1 =
�̂�1 − 3
𝑆𝑒
√(n − 2)SX
2/n =
3,471 − 3
4,72
√8 × 376/10 = 1,73 
 
Regresión Residuo tipificado
210-1-2
F
re
c
u
e
n
c
ia
3
2
1
0
Histograma
Variable dependiente: prod.total
Media =0
Desviación típica =0,943
N =10
21 
 
Como t(8 0,95)=2,896 acepto esta hipótesis. Podemos entonces usar El IC para B1 es 
 
 
 Por tanto la normalidad también es dudable y las inferencias no pueden ser aceptadas como 
concluyentes. 
Otro ejemplo es el que presentamos a continuación 
Ejemplo. Se evalúa en varias fábricas el número de mantenimientos preventivos planificados 
y el por ciento de artículos producidos con defectos. Los resultados fueron 
% de artículos defectuosos Numero de MPP 
1,00 9,00 
1,00 11,00 
2,00 9,00 
3,00 6,00 
5,00 6,00 
6,00 8,00 
7,00 7,00 
10,00 4,00 
12,00 4,00 
12,00 2,00 
13,00 1,00 
Usando SPSS se obtiene 
 Resumen del modelo(b) 
 
Model
o R 
R 
cuadrado 
R 
cuadrado 
corregida 
Error típ. de 
la 
estimación 
1 ,914(a) ,835 ,816 1,96838 
a Variables predictoras: (Constante), MPP 
b Variable dependiente: porRECH 
 
El modelo no es muy bueno, pero puede ser aceptado pues R2>0,8. 
 
 Coeficientes(a) 
 
Model
o 
Coeficientes 
no 
Coeficientes 
estandarizado
s t Sig. 
Intervalo de 
confianza para B 
al 95% 
 10,484,2
3768
10
72,4306,2471,3,
3768
10
72,4306,2471,3)ˆ( 1 











BIC
22 
 
estandarizado
s 
 B 
Error 
típ. Beta 
Límite 
inferio
r 
Límite 
superio
r 
1 (Constante
) 
14,75
0 
1,355 
10,88
8 
,00
0 
11,686 17,815 
 MPP 
-1,347 ,200 -,914 -6,737 
,00
0 
-1,799 -,895 
a Variable dependiente: porRECH 
 
Entonces 
 
�̂� = 14,75 − 1,347𝑋 
 
Como el histograma se ajusta a la correspondiente normal las inferencias son válidas. 
 
Cuando las hipótesis fijadas anteriormente no son aceptables no podemos utilizar los 
métodos asociados a la normalidad. Al ajustar la recta de regresión a las observaciones 
tennos una medida que no depende de estas hipótesis. La valoración del ajuste es 
realizado utilizando el coeficiente de determinación. Este es definido de varias formas: 
𝑅2 =
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (�̂�)
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌)
=
𝑆𝐶𝑟
𝑆𝐶𝑇
=
𝑉(�̂�0 + �̂�1𝑋)
𝑆𝑌
2 =
∑ (�̂�𝑖 − 𝑌𝑖)
2𝑛
𝑖=1
∑ (𝑌𝑖 − �̅�)2
𝑛
𝑖=1
= 
Regresión Residuo tipificado
210-1-2
F
re
c
u
e
n
c
ia
3
2
1
0
Histograma
Variable dependiente: porRECH
Media =-8,12E-16
Desviación típica =0,949
N =11
 815,17686,11)ˆ( 1 BIC  895,0799,1)ˆ( 0 BIC
23 
 
 
Como SCr < SCT, se verifica que 0 < R2 < 1. Este coeficiente mide la proporción de 
variabilidad total de la variable dependiente Y explicada por el modelo de regresión. 
Note que el coeficiente de correlación lineal muestral (o coeficiente de correlación de 
Pearson) ya definido se relaciona con R2 mediante: 
𝑟 =
∑ (𝑌𝑖 − �̅�)
𝑛
𝑖=1 (𝑋𝑖 − �̅�)
√∑ (𝑌𝑖 − �̅�)2
𝑛
𝑖=1 ∑ (𝑋𝑖 − �̅�)2
𝑛
𝑖=1
=
𝑆𝑋𝑌
𝑆𝑋𝑆𝑌
= 𝑠𝑖𝑔𝑛𝑜(𝑏1)𝑅 
 
Para el ajuste de la regresión lineal pueden hallarse "applets" en los enlaces: 
 
http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html 
http://www.unalmed.edu.co/~estadist/regression/regresion.htm 
 http://kitchen.stat.vt.edu/~sundar/java/applets/ 
 http://e-stadistica.bio.ucm.es/mod_regresion/regresion_applet.html 
 http://www.stat.wvu.edu/SRS/Modules/ 
 
5. Regresión Múltiple 
 
5.1 El modelo 
Si hay más de una variable relacionada con la variable dependiente Y. Así, si estudiamos 
los efectos del escurrimiento de las aguas hacia una laguna y el área fertilizad (en 
logaritmo) podemos querer modelar la salinización en términos del logaritmo de esta. Sean 
Y= Logssp=Logaritmo salinización porcentual 
X1=LAT=Lavado adiabático temporal 
 X2=Logarea=Logaritmo del área fertilizada. 
Podemos ajustar los modelos de regresión simple: 
 
Y = ß0 + ß1X1 + 
Y = ß0 + ß2X2 + 
 
Las variables independientes pueden estar ocultando algunos efectos. En realidad la 
ganancia en salinización es función de las dos variables y analizar los modelos por separado 
puede ser no lo mejor. Podemos ajustar una regresión y ver si este es un buen ajuste y 
después hacerlo con la otra variable. Es recomendable analizar el efecto combinadode 
ambas. Por ejemplo podemos tener un gráfico como el de la figura siguiente 
http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html
24 
 
 
Figura: Plano para el caso Y=LOGSP, X1=LAT, X2=LOGAREA 
Modelemos el caso en que tenemos un vector de variables independientes 
𝑋 = (𝑋1, … , 𝑋𝑝)
𝑇 ∈ 𝑝
 
Ahora hay p+1 parámetros (𝐵1, … , 𝐵𝑝, 𝜎
2) = (�⃗� , 𝜎2) 
Usaremos indistintamente 𝐴 = 𝐴 podemos denotar la función de regresión como 
η(X;B) = XT B. 
Se define como error ahora a 
(B)=Y-XTB 
Se supone que existe un valor del espacio paramétrico B* , (= espacio paramétrico), 
tal que E[(B*)Xª=(X1ª ,…,Xp ª)]=0 lo que significa que (X1ª ,…,Xp ª) permite hacer la mejor 
predicción. O sea que la mejor predicción de Y será 
η(Xª;ª ) = XªT* 
 
Las formulaciones van a ser muy variadas. El investigador debe escoger . Son posibles 
diversas representaciones para un mismo conjunto de variables explicativas. 
 
Si el número de variables explicativas es p>2 la representación gráfica no es factible. El 
modelo de regresión se generaliza del problema de hallar la mejor recta a determinar el 
mejor hiperplano que ajusta a los datos en el espacio correspondiente. 
http://en.wikipedia.org/wiki/Errors_and_residuals_in_statistics
25 
 
La idea de los Mínimos Cuadráticos es que la ecuación de regresión lineal se obtiene como 
una proyección ortogonal. Tomemos F como el espacio L2 de las variables aleatorias 
cuyos cuadrados poseen una integral finita (el caso más general es considerar la medida de 
Lebesgue) y G como el subespacio lineal de F generado por YF donde (𝑋1, … , 𝑋𝑝) ∈ 𝐹
𝑝. 
Entonces η es una proyección ortogonal de Y sobre G. 
 
Tenemos que 𝐸(𝑌|𝑋 ) =  pero 𝑌 ↦ 𝐸(𝑌|𝑋 ) es una proyección, por lo que η proyecta Y 
sobre G. Construyendo el producto escalar en F: si las variables aleatorios , y 〈𝑋 , 𝑌〉2 ≔
𝐸(𝑋 , 𝑌). Este es un producto escalar pues si ‖𝑋 ‖
2
2
= 0. entonces si X = 0, si usamos la medida 
de Lebesgue esto debe cumplirse solo “ casi dondequiera”, siendo ‖𝑋 ‖
2
2
: = 〈𝑋 , 𝑋 〉2 la norma 
correspondiente a este. Todo esto permite deducir que  es ortogonal para cualquier Xj y esto 
lleva a que sea válido en todo el subespacio G. Así se implica que η es una proyección de Y 
sobre G que es, ortogonal respecto al producto escalar predefinido. Podemos entonces fijar 
que 
(𝑋 , �⃗� ) = 𝑚𝑖𝑛𝑓∈𝐺‖𝑌 − 𝑓‖2
2 
 
Tomando una muestra de tamaño n>p, tenemos n observaciones de Xj, junto con el vector 
Y=Ynx1 de n observaciones de Y. La estimación corresponde a la de los coeficientes de esa 
proyección ortogonal. Sea el producto escalar para cada par de muestras de tamaño n, 
�⃗⃗� , �⃗� ∈ 𝐹𝑛 de variables aleatorias U y V. definamos 〈�⃗⃗� , �⃗� 〉2 ≔ �⃗⃗� �⃗� . El producto ‖∙‖ ≔ √〈∙,∙〉 
está definido en Fn y no en F. 
La linealidad de B como función de Y, es expresada por su estructura y es la razón para 
llamar el modelo de regresión lineal. Otros modelos serán no lineales y recurrirán del uso 
de métodos non lineales para hacer la estimación. 
Un primer objetivo en el estudio del modelo lineal es el de estimar los parámetros del mismo. 
De la expresión matemática del modelo de regresión lineal general se deduce que para i = 
1,2,...,n se verifica la siguiente igualdad 
𝑌 =∑𝐵𝑗𝑋𝑗 + 𝜀
𝑘
𝑗=0
 
donde  es el error aleatorio o perturbación de la observación i-ésima. 
 
Para este modelo los estimadores mínimos cuadráticos se obtienen al resolver el problema de 
optimización 
(𝑏0, … , 𝑏𝑘) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0,…,𝐵𝑘) {𝑄 =∑
𝑛
𝑖=1
(𝑌𝑖 −∑𝐵𝑗𝑋𝑗
𝑘
𝑗=0
)
2
} 
Para ello se aplica la diferenciación parcial de Q respecto a cada parámetro obteniendo el 
sistema 
𝜕𝑄
𝜕𝐵𝑗
= 0, 𝑗 = 0,1, … , 𝑘 
26 
 
Estas ecuaciones determinan las p=k+1 ecuaciones normales 
 
∑
𝑛
𝑖=1
𝑌𝑖 = 𝑛𝑏0 + 𝑏1∑𝑋𝑖1 
𝑛
𝑖=1
+⋯+ 𝑏𝑘∑𝑋𝑖𝑘 
𝑛
𝑖=1
 
∑
𝑛
𝑖=1
𝑋𝑖1𝑌𝑖 = 𝑏0∑𝑋𝑖1 
𝑛
𝑖=1
+ 𝑏1∑𝑋𝑖1
2 + 𝑏2∑𝑋𝑖1𝑋𝑖2 + 
𝑛
𝑖=1
𝑛
𝑖=1
…+ 𝑏𝑘∑𝑋𝑖1𝑋𝑖𝑘 
𝑛
𝑖=1
 
∑
𝑛
𝑖=1
𝑋𝑖2𝑌𝑖 = 𝑏0∑𝑋𝑖2 
𝑛
𝑖=1
+ 𝑏1∑𝑋𝑖1𝑋𝑖2 + 𝑏2∑𝑋𝑖2
2 + 
𝑛
𝑖=1
𝑛
𝑖=1
…+ 𝑏𝑘∑𝑋𝑖𝑘 𝑋𝑖2 
𝑛
𝑖=1
 
⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮ 
∑
𝑛
𝑖=1
𝑋𝑖𝑘𝑌𝑖 = 𝑏0∑𝑋𝑖𝑘 
𝑛
𝑖=1
+ 𝑏1∑𝑋𝑖1𝑋𝑖𝑘 +⋯+ 𝑏2∑𝑋𝑖2𝑋𝑖𝑘 + 
𝑛
𝑖=1
𝑛
𝑖=1
…+ 𝑏𝑘∑ 𝑋𝑖𝑘
2 
𝑛
𝑖=1
 
 
Su solución provee el estimador mínimo cuadrático (𝑏0, … , 𝑏𝑘). 
 
Es conveniente describir el modelo de regresión lineal general en forma matricial cuando 
tenemos n observaciones. Fijando p=k+1 y Xj1=1 para todo i=-1,..,n, el modelo de regresión 
lineal p-variado se puede escribir como: 
 
(
𝑌1
𝑌2
⋮
𝑌𝑛
) = (
1 𝑋11 𝑋12⋯𝑋1𝑘
1 𝑋21 𝑋22⋯𝑋2𝑘
⋮ ⋮ ⋮ ⋮⋮ ⋮
1 𝑋𝑛1 𝑋𝑛2⋯𝑋𝑛𝑘
)(
𝐵0
𝐵1
⋮
𝐵𝑘
)+ (
1
2
⋮
𝑛
) 
 
Denotaremos los vectores y matrices envueltos en este modelo como 
(
𝑌1
𝑌2
⋮
𝑌𝑛
) = �⃗� (
1 𝑋11 𝑋12⋯𝑋1𝑘
1 𝑋21 𝑋22⋯𝑋2𝑘
⋮ ⋮ ⋮ ⋮⋮ ⋮
1 𝑋𝑛1 𝑋𝑛2⋯𝑋𝑛𝑘
) = 𝑋𝑛×𝑘, (
1
2
⋮
𝑛
) = 𝜀 
 
 Y es el vector n-dimensional (matriz n × 1) de la variable respuesta o dependiente 
generado por el fenómeno. 
 
 Xnxk es llamada matriz de diseño. La fila i-ésima de la matriz se corresponde con los 
datos de las k variables independientes en la observación i-ésima, i = 1,2,..., n 
determinando el vector Xi+. La columna j-ésima de la matriz X+j se corresponde con 
los datos de las variables regresora k-ésima Xj, j = 1,2,...,k. La información acerca de 
la variable j -ésima en la muestra está contenida en este vector. 
 B es el vector p=k+1 dimensional, (matriz p× 1) de la ecuación de regresión. 
 es el vector n-dimensional (matriz n × 1) de las perturbaciones aleatorias. 
Que la matriz 𝑋𝑛×𝑝(𝑋𝑛×𝑝
𝑇 �⃗� )𝑋𝑛×𝑝
𝑇 sea simétrica e idempotente es incesantemente 
requerida tanto para la computación como para probar los teoremas. 
http://en.wikipedia.org/wiki/Idempotent
27 
 
Determinar el lugar geométrico que caracteriza la función de regresión es el problema de 
minimización de la suma de los residuos al cuadrado. O sea resolver el problema mínimo 
cuadrático. Este es 
�⃗� ̂ = �⃗� = 𝐴𝑟𝑔𝑀𝑖𝑛�⃗� ‖𝑋𝑛×𝑝�⃗� − �⃗� ‖
2
 
Por tanto 
〈𝑋𝑛×𝑝, 𝑏⃗⃗ ⃗〉 = 𝑋𝑛×𝑝
𝑇 (𝑋𝑛×𝑝�⃗� − �⃗� ) = 0 
 
Lo que nos lleva al sistema de ecuaciones normales 
𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝�⃗� = 𝑋𝑛×𝑝
𝑇 �⃗� 
 
Si 𝑋𝑛×𝑝 es de rango completo ( 𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝 es inversible) y podremos computar el estimador 
explícitamente al calcular: 
�⃗� = (𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝)
−1
(𝑋𝑛×𝑝
𝑇 �⃗� ) 
Note que 
𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝 =
(
 
 
 
 
 
 
 
 𝑛 ∑𝑋𝑖1 
𝑛
𝑖=1
∑𝑋𝑖2⋯
𝑛
𝑖=1
 ∑𝑋𝑖𝑘
𝑛
𝑖=1
 
∑𝑋𝑖1 ∑𝑋𝑖𝑡
2 ∑𝑋𝑖1𝑋𝑖2⋯
𝑛
𝑖=1
∑𝑋𝑖1𝑋𝑖𝑘
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
 ⋮ ⋮ ⋯ ⋮ 
∑𝑋𝑖𝑘 ∑𝑋𝑖𝑘𝑋𝑖1 ∑𝑋𝑖𝑘𝑋𝑖2⋯
𝑛
𝑖=1
∑𝑋𝑖𝑘
2
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1 )
 
 
 
 
 
 
 
𝑘×𝑘
 
𝑋𝑛×𝑝
𝑇 �⃗� =
(
 
 
 
 
 
 
 
∑𝑌𝑖 
𝑛
𝑖=1
∑𝑋𝑖1𝑌𝑖 
𝑛
𝑖=1
⋮
∑𝑋𝑖𝑘𝑌𝑖 
𝑛
𝑖=1 )
 
 
 
 
 
 
 
(𝑘+1)×1
 
 
Pueden obtenerse los estimadores utilizando álgebra matricial. Planteando: 
𝑚𝑖𝑛(𝜀 𝑇𝜀 ) = 𝑚𝑖𝑛 [(�⃗� − 𝑋𝑛×𝑝�⃗� ̂ )
𝑇
(�⃗� − 𝑋𝑛×𝑝�⃗� ̂ )]
= 𝑚𝑖𝑛 (�⃗� 𝑇�⃗� − �⃗� 𝑇𝑋𝑛×𝑝�⃗� ̂ − �⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 �⃗� + �⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝�⃗� ̂ ) 
 
Los productos matriciales �⃗� 𝑇𝑋𝑛×𝑝�⃗� ̂ y �⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 �⃗� son iguales a un escalar y, dado que el 
orden de cada una de ellas es (1x1), tenemos dos expresiones equivalentes del mismo escalar. 
Así que 
𝑚𝑖𝑛(𝜀 𝑇𝜀 ) = 𝑚𝑖𝑛 (�⃗� 𝑇�⃗� − 2�⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 �⃗� + �⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝�⃗� ̂ ) 
28 
 
 
 
Para obtener la minimización hallamos las derivadas parciales 
𝜕 (�⃗� 𝑇�⃗� − 2�⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 �⃗� + �⃗� ̂𝑇𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝�⃗� ̂ )
𝜕�⃗� ̂
= 0⃗ 
Y 
−𝑋𝑛×𝑝
𝑇 �⃗� + 𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝�⃗� ̂ = 0⃗Por lo que temeos que la expresión matricial del estimador mínimo cuadrático es 
�⃗� ̂ = (𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝)
−1
𝑋𝑛×𝑝
𝑇 �⃗� 
 
5.2.Estimador Máximo Verosímil 
 
Si la distribución es normal podemos utilizar el método máximo verosímil. En nuestro caso, 
se asume que los errores tienen una distribución normal estándar. Entonces 
 
O sea que cada error tiene por distribución 𝜀𝑖~𝑁(0, 𝜎
2) por lo que 
𝑓(𝜀𝑖) =
1
√2𝜋
𝑒𝑥𝑝 (−
𝜀𝑖
2
2𝜎2
) 
Dada la independencia 
𝜀 ~𝑁(0⃗ , 𝜎2𝐼) 
El logaritmo de la función de verosimilitud es 
 𝐿∗ = 𝐿𝑛(𝐿) = −
𝑛
2
ln(2𝜋) −
𝑛
2
ln 𝜎2 −
1
2𝜎2
(�⃗� − 𝑋𝑛×𝑝�⃗� ̂ )
𝑇
(�⃗� − 𝑋𝑛×𝑝�⃗� ̂ ) 
 
Como se ve maximizar L* respecto al vector de parámetros implica minimizar el último de 
los sumandos en la expresión anterior. Este el mismo problema de optimación que s platea 
obtener el estimador de Mínimos Cuadrados Ordinarios revisado anteriormente. Así que el 
estimador Máximo Verosímil coincide con el estimador de Mínimos Cuadrados Ordinarios. 
 
Dada la normalidad asintótica de los estimadores máximo verosímiles se deduce la normilla 
de �⃗� ̂ . Las inferencias s e harán utilizando este hecho. 
 
La respuesta estimada por el modelo para la i-ésima observación es: 
ippiii XbXbXbbY  22110
ˆ 
 
El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha. Así que el 
residuo para la observación i , i-ésimo residuo, es 
iii YYe ˆ ,  
ippiiii XbXbXbbYe  22110 . 
 
Ejemplo. Un modelo bivariado es presentado en la figura siguiente 
29 
 
 
Figura. El plano del modelo 
 
Al tomar la muestra se genera el plano muestral: 
 
 
Figura. El plano del ajuste del modelo 
Note que 𝐼 𝑛 − 𝑋𝑛×𝑘(𝑋𝑛×𝑘
𝑇 �⃗� )𝑋𝑛×𝑘
𝑇 es simétrica e idempotente de rango n − p-1. Este es 
un ejemplo del uso de los resultado referidos al teorema espectral de dimensión finita del 
álgebra lineal que establece que “ cualquier matriz real simétrica M puede ser 
diagonalizada mediante una matriz ortogonal G”, (GTMG es diagonal). Si M es además 
idempotente, entonces las entradas en la diagonal de GTMG son números idempotentes. 
X
2
Y
X
1
E(Y) = 
0
 + 
1
X
1i
 + 
2
X
2i

0
Y
i
 = 
0
 + 
1
X
1i
 + 
2
X
2i 
+ 
i
Response
Plane
(X
1i
,X
2i
)
(Observed Y)

i
Modelo de Regresión Múltiple 
Un modelo con dos variables 
observación 
Plano de 
respuesta 
Y 
El modelo bivariado muestral 
X
2
Y
X
1

0
Y
i
 = 
0
 + 
1
X
1i
 + 
2
X
2i 
+ 
i
Response
Plane
(X
1i
,X
2i
)
(Observed Y)
^

i
Y
i
 = 
0
 + 
1
X
1i
 + 
2
X
2i
^^^
^
^
^^^
^
observado 
http://en.wikipedia.org/wiki/Spectral_theorem
http://en.wikipedia.org/wiki/Linear_algebra
http://en.wikipedia.org/wiki/Linear_algebra
http://en.wikipedia.org/wiki/Orthogonal_matrix
30 
 
Un caso particular es el caso polinomial. Un ejemplo es el polinomio de tercer grado 
Y = AX 3 + BX 2 + CX + D +  
Este puede ser expresado como: 
y = ß0 + ß1X1+ ß2X2 + ß3X3 +  
Donde X1 = X1, X2 = X2, X3 = X3 . O sea que la regresión polinomial no es sino un caso 
particular de la regresión múltiple. 
Podemos buscar una superficie a partir de un polinomio de un cierto grado de las variables. 
Siguiendo el ejemplo con dos variables podemos buscar el ajuste para el modelo de 
segundo grado 
 
Y = ß0 + ß1X1+ ß2X1
2 + ß3X2 + ß4X2
2 + ß4X1X2 +  
Su gráfico será del tipo representado en la figura siguiente. 
 
Figura.: Superficie para el ajuste de Y = ß0 + ß1X1+ ß2X1
2 + ß3X2 + ß4X2
2 + ß4X1X2 + 
Y=LOGSP, X1=LAT, X2=LOGAREA 
31 
 
 
En ocasiones es conveniente trabajar con el modelo centrado por la media de la varible de 
respuesta. En este caso se tendrá 
𝑌𝑖 − �̅� =∑𝐵𝑗(𝑋𝑖𝑗 − �̅�𝑗) + 𝜀𝑖
𝑝
𝑗=1
 
 
Ejemplo Estamos interesados en evaluar el por ciento de piezas defectuosas producidos por 
una maquinaría. Deseamos evaluar el efecto del espesor de las planchas acero s (mm) y la 
dureza del metal C. Tenemos los datos siguientes: 
%PD S C 
1 1 2 
 4 8 8 
 1 3 1 
 3 5 7 
 2 6 4 
 4 10 6 
El software que implemente la estimación B nos dará una salida como la siguiente 
• 
• Parameter Estimates 
Parameter Standard T for H0: 
• Variable DF Estimate Error Param=0 Prob>|T| 
• INTERCEP 1 0.0640 0.2599 0.246 0.8214 
• S 1 0.2049 0.0588 3.656 0.0399 
• C 1 0.2805 0.0686 4.089 0.0264 
• 
Entonces 
�̂� = 0,064 + 0,2049𝑆 + 0,2805𝐶 
 
En el estudio del modelo de regresión lineal generalmente se asume que se verifican las 
siguientes hipótesis: 
1. La función de regresión es lineal, 𝐸(𝑌𝑖|𝑋𝑖1, 𝑋𝑖2, … , 𝑋𝑖𝑘) = ∑ 𝐵𝑗𝑋𝑖𝑗
𝑝
𝑗=1 , 𝑖 = 1, . . , 𝑛. 
2. La varianza es constante (homocedasticidad), 𝑉(𝑌𝑖|𝑋𝑖1, 𝑋𝑖2, … , 𝑋𝑖𝑘) = 𝜎
2 , 𝑖 =
1, . . , 𝑛 
3. La distribución de cada Yi es normal, 𝑌𝑖~𝑁(∑ 𝐵𝑗𝑋𝑖𝑗
𝑝
𝑗=1 , 𝜎2) 
4. Las observaciones Yi son independientes 
5. n > k + 1=p. En caso contrario no se dispone de información suficiente para estimar 
los parámetros del modelo. 
6. Las variables regresoras X1,X2,...,Xk son linealmente independientes. 
Las primeras 4 condiciones pueden ser fijadas en términos de los errores como sigue 
1´. 𝐸(𝑖) = 0, 𝑖 = 1, . . , 𝑛. 
32 
 
2´. 𝑉(𝐸(𝑖)) = 𝜎2 , 𝑖 = 1, . . , 𝑛 
3´. 𝜀𝑖~𝑁(∑ 𝐵𝑗𝑋𝑖𝑗
𝑝
𝑗=1 , 𝜎2) 
4´. Los errores i son independientes 
En el caso de normalidad la condición 5 establece la independencia en cuyo caso Cov(Yi, 
Yi*)=0 para todo ii* o sea 
𝐶𝑜𝑣(𝜀𝑖, 𝜀𝑖∗) = {
𝜎2 𝑠𝑖 𝑖 = 𝑖∗
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
 
 
El siguiente teorema justifica la utilización de los estimadores mínimos cuadráticos, ya que, 
en este contexto, indica que estos estimadores son los “mejores” (los más eficaces) dentro de 
la clase de los estimadores lineales insesgados. 
 
Teorema (Gauss-Markov). En la estimación del modelo de regresión lineal si entre las 
perturbaciones (errores) no son correlacionados, son de igual varianza e independientes de 
las variables explicativas. Entonces los estimadores mínimo-cuadráticos son “óptimos” o de 
mínima varianza dentro de la clase de los estimadores centrados que son funciones lineales 
de las observaciones, Yi.  
 
5.3. Un estudio geométrico 
 
En el estudio del modelo de regresión lineal múltiple con k variables regresoras, a partir de 
una muestra de n observaciones, se considera el subespacio vectorial de n generado por 
los vectores (columnas de la matriz de diseño). 
 
El problema de ajustar un modelo de regresión lineal múltiple se puede interpretar 
geométricamente como el problema de encontrar en este subespacio vectorial  el vector 
(vector de predicciones) lo más próximo al vector de la variable respuesta. Esto es, encontrar 
el vector que minimice el módulo del vector de residuos la resolución de este problema viene 
dada por el vector proyección ortogonal del vector en el subespacio considerado. 
 
Tomemos ahora la representación 
�⃗� ̂ = 𝐻�⃗� 
 
La proyección de Y en el subespacio se ilustra en la figura siguiente 
33 
 
 
Figura La proyección 𝐻�⃗� 
H se denomina la matriz de proyección (hat matrix) en el subespacio . 
 
Dado que 
�⃗� ̂ = 𝑋𝑛×𝑘�⃗� = 𝑋𝑛×𝑘(𝑋𝑛×𝑘
𝑇 𝑋𝑛×𝑘)
−1(𝑋𝑛×𝑘
𝑇 �⃗� ) = 𝐻�⃗� 
 
Por tanto la matriz de proyección sobre el subespacio  es 
𝐻 = 𝑋𝑛×𝑘(𝑋𝑛×𝑘
𝑇 𝑋𝑛×𝑘)
−1𝑋𝑛×𝑘
𝑇 
 
Trabajando con resultados del Algebra Lineal se deriva que: 
 
1. El estimador por mínimos cuadrados b viene dado por las coordenadas del vector de 
predicciones �⃗� ̂ en el subespacio  respecto a la base {1⃗ , 𝑋 +1, … , 𝑋 +𝑘} . 
2. Los residuos verifican las siguientes p=k+1 restricciones 𝜀 1⃗ y 𝜀 𝑋 +𝑗, 𝑗 = 1,…, 𝑘 . 
Es decir 
∑ 𝜀𝑖 = 0, ∑ 𝜀𝑖𝑋𝑖𝑗 = 0, 𝑗 = 1,… , 𝑘
𝑛
𝑖=1
𝑛
𝑖=1 
Note que esto fija que los residuos tienen n –(k-1)=n-p grados de libertad 
 
34 
 
El estimador del vector B por el método de mínimos cuadrados es b. Bajo la hipótesis de 
normalidad, la función de verosimilitud lleva a una expresión igual a la minimizada por el 
método de los mínimos cuadráticos. 
5.4. Inferencias 
Si se cumple la normalidad de los errores el estimador b verifica las siguientes propiedades: 
1. El estimador b es insesgado (E(b)=B) 
2. La matriz de varianzas-covarianzas del estimador b es 
𝑄 =
(
 
 
𝜎11 𝜎12 ⋯𝜎1𝑘 
𝜎21 𝜎22 ⋯𝜎2
⋮ ⋮ ⋯ ⋮
𝜎𝑘1 𝜎𝑘2 ⋯𝜎𝑘𝑘)
 
 
, 𝜎𝑡ℎ = 𝐸(𝑏𝑡 − 𝐵𝑡)(𝑏ℎ − 𝐵ℎ) 
siendo qii el elemento i-ésimo de la matriz (𝑋𝑛×𝑘
𝑇 𝑋𝑛×𝑘)
−1. 
3. El estimador b tiene distribución normal multivariada de orden k + 1, 
(�⃗� ~𝑁𝑘+1(�⃗� , 𝜎
2(𝑋𝑛×𝑘
𝑇 𝑋𝑛×𝑘)
−1)). 
4. El estimador bi del parámetro Bi tiene la distribución normal 𝑏𝑖~𝑁 (𝐵𝑖, 𝜎
2𝑞𝑖𝑖), 𝑖 =
0,1, … , 𝑘. 
Note que: 
i. Los estimadores bt y bh no están incorrelacionados pues en general th 
0. por tanto, no son independientes. 
ii. Podemos expresar ii =2qii =V(bi) donde qii es el correspondiente 
elemento de (𝑋𝑛×𝑘
𝑇 𝑋𝑛×𝑘)
−1 
En el modelo el parámetro Bj indica la influencia de la j-ésima variable regresora en la 
variable respuesta Y. representa el incremento que se produce en la variable respuesta por 
un crecimiento unitario en la variable regresora. Aceptar que el valor de Bj =0 lleva a 
aceptar que la correspondiente Xj no está relacionada linealmente con la variable Y. 
Una hipótesis básica del modelo es que 𝑉(𝐸(𝑖)) = 𝜎2 , 𝑖 = 1, . . , 𝑛. Este parámetro 
tambien debe ser estimado. El estimador es la llamada varianza residual. Esta es la suma 
de residuos al cuadrado dividida por sus grados de libertad. Es decir que 
𝑆𝑟
2 =
∑ (𝑌𝑖−�̂�𝑖)
2𝑛
𝑖=1
𝑛−(𝑘+1)
=
�⃗� 𝑇�⃗� −�⃗� �⃗� 
𝑛−𝑘−1
= 
Este es insesgado. Como solo dos reales lo son (0 y 1) 𝐼 𝑛 − 𝑋𝑛×𝑘(𝑋𝑛×𝑘
𝑇 �⃗� )𝑋𝑛×𝑘
𝑇 después 
de diagonalizada tiene n −k-1 “ceros” y p “unos” en su diagonal. En esto se basa la 
35 
 
prueba de que la suma de cuadrado de los residuos tiene una distribución Chi-cuadrado 
con n-k-1 grados de libertad. 
La significación estadística de Bi se obtiene simplemente calculando el cociente entre el 
coeficiente estimado y su error típico 
𝑏𝑖/ 𝑆𝑟√𝑞𝑖𝑖 
 
 Comparándole con el cuantil correspondiente de una distribución T de Student se establece 
si Bi=0 o no. 
 
Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes 
de hipótesis para los coeficientes de regresión involucran expresiones matriciales y 
distribuciones multivariantes que complican notablemente las operaciones, por lo que en la 
práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes 
paquetes estadísticos. 
Definición. El coeficiente de correlación parcial entre Xi y Xj es una medida de la relación 
lineal entre las variables Xi y Xj una vez que se ha eliminado en ambas variables los efectos 
debidos al resto de las variables del conjunto 
. 
Al coeficiente de correlación parcial entre X1 y X2 se le denotará por r12·3...k·  
Para ilustrar tomemos 
 
y el coeficiente de correlación parcial entre las variables X1 y X2. Para ello, se procede de la 
siguiente forma, 
1. Se calcula la regresión lineal de X1 respecto de X3 y X4 
𝑋1 = 𝐴0 + 𝐴3𝑋3 + 𝐴4𝑋4 + 𝜀1.34 
 
𝜀1.34 = Residuo del ajuste lineal realizado. 
2. Se calcula la regresión lineal de X2 respecto de X3 y X4 
𝑋2 = 𝐵0 + 𝐵3𝑋3 + 𝐵4𝑋4 + 𝜀2.34 
𝜀2.34 = Residuo del ajuste lineal realizado. 
36 
 
3. El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de correlación 
lineal simple entre las variables 𝜀1.34 𝑦 𝜀2.34, 
 
Note que el coeficiente de correlación lineal se define siempre para un conjunto de 
variables y solo si este se especifica se puede interpretar. 
Ahora si trabajamos con el conjunto de variables 
 
podremos relacionar los coeficientes de correlación lineal simple y el coeficiente de 
correlación parcial mediante 
 
el coeficiente de correlación parcial entre la variable independiente Y con una variable 
regresora Xi , controlando el resto de variables regresoras. Para ello se utiliza el estadístico 
del contraste individual de la t-Student respecto a la variable Xi y que se definió 
anteriormente como 
t̂i =
bi
√V(𝑏i)
=
𝑏i
Sr√qii
 
 
obteniéndose la siguiente relación 
 
donde 
C = 
es el conjunto de índices de todas las variables regresoras excepto el índice i. 
Estas fórmulas ponen de manifiesto la complejidad numérica para determinar los 
estimadores. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse 
(tal es el caso de las singulares). En dos situaciones no se puede hacer los cálculos si: 
1. El número de observaciones, es menor o igual que el número de variables 
independientes. 
2. Una variable independiente es combinación lineal de otra(s) o es constante 
(colinealidad). 
37 
 
Note que, manteniendo las hipótesis de independencia, homocedasticidad, normalidad y 
linealidad, se calculan expresiones para el error estándar de cada coeficiente estimado. Esto 
per mite desarrollar expresiones para los intervalos de confianza y el contraste de hipótesis 
de modo análogo al caso de la regresión simple. 
El uso de la Máxima Verosimilitud plantea un problema de optimización que puede ser muy 
complejo excepto cuando los errores se distribuyen N(0,2 ). En este caso se obtienen los 
mismos resultados. Son muchos los libros en los que se pueden encontrar el desarrollo 
teóricos de dichas expresiones utilizando tanto el método de los mínimos cuadráticos como 
el asociado al criterio de Máxima Verosimilitud. 
Por ello es necesario utilizar algún software para hacerlos 
Ejemplo Dada una muestra hipotética de 20 motores han recogido los siguientes datos: gasto 
de combustible (en mg/100 ml), edad del motor (en años), consumo aceite (en 
mgr/semestrales) y nivel de uso (cuantificado como 0: poco, 1: normal y 2: intenso), realizar 
el ajuste a un modelo lineal entre el gasto en combustible y las demás variables. 
Los resultados de la salida del SPSS son 
Resumen del modelo(b) 
 
Model
o R 
R 
cuadrado 
R 
cuadrado 
corregida 
Error típ. de 
la 
estimación 
1 ,701(a) ,492 ,390 58,41817 
a Variables predictoras: (Constante), uso, aceite, edad 
b Variable dependiente: gcomb 
 
Este modelo puede ser evaluado como aceptable dado que el valor de R2
 0,5 puede 
considerarse moderado. En general son buenos modelos con valores cercanos a 1. 
 
 Coeficientes(a) 
 
Model
o 
Coeficientes no 
estandarizados 
Coeficientes 
estandarizad
os t Sig. 
Intervalo de 
confianza para 
B al 95% 
 B 
Error 
típ. Beta 
Límite 
inferio
r 
Límite 
superio
r B 
Error 
típ. 
1 (Constant
e) 
108,02
3 
62,17
1 
 1,738 ,103 
-
24,49
2 
240,53
8 
 edad 2,319 1,061 ,464 2,186 ,045 ,058 4,581 
 aceite 2,250 ,726 ,597 3,099 ,007 ,703 3,798 
38 
 
 uso 
-9,677 
20,26
3 
-,098 -,478 ,640 
-
52,86
7 
33,513 
a Variable dependiente: gcomb 
El modelo es entonces 
�̂� = 108,023 + 2,319𝐸 + 2,25𝐴 − 9,677𝑈 . 
En este modelo B3 puede ser considerado no importante. El hecho de que dude que B00 da 
una idea de que el modelo debe ser mejorado. 
El gráfico de Y nos da una idea de que la distribución es normal 
 
Regresión Residuo tipificado
210-1-2
F
re
c
u
e
n
c
ia
5
4
3
2
1
0
Histograma
Variable dependiente: gcomb
Media =2,75E-16
Desviación típica =0,913
N =19
39 
 
 
De la distribución de bi se ha deducido su normalidad por lo que sigue una N(0,1) entonces 
𝑏𝑖 − 𝐵 𝑖
𝑆𝑟√𝑞𝑖𝑖
~𝑇(𝑛 − 𝑘 − 1) 
Cuando la normalidad no es aceptable se utiliza el coeficientede determinación para 
valorar la conveniencia de aceptar o no la ecuación ajustada. Este no depende de la 
distribución. Por ello en los ejemplos podemos aceptar o no el ajuste usando R2. 
 
6. VALIDEZ DEL MODELO 
6.1. Análisis de varianza 
 
Si tuviéramos el modelo 
𝑌 = 𝐵0 + 𝐵1𝑋1 + 𝐵2𝑋2 + 𝜀 
 
Es de interés establecer si es válido que H0: β1 = 0 and β2 = 0 comparándole con H1: β1 ≠ 0 
o β2 ≠ 0 (o ambos). 
 
En general nos enfrentamos con q2 restricciones. Una solución simple es aplicar la prueba 
T-Student 2 veces pero en tal caso la probabilidad de rechazar la hipótesis nula es mayor 
que . Una solución es acudir a una prueba del tipo Bonferroni. Otra es aplicar una prueba 
T-Student para los dos parámetros al mismo tiempo. Dada la normalidad podremos usar el 
estadístico F dado por 
𝐹 =
𝑡1
2 + 𝑡2
2 − 2�̂�
𝑡1 ,𝑡2
𝑡1 𝑡2
2 (1 − �̂�
𝑡1 ,𝑡2
2 )
 
Este será grande si 𝑡1
2 𝑜 𝑡2
2 lo son. 
 
Para la regresión con k variables regresoras tenemos 
 
cero es no un menos al:
0:
1
10
j
k
H
H

 
 
 
La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la variable 
respuesta. La hipótesis alternativa dice que al menos una de las variables explicatorias está 
linealmente relacionada con la respuesta. Ahora, el test F de la regresión múltiple docima la 
hipótesis de que todos los coeficientes de regresión (con excepción del intercepto) son cero, 
40 
 
hipótesis que no es de mucho interés. En el problema de regresión múltiple interesan más las 
hipótesis individuales para cada parámetro asociado a cada variable explicatoria. 
 
Para hallar la descomposición usemos la igualdad 
�⃗� 𝑇�⃗� = ∑𝑌𝑖
2 = (�⃗� ∓ �⃗̂� )
𝑇
(�⃗� ∓ �⃗̂� ) = (�⃗̂� + 𝜀 ̂ )
𝑇
(�⃗̂� + 𝜀 ̂ ) = �⃗̂� 𝑇 �⃗̂� +
𝑛
𝑖=1
𝜀 ̂𝑇𝜀 ̂ 
Al centrar esta expresión tenemos que 
∑(𝑌𝑖 − �̅�)
2
𝑛
𝑖=1
= �⃗� 𝑇�⃗� − 𝑛�̅�2 = �⃗̂� 𝑇 �⃗̂� − 𝑛�̅�2 + 𝜀 ̂𝑇𝜀 ̂ = ∑(𝑌�̂� − �̅�)
2
+∑𝜀�̂�
2
𝑛
𝑖=1
𝑛
𝑖=1
 
 
De esta igualdad se construye la tabla análisis de varianza. De esta tabla se deduce el contraste 
acerca de la influencia “conjunta” del modelo de regresión en la variable respuesta. 
 
Denotamos 
𝑆𝐶𝑇 =∑(𝑌𝑖 − �̅�)
2
𝑛
𝑖=1
= �⃗� 𝑇�⃗� − 𝑛�̅�2 
𝑆𝐶𝑅𝑒𝑔 =∑(𝑌�̂� − �̅�)
2
= �⃗� 𝑇𝑋𝑛×𝑝
𝑇 �⃗� 
𝑛
𝑖=1
− 𝑛�̅�2 
𝑆𝐶𝑅 =∑𝜀�̂�
2
𝑛
𝑖=1
= �⃗̂� 𝑇 �⃗̂� − �⃗� 𝑇𝑋𝑛×𝑝
𝑇 �⃗� 
 
Tabla de análisis de varianza para la regresión 
Fuente de 
variación 
Grados de 
libertad 
SC= 
Suma de 
Cuadrados 
CM= 
Cuadrados Medios F 
 
 
Modelo 
 
 
k-1 
 
 
𝑆𝐶𝑅𝑒𝑔 
 
 
𝑀𝐶𝑅𝑒𝑔
=
𝑆𝐶𝑅𝑒𝑔
𝑘 − 1
 
 𝑀𝐶𝑅𝑒𝑔
𝑀𝐶𝑅
 
 
 
Residuo 
 
n-k 
𝑆𝐶𝑅 
𝑀𝐶𝑅 =
𝑆𝐶𝑅
𝑛 − 𝑘
 
 
 
Total 
 
1n 
SCT 
 
El estimador de la varianza 2 de nuestro modelo está dado por la media cuadrática 
residual 
41 
 
𝑆𝑟
2 =
𝑆𝐶𝑅
𝑛 − 𝑘
 
 
El contraste individual de los coeficientes de la regresión se puede contrastar usando la T-
Student. La influencia individual de una variable se deduce de la distribución del estimador 
pero también puede hacerse por medio de una tabla análisis de varianza, al analizar el 
incremento que se produce en la suma de cuadrados explicada por el modelo, al introducir 
esta variable. Para ello se ajusta el modelo de regresión completo, con las k variables 
regresoras y se calcula la suma de cuadrados explicada por el modelo y se ajusta el modelo 
de regresión donde se excluye la variable Xi. 
 
Note que podemos particionar la matriz de diseño como X = {X1, … . , Xq} donde esta 
corresponde a la representación 
B⃗⃗ = (B⃗⃗ 1, … , B⃗⃗ q )
T
 
,
 X
h 
tiene las filas correspondientes a B⃗⃗ h, h = 1,… , q . Entonces 
E(Y⃗⃗ ) = XB⃗⃗ = ∑XhB⃗⃗ h
q
h=1
 
Bajo la hipótesis de ortogonalidad de las Xh 
�⃗� 𝑇𝑋𝑛×𝑝
𝑇 �⃗� = ∑𝑏ℎ
𝑇 𝑋ℎ
𝑇�⃗� 
𝑞
ℎ=1
 
Es claro que 
SCR(Bj|B0, B1, … , Bj−1, Bj+1, … , Bk) 
Esta es el incremento en la suma de cuadrados al incluir como última variable Xj. La 
significación de aporte es realizada al computar la prueba F-parcial 
F(Bj|B0, B1, … , Bj−1, Bj+1, … , Bk) =
SCReg(Bj|B0, B1, … , Bj−1, Bj+1, … , Bk)
CMr
~𝐹(1, 𝑛 − 𝑘) 
 
Este contraste proporciona exactamente el mismo resultado que el contraste individual de la 
t, ambos dan origen al mismo p- valor. Este método puede utilizarse para hace pruebas de 
hipótesis para un subconjunto de variables 
 
Ejemplo. Se hace el ajuste del modelo de regresión 𝑌 = 𝐵0 + ∑ 𝐵𝑗𝑋𝑗 + 𝜀
2
𝑗=1 y se obtiene a 
partir de los datos la salida 
 
Análisis De la regresión 
La ecuación Producción 
=1566,1+7,6vitaminas+8,6pienso 
 
Predictor Coef. Error standard T P-
valor 
Constante 1566,1 61,6 25,4 0,000 
Vitaminas 7,6 0,6 12,3 0,000 
42 
 
Pienso 8,6 2,4 3,52 0,004 
S=16,4 R-cuad=0,927 R-cuad 
ajust=0,916 
 
 
Análisis de La varianza 
Fuente 
 
G.l. Sc Mc F 
Regresión 
Residuos 2 44157 22079 82,5 
Vitaminas 13 3479 268 
Total 15 47636 
 
Fuente G.L. SC-
SECUENCIAL 
 
Vitaminas 1 40841 
Pienso 1 3316 
Veamos el aporte de la variable X2 
𝑆𝐶𝑅(𝐵2|𝐵0, 𝐵1) = 𝑆𝐶𝑅 − 𝑆𝐶𝑅(𝐵1, 𝐵2|𝐵0 ) = 𝑆𝐶𝑅 − 𝑆𝐶𝑅(𝐵0, 𝐵1) 
Ajustando Y = B0 + B1X1 + ε tenemos 
Análisis de la regresión 
La ecuación Producción 
=1652,4+7,6vitaminas 
 
predictor Coef. Error 
standard 
T p-
valor 
 
Constante 1652,4 63,6 26,0 0,000 
Vitaminas 7,6 0,6 12,7 0,000 
S=16,4 R-Cuad=0,903 R-cuad 
ajust=0,887 
 
 
Análisis de varianza 
Fuente 
 
 
Regresión g.l. SC MC F p-
valor 
Residuos 1 40840,8 40840,8 82,5 0,000 
Vitaminas 14 6795,5 268 485,4 
Total 15 47636,3 
 
Fuente g.l. SC-
secuencial 
 
Vitaminas 1 40841 
Pienso 1 3316 
Como 
𝑆𝐶𝑅(𝐵2|𝐵0, 𝐵1 ) = 44157,0 − 40840,8 = 3316,2 
43 
 
𝐹(𝐵2|𝐵0, 𝐵1) =
𝑆𝐶𝑅𝑒𝑔(𝐵𝑗|𝐵0, 𝐵1)
𝐶𝑀𝑟
=
3316,2
268
≅ 12,37~𝐹(1,13) 
 
Así que al ser 𝐹(0,99; 1,13) = 8,86 su aporte es significativamente grande. 
 
En un modelo de regresión múltiple al hacer los contrastes sobre la influencia individual de 
cada una de las variables regresoras y el contraste sobre la influencia conjunta del modelo de 
regresión ajustado, pueden darse las siguientes situaciones: 
 
 Caso 1. Todas las variables regresoras influyen significativamente en la respuesta. 
 
Caso 2. Solo influyen algunas variables regresoras. 
 
Caso 3. Las variables regresoras son muy dependientes entre sí. Entonces, conjuntamente 
influyen, pero los coeficientes individuales tienen varianzas muy altas en relación con el 
valor de las estimaciones que son no significativas. 
 
Caso 4. Las variables son muy dependientes pero con una fuerte correlación negativa. Es 
poco frecuente. 
 
Caso 6. Ninguna de las variables regresoras influye en la variable respuesta o la influencia 
no la detecta la muestra tomada. 
 
6.2. Introducción de variables indicadoras en la regresión 
 
Las variables explicativas que hemos considerado hasta este momento se midieron sobre 
una escala cuantitativa. Sin embargo, el análisis de regresión puede generalizarse para 
incluir asimismo, variables explicativas cualitativas. Estas van a establecer categorías 
disjuntas. Por ejemplo, podríamos preguntarnos si el nivel de estrés puede ser explicado 
además por la dependencia del sexo. Como las variables explicativas en un análisis de 
regresión deben tomar valores numéricos les asignamos 1 a los hombres y 0 a las mujeres. 
Estos números no representan mediciones reales; sencillamente identifican las categorías 
de la variable aleatoria nominal. Estos valores no tienen significado cuantitativo, una 
variable explicativa de esta clase se denomina variable indicadora o variable muda (en 
inglés dummy variable). 
 
Podemos modelar esto al considera que la variable, X1 determina una ecuación para cada 
categoría. Una para la situación 1 (localización A), y otra para la situación 2 (localizaciónB). 
 
Ejemplo. Sea una ecuación de regresión con dos categorías y el modelo 
 
donde 
𝑋1 = 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑒𝑠𝑡𝑟𝑒𝑠, 𝑋2 = {
1 𝑠𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒
0 𝑠𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟
 
Un gráfico será como el dado en la figura siguiente 
 
  )1)(()1( 2132112220 XXXXXXY
44 
 
 
  
En general podemos definir variables cualitativas al tener c clases al determinaran c-1 
variables indicadoras. 
 
Ejemplo. Se analiza el efecto de los trastornos del dormir en el estrés de trabajadores en 
una acería. Se toma en consideración el sexo. Los datos obtenidos son: 
stress dormir tr. sexo
17 151 1
26 92 1
21 175 1
30 31 1
22 104 1
0 277 1
12 210 1
19 120 1
4 290 1
16 238 0
28 164 0
15 272 0
11 295 0
38 68 0
31 85 0
21 224 0
20 166 0
13 305 0
30 124 0
14 246 0 
La salida del software es 
45 
 
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.95993655
R Square 0.92147818
Adjusted R Square 0.91224031
Standard Error 2.78630562
Observations 20
ANOVA
df SS MS F Significance F
Regression 2 1548.820517 774.4103 99.75016 4.04966E-10
Residual 17 131.979483 7.763499
Total 19 1680.8
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 33.8698658 1.562588138 21.67549 8E-14 30.57308841 37.16664321
dormir trastornos -0.10608882 0.007799653 -13.6017 1.45E-10 -0.122544675 -0.089632969
sexo 8.76797549 1.286421264 6.815789 3.01E-06 6.053860079 11.4820909 
La regresión ajustada a la respuesta del sexo es: 
21 77.81061.87.33 XXY 

 
Por tanto para los hombres tenemos: 
11061.)77.887.33(ˆ XY  
Por su parte para las mujeres es 
11061.87.33ˆ XY  .  
 
 
6.3. El problema de la colinealidad 
Entre los supuestos a verificar está la presencia de colinealidad. La colinealidad ocurre 
cuando dos o más variables independientes se relacionan entre sí, dando la misma 
información sobre la variación observada en Y. Esta se en la inestabilidad de los coeficientes 
estimados y sus errores estándares o excesivamente grandes. Este es uno de los problemas 
más complejos en el análisis de regresión. Si en un modelo de Regresión Lineal Múltiple 
alguna variable independiente es combinación lineal de otras, el modelo no tiene solución, 
pues en tal caso, la matriz 𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝 es singular por ser su determinante es cero. Este 
fenómeno se conoce con el nombre se le denomina colinealidad. Si hay colinealidad 
tenderemos que para alguna variable Xj existe otra Xt, tj, tales que Xj=B1+B2Xt, B1 y B2 
constantes. 
Definición. Se dice que existe colinealidad en un modelo de regresión múltiple si alguno de 
los coeficientes de correlación simple o múltiple entre algunas de las variables 
independientes es 1. 
En las ciencias no experimentales como son los de índole económica, sociológica y a veces 
las biológicas las variables independientes tienden a estar correlacionadas entre ellas. 
46 
 
 No debe existir multicolinealidad entre las variables explicativas o independientes. La 
multicolinealidad originalmente implicaba la existencia de una relación lineal "perfecta o 
exacta" entre algunas o la totalidad de las variables independientes de un modelo de 
regresión. En la actualidad el término multicolinealidad se utiliza en un sentido más amplio 
para incluir el caso de multicolinealidad perfecta, así como también aquella situación en 
donde las variables X están intercorrelacionadas, pero no en forma perfecta. Por ello se usa 
el termino de cuasi-colinealidad, en la que algunos coeficientes de correlación simple o 
múltiple son altos, su módulo cercano a 1. En tales casos |𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝| ≅ 0 . Esto crea 
problemas con la precisión en la estimación de los coeficientes, debido a problemas de índole 
numérica. 
Note que como la matriz de varianzas de los estimadores es proporcional 𝑋𝑛×𝑝
𝑇 𝑋𝑛×𝑝 si hay 
colinealidad los errores estándar de los coeficientes son muy grandes 
Los efectos de la colinealidad son: 
 A medida que aumenta la colinealidad, las varianzas de los coeficientes de regresión 
aumentan y cuando es perfecta son infinitas. 
 Debido a que los errores de los coeficientes de regresión no son eficientes, los 
intervalos de confianza para los parámetros, tienden a ser más amplios y la 
información muestral puede ser compatible con un conjunto diverso de hipótesis, 
por consiguiente, la posibilidad de aceptar una hipótesis falsa aumenta. 
 En casos de alta colinealidad se tiende a aceptar con mayor facilidad la hipótesis 
nula de respecto a que un coeficiente de regresión sea cero. 
 En casos de alta colinealidad es posible encontrar, que uno o más coeficientes de 
regresión sean individualmente no significativos en términos estadísticos con base 
en la prueba t. No obstante, puede sr que el R2 sea alto. 
Son indicadores de multicolinealidad: 
 
 Hay correlaciones significativas entre pares de variables independientes en el modelo. 
 Pruebas t no significativas para los parámetros  individuales cuando la prueba F 
global del modelo es significativa. 
 Hay signos opuestos (a lo esperado) en los parámetros estimados. 
La existencia de colinealidad es fácilmente detectada pues todos los algoritmos la detectan y 
reportan que no pueden hace la estimación. Esta es medida por varios estadísticos. Lo más 
popular está asociado a los coeficientes de determinación de cada variable independiente. 
Esto es calcular 
 
Otros estadísticos son el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos 
como 
47 
 
 
Una regla aceptada es que hay problemas de colinealidad si 
𝐹𝐼𝑉𝑗 > 10𝑅𝑗
2 > 0,90 
Esto es que Tj< 0,1. 
Otro estadístico que permite detectar la significación de la colinealidad es: 
𝐹𝑖 =
(𝑛 − 𝑘)𝑅𝑋1,…,,𝑋𝑖−1,𝑋𝑖+1,…,𝑋𝑘
2
(𝑘 − 1)(1 − 𝑅𝑋1,…,,𝑋𝑖−1,𝑋𝑖+1,…,𝑋𝑘
2 )
~𝐹(𝑘 − 1, 𝑛 − 𝑘) 
 
𝑅𝑋1,…,,𝑋𝑖−1,𝑋𝑖+1,…,𝑋𝑘
2 es el coeficiente de determinación en la regresión de la variable Xi en las 
restantes variables independientes. Si Fi<F (1-, k-1, n-k), la variable Xi no es colineal con 
las restantes X; si es mayor, lo es colineal y debe eliminarse del modelo. Sin embargo al 
eliminar una variable del modelo podemos cometer el sesgo o error de especificación. 
 
Notas: 
 Puede existir colinealidad con FIV bajos, 
 Puede haber colinealidad que no impliquen a todas las variables independientes y 
que, por tanto, no son bien detectadas por FIV. 
 Para detectar colinealidad lo más adecuado es utilizar el llamado análisis de 
componentes principales de las variables independientes. 
Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de 
escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media) 
o, incluso, eliminar alguna de las variables colineales. 
En este mismo sentido hay que tener en cuenta que las variables producto introducidas para 
estudiar la interacción pueden dan lugar a problemas de colinealidad y no se recomienda, por 
lo tanto, que un modelo contenga muchos términos de interacción. 
Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe 
colinealidad exacta con el término independiente, y si una variable tiene varianza casi cero 
(toma valores muy próximos para todas las observaciones) existe casi-colinealidad. 
48 
 
Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para la variable, 
por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene una varianza 100 
veces menor que si se midiera en años. En este caso un cambio de escala puede evitar el 
problema de la colinealidad. 
También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de variables con 
varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sería el 
contrario, por ejemplo, podría dar lugar a problemas de precisión medir la edad en días. 
Ejemplo. Se estudia el contenido de alquitrán, nicotinay monóxido de carbono en una marca 
de cigarrillos que se va a poner a la venta. Sea 
Monóxido de carbono=Y 
Alquitrán= X1, 
Contenido de Nicotina= X2, 
Peso del Cigarrillo= X3 
El modelo considerado fue 
  3322110 XXXY 
 
Se hicieron 25 mediciones y las salidas de SPSS son: 
 
 
 
 
Por tanto el modelo puede considerarse adecuado 
Resumen del modelob
.958a .919 .907 1.4457
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predic toras: (Constante), Peso, Alquitrán, Nicotinaa. 
Variable dependiente: COb. 
ANOVAb
495.258 3 165.086 78.984 .000a
43.893 21 2.090
539.150 24
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predic toras: (Constante), Peso, Alquitrán, Nicotinaa. 
Variable dependiente: COb. 
49 
 
 
Parece que el alquitrán no es importante. 
 
CO
Alquitrán
Nicotina
Peso
 
Figura: Gráficos da las variables independientes vs Y 
 
Coeficientesa
3.202 3.462 .925 .365
.963 .242 1.151 3.974 .001
-2.632 3.901 -.197 -.675 .507
-.130 3.885 -.002 -.034 .974
(Constante)
Alquitrán
Nicotina
Peso
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: COa. 
50 
 
 
 
Las correlaciones son diferentes de cero es aceptable. Parece alquitrán y nicotina son 
colineales. 
La multicolinealidad, incluye únicamente las relaciones lineales entre las variables 
independientes y no considera las no lineales 
7. LA BONDAD DEL AJUSTE 
Cuando determinamos una ecuación de regresión debemos establecer cuan bueno es el 
ajuste. La primera medida analizada es R2 . Esta no depende de ninguna hipótesis. 
Bajo ciertas hipótesis podemos establecer si los modelos de la regresión son significativos. 
Las pruebas de significación, que se realizan bajo hipótesis de normalidad, utilizan las 
pruebas T-Student y F-Fisher para establecer la significación de los parámetros. Los 
resultados de estas pruebas son engañosos cuando alguna de las hipótesis que les soportan es 
violada. Así, si el tamaño de la muestra es pequeño, no es válido apoyarse en el Teorema 
Central del Límite. 
La significación estadística de cada variable regresora se obtiene al dividir el coeficiente 
estimado por su error típico. Este se compara con el cuantil correspondiente de una 
distribución T( n-k-1) grados de libertad. La bondad de ajuste del modelo se puede valorar 
el peso de la varianza residual calculando el coeficiente de determinación R2 . 
Cuando se satisfacen las hipótesis de normalidad independencia y homocedasticidad puede 
utilizarse una prueba F la partición de la suma de cuadrados total. 
Partiendo de que 𝑌𝑖 − �̅� = 𝑌𝑖 ∓ �̂�𝑖 − �̅� se obtiene que 
∑
𝑛
𝑖=1
(𝑌𝑖 − �̅�)
2 +∑
𝑛
𝑖=1
(𝑌𝑖 − �̂�𝑖)
2
+ 2∑
𝑛
𝑖=1
(𝑌𝑖 − �̂�𝑖)(�̂�𝑖 − �̅�) 
Corre lacionesa
1 .957** .926** .464*
. .000 .000 .019
.957** 1 .977** .491*
.000 . .000 .013
.926** .977** 1 .500*
.000 .000 . .011
.464* .491* .500* 1
.019 .013 .011 .
Correlación de Pearson
Sig. (bilateral)
Correlación de Pearson
Sig. (bilateral)
Correlación de Pearson
Sig. (bilateral)
Correlación de Pearson
Sig. (bilateral)
CO
Alquitrán
Nicotina
Peso
CO Alquitrán Nicotina Peso
La correlación es significativa al nivel 0,01 (bilateral).**. 
La correlación es significante al nivel 0,05 (bilateral).*. 
N por lista = 25a. 
51 
 
Dada la ortogonalidad de los vectores se tiene que los productos cruzados se anulan y se 
puede descomponer la variabilidad de la variable respuesta 
𝑆𝐶𝑇 =∑
𝑛
𝑖=1
(𝑌𝑖 − �̅�)
2 
en la variabilidad explicada por la regresión 
𝑆𝐶𝑟𝑒𝑔 =∑
𝑛
𝑖=1
(�̂�𝑖 − �̅�)
2
 
y en la variabilidad residual o no explicada por el modelo ajustado 
𝑆𝐶𝑟𝑒𝑠 =∑
𝑛
𝑖=1
(𝑌𝑖 − �̂�𝑖)
2
 
Esto nos permite escribir la relación 𝑆𝐶𝑇 = 𝑆𝐶𝑟𝑒𝑔 + 𝑆𝐶𝑟𝑒𝑠. 
Cada término (Suma de cuadrados) refleja la variabilidad medida por una cierta fuente. 
Podemos utilizar este hecho y hacer la tabla siguiente. (p=k+1): 
Tabla del modelo de regresión lineal 
Fuente de 
Variación 
 
Suma de 
Cuadrados 
 
Grados de 
Libertad 
Varianzas estimadas (Medias cuadráticas) 
Regresión SCreg p-1 MCreg=S2
reg = Screg/1 
Residual SCres n - p MCres=Sr
2 =SCres/(n-p) 
Total SCT n - 1 MCT=SY 
2 =SCT/n-1 
Si el modelo es aceptable para todo i=1,..,n, se espera que 𝑟𝑖 = 𝑌𝑖−�̂�𝑖 ≅ 0. Entonces se 
espera que SCres0. Dada las hipótesis probabilísticas esta suma de cuadrados se asocia a 
la distribución 2(n-p) se distribuye Chi cuadrado y SCreg a una 2(p-1) . De ahí que 
Freg=S2
reg/Sr
2 se distribuye F(p-1, n-p) bajo 
H0: el modelo es un buen ajuste  B1 =B2 -...=Bk =0 vs. H1:  j tal que Bj  
En este caso se compara la variabilidad explicada por el modelo contra residual. La prueba 
F unilateral (prueba de una cola) permite establecer si H0 es cierta. Si H0 es cierta ninguna 
de las variables independientes influye significativamente en la respuesta Y por lo que el 
modelo no es un buen ajuste. 
Este modelo genera el mismo resultado para las hipótesis 
52 
 
H0(j): Bj=0 vs. H1: Bj  
El contraste individual permitirá contrastar la influencia individual de la variable Xj se 
deduce de la distribución del estimador bj. 
El hecho de contar con muchas variables exige que además del contraste F global se realicen 
pruebas parciales para establecer si añadir nuevas variables lo mejoran. Así, sí se adiciona 
una nueva variable explicativa X*, la proporción de variabilidad residual que es explicada al 
introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada 
modelo: 
SCReg(X∗|X1, … , Xk) = SCReg(X1, … , Xk, X
∗) − SCReg(X1, … , Xk) 
Todas estas inferencias pueden hacerse a partir de la tabla de Análisis de varianza (análisis 
de varianza). Se hará uso de la suma de cuadrados explicada por el modelo al introducir la 
variable regresora Xj. Así que se ajusta el modelo de regresión completo, sin esa variable 
regresora. La suma de cuadrados explicada por el modelo es ajustada con las k-1 restantes. 
Es decir, se ajusta el modelo de regresión con k - 1 variables, exceptuando Xj, y se calcula 
la nueva suma de cuadrados explicada por este modelo (SCres(j)). La suma de cuadrados 
incrementada debida a Xj es 
∆𝑆𝐶𝑟𝑒𝑠(𝑗) = 𝑆𝐶𝑟𝑒𝑠 − 𝑆𝐶𝑟𝑒𝑠(𝑗)0 
En la práctica lo que se hace es la prueba 
H0(j): Bj=0 vs. H1: Bj  
Como estadístico de prueba se utiliza 
𝐹(𝑗) =
∆𝑆𝐶𝑟𝑒𝑠(𝑗)
𝑆𝐶𝑟𝑒𝑠
 
Si H0(j) se cumple F(j) sigue una distribución F(1, n-p ) 
 
Note que bajo H0(j) tenemos que SCres(j)0 por tanto el p - valor del contraste el siguiente 
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝐹(1, 𝑛 − 𝑝) ≥ 𝐹(𝑗)), 𝑗 = 1,… , 𝑘 
Este contraste proporciona el mismo resultado que el contraste individual de la T-Student. 
 
Este método presenta la ventaja adicional de poder utilizarse para contrastar la influencia de 
un subconjunto de m variables explicativas, con m < k. Sí el valor crítico calculado de la 
probabilidad (p-valor) de la prueba es grande (p> ) se acepta H0 . O sea que el modelo de 
regresión describe el comportamiento de Y. 
 
Veamos un ejemplo ilustrativo. 
 
Ejemplo. Análisis de un modelo de regresión bivariado 
53 
 
 
Resumen del modelo(b) 
 
Model
o R 
R 
cuadrado 
R 
cuadrado 
corregida 
Error típ. de 
la 
estimación 
1 ,609(a) ,370 ,351 9,08929 
a Variables predictoras: (Constante), indeMC, edad 
b Variable dependiente: eficiencia 
 
El modelo no es adecuado si consideramos que el coeficiente de determinación debe ser al 
menos igual a 0,75. 
 ANÁLISIS DE VARIANZA(b) 
 
Modelo Suma de cuadrados gl Media cuadrática F Sig. 
1 Regresión 3158,071 2 1579,035 19,113 ,000(a) 
Residual 5369,988 65 82,615 
Total 8528,059 67 
a Variables predictoras: (Constante), indeMC, edad 
b Variable dependiente: eficiencia 
 
Aceptando