Logo Studenta

De una data ajustada por mínimos cuadrados, ¿cuáles y cuántas mediciones se pueden excluir para obtener la misma recta de mínimos cuadrados?

💡 1 Respuesta

User badge image

Materiales de Estudio

¿Cuáles? En caso de excluir una debería ser una que caiga exactamente sobre la recta de mínimos cuadrados. Si hay varias de ese tipo a veces se pueden excluir varias. Nótese que caer exactamente sobre la recta es lo mismo que decir que su residuo es cero (el residuo no es otra cosa que la distancia de un punto a la recta) y esto se relaciona con la respuesta de

Nótese que este criterio para excluir muestras es a posteriori, en el sentido de que sólo sabes cuáles puedes excluir cuando ya has calculado la recta usando todas las muestras… y, por tanto, no permite ahorrar cálculos antes de calcular dicha recta.

Además, esas no son las únicas que puedes excluir en general. Es posible que 3 muestras que no tienen residuo 0 tengan una recta de regresión idéntica a otro conjunto de muestras disjunto con estas 3… y, por tanto, excluyendo las 3 de manera conjunta, a la vez, no excluyendo solo uno o solo dos, tendrías la misma recta usando el resto de muestras, es decir 3 puntos menos.

Con 2 no es posible porque 2 puntos definen una recta y esa recta de mínimos cuadrados pasaría por ambos puntos con residuo 0 y, por tanto, ambos puntos pertenecerían exactamente a la recta. Pero del mismo modo que dije 3 puntos, podrían ser 4 ó 5… o cualquier número de muestras mayor que 2. En el caso de 3 o más sí es posible que la recta no pase por ninguno de ellos.

¿Cuántas? El número que podrías excluir (en algunos casos) es como máximo n-2 siendo n el número de puntos / tuplas / muestras original. Si excluyeses n-1 te quedarías solo con 1 punto y por un punto pasan infinitas rectas, así que es imposible determinar unívocamente una sola recta de regresión. Y, claro, si excluyeses n te quedas sin ninguna muestra y tendrías 2 grados de libertad: espacio de soluciones de dimensión 2.

Ejemplo sencillo:

Tres puntos: (1, 1); (2, 2); (3, 3)

En este caso no es difícil observar que están alineados y, por tanto, cualquiera de los 3 puntos está en la recta y=x formada por los otros dos. Nótese que n=3 y es n-2=3–2=1 , es decir, que a lo sumo podrías excluir 1 punto.

Aunque en teoría excluyendo cualquiera de los 3 da la misma solución creo en caso de excluir uno sería más conveniente excluir el del medio, el (2, 2) porque se calcula como interpolación. Si se excluye el (1, 1) o el (3, 3) la obtención del que falta sería una extrapolación.


Añadiré algunas ideas.

Aunque a nivel teórico puedes obtener exactamente la misma recta excluyendo muestras, a nivel práctico no sirve. Ya dije que no sabes cuáles se pueden excluir hasta no haber calculado la recta… y, por tanto, no puedes ahorrarte cálculos. Pero, por otro lado, la recta de mínimos cuadrados o regresión en general, es una mejor aproximación que es un Estimador de Máxima Verosimilitud (Maximum Likelihood Estimation) asumiendo que los datos de partida tienen errores con distribución gaussiana. Esto significa que este modelo está especialmente indicado a datos con errores aleatorios, y, por tanto, sería mucha casualidad (muy improbable) que uno de los puntos caiga exactamente en la recta de regresión… a menos que la precisión con la que cuentas sea muy pequeña y el número de muestras sea pequeño tambíén, siendo ambos requisitos muy poco profesionales, muy "chapuceros" por así decirlo. Así que en la práctica si haces las cosas con una calidad mínimamente buena no te vas a encontrar datos que sobren, es decir, es muy improbable que ocurra. Lo que sí te vas a encontrar son datos menos "relevantes" o que aportan menos información. Pero, cuidado, porque un criterio típico para detectar errores humanos es buscar datos que no encajan, los más atípicos… que son los de mayor residuo. Y estos son los que habitualmente se excluyen. La suposición es que un residuo demasiado grande no es debido al azar de una distribución gaussiana, sería muy improbable que se apartase tantas sigmas y se supone que es debido a otra causa incompatible con la premisa de errores con distribución gaussiana.

Nota: la probabilidad es un concepto a futuro, mientras que la verosimilitud es un concepto sobre el pasado… Se asume un modelo y se trata de calcular unos parámetros de ese modelo. Esto tiene que ver con inferencia estadística y teorema de Bayes. A veces se usa la palabra "probabilidad" tanto para el futuro como para el pasado, pero para el pasado es más correcto hablar de verosimilitud (likelihood).

En Ciencia de Datos, como la se hace con software estadístico R, y también en Inteligencia Artificial, una primera fase de análisis suele ser la limpieza de los datos y no se suelen eliminar los datos más típicos, los que dan lugar a la misma recta o una muy parecida, sino justo lo contrario, los que es muy probable que sean incorrectos, o que sean casos atípicos muy poco comunes.

Otra respuesta levemente relacionada (ya que habla de MLE):

En otra respuesta hablé de Gauss, relacionado tanto con la distribución gaussiana que lleva su nombre como también con el método de mínimos cuadrados:

Y en otra respuesta hablé de polinomios, mencionando la diferencia entre regresión (mejor aproximación por mínimos cuadrados) y problemas de interpolación o extrapolación:

0
Dislike0

✏️ Responder

FlechasNegritoItálicoSubrayadaTachadoCitaCódigoLista numeradaLista con viñetasSuscritoSobreDisminuir la sangríaAumentar la sangríaColor de fuenteColor de fondoAlineaciónLimpiarInsertar el linkImagenFórmula

Para escribir su respuesta aquí, Ingresar o Crear una cuenta

User badge image

Otros materiales