¿Cuál es la diferencia entre el aprendizaje automático y la estadística?

Question

Materiales de Estudio · Answer

En Modelación estadística: las dos culturas[1] Leo Breiman señala que existen dos culturas en el uso de generar conclusiones a partir de datos: La primer cultura corresponde a la gente que proviene de la estadística. Los estadísticos asumen que los datos son generados por un modelo de datos estocástico. Por otro lado, la segunda cultura que corresponde a la gente que proviene de las ciencias de la computación, utiliza modelación algorítmica (aprendizaje automático) y trata el mecanismo de datos como desconocido.

Según Breiman, La comunidad estadística se ha limitado a utilizar casi exclusivamente modelos de datos. Este enfoque los ha llevado a una teoría irrelevante, conclusiones cuestionables, y aislado de trabajar en una amplia gama de problemas actuales muy interesantes. El modelado algorítmico, tanto en la teoría como en la práctica, se ha desarrollado rápidamente en campos fuera de la estadística. Puede utilizarse tanto en conjuntos de datos complejos, de gran tamaño así como como una alternativa más precisa e informativa al modelado de datos en conjuntos de datos más pequeños.

Ahora respondiendo a tu pregunta, me parece que la principal diferencia es la cultura del modelado algorítmico.

Modelado algorítmico

El análisis en esta cultura considera el interior de una caja como compleja y desconocida:

Imagen tomada de [1]

La metodología en esta cultura, se fundamenta en encontrar una función f(x)f(x), un algoritmo que opera en xx para predecir las respuestas de yy. En ciencias de la computación nos enfocamos más en las propiedades del algoritmo, que en las del modelo de datos. La única suposición hacemos en computación es que los datos son modelados independientes e idénticamente distribuidos a partir de una distribución multivariante.

Modelado estadístico

El análisis en esta cultura empieza suponiendo un modelo de datos estocástico dentro de una caja negra. Por ejemplo, un modelo de datos común, es que los datos son generados independientemente por extracciones de:

variables de respuesta = f(variables predictoras, ruido aleatorio, parámetros)

Los valores de los parámetros se estiman a partir de los datos y entonces el modelo se usa para predecir. Por lo tanto la caja negra se usa de esta forma:

Imagen tomada de [1]

En otras palabras los estadísticos asumen que un proceso es estocástico (muchos fenómenos no son aleatorios, simplemente son complejos), para luego suponer que el proceso sigue una distribución de probabilidad particular y luego es cuando ellos pueden estimar los parámetros de esa distribución de probabilidad. Este tipo de pensamiento o metodología, hace que la estadística sea cuestionable.

Por lo que entendí, lo que Breiman quiso decir fue que la estadística esta vieja. La estadística se vio rebasada por el poder de cómputo (algoritmos, estructuras de datos, paralelismo, complejidad, teoría de la computación, lógica, inteligencia artificial). Por ejemplo, ¿en algoritmos de clustering como evitas calcular componentes conexos para cada radio o épsilon posible?, la respuesta es con árboles recubridores minimos[2]. ¿Cómo evitas el árbol recubridor mínimo calcule vecindades repetidas?, con el algoritmo de Boruvka[3].

Notas al pie

[1] Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)

[2] Árbol recubridor mínimo - Wikipedia, la enciclopedia libre

[3] Algoritmo de Boruvka - Wikipedia, la enciclopedia libre

¿Cuál es la diferencia entre el aprendizaje automático y la estadística?

Estatisitica

Outros

💡 1 Respuesta

✏️ Responder

Otros materiales

Otros materiales