Logo Studenta

¿Por qué tantos fenómenos siguen una distribución normal?

💡 1 Respuesta

User badge image

Estudiando Tudo

Es una pregunta interesante, que rara vez es explorado a gran profundidad en los cursos introductorios de estadística. Después de todo, el hecho de que la distribución normal se vuelve ''normal'' tampoco es explorado en cursos más avanzados. Trataré de mantener mi razonamiento lo más intuitivo posible, de tal manera que todos puedan beneficiarse (o eso espero).

Primero, una persona común podría preguntarse "¿qué es una distribución normal?" Esta es una criatura matemática que también has conocido como "curva de campana" o tal vez como distribución gaussiana. El primer término se refiere a su apariencia visual (como en la gráfica de abajo), mientras que el segundo término se refiere a uno de los mayores descubrimientos por el brillante matemático Gauss.

La imagen de arriba representa algo llamado distribución estándar. El eje X representa los diferentes valores para una distribución de datos reales, y los valores del eje Y representan la razón de cambio en la probabilidad de que la variable aleatoria tome ese valor.

Toda la información que se distribuya de manera normal puede ser transformada a una distribución normal estándar, y por lo tanto puede ser analizada por un solo grupo de principios, que se aplican a esta imagen.

A la mitad se encuentra el valor medio, el que la gente se refiere generalmente como promedio. Los valores de la izquierda y derecha que se desvían del promedio, se expresan en una forma llamada desviaciones estándar.

Cómo se muestra en la figura, en un conjunto de datos distribuido normalmente, alrededor de dos tercios de todos los valores se encuentran a una desviación estándar de la media, con 95% que se encuentra a dos desviaciones estándar, y 99% cae entre tres desviaciones estándar. Por lo tanto. los conjuntos de datos distribuidos de manera normal tienen algunas propiedades muy predecible, lo cual es agradable.

También tiene la agradable propiedad de ser simétrica alrededor de la media, como se muestra en la figura. Estas dos propiedades son invaluables para los estadistas y científicos de datos, para predecir características del mundo real usando matemáticas y algoritmos.

Otra característica importante sobre la distribución normal, es que en muchas muchas situaciones en el mundo real pueden ser modeladas por una distribución normal, o al menos son muy cercanas a una distribución normal. De hecho, tiende a ser la distribución favorita, para la mayoría de los problemas. Algunos ejemplos son las alturas de una población aleatoria, la distribución del coeficiente intelectual o el patrón de que un tirador hace alrededor de un blanco.

Regresando a la pregunta original, ¿Por qué tantos fenómenos siguen una distribución normal? La explicación usual esta dada por otro nombre para la distribución normal, la cual es "distribución de error".

La idea es que los errores son generalmente aleatorios, de tal manera que es igualmente probable que vayan en una dirección que en otra. Por ejemplo, es igualmente probable que el tirador dispare un poco a la izquierda o un poco a la derecha incluso un poco arriba o abajo. Así, la gráfica de que tan lejos están los tiros del blanco reflejaran está tendencia aleatoria, y será simétrica alrededor de la promedio.

De igual manera con la altura e inteligencia — muchos genes (tal vez miles) contribuyen a con estos resultados, al igual que un gran numero de factores ambientales, como nutrición, enfermedades, bajos ingresos, etcétera

En cuanto a la "forma de campana" de la curva, que parece relacionarse a otros resultados de la probabilidad, el proceso de Bernoulli y el teorema central del limite.

Un proceso de Bernoulli es un proceso que solo tiene dos resultados éxito o fracaso, por ejemplo al lanzar una moneda.

El teorema central del limite nos dice que si tomas un gran número de muestras para cualquier distribución con varianza y media finita, y analizamos alguna estadística del grupo de muestras, eventualmente obtendrás una distribución normal. Puse ambos resultados juntos, en el experimento de abajo.

En este experimento, lancé una moneda 16 veces, y conté el número de caras. Mientras incrementaba el número de repeticiones del experimento, la distribución se parecía mas y mas a una distribución normal. Simulé esto en una hoja de Excel, obteniendo los siguientes resultados:

Como se puede ver la gráfica se transforma cada vez mas a una clásica "curva de campana" conforme el numero de intentos aumenta de 40 a 4000.

Ahora cuántos intentos son necesarios para "acercanos" a una distribución normal es debatible, pero para muchos propósitos estadísticos, es "suficientemente normal" con 100 intentos, como muchos métodos estadísticos y/o métodos de ciencia de datos son bastante robustos, en este aspecto.

Aquí hay una cita sobre un libro que tengo llamado "Los placeres de la probabilidad(The pleasures of probability)" por Richard Isaac:

"El teorema del limite central es usado algunas veces para dar una explicación teórica a la frecuencia con la cual distribuciones normales o aproximadamente normales describen los fenómenos naturales.

Se ha dicho que la altura de un adulto, por ejemplo, se debe a múltiples causas: genes, dieta, factores ambientales, etc. Estos múltiples factores se combinan de forma aproximadamente aditiva, de tal manera que el resultado es, por el teorema central del limite, cercano a una distribución normal.

Es verdad que todos estos factores que contribuyen a la altura de un individuo en general no se distribuyen de igual manera, ni son independientes, con lo cual la versión del teorema central del limite discutido aquí no puede aplicarse. Sin embargo hay generalizaciones al teorema central del limite que son válidas cuando se alejan de la suposición de estar idénticamente distribuidas, incluso de ser independientes. Estos resultados pueden proveer de una explicación razonable del porque muchos fenómenos se distribuyen de manera aproximadamente normal "

Vale la pena mencionar que hay muchas otras distribuciones que aparecen en datos reales. Una de los mas importantes es la ley de potencias, la cual describe muchas distribuciones de datos naturales (por ejemplo, la distribución de tamaños de cráteres en la luna) y sociales (por ejemplo, las ventas de boletos del cine o libros).

Es importante reconocer cuándo podemos asumir una distribución normal es válida. El autor del popular libro de economía "el cisne negro" lo explica a detalle, pero eso es otra historia (básicamente, los sucesos inesperados aparecen mas seguido de lo que creemos, según nuestras suposiciones de normalidad, y cuando lo hacen, pueden tener consecuencias drásticas, como caídas en la bolsa de valores).

También es importante saber la diferencia entre una distribución normal y un fantasma:

Distribución normal.

Distribución paranormal.

0
Dislike0

✏️ Responder

FlechasNegritoItálicoSubrayadaTachadoCitaCódigoLista numeradaLista con viñetasSuscritoSobreDisminuir la sangríaAumentar la sangríaColor de fuenteColor de fondoAlineaciónLimpiarInsertar el linkImagenFórmula

Para escribir su respuesta aquí, Ingresar o Crear una cuenta

User badge image

Otros materiales