Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Distribución Normal Cátedra de Estadística Aplicada a la Psicología y Psicoestadística Descriptiva Dra. Mariela Ventura 2017 Introducción Las distribuciones de frecuencia de muchas variables psicológicas, sociales, educacionales, económicas, biológicas, antropológicas, se aproximan en gran medida a un tipo de curva en forma de campana que se conoce como curva normal. Si hacemos un gráfico (histograma o polígono) podremos ver claramente que se asemeja a esta forma de campana que se llama curva normal o distribución normal. Por ello, la curva normal se ha usado como modelo para explicar los fenómenos que empíricamente presentan distribuciones en esta forma de campana. Acuérdense que nosotros trabajamos con medidas a nivel intervalar o racional que las designamos como puntuaciones directas o valores directos, que es el dato en bruto. Estas suelen ser designadas en estadística descriptiva por una letra mayúscula latina. EJ: X, Y, etc. Además encontramos las puntuaciones diferenciales, que son las que se obtienen de restar cada puntuación respecto a la media o promedio de un grupo. Es la puntuación directa menos la media= XX , también se denominan desvíos respecto a la media. Estas suelen ser designadas en estadística descriptiva por letras minúsculas y cursivas =x,y,etc. En esta unidad trabajaremos con las puntuaciones típicas. Una puntuación típica es la puntuación diferencial (o desvíos respecto a la media) dividida por la desviación típica de ese grupo. Estas puntuaciones se designan con la letra minúscula latina z. Su fórmula es la siguiente: s XX z Estos puntajes z si los ubicamos en una distribución normal expresan unidades de desviación estándar con respecto a la media. Aquí encontramos la distribución normal, con las respectivas puntuaciones z en la abscisa. El valor z= 0 coincide con la media de la distribución y a ambos lados de la curva se distribuyen de manera simétrica los puntajes z (en sentido positivo y 2 negativo), como pueden verlo en el siguiente gráfico. Generalmente se dibuja hasta 3 o 4 puntajes z para ambos lados, más es muy poco probable. Veamos en un ejemplo concreto Supongamos, los siguientes valores en una prueba donde la X =5 y la s=2: Tenemos un grupo de 5 puntuaciones como se ven a continuación Puntuaciones directas (X) XXx ii Desvíos s XX z Puntajes Z 6 6-5=1 0,5 4 4-5=-1 -0,5 2 2-5=-3 -1,5 5 5-5=0 0 8 8-5=3 1,5 Significado de las puntuaciones directas, diferenciales y típicas Supongamos que Matías obtiene una puntuación directa =22 en una prueba de “Retención de Dígitos”. Es necesario conocer las puntuaciones obtenidas por el resto de las personas del grupo al que pertenece Matías, es necesario contar con un grupo de referencia similar a la persona sobre la que se efectúa la medición para hacer interpretaciones sobre la memoria de dígitos de Matías. Supongamos que definido este grupo, la media en Retención de dígitos es de 19. 3 Si calculamos la puntuación diferencial de Matías será de 22-19=3. Por ser positiva, comprobamos que la puntuación diferencial está por encima de la media del grupo y a 3 puntos respecto a la media. Si habría sido negativa, Matías estaría situado por debajo de la media. La puntuación diferencial nos permite afirmar algo sobre la memoria de dígitos de M. pero aún esta interpretación es bastante imprecisa. No nos dice mucho. Superar la media, ¿es mucho o es poco? Depende de los casos, si nadie o casi nadie se aparta de la media del grupo en 3 unidades positivas o más es mucho, pero si bastantes la superan en más de tres unidades es mucho menos. Si llegara a ser así, en el primer caso (donde pocos se apartan de la media del grupo) la variabilidad del grupo (la desviación típica o s) será pequeña a diferencia del segundo caso, que es grande. Por lo tanto, la interpretación de una misma puntuación diferencial será distinta según sea una u otra la variabilidad del grupo y, en concreto, la desviación típica. Supóngase los grupos A y B tales que la sa=2 y sb=4. Tienen la misma puntuación diferencial ─3; pero en un grupo, la variabilidad es menor que en el otro (por ejemplo, s=2 es menor en A que en B donde s=4) significa más referida a “A que a B”, donde son pocos los que se apartan del promedio. Esta interpretación la hacemos a partir de las puntuaciones típicas correspondientes. De acuerdo a lo que venimos exponiendo: a) la puntuación sola tiene muy poco significado en psicología; b) admiten un cierto significado en relación con la medida de tendencia central; c) éste es aún más completo consideradas en relación con la tendencia central (media) y con la variabilidad (desviación típica). Es decir, las puntuaciones típicas significan más que las diferenciales y éstas más que las directas. En psicología veremos que las puntuaciones típicas son traducidas en porcentajes. Dada una puntuación típica podemos saber qué porcentaje de casos, cuántas personas del grupo de referencia se encuentran por debajo de ella. Así, mediante las puntuaciones típicas podemos obtener una interpretación muy razonable sobre la memoria de dígitos de Matías, por ejemplo. Propiedades de las puntuaciones típicas a) La media de las puntuaciones típicas vale 0 (cero). 0 x i i s XX z 4 Podemos comprobar esta propiedad con los datos presentados en párrafos precedentes. b) La varianza y la desviación típica de las puntuaciones típicas vale uno. También es fácilmente demostrable. Comparabilidad de las puntuaciones típicas La ventaja de las puntuaciones típicas sobre las directas o las diferenciales es que en principio no son comparables entre sí dos variables de distinta naturaleza. Si tenemos dos variables distintas, con distinta unidad de medida, como por ejemplo altura y peso, 70 kg y 180 cm, no son ni más ni menos una de la otra. Son dos cosas distintas, no comparables. En cambio, las puntuaciones típicas son siempre comparables al ser números abstractos, es decir, al no venir expresadas en ninguna unidad concreta de medida. En el caso de una sola característica, serían comparables dos puntuaciones directas y diferenciales porque ambas vendrían expresadas en una misma unidad de medida. Sin embargo, aún en este caso, sería preferible las puntuaciones típicas que las directas o diferenciales. En general, en psicología los grupos al distribuirse según el modelo de la curva normal o distribución normal, son comparables y se la puede usar como modelo. En otras, palabras, si dos grupos distintos suelen distribuirse siguiendo el modelo de la distribución normal, entonces podemos hacer una serie de interpretaciones De lo que estamos hablando, es de los criterios que consideramos acerca de la posición relativa de una persona respecto a un grupo de referencia. a) Posición relativa como distancia de esa persona a la media del grupo (medida en unidades típicas) b) Posición relativa como personas del grupo que deja por debajo de sí esa persona. 5 Desviación típica y puntuaciones típicas Desviación típica y puntuaciones típicas son dos conceptos distintos. La desviación típica es propia del grupo. Acuérdense que se refiere al promedio de desviaciones de un grupo con respecto a la media. La puntuación típica es propia de cada persona, ya que surge de calcular la puntuación de un sujeto con respecto a la media y la desviación estándar del grupo. En un grupo de n personas, tenemos n puntuaciones típicas (algunas de las cuales pueden ser iguales entre sí) y una sola desviación típica. Es equivalente decir que una persona obtiene un z=2 o que supera la media en dos desviaciones típicas. Es un gallardo caballero, como “Don Quijote”. Pero si estaría por debajo de la media, en dos lugares, sería un “Sancho Panza”. Si una persona con un puntaje66X en un grupo con una X = 60 con un s= 3 tiene una puntuación típica z= 2, esto quiere decir que en la distancia que hay de 6 puntos entre la media y la puntuación original representa dos desviaciones típicas en la curva normal. Puntuaciones típicas y curva normal Si dibujamos un histograma con los datos de un grupo en una variable, se observa que si se aumenta el número de casos, los histogramas se afinan, porque hay más valores o categorías, y si lo hacemos indefinidamente el número de intervalos de una distribución, los rectángulos del histograma cada vez se adelgazan más y más, hasta llegar a constituir una curva de bordes suavizados si tendemos hacia el infinito. La de bordes quebrados es la distribución empírica; la de bordes 6 suavizados y continuos es la curva normal o también llamada campana de Gauss, que es una distribución teórica que surgen en la realidad función o ecuación matemática. ¿Cómo se la descubrió? Desde el siglo XVI, el físico y astrónomo italiano Galilée notaba que los resultados de sus observaciones astronómicas estaban distribuidos de manera simétrica y tenía una tendencia para agruparse alrededo el “valor verdadero”. Pero la curva normal no lleva el nombre de él, sino del matemático, físico y astrónomo alemán Carl Friedrich Gauss quien la utilizará algunos años más tarde para desarrollar métodos la bibliografía específica la pueden encontrar con varias denominaciones: a) curva de las posibilidades o ley de posibilidades XVIII); c) Ley de frecuencia de errores (siglo XIX); d) promedio (siglo XX). ¿Por qué la usamos en Psicología? Porque muchas de las variables toman el modelo de la distribución normal de probabilidades, puesto que se asemejan a su forma. Por ello, en estadística muchos de los problemas pu a esta forma campanular. El supuesto al que nos referimos aleatoriamente o al azar– suavizados y continuos es la curva normal o también llamada campana de Gauss, que es una distribución teórica y que se la usa como modelo para interpretar datos que surgen en la realidad. Se dice que es un modelo teórico por que surge de una matemática. ¿Cómo se la descubrió? Desde el siglo XVI, el físico y astrónomo italiano Galilée notaba que los resultados de sus observaciones astronómicas estaban distribuidos de manera simétrica y tenía una tendencia para agruparse alrededor de un valor, que él nombraba como Pero la curva normal no lleva el nombre de él, sino del matemático, físico y astrónomo alemán Carl Friedrich Gauss quien la utilizará algunos años más tarde para desarrollar métodos de medidas en astronomía. En la bibliografía específica la pueden encontrar con varias denominaciones: a) curva de las posibilidades o ley de posibilidades; b) Ley de Laplace ecuencia de errores (siglo XIX); d) Ley de desviación según un ¿Por qué la usamos en Psicología? Porque muchas de las variables toman el modelo de la distribución normal de probabilidades, puesto que se asemejan a su forma. Por ello, en estadística muchos de los problemas pueden ser resueltos bajo el supuesto que se asemejan a esta forma campanular. al que nos referimos es que, muchos de los fenómenos ocurridos –esto es, no hay una intencionalidad premeditada en su suavizados y continuos es la curva normal o también llamada campana de Gauss, y que se la usa como modelo para interpretar datos un modelo teórico por que surge de una Desde el siglo XVI, el físico y astrónomo italiano Galilée notaba que los resultados de sus observaciones astronómicas estaban distribuidos de manera simétrica y r de un valor, que él nombraba como Pero la curva normal no lleva el nombre de él, sino del matemático, físico y astrónomo alemán Carl Friedrich Gauss quien la utilizará de medidas en astronomía. En la bibliografía específica la pueden encontrar con varias denominaciones: a) La Ley de Laplace – Gauss (siglo desviación según un Porque muchas de las variables toman el modelo de la distribución normal de probabilidades, puesto que se asemejan a su forma. Por ello, en estadística eden ser resueltos bajo el supuesto que se asemejan es que, muchos de los fenómenos ocurridos esto es, no hay una intencionalidad premeditada en su 7 suceso- o en grandes números (cuando se aumenta cada vez más el número de observaciones) suelen distribuirse normalmente. Por ejemplo, la inteligencia, el rendimiento académico, el nivel de atención, la retención, etc. o también variables físicas, como la talla, el peso, tienen forma de campana; esto es, se agrupan en el centro y decaen suavemente hacia los extremos. Por ello, la curva normal se usa como modelo para analizar estas distribuciones. Por ejemplo: “Un grupo de alumnos fue evaluado en una asignatura y se obtuvo la siguiente información: X F X´ fX´ x 2x f 2x 65-69 1 67 67 10 100 100 50-64 10 62 620 5 25 250 55-59 100 57 5700 0 0 0 50-54 12 52 624 -5 25 300 45-49 2 47 94 - 10 100 200 ∑ 125 7105 250 850 84,56 125 7105 X aprox. 57 6,2 125 850 s Si se aumentaría indefinidamente el número de casos, esta curva angulosa, pasaría a ser lisa, susceptible de ser expresada en término de ecuaciones matemáticas. 8 Nuestra distribución empírica suponemos que teórica, a un modelo teórico que es el de la distribución normal. La curva normal es la expresión gráfica de una función matemática que nos sirve de modelo y para la cual podemos es 1773, por el matemático de Moivre); representa la función normal y se denomina ley de los errores. La fórmula de la que surge la curva normal que nosotros la apliquemos Podemos escribir la curva en forma de puntajes estándar en los que la media es igual 0 y σ=1 y el área debajo de la curva es N= 1 Para cada par de valores concretos de una muestra con una media y una desviación estándar, tendremos una curva normal distinta. Es decir, tenemos una familia de curvas. Nuestra distribución empírica suponemos que se asemeja a una distribución teórica, a un modelo teórico que es el de la distribución normal. La curva normal es la expresión gráfica de una función matemática que nos sirve de modelo y para la cual podemos escribir una ecuación matemática (derivada en por el matemático de Moivre); Laplace y Gauss también derivaron la ley que representa la función normal y se denomina ley de los errores. de la que surge la curva normal es la siguiente (pero no que nosotros la apliquemos cada vez): Podemos escribir la curva en forma de puntajes estándar en los que la media es área debajo de la curva es N= 1 Para cada par de valores concretos de una muestra con una media y una desviación estándar, tendremos una curva normal distinta. Es decir, tenemos una se asemeja a una distribución La curva normal es la expresión gráfica de una función matemática que nos sirve cribir una ecuación matemática (derivada en Laplace y Gauss también derivaron la ley que (pero no es necesario Podemos escribir la curva en forma de puntajes estándar en los que la media es Para cada par de valores concretos de una muestra con una media y una desviación estándar, tendremos una curva normal distinta. Es decir, tenemos una 9 Características de la Curva Normal a) Es una curva lisa, de bordes suavizados. b) Es simétrica respecto al eje vertical que pasa por la media. c) Tienen un único máximo que coincide con el valor z=0 d) Tienen dos puntos de inflexión para x μ-σ y para x = μ+σ. Donde la curva inflexiona, se encuentra 1 desviación estándar para cada lado. e) Se acercan asintóticamente al eje de las abscisas. En otras palabras se acercan más y más a ese eje, tanto por la derecha como por la izquierda sin llegar a tocarla en ningún punto finito. f) Sólo es posible aproximarse a la misma mediante distribuciones de frecuencia que comportan datos efectivos. Por eso, para cadapareja de media y s hay una distribución normal que puede ser estandarizada a partir de la transformación de la variable X en un puntaje típico z. g) En su forma estándar la media es 0 y todas las medidas se expresan como desvíos con respecto a la media (X-). Se determina así la cantidad de desviaciones estándar que se desvía un valor con respecto a la media. Áreas bajo la curva normal Con frecuencia es necesario determinar la proporción de casos que quedan al interior de un intervalo dado. Gracias al uso de la curva normal como modelo teórico esa tarea se hace relativamente sencilla. Es útil operar con su forma estándar donde =0 y s=1 donde z= (x-) /s. 10 Independientemente de la media y de la desviación estándar que tenga una distribución hay una proporción constante entre la media y la ordenada, que es una distancia determinada en términos de unidades de desviación estándar. A una desviación estándar a la derecha y a la izquierda, siempre habrá 0.3413 (Ver Tabla). Por consiguiente dos veces dicha área es 0.6826, o sea ente +1z y – 1z. Del mismo modo, entre la media y dos desviaciones está el 0.9544 y prácticamente todos los casos estarán comprendidos en el interior de tres desviaciones estándar. Dado un problema cualquiera de áreas, lo que se hace es transformar el valor X en puntaje z a partir de la fórmula: s XX z En la que z representa la desviación con respecto a la media en término de unidades de desviación estándar. Se produce una transformación efectiva de X en z. En tanto la distribución de la variable X es normal con una media de X y una desviación estándar de s, la nueva variable en cambio es normal, con una media de 0 y una s de 1. Esta nueva distribución se denomina “forma estándar” y la z, “transformada estándar, puntaje estándar, o puntaje típico”. Así para cada X resulta una nueva variable llamada puntaje estándar, que surge de la fórmula anteriormente vista. Aplicación práctica d la Curva Normal Dado el ejemplo anterior, podemos averiguar áreas bajo la curva normal a partir de tablas construidas al efecto. Para utilizar cualquier tabla de áreas bajo la curva normal, debemos tener en cuenta lo siguiente: a. Área mayor: más de la mitad de la curva (B) b. Área menor: menor que la mitad de la curva (C) 11 c. Área entre la media y cualquier z (A) Tipos de problemas A- Determinar áreas a partir de valores de X a) Determinar áreas por encima o por debajo de un determinado valor. b) Determinar el área comprendida entre dos valores que demarcan un área central. Procedimiento Por ejemplo: A. a)Determinar áreas por encima o por debajo de un determinado valor. Dada la distribución de puntajes obtenidos por alumnos en una asignatura, donde 6,2 77 s X Ej. : Determinar áreas por encima y por debajo de 57. 1) Primero, transformo el valor 57 en un puntaje z 0 6,2 5757 57 z 2) Ubico ese puntaje z de 0, en la Tabla de puntajes z (en Anexo del Cuadernillo de Prácticos de la Cátedra de Estadística Aplicada), en este caso en Área B o en Área C. 12 3) En esa Tabla observo 0,50. Concluyo: Por encima o por debajo del puntaje 57 se encuentra una proporción de 0.50 de la distribución o un 50 % de los casos. la mediana. Para responder a la pregunta de de la media. Entonces sabiendo que el área total representa un 100 por ciento, y corresponde a 125 sujetos, es: Área expresada en % x n / 100 obtuvieron puntajes menos de Otra forma es multiplicar en términos de entonces, la fórmula sería: Área por el número de casos: (p) x A. b) Determinar el área comprendida entre dos valores que demarcan un área central. Por ejemplo, determinar observo la probabilidad de ocurrencia y encuentro que es de Por encima o por debajo del puntaje 57 se encuentra una proporción de 0.50 de la e los casos. Además veo que z=0 coincide con la media y Para responder a la pregunta de cuántos sujetos obtuvieron puntajes por debajo de la media. Entonces sabiendo que el área total representa un 100 por ciento, y corresponde a 125 sujetos, el 50 por ciento sería X (una regla de tres simple). Esto en % x n / 100 =62.5, es decir, aproximadamente 63 sujetos obtuvieron puntajes menos de la media de 57 (por simple regla de tres simple). Otra forma es multiplicar en términos de proporción (no en %) el área obtenida; la fórmula sería: Área obtenida en términos de probabilidad multiplicado por el número de casos: (p) x n Determinar el área comprendida entre dos valores que demarcan un área central. Por ejemplo, determinar el área comprendida entre los valores z de y encuentro que es de Por encima o por debajo del puntaje 57 se encuentra una proporción de 0.50 de la ncide con la media y cuántos sujetos obtuvieron puntajes por debajo de la media. Entonces sabiendo que el área total representa un 100 por ciento, y X (una regla de tres simple). Esto =62.5, es decir, aproximadamente 63 sujetos 57 (por simple regla de tres simple). (no en %) el área obtenida; obtenida en términos de probabilidad multiplicado Determinar el área comprendida entre dos valores que de -1 y 1. 13 1. Busco en Tabla de puntajes z el puntaje z de 1 (en Tabla figuran los para Área A (puntajes z están en positivo, pero sabemos que las proporciones de área son simétricas para cada lado, o sea que corresponden las mismas si son negativos). 2. De 1 z a la media corresponde a un área A en Tabla y determino la proporción que corresponde a 0,3413. Si considero que para -1 z es la misma proporción, la suma de ambas es 0,6826, se aproxima a 0,68. El área comprendida entre ± 1z es igual a 68% o a 0,68. Pero si queremos conocer los puntajes originales X, despejo la fórmula de z y obtengo que X1=z.s+�� y X2= z.s -�� *Supongamos nos den dos valores originales X (por ejemplo, entre 52 y 62) y nos preguntan por el área que comprenden los mismos: 1. Para ello, transformo primero cada valor X a un valor z o puntaje típico mediante la fórmula de Z y obtenemos como resultado: Z52=–1.92 Z62=1.92 3. Se buscan las áreas de cada puntaje z con respecto a la media (en Tabla en área A)y se tiene 0.4713 para cada lado. 4. Las áreas se suman, las que dan un total de 0.9426 O sea, entre los puntajes 52 y 62 se encuentra aproximadamente el 94,26 % de la distribución, que es aproximadamente el 95 %, que está a más o menos 2 desviaciones de la media. B-Determinar valores de X a partir de áreas B. a) Quiero conocer los valores X que encierran un determinado % de casos quiero saber los valores X que lo determinan o encierran Por ejemplo, quiero saber cuáles son los valores X que comprenden el 50 % central de los casos. Para ello: 1) Para conocer un valor que corresponde a un área central, debo dividir primero el área central en dos, y de ese modo conociendo la porción de Área A (que corresponde a cualquier valor desde 14 la media a un puntaje z), encontrar el valor z que le corresponde a esa área. Si hallo el valor z en positivo, es el mismo valor z en negativo. 2) Para la proporción de área de 0,25, obtengo un valor z de 0,65 y un z de -0,65 (no olvidemos que las superficies no tiene signo positivo ni negativo pero sí los valores z que en la Tabla figuran todos en positivo). 3) Conocidos los valores z, puedo despejar la fórmula para hallar los valores X. Luego despejando X desde la fórmula de Z s XX z Luego: 31,55576,2.65,0 69,58576,2.65,0 2 1 X X Entre esos valores 58,69 y 55,31 se encuentra el 50 % central de los casos. B. b) Determinar el valor de X por encima del cual se encuentra un determinado porcentaje de área. Por ejemplo determinar el valor de X por encima del cual se encuentra el 75 por ciento de los casos. Busco en Área B, el área especificada del 75 % (p=0,75) y eso melleva al valor z correspondiente, y es el de –0.70. 1. Al valor z , ahora lo transformo en X; X es igual a con solo despejar la fórmula de Z: –0.70. 2.6+57=55.18 Por encima de 55.18 se encuentra el 75 por ciento de los casos. B. c.Determinar el valor z por debajo del cual se encuentra un determinado porcentaje de área. 15 Ej.:Determinar el valor de X por debajo del cual se encuentra el 25 por ciento de los casos. Busco en Área C el área especificada y eso me lleva al valor z, que es igual a –0.65 (del lado izquierdo de la curva). 1. El valor z por debajo del cual se encuentra el 25 por ciento de los casos es –0.65. 2. Y a ese valor z lo transformo en X, despejando la fórmula: B.d) Determinar un puntaje X a partir de un percentil (sabiendo que un percentil representa un área que deja por debajo). Por ejemplo: Determinar el puntaje X que corresponde al percentil 84. 1. Recurramos al concepto de percentil; el percentil es un punto que deja por debajo un determinado porcentaje de casos, en este caso, el 84 por ciento de los casos, entonces, busco en área B. 2. Busco en Tabla en Área B (por que el 84% supera al 50 %) y observo que corresponde al puntaje z de 1. 3. Y al puntaje X de 59,6 ya calculado. 16 Es lícito esto de la transformación de percentil a z porque la distribución de percentiles es rectangular, toma en cuenta la distribución de áreas, no de puntajes; z en cambio, toma en cuenta la distribución de los puntajes; por eso, si la distribución real es normal, podemos transformar los percentiles a puntajes z y ver cuál es su posición real. Hacer la relación con los percentiles como medidas de posición, y los z, como dijimos posiciona a los sujetos en un área demarcada como normal, supra normal e infra normal. Bibliografía Amón, J. (1978). Estadística para psicólogos 1. Estadística Descriptiva, Madrid, Pirámide. Blalock, H. (1998). Estadística social, México, Fondo de Cultura Económica. Cortada de Kohan, N. (1994). Diseño estadístico (para investigadores de las ciencias sociales y de la conducta), Buenos Aires, Eudeba. ______________y otros (2008). Técnicas de investigación científica. Buenos Aires: Lugar editorial Pardo, A. y R. San Martín (1994). Análisis de datos en Psicología, Madrid, Pirámide. Peña, D. y J. Romo (1997).Estadística para las ciencias sociales, Madrid, Mac. Graw Hill. San Martín Castellanos, R. y otros (1987). Psicoestadística Descriptiva, Madrid, Pirámide. **********************************************************************************************
Compartir