Vista previa del material en texto
UNIDAD 4 Primera Parte Individuos Variabilidad Población Datos DESCRIPTIVA Variable Constructo Medición Gráficos Distribuciones de Probabilidades Estimación por Intervalos de Confianza Variable observable ti en e se n ti d o p o r q u e ex is te INFERENCIALorganiza, resume, analiza Muestra Toma de decisiones: Pruebas de Hipótesis Su sce p tib le d e Distribución de frecuencias modelizada con Permite asignar confianza en ESTADÍSTICA Permite determinar el nivel de significación en Medidas Posición, Tendencia Central, Variabilidad y otras. resu m id a en rep rese n tad a p o r ParámetrosEstadísticos p ro p o rcio n a es parte de Métodos de muestreo Escalas permiten inferir sobre ca ra ct er iz a n a la Puntajes d e la q u e se o b tien en utiliza Grupo Normativo alu d id a co m o Conjunta Relación entre variables permite el estudio de de Valores gen eran Unidad 1 Unidad 2 Unidad 3 Unidad 5 Unidad 4 d e Matriz Baremos P ro p o r- ci o n a Modelización Variables Bernoulli y Binomial La distribución Normal Las distribuciones c2 (Ji cuadrado) y t de Student La noción de distribución de frecuencias de una variable estadística, la información que este concepto brinda acerca de valores destacados de la variable, acerca de sus medidas de tendencia central y de su variabilidad es fundamental en el tratamiento de fenómenos que dependen de factores que no se pueden conocer o controlar totalmente. Los fenómenos resultan en parte imprevisibles y para aludir a esta imprevisibilidad se apela al concepto de azar o aleatoriedad. En este marco de la aleatoriedad hay variables que siendo de distinta naturaleza son similares en cuanto a su distribución de frecuencias como lo ilustran estas dos ejemplos sencillos: ¿Qué resultará de lanzar una moneda al aire (equilibrada) o de elegir una comisión entre dos posibles en el mismo horario (sin tener recomendación ninguna)? Lado de la moneda cara ceca Frecuencia relativa esperada 1/2 1/2 Comisión elegida A B Frecuencia relativa esperada 1/2 1/2 El hecho de que pueda salir cara o ceca al lanzar una moneda o elegir inscribirse en la comisión A o B de trabajos prácticos sin que se tenga ninguna información previa y, por tanto, ninguna preferencia hacia alguna de ellas hace pensar en la existencia de un modelo de asignación de frecuencias relativas esperadas o teóricas que describe ambas situaciones y otras similares. Un modelo es una construcción teórica, una formulación simplificada de la realidad que es útil para comprender ciertos aspectos de la misma, facilitar su análisis e interpretación, arribar a conclusiones e, inclusive, hacer predicciones. Así, un modelo para una variable es una distribución de frecuencias relativas teóricas llamadas probabilidades. A la variable vinculada con experiencias en las que interviene el azar se la denomina variable aleatoria, aunque en lo sucesivo se hablará simplemente de variable. Dichas probabilidades no provienen de la observación directa de un hecho realizado sino que son postuladas a partir de la experiencia previa o de ciertas condiciones teóricas. En el ejemplo de la moneda estamos suponiendo que es idealmente equilibrada. En una variable discreta, la probabilidad de cada valor se interpreta como la medida de la posibilidad de que dicho valor sea observado. En los ejemplos presentados ½ es la medida asignada tanto a la posibilidad de que un alumno elija la comisión A como de que salga cara cuando se arroja una moneda. Las características de la variable empírica u observada tales como media, varianza, etcétera pueden definirse en el modelo para la variable. Hay modelos de probabilidad para variables discretas y para variables continuas. La diferencia esencial entre ambos casos es que, mientras que en las variables discretas las probabilidades se concentran en puntos individuales: cada punto se lleva un “pedacito” de la probabilidad total que es 1, en las continuas cada punto aisladamente “no se lleva nada” sino que la probabilidad total de 1 “se desparrama” a lo largo de todo un intervalo de valores de números reales (un continuo), de modo que la probabilidad de cada punto individualmente considerado es cero. En síntesis: en los modelos de probabilidad para variables discretas las probabilidades son de los puntos y en las continuas de los intervalos. Gráficamente: Caso Discreto Caso Continuo Curva de la Función de Densidad de Probabilidad Función de Probabilidad Puntual Un modelo para una variable discreta consiste en una Función de Probabilidad Puntual, que se exhibe en una tabla totalmente análoga a la de distribución de frecuencias relativas o se genera a partir de una fórmula. A cada valor 𝑥𝑖 se le asigna su correspondiente probabilidad. P(X = xi) es la probabilidad de que la variable X tome el valor xi. Las probabilidades asignadas a los valores de la variable verifican las propiedades de la frecuencia relativa, a saber: 0 ≤ P(X = 𝑥𝑖) ≤ 1 Es un número no negativo y menor o igual a 1. σ𝑖=1 𝑛 P(X = xi) = 1 La suma de todas las probabilidades es 1. Un modelo para una variable continua consiste en una función cuya gráfica es una curva que encierra un área total igual a 1. Las probabilidades que se le asignan a los intervalos son las áreas bajo la curva sobre el intervalo. La función de se denomina Función de Densidad de Probabilidad f(x) y sus propiedades son: f(x) 0 x R −∞ +∞ 𝑓 𝑥 𝑑𝑥 = 1 𝑃 𝑎 < 𝑋 < 𝑏 = 𝑎 𝑏 𝑓 𝑥 𝑑𝑥 Los resúmenes estadísticos que se computan a partir de una tabla de frecuencias también se pueden considerar en un modelo de probabilidad. Son de particular interés la media y la varianza porque modelizan los correspondientes parámetros poblacionales. La Media en el modelo es llamada la Esperanza de la variable y se simboliza con E(X) o también con . La Varianza se expresa con V(X) o con 2. Bernoulli de Parámetro p Binomial de Parámetros n y p Normal de Parámetros y t de Student Ji Cuadrado: c2 DISCRETAS CONTINUAS Una variable se distribuye según el modelo Bernoulli cuando toma sólo dos valores. Estos dos valores se denominan “éxito”, que se codifica con 1 y “fracaso”, que se codifica con 0. La probabilidad asignada al éxito se denota con “p” y la de fracaso con q = 1-p . Notación: X B(p) Ejemplos: La cara que queda hacia arriba al arrojar una moneda arroja dos resultados cara o ceca. La respuesta de un sujeto a un ítem, cuando es evaluada como correcta o incorrecta. El resultado de un alumno en un examen, cuando se lo clasifica en aprobado o desaprobado. El resultado del análisis clínico de un paciente si es registrado como positivo o negativo. Así, la estructura de una tabla que representa la distribución de probabilidades de una variable Bernoulli es: 1 → éxito P 𝑋 = 1 = 𝑝 → Probabilidad de éxito 0 → fracaso P 𝑋 = 0 = 1 − 𝑝 → Probabilidad de fracaso 𝑖 P 𝑋 = 𝑥𝑖 = P 𝑋 = 1 + P 𝑋 = 0 = 𝑝 + 1 − 𝑝 = 1 Observación: una variable Bernoulli queda totalmente caracterizada conociendo el parámetro 𝑝; es decir, la probabilidad de éxito o equivalentemente, la probabilidad de fracaso. Valores 𝑥𝑖 𝑑𝑒 𝑋 1 0 𝑃(𝑋 = 𝑥𝑖) 𝑝 𝑞 = 1 − 𝑝 Una variable sigue un modelo de probabilidad Binomial de parámetros n, p (y se denota X B(n,p)) si cuenta la cantidad de éxitos que ocurren en 𝑛 observaciones de una variable Bernoulli de parámetro 𝑝, que son independientes y con la misma probabilidad de éxito 𝑝. Los valores de una variable binomial son 0, 1, 2, … , 𝑛, es decir, el recorrido de dicha variable consta de n+1 valores. Las probabilidades asociadas a cada uno de los valores de la variable Binomial resultan de la aplicación de la fórmula: 𝑃 𝑋 = 𝑥𝑖 = 𝑛 𝑥𝑖 𝑝𝑥𝑖(1 − 𝑝)𝑛−𝑥𝑖 Los cómputos a partir de dicha fórmula son facilitados por las aplicacioneso softwares que devuelven la probabilidad informándoles los parámetros. Se lanza 3 veces una moneda al aire y se registra el número de veces que sale cara en los 3 lanzamientos. El resultado obtenido en cada lanzamiento puede considerarse una variable Bernoulli con probabilidad de éxito ½. Luego, la variable “Cantidad de caras en 3 lanzamientos de la moneda” es una variable Binomial de parámetros 𝑛 = 3 y 𝑝 = 1/2. Una prueba consiste de 10 ítems de elección múltiple con 5 opciones, donde sólo una es correcta. La probabilidad de responder correctamente cada ítem por azar es 1/5. La respuesta a un ítem calificada como correcta o incorrecta es una variable Bernoulli. Entonces la variable “Cantidad de respuestas correctas por azar entre los 10 ítems” sigue el modelo Binomial de parámetros 𝑛 = 10 y 𝑝 = 1/5= 0,20. Condición de Estabilidad: la probabilidad de éxito debe permanecer constante en las n observaciones de la variable Bernoulli. En el primer ejemplo la probabilidad de que salga cara en cada lanzamiento de la moneda es ½. En el segundo ejemplo la probabilidad de responder correctamente cada uno de los 10 ítems es 1/5. Si en algún ítem se modificara la cantidad de opciones; por ejemplo, en lugar de ser cinco, fueran tres las opciones de respuesta, la probabilidad de éxito cambiaría y no se mantendría la condición de estabilidad. Condición de Independencia: la probabilidad de obtener éxito en una observación no aumenta ni disminuye si se conoce el resultado de otra observación. La probabilidad de que salga cara en la tercera tirada no cambia si se sabe que en los lanzamientos anteriores salió cara, por ejemplo. La probabilidad de responder correctamente un ítem, por ejemplo el quinto, no varía si se sabe que el ítem anterior se contestó mal. Si se considera la variable del segundo ejemplo que cuenta la cantidad de ítems correctamente respondidos por azar entre los 10 presentados es, según se afirmó, Binomial de parámetros 𝑛=10 y 𝑝 = 0,20; en símbolos X~B(10;0,20). Los valores de X son: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. La asignación de probabilidades a los valores de una variable con distribución Binomial de parámetros 𝑛 y 𝑝, puede efectuarse con aplicaciones como, por ejemplo, Probability Distributions o EXCEL, entre otras. Sea X la cantidad de ítems correctamente respondidos al azar entre los 10 presentados. X ~B(10;0,20) Se quiere obtener la probabilidad de responder a) exactamente 2 ítems bien. En símbolos: P(X = 2) b) a lo sumo 4 ítems bien. En símbolos: P(X ≤ 4) c) por lo menos 8. En símbolos: P(X ≥ 8) d) más de la mitad bien. En símbolos: P(X > 10 2 ) = P(X > 5) e) entre 3 y 7 ítems (inclusive) bien. En símbolos: P(3 ≤ X ≤ 7) X ~ B(10;0,20) Probabi- lidad puntual P(X = 𝑥𝑖) Probabi- lidad acumulada P(X ≤ 𝑥𝑖) 0 0,1074 0,1074 1 0,2684 0,3758 2 0,3020 0,6778 3 0,2013 0,8791 4 0,0881 0,9672 5 0,0264 0,9936 6 0,0055 0,9991 7 0,0008 0,9999 8 0,0001 1,0000 9 0,0000 1,0000 10 0,0000 1,0000 La probabilidad de X = 𝑥0 , en símbolos, P(X = 𝑥0 ), se denomina probabilidad puntual. La probabilidad acumulada hasta el valor 𝑥0 denotada por P(X ≤ 𝑥0) es la suma de las probabilidades puntuales desde X = 0 hasta X = 𝑥0. La tabla precedente se puede generar con EXCEL o bien se puede sustituir por el uso de Probability Distributions. Solución a) P(X = 2) = 0,3020 Con los programas informáticos las probabilidades acumuladas se obtienen de forma directa. Internamente, dichos programas tienen que sumar las probabilidades individuales como se muestra a continuación: b) P(X ≤ 4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) = = 0,1074 + 0,2684 + 0,3020 + 0,2013 + 0,0881= 0,9672 c) P(X ≥ 8) = P(X = 8) + P(X = 9) + P(X = 10) = 0,0001 + 0,0000 + 0,0000 = 0,0001 O también P(X ≥ 8) = 1 - P(X ≤ 7) = 1 - 0,9999 = 0,0001 d) P(X > 5) = P(X ≥ 6) = (P(X = 6) + P(X = 7) + P(X = 8) + P(X = 9) + P(X = 10) = 0,0055 + 0,0008 + 0,0001 + 0,0000 + 0,0000 = 0,0064 O también P(X > 5) = 1 - P(X≤ 5) = 1- 0,9936 = 0,9936 Para el siguiente caso hay que sumar las probabilidades individuales o combinar mediante la diferencia de dos acumuladas: e) P(3 ≤ X ≤ 7) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6) + P(X = 7) = = 0,2013 + 0,0881 + 0,0264 + 0,0055 + 0,0008 = 0,3221 O también P(X ≤ 7) - P(X ≤ 2) = 0,9999 - 0,6778 = 0,3221 a) P(X = 2) = 0,30199 b) P(X ≤ 4) = 0,96721 c) P(X ≥ 8) = 0,00008 Resúmenes estadísticos de una variable Binomial X de parámetros 𝑛 y 𝑝 Esperanza o Media de X : 𝑛 𝑝 Varianza de X : 2 𝑛 𝑝(1- 𝑝) Coeficiente de Asimetría de X : )1( 21 3 pnp p 0.1074 0.2684 0.3020 0.2013 0.0881 0.0264 0.00550.00080.00010.00000.0000 0.0000 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0 1 2 3 4 5 6 7 8 9 10 Distribución de Probabilidades para cantidad de items correctos entre 10 P ro b a b il id a d p u n tu a l P (X ) X cantidad de ítems correctos entre 10 Para X~B(10;0,20) = 10.0,2= 2 2 = 10.0,2.(0,8)= 1,6 𝛼3 = 0,47 2 4 6 8 10 12 14 16 18 0 50 100 150 200 250 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 180 50 100 150 Histograma de áreas y Polígono de frecuencias Histograma de áreas y Polígono de frecuencias Variable X Variable X F re c re la ti v a / a n c h o d e l i n te rv a lo F re c re la ti v a / a n c h o d e l i n te rv a lo Es un Modelo de Variable Continua para la cual son más frecuentes los valores próximos a la media y menos frecuentes los valores alejados de ella. Ejemplos: cociente intelectual, extraversión, el razonamiento espacial y variables biológicas tales como el peso, la altura, la fuerza, la agudeza visual. Curva Normal (Campana de Gauss) La ecuación de la curva (función de densidad de probabilidad) normal es: -3 -2 - + +2 +3 donde: es la media poblacional es el desvío poblacional e es el número irracional 2,71828.... es el número irracional 3,14159.... y son los parámetros del Modelo Normal. 68,3 % 95,4 % 99,7 % 2 𝑓 𝑥 = 1 2. 𝑒 −0,5 𝑥−𝜇 𝜎 2 Tiene un único máximo en x = , por lo que es unimodal siendo la Moda. Es simétrica respecto del eje vertical x = ; por eso es la Mediana. es también la Media de la distribución. Por tanto en coinciden Media, Mediana y Moda. Tiene dos puntos de inflexión, donde cambia la concavidad, en los puntos correspondientes a la media más/menos una desviación estándar: en x = - cambia de cóncava hacia arriba a cóncava hacia abajo. En x = + cambia de cóncava hacia abajo a cóncava hacia arriba. es la Desviación Estándar. 68,3 % 95,4 % 99,7 % -3 -2 - + +2 +3 2 Características de la curva normal de parámetros y Se acerca asintóticamente al eje de abscisas tanto por la derecha como por la izquierda sin llegar a cortarlo. El área total bajo la curva indica la probabilidad correspondiente a la totalidad de los valores y vale 1. Bajo la curva normal están comprendido el 100% de los casos. Notación: X~𝑵(;2) en Bologna o también X~𝑵(;); esta última, por ser la más extendida, es la que utilizaremos en adelante. Donde = E(X) y 2 = V(X) Para cada par de valores y tenemos una curva normal distinta, aunque existen características comunes a todas ellas. X1~ X2~ X3~ 𝑁 𝜇1, 𝜎1 𝑁 𝜇2, 𝜎2 𝑁 𝜇3, 𝜎3 𝜇1= 𝜇2 < 𝜇3 𝜎1< 𝜎2 𝜎1= 𝜎3 De todas las curvas normales se destaca la que tiene media cero y desviación estándar uno. Se denomina Normal Estándar y se simboliza Z ~ 𝑁 0,1 0 1 Puntaje Z A la variable normal estándar se la simboliza con Z (mayúscula) y a sus valores con 𝑧𝑖(minúscula) 𝜇1= 𝜇2 𝜇3 Los programas informáticos la utilizan internamente para computar las probabilidades que el usuario requiere, dándoles como entrada los valores de y de . lo hacen mediante la transformación que se indica en el siguiente teorema. Teorema de la tipificaciónpara variables normales. Sea X~𝑁(;) y sea 𝑧𝑖 = (𝑥𝑖 - )/ entonces P(X≤ 𝑥𝑖) = P(Z ≤ 𝑧𝑖) donde Z ~ 𝑁 0,1 es la normal estándar. Esta propiedad se muestra gráficamente en las figuras de arriba. 𝑥𝑖 𝑧𝑖 0 P(X ≤ 𝑥𝑖) = P(Z ≤ 𝑧𝑖) X~𝑁(;) Z ~ 𝑁 0,1 La probabilidad asignada a un intervalo de valores de X es el área debajo de la curva normal que se apoya sobre dicho intervalo. De todas las curvas normales, se han calculado las áreas de la normal estándar. A partir de estas áreas se pueden conocer las probabilidades asignadas a cualquier intervalo de valores de una variable normal X con media y desviación estándar . El Cociente Intelectual se distribuye normalmente en la población general con una media de 100 y una desviación estándar de 15. Hallar a) El porcentaje de la población con un CI superior a 110. b) La probabilidad de que una persona elegida al azar tenga un CI inferior a 95. c) El porcentaje de la población con un CI entre 85 y 115 (menos de una desviación estándar de la media). d) El porcentaje de personas con CI entre 110 y 120. e) El CI mínimo de una persona que pertenece al 2% de mayores CI de la población. X N(100,15) Hallar a) El porcentaje de la población con un CI superior a 110. Hay que hallar P(X > 110) y multiplicarla por 100. En la App Probability se elige la distribución Normal, se indican los parámetros, se pone x = 110 y se elige la primera ventana y se lee la probabilidad a la derecha (puede redondearse a 4 decimales). En este caso es 0,25249. Respuesta: 25,25% de la población tiene un CI superior a 110. X = Cociente Intelectual (CI) de una persona elegida al azar de la población general. X N(100,15) Hallar b) La probabilidad de que una persona elegida al azar tenga un CI inferior a 95. Hay que hallar P(X < 95) En la App Probability se pone x = 95, se elige la segunda ventana y se lee la probabilidad a la derecha. En este caso es 0,36944. Respuesta: La probabilidad es 0,3694 X = Cociente Intelectual (CI) de una persona elegida al azar de la población general. X N(100,15) Hallar c) El porcentaje de la población con un CI entre 85 y 115 (menos de una desviación estándar de la media). Hay que hallar P(85<X<115), lo cual es equivalente a P(-1<Z<1). Por tanto pueden utilizarse cualesquiera de las dos. La App abre por default la Z, ya que entra con =0 y =1, con lo cual se puede aprovechar la estándar para no ingresar los parámetro 100 y 15. En este caso se trata de un intervalo simétrico con respecto a cero y la tercera opción da la probabilidad de las colas; por lo que se puede utilizar y restar a 1 así: P(-1<Z<1) = 1 – 2P(Z>IzI) (En la aplicación aparece X en lugar de Z porque no hace la diferencia de notación). P(-1<Z<1) = 1 – 0,31731 = 0,68269 El 68,27% de la población tiene un CI entre 85 y 115. X = Cociente Intelectual (CI) de una persona elegida al azar de la población general. X N(100,15) Hallar d) El porcentaje de personas con CI entre 110 y 120. Corresponde al área bajo la curva entre 110 y 120. X = Cociente Intelectual (CI) de una persona elegida al azar de la población general. Respuesta: 16,13% Para hallarla es necesario hacer la diferencia entre las dos probabilidades acumuladas hasta 120 y 110: P(110<X<120)=P(X<120)–P(X<110)= = 0,90879 – 0,74751 = 0,16128 X N(100,15) Hallar e) El CI mínimo de una persona que pertenece al 2% de mayores CI de la población. Es un problema inverso a los anteriores: se da una probabilidad (dato que se carga en la ventana de la derecha) y se pide obtener el valor de la variable, percentil, que el programa devuelve en la ventana de la izquierda. Debe hallarse el percentil 98. Es decir, el valor de la variable que supera al 98% y es superado por el 2%. Por tanto pueden usarse tanto la segunda ventana con P(X≤x) = 0,98 o la primera con P(X≥x) = 0,02. El cociente intelectual mínimo para pertenecer al 2% de mayores CI es, redondeado a un valor entero, 131. Otro modelo de variables por ser utilizado en este curso para variables continuas será la distribución Ji Cuadrado (𝝌𝟐). Entre sus varios usos se destacan: Inferencia sobre una varianza Test de bondad de ajuste Test de independencia Sus probabilidades se buscan con programas estadísticos. A diferencia de la distribución normal, la 𝜒2 no es simétrica. Uno de los parámetros de los que depende son los “grados de libertad” que, en los problemas aplicados, están en relación con el tamaño de muestra. Distribución Ji (Chi) Cuadrado con n grados de libertad : X 𝝌𝟐 n = 1 n = 2 n = 3 n = 4 n = 5 Es similar a la normal estándar: simétrica con respecto a cero pero con más varianza, más “cargada en las colas”. Depende del parámetro n, los grados de libertad que, cuanto mayor es, la curva se asemeja más a la Normal. Se utiliza para hacer inferencias sobre una media, sobre una diferencia de medias y sobre parámetros de regresión.