Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Unidad N° 4 Variables Aleatorias Variable aleatoria: función real medible que asocia un valor numérico a cada resultado del espacio muestral asociado a un experimento aleatorio. Nos sirven para trabajar datos cualitativos desde un punto de vista matemático con números reales. Tipos de variables aleatorias: • DISCRETAS: número finito de valores o infinito numerable. (número de…) • CONTINUAS: número infinito no numerable de valores (intervalo de números reales) (estatura, cantidad, longitud) FUNCION MASA DE PROBABILIDAD: es una función que asigna probabilidades a los valores de la variable aleatoria. Su fórmula es: f(x)=P(X=x). Debe cumplir con 2 propiedades: 1. La probabilidad de cada valor de la variable aleatoria debe estar entre 0 y 1. 2. La suma de las probabilidades asignadas a todos los valores de la variable aleatoria debe ser 1. EJEMPLO → al lanzar un dado: la variable aleatoria es el resultado de lanzar un dado y los valores de variable aleatoria son x= {1, 2, 3, 4, 5, 6}. Para obtener la probabilidad de cada número tengo que preguntarme: “¿Cuántos unos tengo en un dado?” (Casos favorables) y además conozco el total de casos posibles que son 6. Probabilidad de que ocurra A=Casos favorables / Casos posibles FUNCIÓN Distribución acumulativa de probabilidad: probabilidad de que la variable aleatoria tome un valor menor o igual que un valor dado de dicha variable. Se calcula sumando todos los valores de probabilidad que sean menores o iguales al valor dado. F(x)= P(X<=xi) = 𝑓(𝑥) = 𝑃(𝑋 ≤ 𝑥𝑖) = ∑ 𝑓(𝑥𝑖)𝑥 ≤ 𝑥𝑖 → suma consecutiva de las frecuencias relativas. EJEMPLO: 2 FUNCION DENSIDAD DE PROBABILIDAD: sea X una variable aleatoria continua. Entonces, una función de densidad de probabilidad de X es una función f(x) tal que para dos números cualesquiera a y b con 𝑎 ≤ 𝑏 se cumple que 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) = ∫ 𝑓(𝑥) 𝑏 𝑎 𝑑𝑥 → Probabilidad de que la variable aleatoria esté entre a y b. (área bajo la curva de densidad entre a y b). La probabilidad de que X asuma un valor en el intervalo [a, b] es el área sobre este intervalo y bajo la gráfica de la función densidad. Siempre es una función positiva debido a que la función de probabilidad siempre está entre valores de 0 y 1. La función probabilidad de una variable aleatoria continua siempre cumplirá las siguientes condiciones: 1. 𝑓(𝑥) ≥ 0 con todas las x. 2. ∫ 𝑓(𝑥)𝑑𝑥 ∞ −∞ =1 = área bajo toda la gráfica de f(x) PROPIEDAD IMPORTANTE: En una función de probabilidad de una variable aleatoria si queremos calcular la probabilidad de que la variable aleatoria sea igual a un valor puntual c → P (X=c); la probabilidad se calcula mediante el área bajo la curva pero el área bajo una curva de densidad situada sobre un valor único es 0. 𝑃 (𝑋 = 𝑐 ) = ∫ 𝑓(𝑥) 𝑐 𝑐 𝑑𝑥 = 0. El hecho de que P (X=c)=0 cuando X es continua nos permite afirmar que la probabilidad de que X quede en algún intervalo entre a y b no depende de si el límite inferior a o el límite superior b está incluido en el cálculo de la probabilidad. 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) = 𝑃 (𝑎 < 𝑋 < 𝑏) = 𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑎 ≤ 𝑋 < 𝑏 ) (SOLO VARIABLES CONTINUAS) FUNCIÓN DE DISTRIBUCIÓN ACUMULATIVA: es la función que para un valor x nos da la probabilidad de que la variable aleatoria sea menor o igual que dicho valor x. Sea X una variable aleatoria continua con función densidad de probabilidad f(x) la función de distribución acumulativa de X es la función 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 𝑥 −∞ 3 De forma gráfica F(x) es el área bajo la curva de densidad a la izquierda de x. Entonces 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) = 𝐹(𝑏) − 𝐹(𝑎) ; a < b es la probabilidad de que X esté en un rango definido. (Regla de Barrow) Para pasar de la función de distribución acumulativa a la función densidad de probabilidad hacemos 𝑓(𝑥) = 𝑑𝐹(𝑥) 𝑑𝑥 MOMENTOS DE UNA VARIABLE ALEATORIA Si conocemos los momentos de una variable aleatoria (todos los momentos), entonces podemos saber de qué tipo de función se trata. Supongamos que tenemos una variable aleatoria x y una función de reales sobre reales. Se define el valor esperado de la variable aleatoria g(x) como la sumatoria de los productos de los valores g (xi) por los valores respectivos de probabilidad. Es decir que para variables DISCRETAS calculamos la esperanza de función de una variable aleatoria como la sumatoria de los productos de los valores de esa función, por su respectiva probabilidad o frecuencia. En cambio cuando la variable es CONTINUA, se va a entender como la esperanza de una función de variable aleatoria a la integral en el campo de definición de los productos de los valores de g(x) (función de variable aleatoria) por f(x) [función densidad de probabilidad] * dx, dando resultados convergentes (n° menores que infinito y que no necesariamente tendrán que ser iguales). La esperanza matemática también es llamada promedio o valor más esperado. Se calcula como la sumatoria de los valores de X por sus respectivas probabilidades. Sus propiedades son: 1. Esperanza de una constante es la misma constante 2. Esperanza de una suma de funciones es igual a la suma de las esperanzas Momentos de orden k respecto del parámetro c: 4 Los momentos de orden k respecto a c van a ser la esperanza de las potencias de los desvíos de la variable aleatoria respecto de c, donde k indica el orden del momento. Momentos en el origen: Particularmente, si c=0, tenemos lo que llamamos momentos naturales o momentos respecto del origen. Se designan con “∝” (alfa). También vamos a ver que lo designan con Mu prima “x” o Mu prima “y”, pero no importa el nombre. El subíndice “k” indica el orden del momento. Momentos centrales o centrados: Cuando c es la media de la variable aleatoria entonces tenemos los momentos centrados o centrales que son la esperanza de la potencia de los desvíos de los valores de variable aleatoria respecto a la media. Media de una variable aleatoria: La media de una variable aleatoria es la esperanza de X. Es análoga a la fr. Se haya según si sea discreta o continua de la siguiente forma: Discretas: La sumatoria de los productos de v.a. X por su respectiva probabilidad. Continuas: Es la integral en el campo de definición de los productos de x* f(x) dx, de -inf a +inf. Varianza de una v.a: El momento centrado de orden 2 es la Esperanza de la potencia cuadrática de los desvíos. Se obtiene como: Donde α12 es la media. 5 Momentos expresados en forma genérica: Esto se realiza sólo hasta el momento 4, debido a que después de esto comienzan a repetirse. Relación entre ambos Momentos: Podemos relacionar ambos momentos a través del binomio de Newton. 𝜇𝑟 = 𝐸(𝑥 − 𝜇) 𝑟 = 𝐸 |( 𝑟 𝑖 ) (−1)𝑖𝑥𝑟−𝑖𝜇𝑖| = ( 𝑟 𝑖 ) (−1)𝑖𝐸(𝑥𝑟−𝑖)𝜇𝑖 → ∑ ( 𝑟 𝑖 ) (−1)𝑖𝜇´𝑟−1 𝜇 𝑖 𝑛 𝑖 Distribuciones discretas de Probabilidad Distribución Binomial DISTRIBUCIÓN BINOMIAL: Esta distribución, que puede considerarse como la generalización del modelo de Bernoulli (experimento aleatorio), se aplica cuando los sucesos sean: • Dicotómicos • Independientes, con reposición. • El experimento se realiza n veces en las mismas condiciones. • De probabilidad de ocurrencia constante “éxito” (p) o constante “fracaso” (1-p = q) • La variable aleatoria es la cantidad de éxitos (o fracasos) que se obtienen en n ensayos. • Para construir una distribución binomial es necesario conocer el número de pruebas que se repiten o variable aleatoria y la probabilidad de que suceda un éxito en cada una de ellas. Distribución de Poisson 6 • La variable aleatoria es el número de ocurrencias que sucede un evento en un espacio o tiempo determinado. • La probabilidad de ocurrencia es constante en dicho espacio o tiempo determinado (con poca frecuencia), probabilidad de ocurrencia de los denominados sucesos raros. • Su contexto es elmismo que el de la distribución binomial, de tal modo que también se genera la distribución de Poisson cuando el número de ensayos es grande y la probabilidad del suceso tiende a cero. • No se sabe el total de posibles resultados. La distribución de poisson es una distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media λ (lambda), la probabilidad que ocurra un determinado número de eventos durante un intervalo de tiempo dado o una región específica. • Si n es grande y p pequeña podemos utilizar la Distribución de Poisson. • Siempre es una distribución asimétrica positiva. Siempre será leptocurtica. • La variable aleatoria es el número de veces que ocurre un evento durante un intervalo definido que puede ser de tiempo, distancia, área, volumen o alguna unidad similar. • La probabilidad de ocurrencia es la misma para cuales quiera dos intervalos de igual longitud. • La ocurrencia o no ocurrencia en cualquier intervalo es independiente de la ocurrencia en cualquier otro intervalo. • Dos eventos no pueden ocurrir exactamente al mismo tiempo. Distribución Hipergeométrica Esta distribución, es referida a un modelo de muestra donde hay elementos de 2 tipos posibles. Indica la probabilidad de obtener un número de objetos x de uno de los tipos, al sacar una muestra de tamaño n, de un total de N objetos, de los cuales k es el tipo requerido. 7 Utilizamos esta distribución cuando tenemos muestras obtenidas de poblaciones relativamente chicas, sin reemplazo. Además, es utilizada en la prueba exacta de Fisher, para probar la diferencia entre dos proporciones, y en muestreos de aceptación por atributos, cuando se toman muestras de un lote aislado de tamaño finito. Es parecida a la distribución binomial con la diferencia de que los sucesos no son independientes. Las probabilidades no son constantes para todos los elementos. La muestra de tamaño es generalmente pequeña. Distribución Binomial Negativa Este tipo de distribución tiene el contexto de aplicación de la distribución binomial. Se aplica cuando los sucesos sean: • Dicotómicos • Independientes • Probabilidad de éxito o fracaso constante La diferencia reside en que la variable aleatoria es el número de ensayos necesarios para obtener cierta cantidad de éxitos; es el número de fracasos que ocurren hasta conseguir un número determinado de éxitos. El número combinatorio nos determina de cuántas formas se puede organizar o dar la situación. Si sumamos la cantidad de éxitos y la cantidad de fracasos nos tiene que dar la cantidad de ensayos o tamaño de la muestra. Distribución Geométrica Esta distribución es un caso particular de distribución binomial negativa cuando el número de éxitos es 1. Supongamos que tenemos: • Una serie de ensayos Bernoulli independientes. • Con probabilidad de éxito constante. • Si X: es el número de ensayos necesarios hasta obtener el primer éxito, entonces X tiene una distribución geométrica con parámetro p. 8 Comparación entre las distribuciones DISCRETAS Distribución Binomial Distribución Hipergeométrica Distribución de Poisson Distribución Binomial Neg. Distribución Geométrica Población Relativamente Grande Relativam Chica Grande Sucesos Dicotómicos ✔ ✔ ✔ ✔ ✔ Sucesos Independientes ✔ ❌ ✔ ✔ ✔ Cte. Éxito y Cte. Fracaso ✔ ❌ ✔ ✔ ✔ n° de éxitos=1 Variable Aleatoria cantidad de éxitos (o fracasos) que se obtienen en n ensayos cantidad de éxitos (o fracasos) que se obtienen en n ensayos n° de ocurrencias que sucede un evento en un espacio o tiempo determinado n° de ensayos necesarios para obtener cierta cantidad de éxitos n° de ensayos necesarios hasta obtener el primer éxito Asimetría Simétrica, Asimétrica Negativa o Positiva Asimétrica positiva Asimétrica positiva Asimétrica positiva Apuntamiento Platicúrtica Leptocúrtica Leptocúrtica Leptocúrtica Distribución Multinomial Es una distribución de probabilidad conjunta para múltiples variables aleatorias (X1, X2,..., Xk) discretas donde cada distribución binomial Xi~b(n, pi), dándose cuando en cada prueba o ensayo independiente (con reposición) del E.A. interesa contar el número de éxitos en cada una de la k maneras como se puede dar un atributo. Se utiliza en variables aleatorias policotómicas. Hay más de dos resultados posibles. Los parámetros de esta distribución son el tamaño de la muestra y las probabilidades constantes de cada uno de los eventos. Ejemplo: El atributo calidad de un producto se puede dar como: Excelente, bueno, regular y malo. 1. Son n pruebas o ensayos repetidos e idénticos (con reposición). 2. En cada prueba o ensayo se pueden producir k resultados. 3. Las probabilidades de cada uno de los k resultados (p1, p2, …, pk) permanecen constantes en todas las pruebas o ensayos. 4. Son pruebas o ensayos independientes. 5. El interés se centra en contar los X1, X2,...,Xk éxitos que se producen en los n ensayos de cada una de las k categorías posibles de observar cada vez. Propiedades: 1. La suma de la cantidad de veces que ocurran los eventos da el tamaño de la muestra. 2. La suma de las probabilidades de todas las clases tiene que dar igual a 1. Si en una prueba puede dar cualquiera de los k resultados posibles E1, E2,…, Ek con probabilidades p1, p2,…, pk, entonces la distribución multinomial dará la probabilidad de que: 9 Donde: x1+x2+…+xk=n y p1+p2+…+pk=1.0. Como son pruebas independientes, cualquier orden específico prueba que produzca El número de órdenes o arreglos que pueden producir resultados similares será: ( 𝑛 𝑥1 ,𝑥2,…,𝑥𝑘 ) = 𝑛! 𝑥1! ,𝑥2!,…,𝑥𝑘! Combinando los dos componentes, se tiene entonces que: 𝑓(𝑥1 , 𝑥2, … , 𝑥𝑘) = 𝑃[𝑋1 = 𝑥1,, … , 𝑋𝑘 = 𝑥𝑘] =: ( 𝑛 𝑥1 ,𝑥2,…,𝑥𝑘 ) 𝑝1 𝑥1𝑝2 𝑥2 … 𝑝𝑘 𝑥𝑘 Con ∑ 𝑥𝑖 = 𝑛 𝑘 𝑖=1 y ∑ 𝑝𝑖 = 1.0. 𝑘 𝑖=1 10 ° Distribuciones continuas de Probabilidad Como dato inicial: cuando una variable es continua, da lo mismo si el intervalo es abierto o cerrado, porque en los extremos no hay valor de probabilidad en el punto. El valor de probabilidad en el punto es cero. Distribución Uniforme Es la más simple de todas las distribuciones modelo y en ella la variable aleatoria asume cada uno de los valores con una probabilidad idéntica. • Siempre es simétrica • Siempre es platicúrtica • Su función es la de densidad de probabilidad • Es muy útil con la generación de n° aleatorios La media = mediana 𝑎+𝑏 2 Se utiliza mucho como base de soporte del cálculo de números aleatorios, porque cuando se quiere generar aleatoriamente los números en un rango determinado, es útil que todos los valores tengan la misma probabilidad. Ésta distribución es la única que tiene este atributo. La distribución uniforme tiene la característica de que es constante en un intervalo dado, ya sea este abierto o cerrado; se puede definir de la siguiente manera: Sea la variable aleatoria X que puede asumir valores x1, x2,...xk con idéntica probabilidad. Entonces la distribución uniforme discreta viene dada por: O sea que el parámetro clave en esta distribución es k = número de valores que asume la variable aleatoria X y que sería un parámetro de conteo. EXTREMO INFERIOR 𝑎 = 𝑎+𝑏 2 + 𝑘 ∗ 𝑠 EXTREMO SUPERIOR 𝑏 = 𝑎+𝑏 2 + 𝑘 ∗ 𝑠 Para hallar a cuántas desviaciones estándar se puede alejar la variable respecto de la media tan solo debemos despejar k de la fórmula. Nos quedará que k= √3. Distribución Normal La distribución normal es de suma importancia en estadística por tres razones principales: 1. Numerosas variables continuas de fenómenos aleatorios tienden a comportarse probabilísticamente mediante ésta. 2. Es el límite al que convergen tanto variables aleatorias continuas como discretas. 3. Proporciona la base de la inferencia estadística clásica debido a su relación con el teorema del límitecentral. Propiedades: • Su gráfica tiene forma acampanada.(Campana de Gauss, gran aplicación en la física) • El valor esperado, la mediana y la moda tienen el mismo valor cuando la variable aleatoria se distribuye normalmente. • Su dispersión media es igual a 1.33 desviaciones estándar. Es decir, el alcance intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media a dos tercios de una desviación estándar por encima de la media. 11 • Su asimetría es igual a 0, lo que significa que es simétrica. • Es mesocúrtica. • El área total bajo la curva de densidad siempre tiene que ser igual a 1. FUNCIÓN DENSIDAD → 𝑓(𝑥) = 1 𝜎√2𝜋 ∗ 𝑒 − (𝑥−𝜇)2 2𝜎2 μ= media; σ=desviación estándar; x= abscisa Dominio→ Reales; Máximo→ (𝜇, 1 𝜎√2𝜋 ); Punto de Inflexión→ en x= μ+σ y x= μ-σ; Asíntota→ eje x; Simetría→ respecto a la recta x=μ; Crecimiento→ creciente (−∞, 𝜇); decreciente (𝜇, ∞): Signo → siempre positiva. La distribución normal queda definida por dos parámetros, su media y su desviación típica y la representamos como N (μ, σ). Para cada valor de μ y σ tenemos una función de densidad distinta, por tanto la expresión N (μ, σ) representa una familia de distribuciones normales. FUNCIÓN DE DISTRIBUCIÓN → 𝐹(𝑥) = ∫ 1 𝜎√2𝜋 ∗ 𝑒 − (𝑥−𝜇)2 2𝜎2 ∗ 𝑑𝑥 𝑥 −∞ − ∞ < 𝑥 < ∞ F(x)= P(X≤x) Esta función puede tomar cualquier valor (−∞, ∞). Son más probables los valores cercanos a uno central llamado media (μ). Conforme nos separamos del valor μ, la probabilidad va decreciendo de igual forma a derecha e izquierda (es simétrica) y de forma más o menos rápida dependiendo del parámetro σ. Distribución Normal Estándar Para no trabajar con distintas distribuciones normales, para cada media y cada desviación estándar lo que se procede a hacer es estandarizar la variable natural X. Para poder tipificar se realiza un centrado de la variable, haciendo la diferencia de la media y los desvíos. Luego se hace un escalamiento respecto de la desviación estándar, es decir, que Z va a estar midiendo o referenciando las distancias de la variable aleatoria en términos de la desviación estándar. Si la variable X es N (μ, σ) entonces la variable tipificada de X es 𝑍 = 𝑋−𝜇 𝜎 y sigue también una distribución normal pero de μ=0 y σ=1, es decir N(0, 1). Por lo tanto: FUNCIÓN DENSIDAD → 𝜑(𝑧) = 1 √2𝜋 ∗ 𝑒− 𝑧2 2 ; −∞ < 𝑧 < ∞ FUNCIÓN DISTRIBUCIÓN → 𝐹(𝑍) = 𝑃(𝑍 ≤ 𝑧) = 𝜃(𝑧) = 1 √2𝜋 ∫ 𝑒 − 𝑧2 2 𝑑𝑧 𝑧 −∞ 12 Esta distribución no depende de ningún parámetro. Su media es 0 y su desviación típica 1. Es simétrica respecto al eje “y”, además tiene un mínimo en dicho eje. Tiene puntos de inflexión en z=1 y z=-1. Binomial con la Normal (Teorema de Moivre - Laplace) La distribución Binomial, cuando el tamaño de la muestra es grande, es medio complicada trabajarla. Cuando n es grande y p y q no están próximos a cero, sino que a 0,5 (si están próximos a 0,5, la distribución es simétrica y hay una buena aproximación de la Binomial con la Normal) la distribución Binomial B (n,p) se puede aproximar mediante una distribución normal. Hay que tener en cuenta que el tamaño de la muestra sea adecuado y para eso usamos la siguiente regla: El producto del tamaño de la muestra (n) por la probabilidad de éxito (p) sea mayor o igual que 5 sobre el tamaño de la muestra (La del fracaso es lo mismo ya que dan iguales, podemos considerar cualquiera de las dos). Si se cumple esa condición, podemos decir que la media es np y la desviación estándar es √𝑛𝑝𝑞; esto se puede transformar en una distribución normal. Esto lo hacemos considerando una variable “Z” centrada respecto de media binomial (x-np) y estandarizada con respecto a la desviación estándar binomial (√𝑛𝑝𝑞). Si es así, entonces vamos a trabajar a la variable como una normal estándar: N (np, √𝑛𝑝𝑞) y por lo tanto la variable 𝑍 = 𝑋−𝑛𝑝 √𝑛𝑝𝑞 es N (0,1) → TEOREMA DE MOIVRE Debemos tener en cuenta que cuanto mayor sea el valor de n y cuanto más próximo sea p a 0.5 tanto mejor será la aproximación realizada. Es decir, basta con que se verifique np ≤ 5 y nq ≥ 5. Gracias a esta aproximación es fácil hallar probabilidades binomiales que para valores grandes de n resulten muy laboriosos de calcular. La diferencia esencial entre una variable binomial y una variable normal es que la variable binomial es discreta y la variable normal es continua. Hay que tener en cuenta que para realizar correctamente esta transformación de un variable discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de continuidad o corrección de Yates. • P(X=a) = P (a-0.5 ≤ X ≤ a+0.5) • P(X<a) = P(X≤ a-0.5) • P(X≤a) = P(X≤ a+0.5) • P(a≤X≤b) = P(a-0.5 ≤ X ≤ b+0.5) • P(a<X<b) = P(a+0.5 ≤ X ≤ b-0.5) Acá sí es importante tener en cuenta si la variable aleatoria es menor, menor-igual o igual a un número, ya que la variable aleatoria natural es binomial y no continua (debemos tratarla como una variable discreta). Será discreta pero la trabajaremos como continua. Distribución Gamma Esta distribución es de suma importancia debido a que es base de otras distribuciones. La distribución gamma modela en general tiempos. Tiene 2 parámetros un alpha (α) y un theta (θ), el primero es un factor de forma y el segundo es un factor de escala. • Tiene Asimetría Positiva. Es Leptocúrtica. Si no conocemos su parámetro lo podemos averiguar con estadística Típico ejemplo para este tipo de distribuciones: Supóngase que una pieza está sometida a una cierta fuerza de manera que se romperá después de aplicar un número específico de ciclos de fuerza. si los ciclos ocurren de manera independiente y a una frecuencia promedio dada, entonces el tiempo que debe transcurrir antes de que el material se rompa es una variable aleatoria que sigue una distribución gamma, su función densidad viene expresada por: 13 𝑓(𝑥, 𝛼, 𝜃) = 1 Γ(𝛼)𝜃𝛼 𝑥𝛼−1𝑒− 𝑥 𝜃 ; 𝑥 > 0; 𝛼 > 0; 𝜃 > 0 Forma de la gráfica cuando según los valores de alpha: Distribución Exponencial Negativa Modela los tiempos para que haya una falla en el sistema. Resulta que la exponencial es un caso especial de la Distribución Gamma, ambas tienen un gran número de aplicaciones. Las distribuciones exponenciales y gamma juegan un papel importante tanto en la teoría de colas como en problemas de confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio, y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente involucran la distribución exponencial. La relación entre la gamma y la exponencial permite que la distribución gamma se utilice en tipos similares de problemas (más generales). La variable aleatoria x tiene una distribución exponencial, con parámetro β, y su función de densidad es: 𝑓(𝑥) = 1 𝛽 𝑥 −𝑥 𝛽 ; 𝑥 > 0 La media es μ= β y la desviación estándar es σ=√𝛽 Distribución Ji-Cuadrada (X2) En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas. Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2. Si se elige una muestra de tamaño n de una población normal con varianza σ2, el estadístico: 𝑋2 = (𝑛−1)𝑠2 𝜎2 → Variable Ji- Cuadrada; tiene una distribución muestral que es una distribución ji-cuadrada con gl = n-1 (grados de libertad) y se denota X2 (X es la minúscula de la letra griega ji). Para determinar este tipo de variable necesitamos conocer el tamaño de la muestra n, la desviación estándar s y la varianza poblacional. También se puede representar como : 𝑋2 = ∑(𝑥−𝑥)2 𝜎2 → Sumatoria del cuadrado de los desvíos respecto a sigma cuadrado. 1. Los valores X2 de son mayores o iguales a 0 → X2≥0 2. La forma de la distribución X2depende de gl=n-1. En consecuencia, hay un número infinito de distribuciones X2. 3. El área bajo la curva de ji-cuadrada y sobre el eje horizontal es 1. 4. La distribución X2no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto significa que están sesgadas a la derecha. (Acumulación a la izquierda) 5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribución X2 se da en el valor (n-3). Distribución Beta La distribución beta va a modelar proporciones de cantidades, su variable serán todos los valores entre 0 y 1. La proporción va a tener un mínimo 0 y un máximo 1, que representan el 100%. Tiene 2 parámetros, un parámetro alpha y un parámetro beta, ninguno de los 2 es un parámetro de escala, son parámetros de forma. Quiere decir que los parámetros definen la forma de la distribución. • Campo de variación → 0 ≤ x ≤ 1 • Parámetros → o α > 0 o β > 0 14 ° Población y muestra Para que cualquier estudio de investigación sea efectivo, es necesario seleccionar la población de estudio que sea verdaderamente representativa en toda la población. Antes de comenzar su estudio, la población objetivo debe ser identificada y acordada. Seleccionando y conociendo su muestra con suficiente antelación, se eliminará en gran medida cualquier retroalimentación que se considere útil para el estudio. Si el objetivo de tu encuesta es comprender la efectividad de un producto o servicio, entonces la población de estudio debe ser los clientes que lo han usado o que mejor se adapten a sus necesidades y que usarán el producto/servicio. Sería muy costoso y lento recolectar datos de toda la población de tu mercado objetivo. Mediante un muestreo preciso de su población de estudio, es posible construir una imagen real del mercado objetivo utilizando las tendencias de los resultados. La representatividad de la muestra depende del tamaño de la misma y el tipo de muestreo que se produce. La importancia de que la muestra sea representativa en un conjunto de datos es que permite inferir sobre muchas características de la población objetivo, de manera tal de que mis conclusiones tengan mayor grado de validez de lo que pueden tener cuando la muestra es no representativa. Hay 2 tipos de muestreo: ➔ No Probabilístico: El muestreo no probabilístico es una técnica utilizada en la muestra estadística, que a diferencia de la muestra probabilística, no permite que todos los individuos de una población a investigar, posean las mismas oportunidades de selección. En este tipo de muestreo predominan aquellos individuos que, al cumplir con cierta cualidad o característica, benefician la investigación. Existen distintos tipos de muestreo no probabilístico: 15 • Conveniencia: Es aquel donde el investigador realiza la muestra, seleccionando individuos que considera accesibles y de rápida investigación. Esto generalmente lo hace por proximidad a él mismo. Ocurre generalmente cuando uno desea obtener información respecto a algún conjunto de datos y tiene a mano una fuente de datos que es de fácil acceso al investigador. Las principales características de este tipo de muestreos son la accesibilidad y la rapidez. Lógicamente las conclusiones que se extraerán de este estudio no necesariamente serán extensibles a toda la población. Ejemplo: Un investigador decide realizar un estudio sobre la opinión de un profesor en un aula determinada. Al utilizar el muestreo por conveniencia, conforma su muestra con los primeros 5 alumnos de la lista del aula. • Por Cuotas: A través del muestreo por cuotas, el investigador se asegura de que la muestra sea equitativa y proporcional, de acuerdo con las características, cualidades o rasgos de la población a estudiar. Se completa por partes el tamaño de la muestra. Ejemplo: un investigador debe realizar una muestra sobre los empleados de una empresa, en la que el 60% son mujeres y el 40% son hombres. Para hacerlo, selecciona individuos que sean proporcionales a la población, a través de un muestreo por conveniencia o a la elección del investigador. • Bola de nieve: También conocido como muestreo en cadena, este método consiste en que el investigador exija, al primer sujeto de la muestra, identificar o señalar a otra persona que cumpla con los requisitos de la investigación. Se utiliza cuando no es fácil la accesibilidad a los datos y se requieren recomendaciones (se basa en esto). Ejemplo: un investigador decide realizar una investigación cuya muestra la conforman individuos con una rara enfermedad. De esta manera, al encontrar un individuo con dichas características, el investigador le pide ayuda para encontrar otras personas con estas condiciones para conformar la muestra. Otro ejemplo puede ser una investigación referida a las drogas. • Discrecional: También conocido como muestreo por juicio o intencional, mediante esta técnica los sujetos se eligen para conformar un grupo específico, de personas que resultan más adecuadas para el análisis que otras (se elige a criterio propio la muestra). Ejemplo: Se desea realizar una investigación sobre el comportamiento de los padres con sus hijos. Por lo tanto el investigador selecciona como muestra a personas que tengan hijos, ya que las considera aptas de conocimiento para formar parte de la investigación. Ventajas y desventajas del muestreo no probabilístico Ventajas: • Menos costos para realizar la investigación. • Se pueden controlar las características de la muestra. • Conlleva menos tiempo, ya que se conoce al individuo que formará parte de la muestra. 16 • Se pueden conocer características poco comunes. • Elige de manera más fácil la muestra. Desventajas: • No asegura la representación total de la población. • No generaliza y es subjetiva (no se puede generalizar). • No es recomendable en el caso de que la investigación sea causal o descriptiva. • Sus conclusiones están sujetas a un pequeño entorno. Siempre que estemos estudiando los fenómenos causales o descriptivos NO podremos utilizar el método no probabilístico ➔ Probabilístico: Todos los individuos de una población tienen la misma posibilidad de ser seleccionados (azar). Se debe tener disponible un listado completo de todos los elementos de la población, a esto se le llama MARCO DE MUESTREO. • Aleatorio simple (MAS): Es aquel en el cual todos los elementos de la población tienen la misma probabilidad de ser seleccionados. Este sistema funciona a través de un método de “sorteo” entre un universo de individuos, en el que se le asigna a cada integrante un número para ser escogido. Ejemplo: si se necesita seleccionar una muestra de 50 personas entre un universo de 1000, se le asignará a esas 1000 personas un número y, a modo de sorteo, se le seleccionarán 50 números al azar que conformarán la muestra requerida. Dicho procedimiento garantiza que todos los elementos muestrales tengan la misma probabilidad de ser seleccionados para formar parte de la muestra (muestreo representativo). Ventajas: • Es sencillo para armar las muestras. • Toma de forma equitativa la selección de las muestras a partir de una población. • En general, todos los individuos tienen iguales oportunidades de ser seleccionados • La población es representativa, siendo el único margen de error la suerte, llamada error de muestreo. • El mejor método a la hora de explicar resultados, ya que su selección es aleatoria e imparcial. • Por la representatividad obtenida se pueden realizar generalizaciones con respecto a la población, a partir de los resultados de la muestras. Desventajas: • Se requiere de una lista completa de todos los miembros de la población. • Esta lista debe estar debidamente elaborada, completa y actualizada. • En las poblaciones grandes es difícil disponer de los datos necesarios para este tipo de muestreo, por lo que se recomienda utilizar otra técnica.17 • Sistemático: se basa en enlistar a toda una población, elegir de forma aleatoria al primer individuo para la muestra y luego, a partir de un intervalo definido por el investigador, seleccionar al resto de los individuos que conformarán la muestra. Ejemplo: supongamos que necesitamos extraer una muestra de 10 personas a partir de una población total de 100 y el primer individuo seleccionado para la muestra es el número 3. A partir de este, mediante un intervalo de 4 decidido por el investigador, se seleccionarán los próximos individuos hasta completar la muestra, de manera que serán los números 7,11,15, etc. Ventajas: • Permite obtener buenas propiedades de representatividad. • Es un sistema muy rápido y simple, ya que evita la necesidad de generar números aleatorios de individuos en la muestra. • Garantiza una selección perfectamente equitativa de la población, lo que resulta muy útil en la distinción de grupos. • Evita la necesidad de usar diferentes estratos, aunque existe variedad de individuos en cada fragmento. Desventajas: • el orden en el que se coloca a la población seleccionada puede llegar a tener un tipo de periodicidad oculta, la cual puede coincidir con el intervalo seleccionado, ocasionando una muestra sesgada. Coeficiente de elevación: es el número de veces que el tamaño de la población contiene al tamaño de la muestra (N/n). • Estratificado: consiste en dividir toda la población, sobre la cual se realizará una investigación, en diferentes estratos o subgrupos. Generalmente, estos estratos se conforman por individuos que comparten características similares. Una vez estratificada la población se debe seleccionar, al azar y de forma proporcional, a los individuos finales de cada uno de los estratos que conformarán la muestra estadística. Existen distintos tipos de muestreo estratificados: A. Proporcionado: cuando el tamaño de la muestra, de cada uno de los estratos, es proporcional al tamaño de la población. 18 B. Desproporcionado: permite al investigador realizar una muestra de forma equitativa, sin importar la cantidad de individuos que conformen la población del estrato. Las ventajas y desventajas del muestreo estratificado son las siguientes: Ventajas: • Cuenta con mayor capacidad de hacer inferencia y comparaciones dentro de un grupo • Presenta un mínimo de errores en las muestras del mismo tamaño, por lo que necesita de muestras pequeñas para que exista el mismo margen de error. • Las muestras son más representativas, ya que los elementos de cada estrato o grupo son representados en la muestra. • El investigador puede obtener mayor conocimiento de la población abordada. • Permite aplicar diversos métodos de investigación y procedimientos en los diferentes estratos. Desventajas: • Es necesario obtener información sobre la proporción de la población perteneciente en cada estrato. 19 • Se requiere información sobre las variables de estratificación de cada elemento de la población, ya que sino puede ser muy costosa la recopilación. • En un método más costoso, ya que implica tiempo y es complicado en comparación con otros métodos. • Si se cuenta con un gran número de variables, la selección de la estratificación resultará más difícil. • Conglomerado: también denominado Cluster o muestreo por Racimos. Son unidades geográficas (distritos, pueblos, organizaciones, clínicas) Ejemplos: Facultad de Ciencias Económicas, Facultad de Ciencias Jurídicas y Sociales, Facultad de Química y Farmacia. La característica de los conglomerados es que tienen la misma información que otro conglomerado pero poseen unidades mucho más amplias de los encuestados. Limitantes: financieras, tiempo, geografía y otros obstáculos, como por ejemplo la accesibilidad. Se utiliza para censos. Se reducen costos, tiempo y energía al considerar que muchas veces las unidades de análisis se encuentran encapsuladas o encerradas en determinados lugares físicos o geográficos: Conglomerados. Unidad de análisis: Sujetos o personas Unidad muestral en este caso: conglomerado a través del cual se logra el acceso a la unidad de análisis. Selección en 2 etapas: • Los racimos o conglomerados • En los racimos se seleccionan a los sujetos a ser medidos 20
Compartir