Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA II Clase del 21/03/2023 Distribuciones de probabilidad Docentes: Roberto Emanuel Díaz Ansberck Víctor Luna Población y Variables de Estudio En la formulación de los objetivos o hipótesis de investigación, queda implícito un conjunto de “unidades” a las que se observa determinadas “características o propiedades comunes”. Tales conceptos constituyen la población y las variables de estudio, respectivamente. • La población es el conjunto de todos los individuos, objetos, entidades o unidades a los cuales se pretende alcanzar o abarcar en las conclusiones del estudio. Esta debe quedar bien delimitada en espacio y tiempo, pues su tamaño determina la metodología de la investigación, pudiendo ser muy grande o indeterminado. • Llamamos variables a aquellas características comunes y observables en cada unidad o entidad que integran la población de interés, que varían de una unidad a otra y que motivan la investigación. Muestreo y Recolección de Datos: Las poblaciones suelen ser muy numerosas, por lo que resulta difícil, costoso y en algunos casos imposible, que el estudio abarque a todos sus elementos. Por otra parte puede ser innecesario y hasta absurdo. Imaginemos el caso que se quisiera estudiar los ingresos por persona en San Juan y para ello, se intentara encuestar a todas las personas de San Juan. Obviamente, sólo se puede tomar unas muestras y llegar a conclusiones generalizables con respecto a los ingresos por persona en San Juan. Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra que la debe representar. Muestreo y Recolección de Datos: Una muestra es un subconjunto finito de la población, y en la cual, a partir de considerarla representativa, se basa la inferencia de la población. El tratamiento de la muestra y su inferencia a la población ha sido desarrollado en base al concepto de probabilidad que atañe al análisis estadístico. La validez de la generalización depende de condiciones de selección y tamaño de la muestra y constituye uno de los ejes temáticos de la estadística. Entre las técnicas de selección de muestra, y con las cuales se asume representatividad, está el muestreo por azar simple, sistemático, por conglomerados y estratificado, según sean las características particulares de cada población de unidades. Muestreo y Recolección de Datos: • Muestreo aleatorio simple: Una de las mejores técnicas de muestreo probabilístico que ayuda a ahorrar tiempo y recursos es el método de muestreo aleatorio simple. Es un método fiable de obtención de información en el que cada uno de los miembros de una población se elige al azar, simplemente por casualidad. Cada individuo tiene la misma probabilidad de ser elegido para formar parte de una muestra. • Por ejemplo, en una organización de 500 empleados, si el equipo de recursos humanos decide llevar a cabo actividades de creación de equipos, es muy probable que prefieran escoger fichas de una caja. En este caso, cada uno de los 500 empleados tiene la misma oportunidad de ser seleccionado. https://www.questionpro.com/blog/es/muestreo-aleatorio-simple/ Muestreo y Recolección de Datos: • Muestreo por conglomerados: es un método en el que los investigadores dividen a toda la población en secciones o conglomerados que representan a una población. Los grupos se identifican e incluyen en una muestra basada en parámetros demográficos como la edad, el sexo, la ubicación, etc. Esto hace que sea muy sencillo para el creador de la encuesta obtener una inferencia efectiva a partir de la retroalimentación. • Por ejemplo, si el gobierno desea evaluar el número de inmigrantes que viven en su territorio, puede dividirlos en grupos basados en lo que conocemos como provincias; tales como San Juan, Catamarca, Mendoza, etc. Esta forma de realizar una encuesta será más efectiva ya que los resultados se organizarán por grupos y proporcionarán datos de inmigración objetivos. https://www.questionpro.com/blog/es/muestreo-por-conglomerados/ Muestreo y Recolección de Datos: • Muestreo sistemático: Los investigadores utilizan el método de muestreo sistemático para elegir los miembros de la muestra de una población a intervalos regulares. • Para ello es necesario seleccionar un punto de partida para la muestra y un tamaño de muestra que pueda repetirse a intervalos regulares. Este tipo de método de muestreo tiene un alcance predefinido y, por lo tanto, esta técnica de muestreo es la que menos tiempo consume. • Por ejemplo, un investigador tiene la intención de recoger una muestra sistemática de 500 personas en una población de 5000. Numera cada elemento de la población de 1 a 5.000 y elegirá a cada 10 individuos para que formen parte de la muestra (Población total/tamaño de la muestra = 5.000/500 = 10). https://www.questionpro.com/blog/es/muestreo-sistematico/ Muestreo y Recolección de Datos: • Muestreo estratificado: El muestreo aleatorio estratificado es un método en el que el investigador divide la población en grupos más pequeños que no se superponen, sino que representan a toda la población. Durante el muestreo, estos grupos pueden organizarse y luego extraer una muestra de cada grupo por separado. • Por ejemplo, un investigador que desee analizar las características de las personas pertenecientes a diferentes divisiones de ingresos anuales creará estratos (grupos) según los ingresos anuales de la familia. • Por ejemplo, menos de 20.000 pesos, 21.000 a 30.000 pesos, 31.000 a 40.000 pesos, 41.000 a 50.000 pesos, etc. • Con esto, el investigador concluye las características de las personas que pertenecen a diferentes grupos de ingresos. Los comercializadores pueden analizar a qué grupos de ingresos dirigirse y a cuáles eliminar para obtener los resultados deseados. https://www.questionpro.com/blog/es/muestreo-estratificado/ Inferencia estadística La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad. Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos: métodos de estimación de parámetros por intervalos de confianza y pruebas de hipótesis. Ambos métodos se basan en el conocimiento teórico de la distribución de probabilidad del estadístico muestral que se utiliza como estimador de un parámetro. La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros que caracterizan la distribución de probabilidad de la población. Cuando se estima un parámetro poblacional, aunque el estimador que se utiliza posea todas las propiedades deseables, se comete un error de estimación que es la diferencia entre la estimación y el verdadero valor del parámetro. Inferencia estadística Partiremos del supuesto que el muestreo aleatorio se aplica a una población con distribución Normal. Luego tiene especial interés determinar los parámetros μ y σ2 de ése modelo. En forma intuitiva podemos pensar que las medias (x promedio) y las varianzas (s2) de las muestras tomadas de la población, si bien no coinciden con la media y varianza poblacional, seguramente sean muy parecidos a tales parámetros X, veremos luego si tal intuición es real. Primero nos dedicaremos a analizar los valores de las medias de las muestras. La pregunta es: ¿Qué valores puede tomar X? Inferencia estadística ¿Qué valores puede tomar X? Veamos lo que se tiene: ▫ Se supone que la población posee una distribución Normal: X~ N(μ,σ2). ▫ Se aplica muestreo aleatorio, lo que implica que las componentes de la muestra aleatoria conforman un conjunto de “n” variables aleatorias independientes entre sí y normales idénticas a la población: X1~N(μ,σ2); X2~N(μ,σ2) … Xn~N(μ,σ2)▫ En consecuencia al segundo postulado, aplicando la propiedad aditiva de las normales se tiene que la suma de las componentes de la muestra: Σ Xi~N(nμ;nσ2). Inferencia estadística Ahora el problema que tenemos es determinar una distribución que represente al conjunto de datos. Por suerte hay propiedades que nos ayudaran a conseguir salvar esta situación: • Por un lado si todos los elementos de la muestra tienen la misma media, la distribución tendrá la misma media. • Si todos los elementos tienen la misma varianza, la varianza de la distribución será esa misma pero dividida en el numero de datos tomados, dado que disminuye la variabilidad mientras mas datos tengamos. Por lo tanto la distribución con la que trabajamos se distribuye: Σ Xi/n ~ N(μ,σ2/n) Intervalo de confianza El error de estimación es desconocido por lo cual es imposible saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el grado de precisión asociado con una estimación puntual se parte de dicha estimación para construir un intervalo de confianza. Un intervalo de confianza está formado por un conjunto de valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del parámetro puede fijarse tan grande como se quiera. Esta probabilidad se denomina grado de confianza del intervalo, y la amplitud de éste constituye una medida del grado de precisión con el que se estima el parámetro. Intervalo de confianza para la media con varianza conocida La distribución de las medias permite plantear un intervalo de la variable , centrado en el parámetro μ y probabilidad dada por 1-α (denominada confianza), comúnmente α ≤ 0,10. Este intervalo especifica, en un tramo de longitud mínima a los valores más probables de las medias muestrales. Si bien sus extremos están indeterminados por la dependencia con el parámetro μ desconocido, es posible puntualizar a sus transformados por medio de la “estandarización” por la simetría respecto del cero. Intervalo de confianza para la media con varianza conocida Intervalo de confianza para la media con varianza desconocida Partiendo de una población Normal, en estas condiciones la variable aleatoria se distribuye como una t-Student con n-1 grados de libertad de la forma: Intervalo de confianza para la media con varianza desconocida Basándonos en una variable aleatoria que se distribuye como una Binomial, y la aproximación de una distribución Binomial por una Normal cuando el tamaño de la muestra es muy grande, se ha visto que se puede expresar como: Intervalo de confianza para varianza Con igual procedimiento y criterio al desarrollado para las medias, se puede concluir un intervalo para la varianza poblacional, partiendo de la distribución de las varianzas muestrales: υ=n-1 ¡Muchas gracias por su atención!
Compartir