Logo Studenta

distribuciones de probabilidades

¡Este material tiene más páginas!

Vista previa del material en texto

ESTADÍSTICA II 
Clase del 21/03/2023 
Distribuciones de probabilidad 
Docentes: 
 Roberto Emanuel Díaz Ansberck 
 Víctor Luna 
Población y Variables de Estudio 
En la formulación de los objetivos o hipótesis de investigación, 
queda implícito un conjunto de “unidades” a las que se 
observa determinadas “características o propiedades 
comunes”. Tales conceptos constituyen la población y las 
variables de estudio, respectivamente. 
• La población es el conjunto de todos los individuos, objetos, 
entidades o unidades a los cuales se pretende alcanzar o 
abarcar en las conclusiones del estudio. Esta debe quedar bien 
delimitada en espacio y tiempo, pues su tamaño determina la 
metodología de la investigación, pudiendo ser muy grande o 
indeterminado. 
• Llamamos variables a aquellas características comunes y 
observables en cada unidad o entidad que integran la 
población de interés, que varían de una unidad a otra y que 
motivan la investigación. 
Muestreo y Recolección de Datos: 
Las poblaciones suelen ser muy numerosas, por lo que 
resulta difícil, costoso y en algunos casos imposible, que 
el estudio abarque a todos sus elementos. 
 Por otra parte puede ser innecesario y hasta absurdo. 
Imaginemos el caso que se quisiera estudiar los ingresos 
por persona en San Juan y para ello, se intentara 
encuestar a todas las personas de San Juan. 
Obviamente, sólo se puede tomar unas muestras y llegar a 
conclusiones generalizables con respecto a los ingresos 
por persona en San Juan. 
Cuando no es posible medir cada uno de los individuos de 
una población, se toma una muestra que la debe 
representar. 
 
Muestreo y Recolección de Datos: 
Una muestra es un subconjunto finito de la población, y 
en la cual, a partir de considerarla representativa, se 
basa la inferencia de la población. 
El tratamiento de la muestra y su inferencia a la población 
ha sido desarrollado en base al concepto de probabilidad 
que atañe al análisis estadístico. 
La validez de la generalización depende de condiciones de 
selección y tamaño de la muestra y constituye uno de los 
ejes temáticos de la estadística. 
Entre las técnicas de selección de muestra, y con las cuales 
se asume representatividad, está el muestreo por azar 
simple, sistemático, por conglomerados y estratificado, 
según sean las características particulares de cada 
población de unidades. 
 
Muestreo y Recolección de Datos: 
• Muestreo aleatorio simple: Una de las mejores técnicas 
de muestreo probabilístico que ayuda a ahorrar tiempo y 
recursos es el método de muestreo aleatorio simple. Es 
un método fiable de obtención de información en el que 
cada uno de los miembros de una población se elige al 
azar, simplemente por casualidad. Cada individuo tiene 
la misma probabilidad de ser elegido para formar parte 
de una muestra. 
• Por ejemplo, en una organización de 500 empleados, si 
el equipo de recursos humanos decide llevar a cabo 
actividades de creación de equipos, es muy probable que 
prefieran escoger fichas de una caja. En este caso, cada 
uno de los 500 empleados tiene la misma oportunidad 
de ser seleccionado. 
 
https://www.questionpro.com/blog/es/muestreo-aleatorio-simple/
Muestreo y Recolección de Datos: 
• Muestreo por conglomerados: es un método en el que los 
investigadores dividen a toda la población en secciones o 
conglomerados que representan a una población. Los grupos 
se identifican e incluyen en una muestra basada en 
parámetros demográficos como la edad, el sexo, la ubicación, 
etc. Esto hace que sea muy sencillo para el creador de la 
encuesta obtener una inferencia efectiva a partir de la 
retroalimentación. 
• Por ejemplo, si el gobierno desea evaluar el número de 
inmigrantes que viven en su territorio, puede dividirlos en 
grupos basados en lo que conocemos como provincias; tales 
como San Juan, Catamarca, Mendoza, etc. Esta forma de 
realizar una encuesta será más efectiva ya que los resultados 
se organizarán por grupos y proporcionarán datos de 
inmigración objetivos. 
https://www.questionpro.com/blog/es/muestreo-por-conglomerados/
Muestreo y Recolección de Datos: 
• Muestreo sistemático: Los investigadores utilizan el método 
de muestreo sistemático para elegir los miembros de la 
muestra de una población a intervalos regulares. 
• Para ello es necesario seleccionar un punto de partida para la 
muestra y un tamaño de muestra que pueda repetirse a 
intervalos regulares. Este tipo de método de muestreo tiene 
un alcance predefinido y, por lo tanto, esta técnica de 
muestreo es la que menos tiempo consume. 
• Por ejemplo, un investigador tiene la intención de recoger una 
muestra sistemática de 500 personas en una población de 
5000. Numera cada elemento de la población de 1 a 5.000 y 
elegirá a cada 10 individuos para que formen parte de la 
muestra (Población total/tamaño de la muestra = 5.000/500 
= 10). 
https://www.questionpro.com/blog/es/muestreo-sistematico/
Muestreo y Recolección de Datos: 
• Muestreo estratificado: El muestreo aleatorio estratificado es un 
método en el que el investigador divide la población en grupos más 
pequeños que no se superponen, sino que representan a toda la 
población. Durante el muestreo, estos grupos pueden organizarse y 
luego extraer una muestra de cada grupo por separado. 
• Por ejemplo, un investigador que desee analizar las características 
de las personas pertenecientes a diferentes divisiones de ingresos 
anuales creará estratos (grupos) según los ingresos anuales de la 
familia. 
• Por ejemplo, menos de 20.000 pesos, 21.000 a 30.000 pesos, 
31.000 a 40.000 pesos, 41.000 a 50.000 pesos, etc. 
• Con esto, el investigador concluye las características de las personas 
que pertenecen a diferentes grupos de ingresos. Los 
comercializadores pueden analizar a qué grupos de ingresos 
dirigirse y a cuáles eliminar para obtener los resultados deseados. 
https://www.questionpro.com/blog/es/muestreo-estratificado/
Inferencia estadística 
La inferencia estadística es el conjunto de métodos y técnicas que permiten 
inducir, a partir de la información proporcionada por una muestra, cual es 
el comportamiento de una determinada población con un riesgo de error 
medible en términos de probabilidad. 
Los métodos paramétricos de la inferencia estadística se pueden dividir, 
básicamente, en dos: métodos de estimación de parámetros por intervalos 
de confianza y pruebas de hipótesis. Ambos métodos se basan en el 
conocimiento teórico de la distribución de probabilidad del estadístico 
muestral que se utiliza como estimador de un parámetro. 
La estimación de parámetros consiste en asignar un valor concreto al 
parámetro o parámetros que caracterizan la distribución de probabilidad de 
la población. 
Cuando se estima un parámetro poblacional, aunque el estimador que se 
utiliza posea todas las propiedades deseables, se comete un error de 
estimación que es la diferencia entre la estimación y el verdadero valor del 
parámetro. 
Inferencia estadística 
Partiremos del supuesto que el muestreo aleatorio se aplica a una 
población con distribución Normal. Luego tiene especial 
interés determinar los parámetros μ y σ2 de ése modelo. 
En forma intuitiva podemos pensar que las medias (x promedio) y las 
varianzas (s2) de las muestras tomadas de la población, si bien no 
coinciden con la media y varianza poblacional, seguramente sean 
muy parecidos a tales parámetros X, veremos luego si tal intuición 
es real. 
 
Primero nos dedicaremos a analizar los valores de las 
medias de las muestras. 
La pregunta es: 
 
¿Qué valores puede tomar X? 
Inferencia estadística 
 
¿Qué valores puede tomar X? 
 
Veamos lo que se tiene: 
▫ Se supone que la población posee una distribución Normal: X~ 
N(μ,σ2). 
▫ Se aplica muestreo aleatorio, lo que implica que las componentes 
de la muestra aleatoria conforman un conjunto de “n” variables 
aleatorias independientes entre sí y normales idénticas a la 
población: X1~N(μ,σ2); X2~N(μ,σ2) … Xn~N(μ,σ2)▫ En consecuencia al segundo postulado, aplicando la propiedad 
aditiva de las normales se tiene que la suma de las componentes 
de la muestra: Σ Xi~N(nμ;nσ2). 
 
Inferencia estadística 
 
Ahora el problema que tenemos es determinar una distribución que 
represente al conjunto de datos. 
Por suerte hay propiedades que nos ayudaran a conseguir salvar esta 
situación: 
 
• Por un lado si todos los elementos de la muestra tienen la misma media, la 
distribución tendrá la misma media. 
• Si todos los elementos tienen la misma varianza, la varianza de la 
distribución será esa misma pero dividida en el numero de datos tomados, 
dado que disminuye la variabilidad mientras mas datos tengamos. 
 
Por lo tanto la distribución con la que trabajamos se distribuye: 
 
Σ Xi/n ~ N(μ,σ2/n) 
Intervalo de confianza 
El error de estimación es desconocido por lo cual es 
imposible saber en cada caso cual ha sido la magnitud o 
el signo del error; para valorar el grado de precisión 
asociado con una estimación puntual se parte de dicha 
estimación para construir un intervalo de confianza. 
Un intervalo de confianza está formado por un conjunto de 
valores numéricos tal que la probabilidad de que éste 
contenga al verdadero valor del parámetro puede fijarse 
tan grande como se quiera. Esta probabilidad se 
denomina grado de confianza del intervalo, y la amplitud 
de éste constituye una medida del grado de precisión con 
el que se estima el parámetro. 
Intervalo de confianza para la media 
con varianza conocida 
La distribución de las medias permite plantear un 
intervalo de la variable , centrado en el parámetro μ 
y probabilidad dada por 1-α (denominada 
confianza), comúnmente α ≤ 0,10. 
Este intervalo especifica, en un tramo de longitud 
mínima a los valores más probables de las medias 
muestrales. 
Si bien sus extremos están indeterminados por la 
dependencia con el parámetro μ desconocido, es 
posible puntualizar a sus transformados por medio 
de la “estandarización” por la simetría respecto del 
cero. 
Intervalo de confianza para la media 
con varianza conocida 
Intervalo de confianza para la media 
con varianza desconocida 
Partiendo de una población Normal, en estas condiciones la variable 
aleatoria se distribuye como una t-Student con n-1 grados de 
libertad de la forma: 
 
 
 
 
 
 
 
 
 
Intervalo de confianza para la media 
con varianza desconocida 
Basándonos en una variable 
aleatoria que se distribuye 
como una Binomial, y la 
aproximación de una 
distribución Binomial por una 
Normal cuando el tamaño de la 
muestra es muy grande, se ha 
visto que se puede expresar 
como: 
 
 
 
 
 
 
 
 
 
Intervalo de confianza para varianza 
Con igual procedimiento y 
criterio al desarrollado para las 
medias, se puede concluir un 
intervalo para la varianza 
poblacional, partiendo de la 
distribución de las varianzas 
muestrales: 
 
 
 
υ=n-1 
 
 
 
 
 
 
 
 
¡Muchas gracias por su atención!

Continuar navegando