Logo Studenta

RESUMEN DEL SEGUNDO PARCIAL ESTADISTICA

¡Este material tiene más páginas!

Vista previa del material en texto

DISTRIBUCIÓN BINOMIAL
VARIABLE ALEATORIA DISCRETA
Por variable numérica, se entiende una variable que produce respuestas numéricas ante una medición o un conteo. Así, podemos citar como ejemplos: identificar cuántos varones existen en un determinado curso de la universidad (conteo) o bien la frecuencia de arribo de los colectivos interurbanos a determinado lugar (medición).
Podemos clasificar a las variables numéricas en discretas y continuas. Cuando se desea recabar datos de un evento y este proceso implica una medición, estamos tratando con una variable numérica continua.
En cambio, si al recabar los datos, el proceso surge de un conteo entonces la variable es una variable numérica discreta.
VALOR ESPERADO DE UNA VARIABLE ALEATORIA. ESPERANZA MATEMÁTICA
Si consideramos que los parámetros de la distribución son n y p y la media de la distribución
μ = n.p,
Donde
· n = es el número de ensayos;
· p = probabilidad de aciertos;
Entonces definiremos la esperanza matemática o valor esperado de una variable aleatoria como la media de la distribución:
E(x) = n.p.
Es una media aritmética ponderada de los resultados esperados.
Para encontrar el valor esperado de una variable aleatoria discreta, realizamos el producto entre cada valor que la variable puede tomar y la probabilidad de ocurrencia de ese valor y, posteriormente, sumamos dichos productos. El valor esperado le da un valor a cada resultado posible según la frecuencia con que se manifiesta. Por lo tanto, los más frecuentes tienen asignado un peso mayor.
DISTRIBUCIONES DE VARIABLE ALEATORIA DISCRETA
Para realizar un estudio de distribución de variable aleatoria, debemos considerar todos los casos posibles en los que se puede presentar el evento; son mutuamente excluyentes y exhaustivos.
Tendremos que tener en cuenta también que, en muchos casos, el evento aleatorio puede tomar valores no numéricos.
En este caso, la distribución de probabilidad es una lista mutuamente excluyente de todos los resultados numéricos posibles; de tal manera que cada probabilidad de ocurrencia se asocia con un resultado. 
Hemos visto, en el punto anterior, la expresión de la media, μ:
 =𝑖 −ésimo resultado de la variable aleatoria discreta 𝑋; 
=probabilidad de ocurrencia del 𝑖−ésimo resultado de 𝑋.
Varianza de una variable aleatoria discreta
Se calcula como la sumatoria de los productos entre el cuadrado de la diferencia entre cada valor que adopta la variable y la media de la distribución, y la probabilidad de que la variable adquiera ese valor.
Desviación estándar de una variable aleatoria discreta
Hemos visto que la desviación estándar de la distribución está dada por la raíz cuadrada de la varianza de dicha distribución.
Por lo tanto:
DISTRIBUCIÓN BINOMIAL
Parámetros
Condiciones que debe cumplir una distribución para responder al modelo binomial
Debe estar formada la distribución por n ensayos idénticos.
1) Cada resultado del ensayo puede lograr solo dos resultados, si a uno lo denominamos acierto o éxito, el otro se denominará desacierto o fracaso.
2) Si a la probabilidad del éxito la llamamos P(acierto) = p, la probabilidad del fracaso P(desacierto) = q; por lo tanto, q = 1- p.
3) Los eventos son independientes entre sí. Esto indica que el resultado obtenido por cada ensayo es independiente del resultado de ensayos anteriores.
4) La probabilidad del acierto se considera constante; esto significa que la población es muy grande o infinita, o que los ensayos se realizan sin reposición.
Expresión general
En este tipo de distribución, las probabilidades del número posible de aciertos en n ensayos quedan determinadas por el desarrollo de la potencia del binomio (q + p)n, donde el exponente n es el número de ensayos. El desarrollo de dicha potencia se expresa como sigue: 
Los coeficientes ao, a1, . . ., an surgen de las combinaciones de n elementos tomados de x en x.
De esta manera, la probabilidad de que, en n ensayos, se tengan x aciertos está dada por la expresión:
Indica la cantidad de aciertos en n ensayos donde p es la probabilidad del acierto y q = 1- p corresponde con la probabilidad del desacierto.
CARACTERÍSTICAS DE LA DISTRIBUCIÓN BINOMIAL
Media
Como hemos visto, los parámetros de esta distribución son n y p, y su media de la distribución es: 𝜇=𝑛.𝑝.
Por lo tanto, si la esperanza matemática o valor esperado de una variable aleatoria es igual que la media de la distribución, esto implica que: E(x) = n.p.
Varianza
Podemos considerar la varianza como: Var(x) = n.p.q.
Desvío estándar
Y a la desviación estándar, como: 
Además, debe cumplirse que: 
Para todo i desde 0 a n.
DISTRIBUCIÓN DE POISSON
Este tipo de distribución es apropiada para determinadas situaciones donde se analizan eventos aleatorios con restricciones predeterminadas, como la cantidad de hechos o eventos producidos en un intervalo de tiempo o de espacio.
Entre ellos, se puede analizar la distribución de llamadas telefónicas de un central de remises, los trámites de contribuyentes en una oficina pública, las personas que llegan a una farmacia mutual y el número de colectivos que llegan a destino en una terminal de una gran ciudad.
Como veremos, en la recolección de datos de estos ejemplos, existe una característica comun: se pueden analizar a traves de una variable aleatoria discreta por lo que se tratan de números enteros, ya que provienen de un conteo, por ejemplo: 0, 1, 2, 3, 4, 5, etcétera.
Parámetro
Esta distribución tiene como parámetro un solo valor, el promedio de ocurrencia, al que denominaremos con la letra lambda (λ). Este parámetro (λ) representa el número medio de eventos por intervalos de tiempo.
Expresión general
La expresión matemática que resuelve esta distribución donde, generalmente, la letra X representa a esta variable discreta y puede tomar valores enteros (0, 1, 2, 3, 4, 5, etc.) es:
Dónde:
x = número de éxitos/ocurrencias;
λ = promedio de ocurrencias;
e = logaritmo neperiano (e = 2,717281...).
En esta distribución, debe cumplirse que:
Donde i varía, al menos teóricamente, entre cero e infinito.
La utilización de la tabla de Poisson permite no realizar a mano los cálculos de las probabilidades para encontrar similares resultados.
Media
En la distribución de Poisson, la media es igual que el valor esperado. E(x) es igual que la esperanza matemática, que, en esta distribución, coincidiría con λ, es decir, lambda, lo que nos quedaría expresado de esta manera:
Varianza
La varianza, siguiendo el mismo razonamiento, también es igual a λ:
Desvío estándar
La desviación estándar:
En ciertas oportunidades, si queremos evitar la densa tarea de calcular distribuciones binomiales de probabilidad, podemos recurrir a la distribución de Poisson. Esta puede ser una razonable aproximación a la binomial si se cumplen ciertas condiciones. Una de esas situaciones ocurre cuando n es grande y p es pequeña, es decir, si el número de ensayos es grande y la probabilidad binomial de tener éxito es pequeña.
Una estimación, utilizada con más frecuencia por los expertos en el tema, es que la distribución de Poisson provee una buena aproximación a la distribución binomial cuando n es igual o mayor que 20, y p es igual o menor que 0,05.
En los casos en que se cumplen estas condiciones, podemos sustituir la media de la distribución binomial (n.p) por la media de la distribución de Poisson (λ).
DISTRIBUCIÓN HIPERGEOMÉTRICA
Es la distribución correcta para calcular el riesgo del consumidor; a menudo, se aproxima a la distribución binomial. Si contamos una población finita de tamaño N y, de estos N elementos de la población, solamente k de ellos cumplen con una característica particular, deducimos que N - k es la cantidad de elementos de la población que no cumplen con esa condición.
Si de la población se extrae una muestra de n elementos de manera tal que se cumpla que: , entonces la probabilidad de que, en la muestra de n elementos, se tengan x de los k está dada por la expresión:
Parámetros 
Nos preguntamos: ¿por qué, si el evento presenta características similares a las de una distribución binomial,no se resuelve mediante ese modelo, o bien buscamos esta alternativa? La respuesta es que existen motivos que hacen que se prefiera utilizar este tipo de distribución por sobre la binomial. 
 Que la población es finita, y el tamaño de la muestra es grande, significativo respecto del tamaño poblacional y, por lo tanto, modifica la probabilidad de elegir; 
 El muestreo se realiza sin reposición y, al ser significativa, el tamaño de la muestra con respecto al tamaño de la población modifica la probabilidad de acierto. 
Si recordamos, en la distribución binomial, la probabilidad de lo que consideramos acierto se mantiene constante, y esto se logra únicamente si el muestreo se realiza con reposición o la población es infinita o muy grande.
Expresión general 
Esta expresión se basa en la teoría combinatoria, donde: 
N = tamaño de la población; 
n = tamaño de la muestra; 
k = número de éxitos en la población; 
x = número de éxitos en la muestra; 
Para encontrar la expresión que dé la media de la distribución hipergeométrica, debemos recordar nuevamente que la media corresponde con el valor esperado o esperanza matemática. Además, si el muestreo es representativo de la población, la media de la muestra tenderá a ser igual que la media poblacional:
Por lo tanto, despejando E(x), tendremos: 
DISTRIBUCIÓN DE VARIABLE CONTINUA
Como habíamos visto, las variables podían ser continuas o discretas; de esta manera, podemos entonces clasificar los modelos de acuerdo con el tipo de variable.
· Variable discreta:
· binomial;
· de Poisson;
· hipergeométrica.
· Variable continua:
· normal;
· T (de Student);
· chi cuadrado.
En este concepto, se trata solamente la distribución continua normal.
DISTRIBUCIÓN NORMAL
Definiremos ahora, una distribución que analice las probabilidades de que la variable aleatoria adopte un valor dentro de un intervalo. La distribución de variable continua, que responde en forma más general a más cantidad de casos y situaciones en las que la variable se mide en un intervalo, es la distribución normal, también llamada distribución de Gauss.
La distribución normal es reconocida en Estadística por varias razones.
En el ámbito empresarial, existen muchas variables de medición, cuyas distribuciones se asimilan a la distribución normal.
· La distribución normal puede asimilarse a distribuciones de variables discretas como la distribución binomial y la distribución de Poisson; lo que simplifica el trabajo.
· La distribución normal es una herramienta muy importante para la estadística inferencial a través del teorema de límite central.
Distribución normal estándar
1) Tiene forma de campana, de allí el nombre de campana de Gauss.
2) Su eje de simetría respecto del eje vertical pasa por la abscisa de mayor ordenada.
3) El valor de la abscisa de mayor ordenada coincide con la media, la mediana y la moda por ser simétrica respecto del eje vertical que pasa por ese punto.
4) Las ramas de la campana son asintóticas respecto del eje horizontal y se extienden desde -
5) La expresión de la función toma el nombre de “función de densidad de probabilidades” y su expresión es:
La forma de esta función está indicada en el siguiente gráfico:
DISTRIBUCIÓN NORMAL O GAUSSIANA
6) Se considera que la superficie encerrada por la función y el eje horizontal son iguales a 1. Esto significa que la integral de la función F(x) entre los límites - = 1 es ∫F(x).dx = 1.
7) La probabilidad de que la variable aleatoria tome un valor en un intervalo (a; b) está dada por la superficie encerrada por la función y el eje horizontal en ese intervalo: P(a ≤ x ≤ b) = ∫F(x).dx
AREA BAJO UNA CURVA NORMAL
8) La probabilidad que la variable tome un valor puntual es igual a cero: P(x = a) = 0. Si el intervalo (a, b) disminuye, porque el extremo b se acerca a a, la probabilidad disminuye. Y, en el límite, cuando b coincide con a, la probabilidad toma el valor cero; ya que no se tiene superficie por no existir un intervalo. 
9) Otra de las características de la curva normal es que el área debajo de la curva, entre el valor de la media aritmética y un punto cualquiera sobre las abscisas está en función del número de desviaciones estándar.
DISTRIBUCIÓN NORMAL-CARACTERÍSTICAS
Significa que esa superficie es proporcional al número de desviaciones estándar de la distancia entre la media y X, siendo X un punto genérico. En fórmulas, lo podemos expresar así: , donde Z es el coeficiente de proporcionalidad que indica la cantidad de desviaciones estándar correspondientes con la diferencia de abscisas entre X y la media. El valor de Z puede adoptar valores entre cero y un poco más de 3; ya que, si recordamos la regla empírica que indicando que el 99,7 % de las observaciones de una distribución normal ocurren en el intervalo comprendido entre la media menos 3σ y la media más 3σ. Con estas características, se construye una distribución con los valores de z, y dicha distribución se llamará “distribución normal estándar”, cuya media es: y su desviación estándar: 
Se construyeron tablas para distribución normal estándar (DNE), donde, para cada valor de Z, se obtuvo un porcentaje del área total, y estas tablas se encuentran en los apéndices de la bibliografía. En esta tabla, verificamos que el área encerrada por la DNE, para z = 1, es igual a 0,3413; para z = 2, a 0,4772; y para z = 3, a 0,4987, de acuerdo con lo expresado por la ley empírica. Como ejercicio, prueba corroborar la ley empírica con estos resultados. 
Resolución de una distribución binomial por aproximación con la normal 
Cuando una distribución binomial presenta un número de ensayos elevados, n grande, y la probabilidad del éxito es próxima a 0,5, dicha distribución puede ser resuelta por aproximación con la distribución normal. Para lo cual, haremos algunas consideraciones para tener en cuenta. 
 Las medias de las distribuciones normal y binomial son iguales: 
 Los desvíos estándar de las distribuciones normal y binomial son iguales: 
 No olvides que la distribución normal responde a una variable del tipo continua (por medición); la binomial, en cambio, a una variable del tipo discreta (por conteo).
Resolución de una Distribución de Poisson por aproximación con la normal 
Esta expresión corresponde a una Distribución de Poisson para el cálculo de probabilidades en variables aleatorias discretas. 
Si bien sirve para el cálculo en forma manual, es muy engorroso utilizarla por lo que podemos utilizar las tablas para calcular las probabilidades de Poisson. 
Para poder asimilar este tipo de distribución a una distribución normal, siempre con las precauciones del caso, deberíamos realizar los reemplazos que vemos a continuación. 
Podemos utilizar la Distribución de Poisson como una aproximación de la Distribución Binomial, sustituyendo a por n.p, condicionado solamente a que n ≥ 20 y p ≤ 0,05 
Esta expresión permite que, calculando Z; se pueda utilizar una tabla de distribución normal estandar para calcular la probabilidad que esté dentro de una distancia Z de la media artimética
TIPOS DE MUESTRAS
MUESTREO. CLASIFICACIÓN
Muestras
Algunas de las razones para extraer una muestra son:
· Requiere de menos tiempo que un censo.
· Es menos costosa que un censo, tanto para extraerla como para procesarla.
· Es menos molesta y más práctica de gestionar que un censo.
Para evitar tener que realizar un censo completo de la población, los procedimientos de muestreo estadístico se concentran en seleccionar un pequeño grupo representativo de Ia población para que luego los resultados de la muestra se utilicen para estimar las características de la población.
Se recordarán algunas definiciones:
· Población: son todos los elementos o personas que se quieren estudiar.
· Parámetro: es una característica de la población.
· Enumeración completa o censo: cada persona o elemento de la población que se desea describir.
· Muestra: una porción escogida de la población.
· Estadística: es una característica de una muestra.
Las dos maneras de clasificar los muestreos son:
· El muestreo no aleatorio o de juicio: Es cuandose utiliza la experiencia individual de una persona respecto al tema en cuestión y sus apreciaciones particulares para reconocer a los componentes de la población que deben incorporarse en la muestra.
· El muestreo aleatorio o de probabilidad: Es cuando cada uno de los integrantes de la población tiene idéntica posibilidad de ser elegidos para la muestra.
Muestreo aleatorio simple
Cuando todas las muestras que se pueden extraer de una población tienen la misma posibilidad de ser elegidas se llama muestreo aleatorio simple. Teniendo cada muestra el mismo tamaño, cualesquiera de ellas tiene la misma probabilidad de ser seleccionada.
Pueden elegirse las muestras con sustitución o sin sustitución.
Si fuera con sustitución el muestreo, esto significaria que cada componente seleccionado, luego de ser considerado se reintegra a la población, donde puede ser elegido nuevamente.
En cambio, si el muestreo es sin sustitución, indica que si un componente es extraído, no será posible su eleccion nuevamente. Aún cuando la elección de la muestra, sea con o sin sustitución, existen procedimientos de elección de las muestras faciles de aplicar y con fundamentos prácticos y lógicos comprobados. Ejemplo de ellos son las tablas de números aleatorios. 
Muestreo globalizado 
Este tipo de procedimientos de muestreo se utiliza cuando hay grupos con gran homogeneidad dentro de una población determinada. Cuando algún administrador debe encargar un estudio de mercado para insertar algún producto en el mismo, tiende a recurrir a este tipo de muestreo. 
Para la aplicación de este método, se debería dividir la población en clústers o agrupamientos lo más heterogéneos posibles internamente y similares entre si, y se toma de cada grupo una muestra aleatoria simple. La precisión de este muestreo reside en el diseño del mismo, ya que los resultados pueden ser mas precisos y más economicos que otro tipo de método. 
Muestreo estratificado 
La población, en este método, es dividida según componentes comunes, en estratos o grupos lo más homogéneos posibles. A partir de esto, se extrae una muestra aleatoria simple de cada grupo y se realizan los cálculos con los resultados de cada grupo, combinandolos y aplicandolos a la población total.
Al asegurarnos que los componentes de cada estrato de la población están representados, nos garantizamos una eficiencia superior que el aleatorio simple y el sistemático, ya que gracias a la homogeneidad de los componentes de cada grupo estimamos los parámetros de la población total con más precision. Es un método apropiado cuando naturalmente la población en estudio se encuentra subdividida en estratos de diferentes tamaños y necesariamente se debe considerar esa contingencia.
Muestreo sistemático 
Sus cualidades son similares a las vistas en el muestreo aleatorio simple. Se listan los elementos de la población. Posteriormente, se obtiene el cociente entre el número de componentes de la población y el número de componentes de la muestra, cociente que me indicará la cantidad de intervalos en que dividiremos a nuestra población. 
Luego, se selecciona para el muestreo, cada componente de la lista a partir de un valor inicial que debe encontrarse dentro de cada intervalo en la misma posición dentro del mismo. Como ejemplo podemos citar que si se tiene una población de 100 elementos y se quiere considerar una muestra de 10 elementos, se enumeran todos estos elementos, se dividen 10 intervalos y se considera, a modo de ejemplo, el cuarto número de cada intervalo: el 4, 14, 24 y así en cada uno de esos intervalos.
Como se vió, es diferente del muestreo aleatorio simple, ya que en este cada componente debería tener la misma posibilidad de ser elegido, en cambio en este método no es así. Ya que en este caso no se cumple, existe la dificultad al incluir un error en el proceso de muestreo. Según lo que acabamos de ver, la posibilidad de que esa muestra no sea representativa es alta. Sin embargo, también tiene algunas ventajas. Este tipo de muestreo soporta ciertos reparos cuando los componentes de los intervalos entran en un patrón secuencial, aunque como ventajas podemos citar que puede requerir de menos tiempo y un costo menor que el muestreo aleatorio simple. 
Distribución de muestreo 
En los anteriores apartados, se han analizado las diferentes formas de determinar las muestras de una población con el objetivo de obtener los estadísticos para poder inferir sobre los parámetros de la población.
Los estadísticos calculados en cada muestra serán distintos entre sí y tampoco se puede esperar que sean iguales a los parámetros poblacionales.
El trabajo de uno es inferir el desvío estándar de la población, según el desvío estándar de una muestra S y correlativamente la media poblacional μ, según el valor de la media muestral 𝑥̅. Con el mismo razonamiento, se podría determinar la proporción p en la población que se contará de la proporción p de la muestra. El desafío es inferir sobre los parámetros, reduciendo al mínimo lo expresado sobre las diferencias entre esos parámetros y los estadísticos homólogos. 
Supón que el parámetro que se va a inferir sea la media. Si de una población se toma un número determinado N de muestras y se supone que es la media del parámetro de la población que se va a estimar, se espera que las medias de las distintas muestras sean diferentes entre sí y distintas también a la media de la población. Estas diferencias surgen como lógicas si se tiene en cuenta lo aleatorio del muestreo. Es esta la razón por la cual, para poder hacer alguna inferencia sobre la media de la población, teniendo en cuenta los valores estadísticos, será necesario tener en cuenta la forma en que varían estos en el muestreo. 
Esta variabilidad producida en los estadísticos de las distintas muestras están relacionadas con: 
· Características de la población: si la población presenta una gran heterogeneidad, mayor será la amplitud de la distribución de muestreo. 
· Tamaño de la muestra: si se aumenta el tamaño de la muestra, habrá una menor dispersión en los valores y la inferencia en los parámetros tendrá una mayor exactitud. 
· Tipo de parámetro en estudio: según el parámetro que se va a estimar, tendrá características particulares la distribución de muestreo que se va a analizar.
TEOREMA CENTRAL DEL LÍMITE
Habiendo realizado muchas distribuciones con diferentes formas, distintas de la distribución normal, y se demostró que se deberían considerar con el Teorema del Límite Central, que nos permite inferir sobre la media poblacional, a partir de la distribución de la media muestral, de manera independiente de la forma de su distribución. 
Cuando el tamaño de la muestra es sustancialmente grande (>30), El teorema Central del Límite nos indica que la distribución muestral de la media, tiene una forma aproximadamente normal, cada vez más normal cuanto mayor es el número de muestras e independiente de la forma de la distribución de su población.
DISTRIBUCIÓN MUESTRAL DE IA MEDIA DE DISTINTAS POBLACIONES PARA MUESTRAS DE N = 2, 5 Y 30.
En esa caracteristica reside su importancia, es decir que permite inferir sobre parámetros poblacionales a través del análisis de las estadísticas de las muestras con independencia de la forma de la distribución de frecuencia de la población.
Concepto de error muestral estándar 
Al igual que la distribución de las proporciones muestrales, tienen un comportamiento similar a la distribución de las medias muestrales. Para la estimación de la proporción poblacional, se seguirá un procedimiento similar al utilizado para la estimación de la media. Extraída la muestra y calculada de la misma la proporción (p), se necesita definir el valor del error muestral estándar de las proporciones. 
FÓRMULA DE ERROR MUESTRAL ESTANDAR
Si no se contase con la proporción poblacional, se debe considerar la situación más desfavorable, es decir: p = 0,5 
Es de práctica generalizada utilizar los valores de la proporción de la muestra en reemplazo de la proporción poblacional; en ese caso: 
ERROR MUESTRAL ESTANDAREN FUNCIÓN DE P
Si se presentan poblaciones finitas y el tamaño de la muestra es tal que n/N ≥ 0,05, se hace necesario aplicar el factor de corrección de poblaciones finitas para la determinación de p: 
FACTOR DE CORRECCIÓN DE POBLACIONES FINITAS
Se tendría: 
ERROR MUESTRAL ESTANDAR CORREGIDO PARA POBLACIONES FINITAS
ESTIMACIÓN Y ERROR MUESTRAL
Estimación. Concepto
Es el proceso de utilizar un estadístico para inferir sobre el valor del parámetro poblacional desconocido. El objetivo final de la estadística es el de inferir acerca de una población a partir de la información adquirida de una muestra, y justamente está basada en la estimación. Suele ser la media el parámetro más estimado además de ser el de mayor exactitud. 
Tipos de estimación: 
· De punto: cuando al parámetro se le asigna un único valor. 
· De intervalo: cuando al parámetro se le asigna un valor dentro de un intervalo. 
Error muestral 
Si se estima la media poblacional a través de la media de una muestra, se comete un error, el cual es igual a: E = x –m 
El cual, expresado como una proporción del desvío estándar de esa distribución que se denomina como error muestral estándar, es: 
Si se tiene en cuenta que: 
La expresión del error de estimación será:
El error de estimación es un valor que se puede estimar a priori como el máximo error permitido entre el valor de la media de una muestra y el valor de la media poblacional, siendo este error función de z del desvío estándar poblacional y de n, tamaño de la muestra: 
z: que definirá el grado de bondad o nivel de confianza. 
σ: desvío estándar poblacional. 
n: tamaño de la muestra. 
Estimación puntual 
Es un número determinado a través de una fórmula que se utiliza para estimar un parámetro de población desconocido. El ejemplo más simple lo constituye la media, ya que está dada por la expresión matemática: 
Una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado.
La media de la muestra 𝑋̅ es el mejor estimador de la media de la población 𝜇. Es el estimador más eficiente, siempre y cuando la muestra sea lo suficientemente grande. Así, su distribución muestral puede ser aproximada por medio de la distribución normal. Estimación por intervalos 
Describe un rango de valores dentro del cual es posible que esté un parámetro de la población. Sin embargo, se necesita, debido a la variabilidad de muestreo, tener en cuenta que los estadísticos no coincidirán con los parámetros poblacionales, por lo cual es conveniente acompañar al estimador puntual con una estimación de intervalo.
Estimaciones por intervalos de la media 
Supón tener una población con media μ y desvío estándar s. De acuerdo con el teorema central del límite, si de ella se extraen todas las muestras posibles del mismo tamaño,cada una de las muestras tendrá su media X y una desviación estándar muestral S.
Se sabe que con las medias de todas las muestras se genera la distribución muestral de medias, la que es normal, y su media x m es igual a la media poblacional. Si se toma una muestra cualquiera, su media estará ubicada bajo la curva a una distancia máxima E de la media poblacional, ya que, si se estima la media poblacional a través de la media de esa muestra, se comete un error, el cual está dado por E. 
GRÁFICO DE ERROR DE LA MEDIA POBLACIONAL RESPECTO DE LA MEDIA MUESTRAL
Si se considera una de las muestras, su media tendrá un valor x y se ubicará sobre el eje de las abscisas a una distancia E de la media poblacional m. Por lo tanto, si se estima la media poblacional a través de la media de esa muestra, se comete un error, el cual es igual a: 
El cual,si es expresado como una proporción del desvío estándar de esa distribución, se denomina como error muestral estándar. 
DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA
El problema es determinar cuál es el tamaño de la muestra necesaria para que el estadístico tenga la mayor exactitud y, por lo tanto, el error cometido sea el menor posible o el que sea aceptable. 
Determinación del tamaño de una muestra para estimar la media poblacional
Si se analiza la distribución muestral para una muestra de tamaño n y se ubica a la media de la muestra en el eje horizontal y a una distancia E al que se ha denominado error en el que se ha incurrido cuando se ha estimado la media poblacional (coincidente con la media de la distribución muestral) con la media de esa muestra. 
Ese error responde a la expresión: 
Si se tiene en cuenta que:
Reemplazando en la primera expresión, se tiene: 
Despejando el valor de n, se tiene:
Teniendo en cuenta entonces que: 
· E: es el máximo error que se propuso cometer. Se llama error permitido. 
· s: desviación estándar poblacional (cuando no se conoce, se tienen dos opciones). 
· Z: define el grado de seguridad con el que se efectúa la inferencia. 
· n: tamaño de la muestra. 
Determinación del tamaño de una muestra para proporciones 
La determinación del tamaño de muestra para la determinación del porcentaje poblacional se realiza de la misma manera que en la determinación de tamaño de muestra para la media; teniendo en cuenta que es este caso: 
Y: 
Reemplazando y despejando n, se tiene:
El error tendrá que estar en relación con p. Si p es la proporción poblacional, se la tiene expresada en porcentaje. Del mismo modo, se tendrá a E. 
Comúnmente, el porcentaje poblacional no se conoce, por lo que se puede tomar una de dos opciones: 
1) Método subjetivo. Se adopta un valor de p de acuerdo con experiencias anteriores.
2) Si se determina que p toma el valor de 0,5, entonces q= (1-p) = 0,5. En este caso, el producto de p. q toma su máximo valor.
TAMAÑO DE LA MUESTRA
DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL 
Para que se pueda inferir con la exactitud deseada un parámetro poblacional, se debe tratar con cuidado el tamaño de la muestra que se va a extraer y de ello dependerá el error que se cometerá. 
Para estimar la media poblacional 
Cuando se estudió la distribución normal o gaussiana, se refería el cálculo a una curva estándar en que cada punto sobre el eje de las abscisas respecto de la media es una proporción de los desvíos estándar. Siguiendo esta línea de acción, al considerar una muestra cuyo tamaño genéricamente se llamaba n y su media al situarla en las abscisas difiere de la media poblacional en una distancia que se denominará E (recuerda que la media poblacional debe ser coincidente con la media muestral), que se calcula con la siguiente fórmula:
Y considerando que:
Sustituyendo en la anterior expresión, se obtendrá el error cometido en función del tamaño n de la muestra: 
De la expresión que, si se despeja el tamaño de la muestra: 
Donde: 
· E: es el error máximo permitido que se pretende obtener. 
· σ: es el desvío estándar poblacional. 
· Z: es el grado de seguridad para ejecutar la inferencia. 
· n: es el tamaño de la muestra que se quiere hallar para cumplir con la consigna. 
Ejemplo: 
En una fábrica de pastillas de freno de automóviles, los pesos de la variedad extradura para automóviles de la categoría SUV tienen un desvío estándar de 25 g el par, y se desea estimar el peso promedio de la producción de esa variedad para prever los insumos necesarios, considerando que el error que se cometerá en la previsión no sea superior a 5 g con una bondad del 95 %. Para ello, se debe estimar en primera instancia el tamaño necesario de la muestra para que el error no supere ese valor.
El valor de Z extraído de la tabla correspondiente es de 1,96. Entonces, con estos valores y la expresión anterior, se calcula: 
En este caso, se conoce el desvío estándar poblacional; pero si se lo desconoce, se puede utilizar alguno de estos tres procedimientos, según el nivel de exigencia en cuanto a la exactitud:
a) Si ya se ha realizado el cálculo anteriormente con otra muestra similar y sin haber cambiado sustancialmente las condiciones de trabajo, se podrá utilizar el desvío estándar poblacional de ese estudio. 
b) Si se considera el tipo de distribución al rango de ella,se lo divide por un valor entero K y se utiliza ese valor como desvío estándar poblacional. El valor de K toma valores según el sesgo de la distribución que se tenga: 4 para distribuciones simétricas, 6 u 8, según el tenor del sesgo que se tenga. 
c) O bien, según la experiencia obtenida en casos similares, es decir, en forma subjetiva.
Luego de definir el tamaño de la muestra apropiado, se debería calcular el desvío estándar de la media de esa muestra y con ese valor por el valor de Z se obtiene su producto. Si este producto es menor que la tolerancia (error E), entonces el tamaño de la muestra es el correcto. En caso contrario, se deberá aumentar el tamaño de la muestra para disminuir el error E. 
Determinación del tamaño de una muestra para proporciones 
El cálculo de este tamaño de muestra se realiza en forma similar que el caso anterior, siempre teniendo en cuenta que la proporción respecto al tamaño poblacional puede estar expresado en decimales o en porcentaje. En este caso, se debe considerar que: 
Sustituyendo en la ecuación: 
Se obtiene la siguiente expresión para el desvío estándar de la proporción en función del tamaño de la muestra: 
Y, por consiguiente, el error:
De donde, en forma similar al apartado anterior, se despeja el valor de n mínimo que se va a exigir como tamaño de la muestra: 
En este caso, como siempre, el valor de p es la proporción entre los elementos que poseen una característica determinada de la población y la población total, y q es la proporción entre los elementos que no poseen esa característica y la población total. 
Debido a lo definido en el párrafo anterior, se sobreentiende que la suma de p y q será 1 si ambos están expresados en decimales y será 100 % si lo estuvieran en porcentajes. Si el porcentaje (o proporción poblacional) no se conociese, se puede seguir alguno de los siguientes caminos: 
Se puede otorgar a p el 50 %, por lo cual q, al ser 1-p, también tomaría el valor de 50 %, con lo que el producto p.q tomaría su valor máximo, que provocaría un tamaño de muestra más grande y por consiguiente el error E estaría dentro de la tolerancia sugerida. Se puede elegir, como el caso anterior, el valor de p en forma subjetiva, según las experiencias de casos anteriores o muestras similares.

Continuar navegando