Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Análisis Cuantitativo II Unidad 13: Estimación puntual y por intervalo Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una estimación de la velocidad del automóvil que se acerca, de la distancia que hay entre usted y el auto y de su propia velocidad. Habiendo hecho rápidamente todas estas estimaciones, usted decide si espera, camina o corre. Los jefes de departamento de una universidad hacen estimaciones acerca de las inscripciones para el semestre siguiente en las materias. Una persona que piensa cambiar el modelo de su auto por uno nuevo, hace estimaciones respecto del valor de mercado de su auto actual para poder analizar qué auto podrá comprar si vende el que tiene ahora. En Argentina, hacemos estimaciones de la inflación mensual esperada. Queremos saber cuánto subirán en promedio, los precios de los bienes de a canasta básica de un mes a otro. Muchas veces, hacemos estimaciones sin preocuparnos de si son científicas o no, pero con la esperanza de que las estimaciones tengan una semejanza razonable con el resultado. Utilizando la teoría aprendida en las unidades anteriores, podemos realizar estimaciones con sustento científico, lo que permitirá analizar de manera lógica lo que podemos esperar en el futuro, partiendo de la información que conocemos, disminuyendo así el nivel de incertidumbre al momento de tomar decisiones importantes. El material sobre teoría de probabilidad que se presentó en los capítulos anteriores constituye la base de la inferencia estadística, rama de la estadística que se ocupa del uso de los conceptos de probabilidad para manejar la incertidumbre en la toma de decisiones. La inferencia estadística está basada en la estimación, concepto que se introduce en este capítulo, y en las pruebas de hipótesis, tanto en la estimación como en las pruebas de hipótesis, haremos inferencias (deducciones) acerca de las características de las poblaciones. Utilizando la información que nos brinda la muestra (que se entiende representa la población que le dio origen), intentaremos decir algo respecto de lo que puede suceder en el futuro. Vamos a presentar un ejemplo. Supongamos que usted realizó una encuesta para conocer el comportamiento de las mascotas en el hogar. Su población de referencia son todos los hogares que 2 poseen mascotas en la provincia de Mendoza, para el período 2018. Como no puede encuestar todos los hogares de la provincia, seleccionó una muestra con 250 casos, utilizando los criterios anteriormente analizados. En la encuesta, usted incluyó preguntas como las siguientes: • ¿Cuántas veces al día alimenta a su mascota? • ¿Cuántas veces al día saca a pasear a su mascota? • ¿Lleva bolsa de residuos consigo cuando saca a pasear a su mascota? • Etc. El ministerio de hacienda de la provincia se muestra interesado en el estudio que usted acaba de realizar. En particular, quisieran saber el ingreso esperado por multar a todas las personas que sacan a sacar a sus mascotas sin bolsa de residuos, para el período 2019. ¿Qué puede decirle usted respecto de la cantidad de multas que pueden colocarse por este motivo? Después de leer esta unidad, usted podrá darle una respuesta a este tipo de preguntas. ¿Qué es un estimador? Concepto En la unidad anterior usted conoció distintas distribuciones de probabilidad (Poisson, Normal, etc). Cada una de ellas tiene parámetros asociados, que caracterizan estas distribuciones. En el caso de la distribución normal, estos parámetros son la media y la desviación estandar. En el caso de la distribución binomial, la probabilidad de éxitos (p) y la media asociada, etc. Un estadístico es una función de la muestra que le permiten “aproximarse” al verdadero valor del parámetro poblacional, mediante cálculos realizados con los valores de la muestra. Un estimador es un estadístico de la muestra utilizado para estimar un parámetro poblacional. En el caso de la distribución normal, un parámetro de interés puede ser la media μ, desconocida para nosotros. Una forma de conocer el valor estimado de este parámetro es mediante el estadístico �̅� = 1 𝑛 ∑ 𝑥𝑖 = 𝑥1+𝑥2+𝑥3+…….+𝑥𝑛 𝑛 , en donde cada 𝑥𝑖 es un valor obtenido en la muestra, y “n” es el tamaño de la muestra. Cuando el estadístico toma valores concretos, pasa a ser un estimador. En este caso, un estimador de la media podría ser �̅� = 1 4 (1 + 3 + 5 + 4) = 3.25. 3 El concepto de estimador entonces, está fuertemente ligado a los valores de una muestra en particular. Este estimador se calcula para ayudarnos a comprender cómo se comporta una población (ya que la muestra utilizada para calcular el estimador, se ha seleccionado de tal forma que representa correctamente a la población de la cual proviene). Si queremos saber cuál es el precio en promedio de los tickets de avión, y creemos que los precios se distribuyen de forma normal, nos interesa saber la media de esta función. Como no podemos conocer los precios de absolutamente todas las operaciones que se realizan, seleccionamos una muestra, que toma los precios de una cantidad determinada de vuelos (ejemplo: 150 vuelos), y utilizamos la fórmula de promedio muestral �̅� = 1 𝑛 ∑ 𝑥𝑖 = 𝑥1+𝑥2+𝑥3+…….+𝑥𝑛 𝑛 (que es un estadístico), para conocer el precio promedio de los vuelos analizados que resulta ser de $3900 (este valor concreto del estadístico, es el estimador). Propiedades de los estimadores Algunos estadísticos son mejores estimadores que otros. Afortunadamente, podemos evaluar la calidad de un estadístico como estimador mediante el uso de cuatro criterios: a) Insesgado. Ésta es una propiedad deseable para un buen estimador. Que un estimador sea insesgado implica que el valor esperado del estimador es el verdadero valor del parámetro de la población. Para que usted pueda comprenderlo mejor, vamos a analizarlo con un ejemplo. Suponga que usted realiza estudios sobre las botellas cuya etiqueta ha sido defectuosa. Un productor le brinda datos sobre las botellas etiquetadas y aquellas cuya etiqueta fue defectuosa. Con los datos que él le brindó, usted determina que la probabilidad de que se obtuvieran botellas con etiquetas defectuosas era cercana al 1% dados los datos con los que contaba. Este valor fue obtenido de la muestra, de una muestra en particular. ¿Qué sucede si, luego de un tiempo, el productor le otorga una nueva planilla con valores de las botellas con etiquetas defectuosas? Usted podría obtener nuevos estimadores basados en las nuevas planillas que le otorgue el productor. Supongamos que, de las nuevas muestras, obtenemos las siguientes probabilidades de que la botella contenga la etiqueta defectuosa: 4 • Muestra 1: 1% (la analizada en el ejercicio anterior) • Muestra 2: 1,12% • Muestra 3: 1,18% • Muestra 4: 0,97% • … • Muestra “n”: 1.11% La idea detrás de un estimador insesgado es que, al calcular el estadístico para los distintos valores de la muestra, las estimaciones que se tienen se acercan al verdadero valor poblacional. En este caso, suponiendo que la proporción de la población (es decir el verdadero valor de “p”) tiene un valor de p = 0.011= 1.1%, al calcular estimadores para esta proporción, provenientes de distintas, muestras, en promedio, estos estimadores son iguales al verdadero valor poblacional. Es decir 𝐸(�̂�) = 𝑝. En términos de nuestro ejemplo, la esperanza de los valores estimados, tiende a p=1.1%. Note que, �̂� es un estadístico, es decir, una función de la muestra, mientras que 𝑝 es un parámetro poblacional. De esta manera, esta propiedad asegura que, a través de información que proporciona la muestra, se espera que podamos conocer el verdadero valor de los parámetros de la población. b) Eficiencia. Otra propiedad deseable de un buen estimador es que sea eficiente. La eficienciase refiere al tamaño del error estándar del estadístico. Si comparamos dos estadísticos de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución muestral. Suponga que escogemos una muestra de un tamaño determinado y debemos decidir si utilizamos la media de la muestra o la mediana de la muestra para estimar la media de la población. Si calculamos el error estándar de la media de la muestra y encontramos que es 1.05, y luego calculamos el error estándar de la mediana de la muestra y tenemos que éste es 1.6, diríamos que la media de la muestra es un estimador más eficiente de la media poblacional ya que su error estándar es menor. 5 Tiene sentido pensar que un estimador con un error estándar menor (con menos variación) tendrá mayor oportunidad de producir una estimación más cercana al parámetro poblacional que se está considerando. c) Consistencia. Una estadística es un estimador consistente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro poblacional. Si un estimador es consistente, se vuelve más confiable al tener tamaños de muestra más grandes. Si usted se pregunta acerca de la posibilidad de aumentar el tamaño de la muestra para obtener más información sobre un parámetro poblacional, averigüe primero si su estadístico es un estimador consistente o no. Si no lo es, desperdiciará tiempo y dinero al tomar muestras más grandes. d) Suficiencia. Un estimador es suficiente si utiliza tanta información de la muestra que ningún otro estimador puede extraer información adicional acerca del parámetro de población que se está estimando. Atención: aquí se está haciendo referencia al desvío estándar del estimador (distinto al desvío estándar de la distribución de la cual provienen los datos), es decir, a la dispersión de las estimaciones respecto del valor promedio de las mismas. En términos de nuestro ejemplo de las botellas etiquetadas, si nuestro estimador �̂� es insesgado, 𝐸(�̂�) = 𝑝, en promedio las estimaciones obtenidas son equivalentes al parámetro poblacional. El desvío estándar de estas estimaciones respecto de 𝐸(�̂�) es el desvío estándar del parámetro, y debe ser mínimo para ser eficiente. Esto garantiza que, las estimaciones realizadas a partir de la muestra, estén “cerca” del valor verdadero del parámetro. En la unidad anterior, usted analizó el desvío estándar del estadístico, y definió la corrección que debiera realizarle en el caso de las muestras finitas. 6 Teorema del Límite Central (TLC) El teorema del límite central es, tal vez, el más importante de toda la inferencia estadística, pues asegura que la distribución de muestreo de la media se aproxima a la normal al incrementarse el tamaño de la muestra. Hay situaciones teóricas en las que el teorema del límite central no se cumple, pero casi nunca se encuentran en la toma de decisiones prácticas. De hecho, una muestra no tiene que ser muy grande para que la distribución de muestreo de la media se acerque a la normal. Los especialistas en estadística utilizan la distribución normal como una aproximación a la distribución de muestreo siempre que el tamaño de la muestra sea de al menos 30, pero la distribución de muestreo de la media puede ser casi normal con muestras de incluso la mitad de ese tamaño. La importancia del teorema del límite central es que nos permite usar estadísticas de muestra para hacer inferencias con respecto a los parámetros de población, sin saber sobre la forma de la distribución de frecuencia de esa población más que lo que podamos obtener de la muestra. El poner en marcha esta capacidad es el objetivo de gran parte del material que presentamos. ¿Por qué es esto importante? ¡Porque conocemos perfectamente la distribución normal! Sabemos la probabilidad que acumula en cada una de sus partes, su simetría respecto a la media, etc. Sin importar de qué tipo de distribución provengan los datos (Bernoulli, Poisson, etc), la media muestral se distribuirá de manera normal a medida que aumenta el tamaño de la muestra. Además, existen algunas propiedades muy útiles que están garantizadas cuando la distribución de muestreo de la media está normalmente distribuida: • La distribución de muestreo tiene una media igual a la media poblacional. Es decir, cuando tomamos la media de distintas muestras, la media de las medias muestrales tenderá al verdadero valor de la media poblacional. • La distribución de muestreo tiene un error estándar igual a la desviación estándar de la población, dividida la raíz cuadrada del tamaño de la muestra. 7 El siguiente cuadro, lo resume: En términos sencillos, ¿qué implica el TCL para nosotros? Implica que, cuando calculamos la media muestral (conocida como �̅�), a medida que aumenta el tamaño de la muestra (que puede verse, en términos del ejemplo de las botellas etiquetadas como un incremento en la cantidad de datos sobre botellas defectuosas), la media estimada (�̅�) se distribuirá de manera normal. Además, se espera que el valor central de la distribución de las medias estimadas, sea equivalente al verdadero valor de la media de la población. Ejercicio Para garantizar que haya comprendido el TLC, diga qué se espera que suceda con la media muestral en el caso de las botellas defectuosas. Considere que usted estimó la probabilidad de que se encontraran botellas defectuosas, dada una muestra y resultó ser 1%, para un tamaño de muestra de tamaño n=300. Como usted sabe, la media muestral para la distribución binomial se corresponde con la siguiente expresión: 𝝁 = 𝒏. 𝒑 Donde: �̂� = 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑏𝑜𝑡𝑒𝑙𝑙𝑎𝑠 𝑑𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑎𝑠 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑏𝑜𝑡𝑒𝑙𝑙𝑎𝑠 𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎𝑑𝑎𝑠 n = cantidad de ensayos Luego, calcular la media en este caso, se reduce a multiplicar la probabilidad que obtuvo, por el número de ensayos (que en este caso se corresponde con la cantidad de veces que se etiquetaron botellas). 8 ¿Qué sucederá cuando se incremente la cantidad de ensayos realizados? Respuesta: La distribución de la media muestral tenderá a una distribución normal, cuyo valor central (media) será el verdadero valor del parámetro (la verdadera media). Luego, podremos hacer inferencia respecto de la distribución del parámetro estimado (es decir, respecto de la media muestral).
Compartir