Estadística Aplicada a la Psicología - Estimación de parámetros

Psicología

•

Biológicas / Saúde

0

Maximiliano Gomez

4/10/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Psicología

256.223 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

1

Clase de Estimación de parámetros
Estadística Aplicada a la Psicología y Psicoestadística Descriptiva
Prof. Tit. Dra. Mariela Ventura
Año 2017
Introducción
El uso principal de la inferencia estadística en la investigación empírica, es
lograr conocimiento de una gran clase de unidades estadísticas o población
(seres humanos, plantas, parcelas de tierra, tornillos, etc.), a partir de un
número relativamente pequeño de los mismos elementos de las muestras. Es
decir, conocer parámetros a partir de los estadísticos de las muestras.
Hemos dicho que los métodos de inferencia estadística emplean el
razonamiento inductivo, razonamiento de lo particular a lo general y de lo
observado a lo no observado, de la muestra a la población.
Los valores de medidas descriptivas (media, desviación típica, variancia, r
de Pearson, proporción, etc.) calculadas para las poblaciones, se
llaman parámetros. Para las muestras, estas mismas medidas descriptivas
se llaman estadísticos. Un parámetro describe una población de la misma
manera que un estadístico describe a una muestra.
Un estadísticocalculadoen una muestra es un estimador del parámetro en la
población de la cual se extrajo la muestra.La media calculada en la muestra
escogida es un estimador de la media poblacional o verdadera.
La Inferencia estadística
La teoría clásica de la Inferencia Estadística trata dos cuestiones
fundamentales:
* Estimar el valor de un parámetro desconocido, por ejemplo µ. Es
decir, ¿Cuál es el valor de la media parámetroµ?
* Verificar si un determinado valor cualquiera poblacional (µ) es o no
igual, o consistente, con cierto valor predeterminado de una muestra
(�� ). ¿Es razonable que este valor de la muestra se de en la
población?
2

El primero de estos dos procedimientos, de inferir de una muestra a una
población, se llama estimación de un parámetro; el segundo, en el que se
afirma acerca de un parámetropara una población y se va a una muestra se
llama, prueba de una hipótesis.
En la Estimación de Parámetros con determinadas técnicas se realiza una
predicción sobre cuáles podrían ser los parámetros de la población. En
general, se suele preferir realizar una estimación mediante un intervalo,
esto es, obtener un intervalo dentro del cual se espera se encuentre el valor
real del parámetro con un cierto nivel de confianza, a una estimación
puntual. Utilizar un intervalo resulta más informativo, porque proporciona
información sobre el posible error de estimación, que está asociado con la
amplitud de dicho intervalo.
Se establece con un determinado nivel de confianza. El nivel de confianzaes
la probabilidad de que a priori el verdadero valor del parámetro quede
contenido en el intervalo.
Entonces, el proceso inferencial comienza con
1) La selección de una muestra aleatoria, luego de definir la población
con un parámetro desconocido.
2) Encontrar un estimador del parámetro, su distribución muestral
teórica y su deviación típica.
3) Luego se obtienen los datos
4) Se calcula el estadístico – estimación- a partir del cual se realizará la
inferencia.
5) Hacer un informe con los resultados y su error muestral.
Una vez calculado el estadístico, comienza el proceso de estimación. En
este proceso -de estimación de parámetros- intervienen tres
distribuciones:
1) La distribución muestral empírica y conocida,
2) La distribución de muestreo del estadístico (teórica) y
3) La distribución poblacional (generalmente desconocida e hipotética).
Estimador y estimación
 Un estimador es un estadístico.
3

 Que sea un estadístico significa que es una función de la muestra
usada para estimar un parámetro desconocido de la población. Por
ejemplo,si en un estudio socio demográfico se desea conocer el
salario medio (el parámetro desconocido) se recogerán observaciones
del salario en distintos grupos al azar de una comunidad (la muestra)
y la media aritmética de las observaciones puede utilizarse como
estimador del salario medio.
 Un estimador es la regla usada para obtener estimaciones:puede ser
la media que es la suma de los X/n o la desviación estándar que es la
raíz cuadrada del promedio de los desvíos. Como vimos antes, un
estimador proporciona dos modos de obtener estimaciones: puntual y
por intervalos.
 El estimador nos da alguna información respecto del parámetro, o sea
una estimación. Por ejemplo, la media de la muestra, , es un
estimador de la media µ en la población.
 Para cada parámetro pueden existir varios estimadores diferentes. En
general, escogeremos el estimador que posea mejores propiedades
que los restantes, como insesgadez, eficiencia, convergencia y
robustez o consistencia.
¿Cómo debe ser la muestra?
Para que una muestra sirva adecuadamente como base para obtener
estimadores de parámetros poblacionales, debe ser representativa de la
población. No solo se debe pensar en el tamaño de la muestra sino
asegurarse estadísticamente su calidad. Es decir, que esa muestra
represente verdaderamente a la población hacia la cual se extienden los
resultados. Sabemos que un método de muestreo aleatorio asegura que la
muestra elegida sea representativa de la población y que el proceso sea
adecuado. Que sea representativa, significa que la información
proporcionada por una muestra será en mayor o menor grado, un reflejo de
la información contenida en la población. Por lo tanto podemos servirnos de
las muestras para hacer inferencias sobre la población.
El muestreo al azar de una población producirá muestras que -"a la larga”-
son representativas de la población.
Si una muestra se extrae aleatoriamente, es representativa de la población
en todos los aspectos, y el estadístico diferirá del parámetro solo por azar.
4

Otro rasgo importante de una muestra al azar es el poder estimar el grado
de error debido al azar (error de muestreo).
Distribución muestral del estadístico
Un parámetro como vimos, es un valor poblacional único, constante, que en
general se desconoce.
Para determinar su valor exacto deberíamos realizar observaciones en
todos los elementos de la población y esto, pocas veces ocurre. El costo, y
el esfuerzo que supondría sobre todo en poblaciones numerosas nos obligan
a establecer inferencias de los valores del conjunto total a partir de cifras
que se basan sólo en muestras de este conjunto.
Gracias a la distribución muestral de un estadísticoes posible realizar esta
inferencia si no podemos acceder a toda la población.
La distribución de muestreo es una distribución teórica probabilística
formada por todos los valores que puede asumir un estadístico (que hemos
dicho, es una variable aleatoria) a partir de todas las muestras aleatorias de
tamaño n que es posible extraer de una población (N) y que le asigna una
probabilidad concreta de ocurrencia a cada uno de ellos.
La distribución de muestreo de un estadístico o distribución muestral de un
estadístico en general, nos indica:
1) Todos los valores que un estadístico puede aceptar.
2) La probabilidad de obtener cada valor, bajo el supuesto de que
éstos sean obtenidos solo por azar.
Todo valor estadístico tiene una distribución muestral (la media, la mediana,
la desviación estándar, la diferencias entre medias de una misma población,
una proporción, la correlación, etc.).
Nosotros veremos en esta materia, la distribución muestral de la media, ya
que lo que estimaremos es la media parámetro o poblacional (µ), así como la
de diferencia de medias. No es la misma la distribución muestral de la
media, que de la mediana como podemos ver en estos gráficos.
Vamos a ver cómo utilizar estas distribuciones para hacer inferencias
estadísticas con una sola observación o medida estadística. Nos permite
5

evaluarel conocimiento que tenemos sobre la media de la muestra para
estimar la media de la población.Esta puede determinarse de manera empírica y teórica Para entender lo que
significa una distribución muestral y sus propiedades la vamos a obtener
primero de manera empírica, en ejemplo ficticio e hipotético, ya que la
población estará formada por 3 elementos, es decir, N=3.
Si calculáramos la media de la población o parámetro (µ) que consta de 3
datos y su varianza esto sería sencillo.
N=3 con tres valores 1,2, y 3
Datos: 1; 2; 3
µ=6/3=2
σ2=2/3=0,66
σ= 66,0 =0,81
Ahora, si extraemos de esa población (N=3) muestras de tamaño n=2,
tendremos las siguientes combinaciones posibles de muestras, y si luego
calculamos la media para cada una de ellas, son nueve los posibles valores
del estadístico de las muestras que se pueden obtener (en este caso, las
medias):
X
_

1-1; 1
1-2; 1,5
1-3; 2
2-1; 1,5
2-2; 2
2-3; 2,5
3-1; 2
3-2; 2,5
3-3 3
Valores de
las muestras
6

Esta tabla nos muestra las medias de las distintas muestras. Podemos ver
las veces que las mismas se repiten. Es decir construir un cuadro de
frecuencias.
Ahora podemos construir la distribución de probabilidad de esos datos. Es
decir, la distribución de muestreo de medias en la que, en la tercera
columna se adjunta la probabilidad asociada de ocurrencia de cada
uno de esos valores o estadísticos, como vemos en la siguiente:
X
_ F P Xf
_
.
1 1 0.11 1
1,5 2 0.22 3
2 3 0.33 6
2,5 2 0.22 5
3 1 0.11 3
N 9 1.00 18
Esta distribución de probabilidad muestra que el valor más probable es 2 y
los menos probables 1 y 3.
Una de las características o propiedades que se desprende de esto es que:
µ
X
_ =18/9=2= µ
La media de la distribución de muestreo de medias, es igual a la media
parámetro, µ.
Por otra parte,
σ2
X
_ =3/9=0,33
σ
X
_ = 33,0 0,57
Observamos que σ2
X
_ = σ2/n, de modo que σ= σ/ n
σ2/n= 0,66/2=0,33
σ= σ/ n =0,57
A través de este ejemplo de tres casos hemos podido demostrar dos
características importantes de la distribución muestral de medias:

1) La media de la distribución de muestreo de medias es igual a la media
parámetro
µ
X
_ =µ
2) La varianza de
cociente entre la varianza y n.
σ2
X
_ = σ2/n
Pero a medida que las poblaciones y las muestras incluyen mayor
número de casos, el procedimiento realizado anteriormente se
complica.
Entonces, ya no se hace posible calcular empíricamente la
distribución de muestreo de un conjunto de datos numerosos.
Por ello, recurrimos entonces a la estadística teórica, a partir de algunos
teoremas matemáticos útiles como el
Ley de los Grandes Números
1) Teorema del límite central
Los estadísticos han demostrado que si tenemos una pobla
observaciones se distribuyen normalmente (µ; σ
numerosas muestras del mismo tamaño n al azar, la distribución muestral
de medias es una curva normal con media µ
por lo tanto la desviación estándar (que se llama error estándar) es
/√n.
Esto es lo que dice lo que se suele llamar
central del límite
“Si se sacan repetidas muestras de tamaño n de una población con media µ
y variancia σ2, la distribución muestral de las medias será normal con media
µ y variancia σ
X
_
2
igual a σ
X
_
=σ
X
_
/√n ”.
7
La media de la distribución de muestreo de medias es igual a la media

La varianza de la distribución de muestreo de medias es igual al
cociente entre la varianza y n.
/n
Pero a medida que las poblaciones y las muestras incluyen mayor
número de casos, el procedimiento realizado anteriormente se

Entonces, ya no se hace posible calcular empíricamente la
distribución de muestreo de un conjunto de datos numerosos.
Por ello, recurrimos entonces a la estadística teórica, a partir de algunos
teoremas matemáticos útiles como el Teorema
Ley de los Grandes Números.
Teorema del límite central
Los estadísticos han demostrado que si tenemos una pobla
observaciones se distribuyen normalmente (µ; σ
numerosas muestras del mismo tamaño n al azar, la distribución muestral
de medias es una curva normal con media µ
por lo tanto la desviación estándar (que se llama error estándar) es

Esto es lo que dice lo que se suele llamar Teorema del límite central o
central del límite:
repetidas muestras de tamaño n de una población con media µ
, la distribución muestral de las medias será normal con media
2=σ
X
_
2/n o desviación estándar (que se llama error estándar)
/√n ”.
La media de la distribución de muestreo de medias es igual a la media
la distribución de muestreo de medias es igual al
Pero a medida que las poblaciones y las muestras incluyen mayor
número de casos, el procedimiento realizado anteriormente se
Entonces, ya no se hace posible calcular empíricamente la
distribución de muestreo de un conjunto de datos numerosos.
Por ello, recurrimos entonces a la estadística teórica, a partir de algunos
Teorema del Límite Central y la
Los estadísticos han demostrado que si tenemos una población cuyas
observaciones se distribuyen normalmente (µ; σ2), si se extraen
numerosas muestras del mismo tamaño n al azar, la distribución muestral
de medias es una curva normal con media µ
X
_
y una variancia σ
X
_
2=σ
X
_
2/n,
por lo tanto la desviación estándar (que se llama error estándar) es σ
X
_
=σ
X
_
Teorema del límite central o
repetidas muestras de tamaño n de una población con media µ
, la distribución muestral de las medias será normal con media
/n o desviación estándar (que se llama error estándar)
8

La desviación típica de una distribución de muestreo de medias, es una
medida del error muestral (error estándar), de las fluctuaciones al azar, es
decir en el cálculo de cada media de la muestra. Este error es inversamente
proporcional al tamaño de la muestra. Si se aumenta el tamaño de la
muestra la dispersión disminuye. Lo simbolizaremos como σ
X
_
, que es σ
X
_
/√n.
Es decir, que la distribución muestral de medias se asemeja a la distribución
normal de probabilidades: Cuanto mayor sea el número de casos más
leptocúrtica será la distribución muestral como se ve en la figura:
Lo que se puede ver aquí también es que a medida que n aumenta,
disminuye la desviación.
En efecto, el tamaño muestral (cantidad de casos o n) se encuentra
íntimamente relacionado con el error típico de una distribución muestral.
Hemos visto que σ2
X
_ = σ2/n, lo cual significa que a medida que n va
aumentando la varianza de la distribución muestral va disminuyendo.
2) La Ley de los grandes números
Ofrece una información adicional este Teorema, y dice que
“independientemente de la forma de la distribución de la población, a
medida que n aumente, la distribución será normal con media µ y variancia
σ2/n.
Pero por más maravilloso que sea el Teorema del Límite Central presenta
como mínimo dos problemas:
1) Depende de un tamaño muestral muy grande;
2) Para utilizarlo, necesitamos conocer σ, la desviación típica
poblacional.
Pasaje de la distribución real a una distribución normal (muestras grandes)
Recordemos que cuando estudiamos la distribución normal vimos que era
posible el pasaje de una distribución real a la distribución normal expresada
en términos de puntajes z o puntajes típicos (desvíos reducidos de z), de
manera que un valor cualquiera de la variable X (normal) tenía un valor
determinado z.
z=

XX 
o bien, (valor X respecto a la media)
9

Lo mismo con el estadístico (media de las muestras)=
x
X


(media
respecto a la parámetro)
Ahora bien, si la media (estadístico) de la muestra es una variable aleatoria,
también se distribuye normalmente, y se puede transformarla a la variable
tipificada z= µX / σ
X
_ , la que se distribuirá N (0, 1). Esto significa que
podemos utilizar la distribución normal estandarizada para conocer las
probabilidades asociadasa los diferentes valores del estadístico X
_ .
En general, los parámetros son desconocidos, y tenemos que hacer la
inferencia para los valores de la población a partir de los datos de la
muestra únicamente.
1) Distribución muestral de medias cuando se desconoce σ, las muestras
son grandes s y se extraen de manera aleatoria simple
Si las muestras son grandes (N≥30 casos) la distribución de muestreo de
medias es normal se asemeja a la distribución normal de probabilidades y
esa similitud crece a medida que n aumenta (ley de los grandes números)
independientemente de la forma de la población; a su vez, s es una buena
estimación de σ, y en consecuencia s/ n es una buena estimación del error
estándar de la media. Como en este caso se estima σ, el error estándar de la
media lo representaremos con sigma con copete σ
X
_ = s/ n .
Ahora bien, la distribución muestral de la medias es distinta para muestras
grandes (igual o mayor de 30 casos) o muestras pequeñas (menor de 30).
A menudo las muestras son pequeñas y normalmente se desconoce σ. Lo
que podemos hacer en este caso, es estimar, usando la desviación típica de
la muestra (s). Hemos visto que la distribución de las medias de las
muestras no son todas normales, que dependen de su tamaño.
En el caso de que las muestras son pequeñas, en lugar de la variable
aleatoria
� =
� � –�
�
√�
. Y definimos una nueva variable aleatoria t. Por ello, en las muestras
más pequeñas usamos la distribución t como modelo teórico.
� =
�� − μ
�
√���

10

La distribución muestral de medias tiene la forma de la distribución normal
si se extrae de una población normal. Igualmente, si la forma no es normal a
medida que la n aumente, la distribución muestral será normal.
1) Distribución muestral de medias cuando se desconoce σ, las muestras son
pequeñas y se extraen de manera aleatoria simple
Cuando el número de casos es pequeño (n<30 casos), la distribución de
muestreo de medias no se asemeja a la curva normal, es más achatada en el
medio y más elevada en los extremos y la diferencia es mayor a medida que
los casos de la muestra disminuye. En estos casos la distribución de
muestreo se distribuye según otro modelo probabilístico que es el de la
distribución t de student, introducida por Gosset bajo el seudónimo de
student.

Comparemos:
Z= µX / σ/ n
t= µX / Sn/ n -1
Observemos que los numeradores son idénticos pero los denominadores
difieren en que en t, la σ es reemplazada por s y n, por n-1. Se puede hacer
esa corrección en el cálculo del error o en el de la desviación estándar. Si
se hace en uno, no se hace en el otro (n-1).
Sabemos que para estimar σ se hace a partir de s de la muestra, y que los
desvíos se calculan en relación con la media de la muestra. Debemos tener
en cuenta que tenemos n-1 valores que pueden variar libremente para que
la suma de los desvíos con respecto a la media sea igual a 0. Esto está
relacionado con los grados de libertad (gl).
Hay una regla que dice: “Cuando un estadístico se usa para estimar un
parámetro, los grados de libertad (libertad de variar) dependen del número
de restricciones impuestas sobre las observaciones. Por cada restricción
impuesta se pierde un grado de libertad”.
La desviación estándar (s) de una muestra es una buena estimación de σ
cuando n es grande, no sucede lo mismo cuando n es pequeña, a menos que
en el cálculo de s se consideren los grados de libertad (n-1). Del mismo
modo para obtener una buena estimación del error estándar de media se
consideran los grados de libertad porque s interviene en su fórmula.

S
X
_ =S/ n
Si el cálculo ya lo toma en cuenta en la s no se l
estándar.
Características de la distribución t de
Student es un seudónimo que utilizó un inglés llamado Gosset
el modelo de la curva de t en 1908, y le puso así
famoso estadístico Fisher
Es una distribución más chata y aplanada que la distribución normal, más
platicúrtica y esto dependerá del tamaño de la muestra. Si n es muy
pequeña, la distribución t será más chata. Por lo tanto, hay una distribución t
para cada tamaño de muestra.
Para usar t debe suponerse siempre que la distribución de la población es
normal, especialmente si n es muy pequeño
Se trata de una familia de curvas porque hay una distribución t por cada
número diferente de grados de libertad. A medida que aumentan los grados
de libertad la distribución se asemeja cada vez más a la normal, tal como s
observa en el gráfico siguiente:
En los problemas, la distribución de t se usa igual que la distribución normal.
Así sabemos que en la tabla en la distribución normal, el área central del
95% está entre ±1,96 y la de 99% entre ± 2,58. En la tabla de t e
valores son distintos y han sido calculados para los d
Libertad (se los busca en tabla de puntajes t)

Conociendo estos conceptos ahora podemos ir a la Estimación de
Parámetros
Estimación de parámetros
11
-1
Si el cálculo ya lo toma en cuenta en la s no se l
Características de la distribución t de student
Student es un seudónimo que utilizó un inglés llamado Gosset
el modelo de la curva de t en 1908, y le puso así
famoso estadístico Fisher.
Es una distribución más chata y aplanada que la distribución normal, más
cúrtica y esto dependerá del tamaño de la muestra. Si n es muy
pequeña, la distribución t será más chata. Por lo tanto, hay una distribución t
para cada tamaño de muestra.
debe suponerse siempre que la distribución de la población es
specialmente si n es muy pequeño.
Se trata de una familia de curvas porque hay una distribución t por cada
número diferente de grados de libertad. A medida que aumentan los grados
de libertad la distribución se asemeja cada vez más a la normal, tal como s
observa en el gráfico siguiente:
En los problemas, la distribución de t se usa igual que la distribución normal.
Así sabemos que en la tabla en la distribución normal, el área central del
95% está entre ±1,96 y la de 99% entre ± 2,58. En la tabla de t e
valores son distintos y han sido calculados para los d
los busca en tabla de puntajes t)

Conociendo estos conceptos ahora podemos ir a la Estimación de
de parámetros
Si el cálculo ya lo toma en cuenta en la s no se lo repite en el error
Student es un seudónimo que utilizó un inglés llamado Gossetquien elaboró
el modelo de la curva de t en 1908, y le puso así en honor a su maestro, el
Es una distribución más chata y aplanada que la distribución normal, más
cúrtica y esto dependerá del tamaño de la muestra. Si n es muy
pequeña, la distribución t será más chata. Por lo tanto, hay una distribución t
debe suponerse siempre que la distribución de la población es
Se trata de una familia de curvas porque hay una distribución t por cada
número diferente de grados de libertad. A medida que aumentan los grados
de libertad la distribución se asemeja cada vez más a la normal, tal como se
En los problemas, la distribución de t se usa igual que la distribución normal.
Así sabemos que en la tabla en la distribución normal, el área central del
95% está entre ±1,96 y la de 99% entre ± 2,58. En la tabla de t esos
valores son distintos y han sido calculados para los distintos Grados de
Conociendo estos conceptos ahora podemos ir a la Estimación de
12

Una estimación de parámetros es el procedimiento utilizado para
conocer las características de un parámetro poblacional, a partir
del conocimiento de la muestra.
Tenemos dos tipos de estimación de parámetros:
1) Estimación puntual
Constituye la más simple de las inferencias estadísticas. Consiste en asignar
directamente un valor muestral concreto –estadístico- al parámetro
poblacional que se desea estimar. Esuno de los métodos de estimación más
simples ideado por Pearson. Un estimador puntual es un único punto o valor,
el cual se considera va a estimar a un parámetro. La expresión E ( )
=me sugiere que ese, un único valor de es un estimador puntual
insesgadoo no viciado de µ.
Para ejemplificar lo anterior, supongamos que evaluadores externos en una
universidad están interesados en conocer el CI promedio de los profesores.
Se toma la muestra aleatoria y el promedio es de 135. El estimado sería
entonces 135. El valor de 135 se llama estimado puntual porque utiliza solo
un valor para la estimación. Si en cambio le preguntáramos a estos
evaluadores si creen que la media verdadera es de 135, lo más seguro es
que dirían que no. entonces, ¿cuán cerca está 135 de la media poblacional?
El problema con la estimación puntual es que dado un parámetro concreto
siempre es posible disponer de más de un estadístico diferente para
efectuar una estimación del mismo. Y no hay una forma natural de
determinar cuál de ellos es el ideal para efectuar una estimación concreta.
Se hace necesario por lo tanto, determinar cuáles son las características de
un buen estimador.
Estimación por intervalo de confianza
Se basa en un rango de valores entre los que se espera se pueda encontrar
el verdadero valor del parámetro con una probabilidad alta y conocida.
Un estimador por intervalo se construye sobre el concepto de un estimador
puntual, pero además, proporciona algún grado de exactitud del estimador. Y
se estima con un error determinado.
Es decir que
13

 el nivel de confianza es la probabilidad de que el parámetro a
estimar se encuentre en el intervalo de confianza.p= 1 - α
 El nivel de significación se designa mediante α. La
construcción de este tipo de intervalos sólo cabe para las muestras
probabilísticas. Las distintas fórmulas del error estándar según el
diseño de la muestra sirven como poderosos instrumentos para
establecer estimaciones por intervalo de confianza.
Convencionalmente suelen utilizarse intervalos que tienen un nivel de
confianza de 0,95 o de 0,99.
 Como vimos, el tamaño del intervalo está controlado por el nivel de
confianza 1-α (es como el radio que establezco en la diana) y el
tamaño de la muestra (n).

Como ya dijimos el estadístico �� solo tiene una distribución
aproximadamente normal cuando se calcula utilizando una muestra muy
grande (30 o más).Para muestras más pequeñas, se va a utilizar la
distribución t de student. Ya dijimos que la distribución t es más dispersa
que la normal y que la cantidad de dispersión depende del tamaño de la
muestra.
Gosset calculó tablas de la distribución t para diferentes tamaños
muestrales, donde encontramos también los valores críticos de acuerdo a
los Gl y el nivel de confianza. Como la curva de t es más plana que la
normal, el valor de t que delimita se encuentra más lejos que 0 o que z0,025.
Cuanto más grados de libertad, más se aproxima al valor crítico de z para el
mismo nivel de confianza.
Si hablamos con exactitud, la derivación de la distribución t depende de la
presunción de que la muestra era de una población normal, pero incluso dan
buenos resultados cuando la forma de la distribución poblacional no es muy
normal.
14

Propiedades de un buen estimador
Para que un estadístico pueda ser considerado un buen estimador debe
reunir determinadas propiedades, entre ellas:
1. Debe ser insesgado
Parece razonable pensar que un buen estimador debe cumplir como
primera propiedad la de ofrecer estimaciones correctas. Podemos
esperar de un buen estimador que ofrezca al menos, como promedio,
estimaciones correctas. A esta propiedad de obtener como promedio
estimaciones correctas, se le llama carencia de sesgo. Un estimador
es insesgado si su valor esperado coincide con el parámetro que
estima.
Es decir, un estimador es insesgado cuando el valor de la media de la
distribución muestral del estadístico es exactamente igual al valor del
parámetro por estimar. Por ejemplo, es un estimador insesgado de
µ porque µ =µ
2. Debe ser eficiente
Un estimador es tanto o más eficiente cuanto menor es su varianza.
Supongamos que disponemos de dos estadísticos (la media estimador 1,
y la mediana estimador 2, por ejemplo) para estimar la media poblacional.
Decimos que el estimador 1 es más eficiente que el 2 si la varianza del 1
es menor que la del 2. Una mayor eficiencia, por lo tanto indica que un
estadístico varía menos de muestra en muestra por lo que las
estimaciones que se pueden hacer con él serán más precisas que las
efectuadas con un estimador menos eficiente.

Lo cierto es que si un estimador insesgado, ofrece en promedio
estimaciones correctas si ese estimador no es eficiente (es decir, si su
varianza es muy grande) nos encontraremos que muchas de esas
X
_
X
_
Tirador eficiente pero sesgado
Tirador insesgado y eficiente
15

estimaciones están muy por encima del verdadero valor, y otras muy por
debajo. Aunque se estén contrarrestando entre unas y otras para ofrecer
una estimación promedio correcta, podríamos estar cometiendo un error
muy grande al usar una de esas estimaciones. De ahí la importancia de que
un buen estimador debe ser además de insesgado, eficiente.
La media es un estimador es un estimador insesgado y eficiente de la media
parámetro, más que la mediana (insesgada, pero no eficiente).
Tiene otras propiedades que se deben dar como la consistencia y la
suficiencia, pero solo veremos las dos anteriores que son las más
importantes.
Estimación de µ por intervalos de confianza
Para poder estimar la media de la población µ debemos especificar un
intervalo dentro del cual podemos afirmar con cierto grado de confianza
conocido que está la media de la población. Definamos entonces un intervalo
de confianza como un rango de valores que es probable que contenga el
valor poblacional; en tanto que los límites de confianza son los valores que
delimitan el intervalo de confianza.
Llamaremos coeficiente de confianza o nivel de confianza a la probabilidad
asociada al mismo. Llamaremos límites de confianza a los dos valores
extremos del intervalo. Vamos a ver cómo la distribución muestral de un
estimador (en este caso la media) nos permite determinar la amplitud del
intervalo de confianza o confidencial y el correspondiente coeficiente
confidencial o “nivel de confianza” como también se lo suele llamar.
Si tenemos la media de la muestra y queremos estimar, a partir de ella, la
media parámetro µ, usaremos el error estándar de la distribución de
muestreo de medias, nos fijamos un nivel de significación α, o sea un riesgo
máximo en la estimación (0,05 o 0,01), y usaremos la siguiente fórmula
siempre y cuando las muestras sean grandes:
n
s
zX .


1-α= p (µ+ zα/2. σ
2/n< X < µ+ -zα/2. σ
2/n)
Podemos ser más exactos y definir los intervalos con un grado determinado
de confianza (95% y 99%). Un intervalo de confianza del 95 % es uno tal que
16

hay una probabilidad del 95 % que contenga a la media parámetro y 5 % de
error. Uno de 99% goza de una probabilidad de 0,99 y 1% de error.

Aquí vemos los intervalos cuyos límites pueden quedar afuera.
Entonces, una vez que ya hemos calculado el estadístico (la media, por
ejemplo) comenzamos el proceso de estimación del parámetro (esto es, la
media poblacional). Para ello nos basaremos en tres distribuciones: la de la
muestra , que es empírica; la de la población que es generalmente
desconocida e hipotética y la distribución muestral del estadístico que es
probabilística, y que es la que nos permite el pasaje de la muestra a la
población al permitirnos estimar el parámetro.
Habrá siempre una discrepancia entre el valor muestral y el valor del
parámetro que se desea estimar. Llamaremos error muestral a esa
discrepancia. En la estimación puntual no hay forma de conocer el valor del
error por lo que no sabemos si el error que estamos cometiendo es grande
o pequeño. Y sin embargo, cualquier investigador necesitaconocer la
precisión con la que está trabajando, y por lo tanto, el error. Este tema
puede resolverse procediendo a través de la estimación por intervalos.
Procediendo de esta forma es posible conocer el error muestral máximo
(Emáx) cometido en la estimación, es decir, el tamaño de la distancia máxima
que con una determinada probabilidad esperamos exista entre el verdadero
valor del parámetro estimado y el valor del estadístico utilizado como
estimador.
Entonces, en la estimación por intervalos, se trata de obtener dos valores
que permitan afirmar que existe una alta probabilidad de que el verdadero
valor del parámetro se encuentra entre esos dos valores.
17

Para obtener esos valores, a un estimador puntual (el estadístico de la
muestra) se le suma y se le resta una cantidad (Emáx) relacionada con el
error típico de su distribución muestral. Por lo tanto para realizar la
estimación por intervalos necesitamos utilizar estimadores con distribución
muestral conocida.
Errores que se pueden cometer en la estimación de parámetros:
Hay dos tipos de errores que se pueden cometer al estimar un intervalo de
confianza: debidos al azar y no debidos al azar
 Errores debidos al azar
Sabemos que ningún subconjunto de datos mide exactamente al conjunto
total del que forma parte. El grado de error al que se incurre al extender
los resultados de una muestra probabilística a la población se puede
establecer a partir del error estándar. Este error mide las variaciones
debidas al azar, es decir, los errores de muestreo que son los errores de
muestra en muestra o casuales (que son los errores que eventualmente
pueden afectar las mediciones). Por supuesto que cuanto menor es su
valor mayor es la precisión en la inferencia, de allí la importancia en
determinarlo.
 Errores no debidos al azar
Tanto en un censo cuando se examina la población completa como en un
muestreo cuando se toma una porción de la población pueden deslizarse
errores no casuales, asociados con que la población no está bien definida,
hubo fraude, cansancio, etc. El error estándar no descubre este tipo de
descuidos no accidentales como tampoco el derivado de una selección
inapropiada de las muestras. Si no se tienen en cuenta estos errores puede
que hagamos un esfuerzo considerable incluso económico para conformar
muestras más grandes, y esto no sirva de nada.
Pasos para calcular el intervalo de confianza
1) Cuando se desconoce sigma, muestras grandes (≥ 30 casos)
*Estimación por intervalo de confianza: el valor de µ se encuentra en algún
punto de un intervalo de valores con una probabilidad alta y conocida.
Cuando hacemos este tipo de razonamientos, suponemos que la distribución
de la media muestral es aproximadamente normal (porque es grande, mayor
18

de 30 casos) con media µ y desviación típica σ=
�
√�
, que recibe el nombre de
error estándar, o error típico de muestreo. Como no conocemos el valor de
sigma, lo sustituimos por s (es decir, la desviación típica o estándar de la
muestra elegida). Entonces tenemos un sigma estimado, no conocido, que
lo nombramos con el término ���� =
�
√�
.

Pasos
 Establecer el nivel de confianza (por lo general de 0,95 o de
0,99)
 Calcular el error estándar estimado (porque no se conoce y se
usa s) de la distribución de muestreo de medias, que es igual a
s sobre raíz cuadrada de n. Calcular el error estándar de
donde eσ =s/√n
 Determinar el valor de z que delimita el área de la distribución
muestral de medias (normal) asociada con la probabilidad del nivel de
confianza establecido.
 Se calcula el error máximo, que es igual a / z/ por el error
estándar.
 Determinar el Li (Límite inferior) que es igual al estadístico
menos el error máximo.
 Determinar el Ls (Límite superior) que es el estadístico más el
error máximo.
 Establecer el intervalo de confianza entre esos dos valores.
o µ= ± z. σ/√n

Nivel de
confianza
Z
0,95 ±1,96
0,99 ±2,58

Por ejemplo para construir un intervalo de confianza del 95 %;
µ= ±1,96 .σ
X
_
X
_
X
_
X
_
19

Veamos un ejemplo,
Así supongamos que para una muestra de 100 casos, la media sea de 20
puntos. Como no conocemos el σ de la población, en este caso lo que
tenemos es el desvío de la muestra, y hacemos el supuesto que es la mejor
estimación posible de la desviación estándar de la población. Usamos, para
estimar el error estándar de la distribución de muestreo de medias, la “s” de
la muestra que es =5. Entonces σX, que es 5/√100=5/10=0,5
Ahora ya tenemos todos los datos que necesitamos
X =20
n=100
s=5
σ
X
=0,5
Podemos establecer un intervalo de confianza para establecer los límites
entre los cuales se encuentra con un cierto grado de probabilidad (en este
caso de 0, 95) la media parámetro, dado que sabemos que la distribución
muestral de medias es normal. Gráficamente vemos que si el intervalo es
del 95%, quedan fuera 5% dividido en 2,5 para cada lado o 0,025.

Si se resta el 50% que corresponde a la mitad de la curva, ese segmento de
0,025= 0,475; buscamos esa área en la tabla y corresponde a un z de 1,96.
Del otro lado de la curva, lo mismo nada más que el z es negativo, de -1,96.
Calculemos los límites entonces:
20

µ = X ±1,96.s/√n
µ= X ±1,96. 0, 5=
20±0,98
O sea que la µ se encuentra con un 95% entre los valores 19, 01 y 20,
98 con un 5% de error.
Si queremos establecer límites más exactos, por ejemplo, podemos
fijar el 99%. Entonces busquemos en la tabla de puntajes z, esto
corresponde aun z de 2, 58, y -2,58. Estos valores de z se usan siempre
que una muestra sea considerada grande o mayor de 30 casos.
µ = X ±2,58.s/√n
µ= X ±2,58. 0, 5=
20±1,29
18,71 y 21,29
Concluimos que entre 18,71 y 21,29 se encuentra la media parámetro
con un 99% de confianza y 1% de error.
1) Cuando se desconoce σ; n ˂ 30 y el muestreo es aleatorio simple
*Estimación por intervalo de confianza: rango de valores entre los
que probablemente se encuentra µ.
Pasos
 Establecer el nivel de confianza 1-α (por lo general de 0,95 o
de 0,99).
 Para el nivel de confianza establecido y gl=n-1; determinar el
valor absoluto de t (ver en Tabla de Puntajes t).
 Calcular el error estándar de la distribución de muestreo de la
media (estadísticos): eσ =s/√n-1
 Calcular el error máximo que es /t/. eσ
 Establecer el Li (Límite inferior): X -t .s/√n1-1
 Establecer el Ls (Límite superior): X +t .s/√n1-1
 Valores críticos de t asociado con la probabilidad del
nivel de confianza y de acuerdo a los gl=n-1 (se busca
en Tabla de puntajes t)
µ= ±t.s/√n-1

Veamos un ejemplo,
X
_
21

Supongamos un caso con n=16; X =24; s=8.
Los grados de libertad son n-1=16-1=15; tendremos que la verdadera
media con una probabilidad del 95% estará entre
24±2,13.
116
8


24±4,41, o sea,
Entre 19,58 y 28,41 se encuentra la media parámetro con una
probabilidad de certeza del 95% y un riesgo de error de 5%.
Entre 17,89 y 30,11 se encuentra la media de la población o
parámetro con un 95 % de confianza y un 5 % de error.

Tabla de puntajes t
Gl Probabilidad
0,10 0,05 0,02
0,01
…
…
25 2,06 2,79
…
….

En esa tabla se ubican para determinados grados de libertad asociados con
el tamaño de la muestra. El valor aparece positivo, pero sabemos que es el
mismo con signo negativo. Para ello, también debemos determinar el nivel
de confianza con el que lo haremos.
En este caso el IC= µ= ± 2,06.s/√n-1.
Veamos un ejemplo:
Un estadístico se dice que no es segado o parcial cuando la media de una
gran cantidad de valores muestrales por muestreo repetido, se acerca al
valor de la población, o sea, al parámetro. Ya vimos que el estadístico de la
media de la distribución muestral es iguala la media de la población, es
decir, no tiene parcialidad o sesgo, en cambio, el valor de la variancia de
X
_
22

una muestra calculada según la fórmula común: s2=
n
XX )(  es una
estimación parcial o segada de la variancia de la población. En el caso de
que la muestra sea grande no hay problemas, pero en el caso de que la
muestra sea pequeña (menor de 30 casos), hay que corregir este sesgo que
puede ser muy grande y lo que se hace es dividir en n-1, la fórmula
entonces queda: s2=
1
)(


n
XX
, de modo que así tendremos una estimación
imparcial de la σ poblacional.
El uso de (n-1) para obtener una estimación no sesgada implica el concepto
de Grados de Libertad. Si n es el número de las observaciones de la
muestra, n-1 es el número de grados de libertad, es decir, la cantidad, de
valores de la variable que tenemos libertad para cambiar cuando calculamos
los desvíos.
Supongamos que tenemos 5 medidas: 10, 14, 6, 5, 5. Su media es 8, luego
los desvíos respecto de la media es 2, 6, -2, -3,-3. La suma de los desvíos
respecto a la media es 0. En consecuencia, si se conocen 4 cualesquiera de
estos desvíos, el desvío restante está determinado. Así 4 de los desvíos
pueden variar independientemente y por esto, sus Grados de Libertad son 4;
n-1= 5-1=4. Se usa el símbolo gl.
El concepto de grados de libertad es simple. El número de grados de
libertad es siempre el número de valores que puede variar dadas la cantidad
de restricciones impuestas en los datos.