Logo Studenta

Parametros-Estadisticos

¡Este material tiene más páginas!

Vista previa del material en texto

Estadística descriptiva 
PARAMETROS Y ESTADISTICOS 
 Marta Alperin 
Profesora Adjunta de Estadística 
alperin@fcnym.unlp.edu.ar 
http://www.fcnym.unlp.edu.ar/catedras/estadistica 
 
mailto:alperin@fcnym.unlp.edu.ar
• Medidas de tendencia central: Moda, Mediana, Media 
aritmética, propiedades, ventajas e inconvenientes, Media 
geométrica. 
• Medidas de dispersión: Rango, Rango intercuartilico, 
Varianza, Desvío estándar. 
• Medidas de forma: asimetría y apuntamiento o curtosis. 
• Ejemplo de cálculo con datos agrupados. 
Estadística descriptiva: 
Descripción de los datos con estadísticos y parámetros 
Para inferir como es la población necesitamos medidas rigurosamente definidas. 
Para describir las distribuciones se definen medidas o valores que dan cuenta 
de la: 
 
a. Tendencia central 
 
a. Dispersión o variabilidad de los datos 
 
c. Forma 
 
Nuestro interés es describir la muestra y la población. 
Cualquier medida referida a la: 
 
• el tamaño de muestra lo representaremos con n, los de la población con N. 
 
• MUESTRA recibe el nombre de “Estadístico o Estadística” y se designa con letras 
mayúsculas (X, Y, W, con algún adorno). 
 
• POBLACIÓN recibe el nombre de “Parámetros” y se designan con letras griegas 
(σ, ρ, ц, Ф, γ, etc.). 
 
 
a.Tendencia central 
1. Moda 
2. Mediana 
3. Promedio o Media Aritmética 
4. Media Geométrica 
 
 
 
1. Moda: la Moda de una serie de datos es el valor que aparece con más 
frecuencia que cualquier otro. 
 
Ejemplo: para el siguiente conjunto de datos del largo del ala de mariposas emperador (mm) 
 X̂
 
 
Observación: la moda es inestable ya que puede cambiar con el método de redondeo de los 
datos. En distribuciones que aumentan o disminuyen continuamente y a ritmo constante, la 
moda podrá ser un valor extremo más que un valor de tendencia central. 
Puede haber distribuciones con 2 modas (bimodales) o mas de 2 (multimodales). 
A B C D E F G 
6,2 9,3 4,8 7,2 5,5 5,5 5,5 
moda 
Datos agrupados 
 La moda se encuentra en la clase de mayor frecuencia, 
 la clase modal. 
 
CLX 








21
1
.mod.inf.ˆ
L.inf.mod = límite inferior de la clase modal, 
Δ1 = valor absoluto de la diferencia entre la frecuencia de la clase 
premodal y modal 
Δ2 = valor absoluto de la diferencia entre la frecuencia de la clase 
posmodal y modal 
C = amplitud del intervalo de la clase modal 
Histograma
0 5 10 15 20 25 30
Contenido de Limo (g)
0
5
10
15
20
25
30
N
o
. d
e
 d
a
to
s
Valor de la MODA
Mediana: La Mediana de una serie, cuando los valores se disponen según sus 
magnitudes, es el valor medio. 
Es una medida de posición que divide a una serie dejando a su izquierda el 50% 
de los valores menores a él y a su derecha el 50% de los valores mayores a él. 
 
-Datos sin agrupar.  n impar, el valor coincide con el valor central. 
  n par, se encuentra entre los dos valores centrales. 
 
 
 
X
~
A B C D E 
6,2 9,3 4,8 7,2 5,5 
Observación: una característica importante de la mediana es que no se deja 
influenciar con la magnitud de los valores de las colas de una distribución. 
{4,8; 5,5; 6,2; 7,2; 9,3} 
mediana 
-Datos agrupados 
La clase mediana es la clase cuya frecuencia acumulada 
supera primero el valor de la mitad mas uno de los datos 
[(n+1)/2] 
 
C
fme
fapn
medLX 




 

2/1
..inf.
~
Lme = límite inferior de la clase mediana 
fap = frecuencia acumulada en la clase que precede 
inmediatamente a la clase que tiene a la mediana 
fme = frecuencia de la clase que tiene a la mediana 
C = amplitud del intervalo 
Polígono de frecuencia acumulada (Ojiva)
4 8 12 15 19 23 27
Contenido de limo (g)
F
(x
)
100
20
80
40
60
OJIVA
Valor de la Mediana
50
 Ejemplo: para el siguiente de datos del diámetro de concreciones del Valle de la Luna (mm): 
Promedio o Media Aritmética: la media aritmética, , para un conjunto de 
“n” observaciones {x1, x2, ..., xn}, es igual a las suma de los “n” valores dividido el 
número total de valores (n). La media poblacional se designa con μ. 
 
 
 
X
A B C D E 
6,2 9,3 4,8 7,2 5,5 
Ejemplo: para el siguiente conjunto de datos de diámetro cefálico de cobayos (mm) 
n
xxx
X n


...21 


n
i
i
n
x
X
1



n
i
ix
n
X
1
1
6,6
5
5,52,78,43,92,6


X



n
i
ii
n
af
X
1



n
i
ii
n
cf
X
1
Para datos agrupados 
 
• Discretos •Continuos 
fi: frecuencia 
a: valor de la variable 
fi: frecuencia del intervalo de clase 
c: marca de clase del intervalo 
mm 
Propiedades: 
1º Es un valor típico, es el centro de gravedad, es un punto de equilibrio. 
 Su valor puede sustituir al valor de cada dato de la serie sin cambiar el total 
dado que: 
2º La suma algebraica de las desviaciones con relación a la media es “0” 
3º La suma del cuadrado de las desviaciones de los datos respecto a la media es 
menor que las desviaciones al cuadrado de cualquier otro punto. 
Observación: una característica importante de la media es su inestabilidad. Por ejemplo 
con el agregado de datos extremos su valor cambia sustancialmente. 



n
i
ix
n
X
1
1



n
i
ixXn
1
 


n
i
i Xx
1
0
 


n
i
i mínimoXx
1
2
Media Geométrica: la media geométrica, G, para un conjunto de n observaciones 
{x1, x2, ..., xn}, es igual a la raíz n-ésima del producto de las n observaciones. 
 
 
Ejemplo: para el siguiente conjunto de datos de leyes de Cu (ppm) 
A B C D E 
6,2 9,3 4,8 7,2 5,5 
n
nxxxG  21
4,60,109605,52,78,43,92,6 55 G
Observaciones 
- G de un conjunto de números positivos es siempre menor a la media aritmética. 
- G es un mejor estimador de tendencia central cuando la distribución de frecuencias es de 
asimetría a la derecha (ej. distribución lognormal). 
- Se utiliza para calcular medidas de tendencia central de datos que se expresan como 
porcentajes, los llamados datos composicionales. 
ppm 
Para datos agrupados 
n fn
n
ff xxxG ...22
1
1

Relaciones entre Mediana, Moda, Media 
•Distribución con asimetría positiva 
o cola a la derecha: 
 Moda>Mediana>Media 
•Distribución con asimetría 
negativa o de cola izquierda 
Media>Mediana>Moda 
 
•En distribuciones simétricas 
 Media = Mediana =Moda 
. 
Precipitación 
(mm) 
Marca de 
Clase (ci) 
Frecuencia 
observada 
(fi) 
Frecuencia 
acumulada 
Frecuencia 
relativa % 
Frecuencia 
relativa acumulada % 
0-50 25 21 21 22,58 22,58 
50-100 75 34 55 36,56 59,14 
100-150 125 26 81 27,96 87,10 
150-200 175 8 89 8,60 95,70 
200-250 225 4 93 4,30 100,0 
PR EC IPITAC ION ES D E N OVIEMBR E
0 50 100 150 200 250
Precipitaciones (mm)
0
5
10
15
20
25
30
35
40
45
N
o
. d
e
 o
b
se
rv
a
ci
o
n
e
s
50 100 150 200
Precipitación (mm)
0
10
20
30
40
50
60
70
80
90
100
F
re
c
u
e
n
c
ia
 r
e
la
ti
v
a
 a
c
u
m
u
ld
a
 %
Ejemplo: el partido de Bolivar se ubica en el centro de la provincia de Buenos Aires, 
en la Pampa húmeda. Pose relieve ligeramente ondulado con muy buenas condiciones 
físicas. Los suelos son aptos para una amplia gama de usos como los cultivos de 
cereales y oleaginosas, así como de pasturas implantadas. La precipitación es una 
variable muy importante para establecer no solo el balance hidrológico de una región, 
sino también para planificar el uso del suelo. 
 
Se presenta la distribución de la precipitación caída en Bolivar desde 1911-2002 
durante el mes de noviembre agrupada en 5 clases 



n
i
ii
n
fc
X
1
mmX 74,97
93
8625

CLX 








21
1
mod.inf.ˆ
Clase que contiene la moda: [50-100] 
L.inf.mod: 50 Δ1 = 21 - 34 = 13 
C = 50 Δ2 = 26 - 34 = 8 
 
C
fme
fapn
medLX 




 

2/1
..inf.
~
 (n+1)/2= (93+1)/2 = 47 
Clase que contiene a la mediana: [50-100] 
L.inf.med. = 50 fme = 34 
fap = 21 C = 50 
Distribución con asimetría 
positiva o cola a la 
derecha: 
Moda> Mediana>Media80,95>88,24>97,74 
mmX 24,8850
34
2147
50
~





 

Estadísticos de tendencia central 
Promedio 8625)4225()8175()26125()475()2125(
1


n
i
ii fc
Moda 
Mediana 
Precipitación 
(mm) 
Marca de 
Clase (ci) 
Frecuencia observada 
(fi) 
Frecuencia 
acumulada 
(fi ac.) 
ci fi 
0-50 25 21 21 525 
50-100 75 34 55 2550 
100-150 125 26 81 3250 
150-200 175 8 89 1400 
200-250 225 4 93 900 
Suma 93 8625 
mmX 95,8050
813
13
50ˆ 


b. Dispersión 
1. Amplitud, rango o recorrido 
2. Rango intercuartilico 
3. Varianza o variancia 
4. Desvío estándar 
5. Coeficiente de variación 
 Amplitud, rango ó recorrido: El rango para un conjunto de n observaciones 
{x1, x2, ..., xn}, es la diferencia entre el valor máximo y el mínimo. 
Ejemplo: largo (cm) de lombrices californianas 
A B C D E 
6,2 9,3 4,8 7,2 5,5 
En este caso la amplitud es: 
 
A = 9,3 - 4,8 = 4,5 cm 
Otras medidas de dispersión: 
Definición: El cuantil xα divide a la muestra de datos en dos partes: el α% de 
los valores es menor que α y el (1 – α) de los valores es mayor que xα. 
Existen otros valores de la variable semejantes a la Mediana que dividen a la 
población y la muestra en 4 (cuartiles), 10 (deciles) y 100 (percentiles). 
C
fm
fapN
LX 




 




%)(
%.inf.%
L.inf.α% : límite inferior de la clase α% 
%: el total de observaciones que quedan a la izquierda de α% 
Fap: frecuencia acumulada en la clase que precede 
inmediatamente a la clase que tiene al α% 
fm: frecuencia de la clase que tiene al α% 
C : amplitud del intervalo 
Rango inercuartilico 
Los cuartiles son 3: X0,25 (primer cuartil); X0,50 (segundo cuartil o mediana) y X0,75 (tercer cuartil). 
 
• El rango intercuartilico RI es una medida de dispersión basada en el recorrido de los 
cuartiles. 
 RI = X0,75 – X0,25 
 
• Otros autores prefieren usar el recorrido basado en los percentiles 
 
 RI = X0,90 – X0,10 
Varianza 
 
Podríamos pensar en expresar la variación de los datos con respecto a la 
media como el promedio de las diferencias entre cada dato a la media. 
n
XxXxXx n  ...21 pero 
Recordar la 2º propiedad 
de la media: el promedio 
de las desviaciones 
respecto a la Media 
siempre es cero. 
Especimen xi xi - X
A 9 4
B 2 -3
C 7 2
D 5 0
E 4 -1
F 6 1
G 5 0
H 2 -3
Suma 40 0
Promedio: 40/8=5
)(),...,(),( 21 XxXxXx n 
0
...21 

X
n
xxx n
Varianza es el promedio del cuadrado de las desviaciones de los datos con 
respecto a la media: 
 
Especimen xi xi - X (xi - X)
2
A 9 4 16
B 2 -3 9
C 7 2 4
D 5 0 0
E 4 -1 1
F 6 1 1
G 5 0 0
H 2 -3 9
Suma 40 0 40
Promedio: 40/8=5
Varianza: 40/8=5
La varianza se expresa en el cuadrado de las 
unidades de la variable. 
     
N
xxx n
22
2
2
12 ... 

  


N
i
ix
N 1
22 1 
 




n
i
i Xx
n
S
1
22
1
1
Población 
Ejemplo: para la población del número de individuos 
de parásitos encontrados en el intestino del Pingüino 
de Magallanes de Punta Tombo: 
Observación: Los valores altos tienen gran influencia en la varianza 
Muestra 
Cuando la S2 se usa para 
calcular σ2, la 3º propiedad de la 
media tiende a subestimar S2 . 
El sesgo se reduce cuando se 
usa (n -1) lo que produce un 
estimador mayor de σ 2. 
Desvío estándar 
La desvío estándar de n observaciones (x1 , x2 , ... , xn), es la raíz cuadrada 
positiva de la varianza: 



N
i
ix
N 1
2)(
1
 




n
i
i Xx
n
S
1
2)(
1
1
 para la Población para la Muestra 
 

 


N
i
ii
n
fXc
S
1
2
1
 




N
i
ii
N
fc
1
2


ci: marca de intervalo de clase 
fi: frecuencia de intervalo de clase 
Datos agrupados 
Ejemplo: para la población del número de individuos de parásitos 
encontrados en el intestino del Pingüino de Magallanes de Punta Tombo: 
23,25
52




parasitos 
Coeficiente de variación 
• Es una medida que da cuenta de la variabilidad relativa de las observaciones. 
Para el ejemplo del número de parásitos de los pingüinos magallanes 
 
Promedio: 4 parásitos y Desvío estándar: 2,23 parásitos 
Coeficiente de variación: 0,5575 o 55,75% 
Observaciones: 
• El coeficiente de variación refleja una mezcla desconocida de la variabilidad natural, la 
variabilidad introducida durante el proceso de muestreo y de causas aleatorias. 
 
• El coeficiente de variación es útil para comparar la variabilidad entre varias muestras, aun 
si las mediciones fueran realizadas en diferentes unidades. 
 
• Es una medida que se utiliza como guía para evaluar la conveniencia de efectuar o no la 
transformaciones de los datos. 
Para la población: γ = σ/μ XPara la muestra CV = S / 
• Se calcula como el cociente entre el desvío estándar y la media. 
• Puede tomar valores positivos o negativos. 
• Carece de unidades pero suele expresarse en forma porcentual. 
Rango o Amplitud 
Coeficiente de variación 
1058125)4.225()8.175()26.125()34.75()21.25( 22222
1
2 

n
i
ii fc
7439062586252
2
1








n
i
ii fc
  














  
 
n
i
n
i
iii nfcfc
n
s
i
1 1
22
1
1
mms 98,5280,2806 
CV%=54% 
54,0
74,97
98,52

mm
mm
CV
Estadísticos de dispersión 
A=250-0 = 250 mm A:Valor máximo – Valor mínimo 
CV = S / 
Varianza 
Desvío estándar 
Precipitación 
(mm) 
Marca de 
Clase (ci) 
Frecuencia 
observada 
(fi) 
ci fi ci 
2 ci 
2 fi 
0-50 25 21 525 625 13125 
50-100 75 34 2550 5625 191250 
100-150 125 26 3250 15625 406250 
150-200 175 8 1400 30625 245000 
200-250 225 4 900 50625 202500 
Suma 93 8625 1058125 
22 8,2806
193
19,7998991058125
mms 



X


















 

nfcfc
n
fXc
n
s
n
i
ii
n
i
iii
n
i
i
2
11
2
1
2
1
1
)(
1
1
c. Forma 
1. Coeficiente de Simetría 
2. Curtosis 
Coeficiente de simetría: Informa si los datos están equilibrados en torno 
a la media o si hay mas a la derecha o izquierda. Se define como: 
Se puede demostrar que: 
 CS < 0, la asimetría es negativa (a) 
 CS > 0, la asimetría es positiva (b) 
 CS = 0 asimetría nula (simetría) (c) 
3
3
S
X
CS   


n
i
i Xx
n
X
1
33 1donde: 
Coeficiente de Exceso E o de Kurtosis o Curtosis K mide el grado 
de achatamiento de un histograma con respecto al modelo teórico Normal. 
Se define como: 
Se puede demostrar que: 
E > 0, histograma más puntiagudo que el Normal (a) 
E < 0, histograma más achatado que el Normal (b) 
E = 0 histograma sin achatamiento (c) 
a) Histograma puntiagudo o b) Histograma achatado o c) Histograma normal o 
 leptocurtico platicurtico mesocurtico 
4
4
S
X
E   


n
i
i Xx
n
X
1
44 1
donde: 
Asimetría y Curtosis 
Ejemplos para distribuciones con la misma media y el 
mismo número de datos 
Las figuras de la izquierda (a, c y e) 
tienen bajo grado de asimetría. 
 
Las figuras de la derecha (b, d y f) 
son marcadamente asimétricas, 
la Moda está desplazada 
respecto a la media. 
 
Las 2 distribuciones de cada fila 
tienen curtosis semejantes: 
 
• a y b son las más “picudas” 
o leptocurticas, 
 
• c y d son mesocurticas ,y 
 
• e y f son las más “aplastadas” 
o platicurticas 
Precipitación 
(mm) 
Marca 
de Clase 
(ci) 
Frecuencia 
observada 
(fi) 
(xi- )3 (xi- )3 fi (xi- )
4 (xi- )4 fi 
0-50 25 21 -384875.167 -8082378.5 27995819.6 587912212 
50-100 75 34 -11759.0268 -399806.912 267400.27 9091609.18 
100-150 125 26 20257.1132 526684.943 552208.905 14357431.5 
150-200 175 8 461173.253 3689386.03 35630245.5 285041964 
200-250 225 4 2060989.39 8243957.57 262281510 1049126041 
Suma 93 3977843.13 1945529258 
4
4
S
X
E  


n
i
i Xx
n
X
1
4
4 )(
1
3
3
S
X
CS  


n
i
i Xx
n
X
1
3
3 )(
1
74,97X
S= 52,98 
S3= 148708,53 5,42772
93
13,3977843
3 X 29,0
53,148708
51,42772
CS
S4= 7888577,58 4,20919669
93
19455292584 X 66,258,7888577
4,20919669
E
CS>0 la disitribución tiene asimetría positiva (cola derecha) 
E >0 la distribución es mas puntiaguda que una distribución normal 
Estadísticos de forma 
Coeficiente de Exceso o de Curtosis 
Coeficiente de Simetría donde, 
donde, 
Agradezco su atención

Continuar navegando