Logo Studenta

TEMA_1_DescritivaUnivariante_Diapositivas_EDB_2016_II

¡Este material tiene más páginas!

Vista previa del material en texto

1. ESTADÍSTICA DESCRIPTIVA UNIVARIANTE
Tema 1: Estadística descriptiva 
univariante
1. Introducción. El propósito de la estadística
2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos
4ESTADÍSTICA BÁSICA
1. Introducción. El propósito de la estadística
¿Qué es la estadística?¿Por qué estudiamos estadística?
aprender de la observación
A partir de un número reducido de datos, 
sacar conclusiones que sean generales
Fenómeno 
real
Datos 
observados
Análisis 
estadístico
Aprendizaje 
sobre el fenómeno
Dos formas alternativas de acceder al 
conocimiento del mundo
• Leyes físicas
• Reglas matemáticas
• Propiedades de los materiales 
ideales
A partir de teorías
A partir de los modelos 
teóricos DEDUCIMOS la 
realidad
DEDUCIR= Sacar consecuencias de un 
principio, proposición o supuesto.
• Datos
• Estadística
A partir de la observación
A partir de los datos 
INDUCIMOS o INFERIMOS 
un modelo (empírico)
INDUCIR= Extraer, a partir de determinadas 
observaciones o experiencias particulares, el 
principio general que en ellas está implícito.
Tema 1: Estadística descriptiva 
univariante
1. Introducción. El propósito de la estadística
2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos
7ESTADÍSTICA BÁSICA
2. Descripción de datos mediante tablas
Objetivo: resumir la información para facilitar su análisis
Tablas univariantes
Ejemplo 1: número de cilindros de 155 vehículos (fichero cardata)
Muestran la frecuencia de cada valor observado
Frecuencia (absoluta): número de datos 
en cada clase (valor) 
Frecuencia relativa: proporción (0-1) de 
los datos que hay en cada clase (valor) 
138 autos tiene 4 cilindros o menos, 
lo que supone el 89% de los datos
8ESTADÍSTICA BÁSICA
Tablas univariantes
Ejemplo 2: mes de nacimiento de 95 estudiantes de primer curso
2. Descripción de datos mediante tablas
En estos estudiantes, es más probable
haber nacido en el primer semestre
9ESTADÍSTICA BÁSICA
Tablas univariantes
Si hay muchos valores distintos: se agrupan en intervalos –clases-
Ejemplo: precio de 155 vehículos (fichero cardata)
¿Número de clases? n
2. Descripción de datos mediante tablas
El 45.16% de los autos cuesta
‘alrededor’ de $ 3000.
Tema 1: Estadística descriptiva 
univariante
1. Introducción. El propósito de la estadística
2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características de un conjunto de datos
11ESTADÍSTICA BÁSICA
3. Descripción de datos mediante gráficos
3.1 Diagrama de barras
3.2 Histograma y polígono de frecuencias
3.3 Diagrama de sectores o circular (piechart)
3.4 Series temporales
12ESTADÍSTICA BÁSICA
3.1 Diagrama de barras
Es la representación gráfica de una tabla de frecuencias sin agrupar en intervalos
Ejemplo: número de cilindros de 155 vehículos (fichero cardata)
Frecuencia de cada valor observado
1
104
3
30
17
13ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata)
El histograma es una de 
las herramientas gráficas 
más útiles para resumir 
información
14ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata)
El histograma sirve para resumir la 
siguiente información:
• Concentraciones
• Asimetrías
• Huecos
• Atípicos
15ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Signo de la asimetría: hace donde apunte la cola de la distribución (+∞ o −∞)
16ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
La apariencia del histograma puede variar dependiendo del número de clases. Demasiadas cases
puede dar la sensación errónea de que los datos son muy heterogéneos. Por el contrario, muy
pocas clases puede llevarnos a concluir que los datos son más homogéneos de lo que realmente
son. Hay varios criterios de selección. En la práctica: probar varias configuraciones
14 clases
8 clases
?
Ejemplo: peso de los 155 vehículos
¿Son homogéneos, agrupados alrededor de 2100, o hay 3 tipos de vehículos agrupados en torno a 2100, 
2700 y 3500?
17ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
Criterios para decidir el número 𝑘 de clases en un histograma:
n Raíz Sturges Rice DK
10 3 4 4 10
100 10 8 9 20
155 12 8 11 22
200 14 9 12 23
500 22 10 16 27
1000 32 11 20 30
5000 71 13 34 37
Consejo: experimentar con diferentes elecciones. Una buena opción es empezar con raíz o Rice (“rais or rais”) dependiendo de si n<500
• La raíz: 𝑘 = 𝑛 (para n<1000, pues con muchos datos salen demasiadas clases)
• Sturges: 𝑘 = 1 + log2 𝑛 =1 + 1.44 ln(𝑛)
(para datos unimodales y simétricos, de lo contrario k es 
muy pequeño. Para n<500)
• Dixon-Kronmal: 𝑘 = 10 log10(𝑛) = 4.36 ln(𝑛)
(con pocos datos da demasiadas clases. mejor 
para n>200)
• Scott’s: 𝑘 = 3.5𝑠𝑥𝑛
−
1
3
(para datos unimodales y simétricos. Mejor que Surges. 𝑠𝑥: medida de 
dispersión de los datos, que se verá más adelante)
• Freedman-Diaconis: 𝑘 = 2 × 𝑅𝐼 × 𝑛−
1
3
(para datos unimodales y simétricos. Mejor que Sturges. RI = 
rango intercuartílico, medida de dispersión que se verá más 
adelante)
• Rice: 𝑘 = 2𝑛
1
3
(para n>500, pues con pocos datos salen pocas clases)
18ESTADÍSTICA BÁSICA
n Raíz Sturges Rice DK
155 12 8 11 22
3.2 Histograma y polígono de frecuencias
Para los datos del peso de los 155 vehículos
8 clases 11 clases
12 clases 22 clases
Nota: en estos 155 vehículos hay utilitarios, berlinas y camionetas, por lo que es razonable visualizar tres grupos (12 clases)
19ESTADÍSTICA BÁSICA
Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos 
personas, 50 clavos cada una, que usaron calibres diferentes.
Las dos concentraciones parecen deberse a los dos calibres
¿Qué calibre es mejor?
3.2 Histograma y polígono de frecuencias
20ESTADÍSTICA BÁSICA
Ejemplo:
Tiempo que un ordenador tarda en escribir un fichero de 300 Mb en 
su disco duro. Se hacen dos experimentos; uno en el que el disco 
duro está desfragmentado, y otro en el que el disco duro tiene una 
fragmentación del 40%. Cada experimento se repite 79 veces
3.2 Histograma y polígono de frecuencias
El histograma también puede hacerse con las frecuencias acumuladas. También puede 
expresarse en frecuencias relativas o absolutas 
22ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata)
El polígono de frecuencias 
se consigue uniendo con 
líneas los puntos centrales 
de la parte superior del 
histograma.
23ESTADÍSTICA BÁSICA
3.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata)
Puede realizarse también 
acumulando las 
frecuencias.
Al polígono de frecuencias acumulado 
también se le conoce por ojiva
eje X eje Y
24ESTADÍSTICA BÁSICA
3.3 Diagrama de sectores o circular (piechart)
Es un círculo dividido en porciones proporcionales a las frecuencias relativas
Ejemplo: número de cilindros de 155 vehículos (fichero cardata)
25ESTADÍSTICA BÁSICA
3.4 Series temporales
El eje X es el tiempo. Representa la evolución temporal de la variable
26ESTADÍSTICA BÁSICA
3.4 Series temporales
El eje X es el tiempo. Representa la evolución temporal de la variable
Tema 1: Estadística descriptiva 
univariante
1. Introducción. El propósito de la estadística
2. Descripción de datos mediante tablas
3. Descripción de datos mediante gráficos
4. Medidas características deun conjunto de datos
28ESTADÍSTICA BÁSICA
4. Medidas características de un conjunto de datos
Objetivo: buscamos resumir las características más importantes de los 
datos en un conjunto reducido de números. 
Cada característica un número
4.1 Medidas de 
centralización
¿Cuál es el centro de los datos?
Hay muchas medidas alternativas.
Las más importantes son
• Media aritmética
• Mediana
• Moda
29ESTADÍSTICA BÁSICA
4.1 Medidas de centralización
• Media aritmética
Sea un conjunto de observaciones 𝑥1, 𝑥2, … , 𝑥𝑛
Si las n observaciones están formadas por J valores 𝑥1, 𝑥2, … , 𝑥𝐽
diferentes que se repiten:
𝑥1 se repite 𝑛1 veces
𝑥2 se repite 𝑛2 veces 
...
𝑥𝐽 se repite 𝑛𝐽 veces
Donde 𝑓𝑟(𝑥𝑗) es la frecuencia relativa del valor 𝑥𝑗
ҧ𝑥 =
σ𝑖=1
𝑛 𝑥𝑖
𝑛
ҧ𝑥 = ෍
𝑗=1
𝐽
𝑥𝑗𝑓𝑟(𝑥𝑗)
30ESTADÍSTICA BÁSICA
4.1 Medidas de centralización
• Media aritmética
Ejemplo: 𝑥 = {1,2,3,3,5,5,5,6,6}
1 2 3 3 5 5 5 6 6
4
9
x
       
 
O bien:
1 1 2 3 1
1 2 3 5 6 4
9 9 9 9 9
x           ҧ𝑥 = ෍
𝑗=1
𝐽
𝑥𝑗𝑓𝑟(𝑥𝑗)
31ESTADÍSTICA BÁSICA
4.1 Medidas de centralización
• Media aritmética
Puede interpretarse como el centro de gravedad de los datos. Si asociamos la
frecuencia de cada dato a la masa situada en dicho punto, la media muestral
sería el centro de gravedad de las observaciones.
Por ejemplo, en un histograma, la media muestral sería el punto de apoyo para 
que esté en equilibrio.
32ESTADÍSTICA BÁSICA
• Media aritmética
Cuanto más asimétrica sea más se desplaza la media hacia la cola. En distribuciones muy 
asimétricas, la media muestral pierde interés como medida que describa alrededor de qué 
punto se distribuyen los datos.
Media
Media
4.1 Medidas de centralización
33ESTADÍSTICA BÁSICA
• Media aritmética
Es sensible a valores atípicos
Media
Media
Un solo dato puede desplazar la 
media hasta hacerla poco 
representativa del centro de los 
datos
4.1 Medidas de centralización
34ESTADÍSTICA BÁSICA
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Con un número impar de datos: el dato en posición central
1 2 5 8 11 13 24 28 31 9 datos
Mediana=11
1 2 3 5 8 11 13 24 28 31 10 datos
Mediana=(8+11)/2=9,5
Con un número par de datos: la media de los dos centrales
4.1 Medidas de centralización
35ESTADÍSTICA BÁSICA
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Media=
mediana
50% 50%
4.1 Medidas de centralización
36ESTADÍSTICA BÁSICA
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Media=
mediana
50% 50%
Media
50% 50%
Mediana
La mediana no varía, pero la media se desplaza
4.1 Medidas de centralización
37ESTADÍSTICA BÁSICA
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Media=
mediana
50% 50%
4.1 Medidas de centralización
38ESTADÍSTICA BÁSICA
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
50% 50%
4.1 Medidas de centralización
39ESTADÍSTICA BÁSICA
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Mediana
50% 50%
Media
Los valores atípicos no alteran las posición de la mediana
Con valores atípicos y asimetrías fuertes, la mediana es una 
medida de centralización más útil que la media
4.1 Medidas de centralización
40ESTADÍSTICA BÁSICA
• Moda
Es el valor más frecuente
1 2 2 2 2 5 5 5 8 8 11 13 
Moda=2
Con datos agrupados, es la clase más frecuente (máximo local). Puede haber 
varias modas , sugiriendo la posible existencia de varios grupos
Distribución unimodal Distribución trimodal
4.1 Medidas de centralización
4.1 Medidas de 
centralización
media, mediana, moda
4.2 Medidas de dispersión
• Varianza (desviación típica)
• Cuasivarianza (cuasidesviación típica)
• Rango
• Varianza
Promedio de desviaciones a la media, al cuadrado
Desviación típica Coeficiente de variación
• Percentiles
• Cuartiles. Rango intercuartílico
• Diagrama de caja (box-plot)
• Cuasivarianza
Se puede justificar teóricamente 
(próximos capítulos) que miden 
mejor la dispersión de los datos.
𝑠𝑥
2 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛
𝑠𝑥 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛
𝐶𝑉 =
𝑠𝑥
ҧ𝑥
Ƹ𝑠𝑥
2 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛 − 1
Ƹ𝑠𝑥 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛 − 1
41Cuasidesviación típica
Varianza
Cuasivarianza
• Varianza y Cuasivarianza
Promedio de desviaciones a la media, al cuadrado
media
media
Poca dispersión
Baja varianza
Baja desviación típica
Bajo CV
Baja cuasivarianza
Baja cuasidesviación típica
Mucha dispersión
Alta varianza
Alta desviación típica
Alto CV
Alta cuasivarianza
Alta cuasidesviación típica
𝑠𝑥
2 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛
43ESTADÍSTICA BÁSICA
Ejemplo:
Longitudes de 100 clavos del mismo tipo, medidos por dos 
personas, 50 clavos cada una, que usaron calibres diferentes.
¿Qué calibre es mejor?
Varianza Calibre 1: 7.25 mm²
Varianza Calibre 2: 21.47 mm²
4.2 Medidas de dispersión
𝑠𝑥
2 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛
44ESTADÍSTICA BÁSICA
• Rango o recorrido
Valor máximo menos valor mínimo
X: 1 2 5 8 11 13 24 28 31
Rango: 31-1=30
A mayor rango mayor dispersión
4.2 Medidas de dispersión
Rango Rango
45ESTADÍSTICA BÁSICA
• Percentiles
Los percentiles son los 99 valores de los datos correspondientes al 1%, al 2%... y al 99% de 
los datos.
Dado un conjunto de datos, el valor 𝒎 es el percentil 𝒑, si el 𝒑 × 𝟏𝟎𝟎% de los datos son 
menores o iguales a 𝒎
Si un estudiante que mide 1,69 m tiene una altura que es el percentil 30 de su 
clase, quiere decir que el 30% de sus compañeros mide menos de 1,69 m
Ejemplo:
Ejemplo: La siguiente figura es el polígono de frecuencias acumulado de las estaturas 
del fichero AlumnosIndustruales3. A la vista de esta figura, determina los 
percentiles 20 y 80.
4.2 Medidas de dispersión
46ESTADÍSTICA BÁSICA
• Cuartiles Q1, Q2, Q3
Son los valores que dividen la muestra en 4 grupos, cada 
uno con el 25% de los datos (aproximadamente)
Entre el mínimo y Q1
Entre Q1 y Q2
Entre Q2 y Q3
Entre Q3 y el máximo
25% de los datos
25% de los datos
25% de los datos
25% de los datos
50%
50%
Q1=percentil 25;Q2 = mediana;Q3=percentil 75
Q3-Q1=Rango Intercuartílico (R.I.)
min maxQ2Q1 Q3
25% 25% 25% 25%
Hay varios métodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes
4.2 Medidas de dispersión
47ESTADÍSTICA BÁSICA
• Cuartiles Q1, Q2, Q3
Método sencillo para calcular cuartiles
𝑥: {1,1,3,3,5,9,11,14,15}
1º: Obtenemos la mediana Q2 5
2º: Excluimos ese valor y nos 
quedamos con dos grupos 
de datos, uno a cada lado 
de la mediana
izda.: {1,1,3,3,}
dcha.: {9,11,14,15}
3º: Q1 es la mediana del grupo 
que queda a la izquierda
Q1=(1+3)/2=2
4º: Q3 es la mediana del grupo 
que queda a la derecha
Q3=(11+14)/2=12.5
4.2 Medidas de dispersión
48ESTADÍSTICA BÁSICA
• Diagrama de caja (box-plot)
Es la representación gráfica de los cuartiles
min maxQ2Q1 Q3
25% 25% 25% 25%
4.2 Medidas de dispersión
49ESTADÍSTICA BÁSICA
Los gráficos Box-plot son muy útiles para:
• Comparar grupos
• Ver asimetrías
• Detectar atípicos **
4.2 Medidas de dispersión
50ESTADÍSTICA BÁSICA
Datos extremos (o ‘atípicos’)
4.2 Medidas de dispersión
51ESTADÍSTICA BÁSICA
Primer paso
Para construir un Box-plot con marcas de atípicos
4.2 Medidas de dispersión
52ESTADÍSTICA BÁSICA
Segundo paso
4.2 Medidas de dispersión
53ESTADÍSTICA BÁSICA
Tercer paso
Los puntos que caigan en estas zonas se marcan
4.2 Medidas de dispersión
54ESTADÍSTICA BÁSICA
Tercer paso
Las líneas laterales se extienden sólo hasta el último puntodentro 
de la barrera interna
4.2 Medidas de dispersión
55ESTADÍSTICA BÁSICA
Ojo!! Cuando hay asimetrías, 
un dato extremo no debe 
necesariamente catalogarse 
como atípico
Dato atípico: dato que se sale del 
patrón general de los datos
La asimetría indica que al 
final de la cola habrá cada 
vez menos datos. 
No es atípico. Es compatible con 
el patrón de los datos
Sí es atípico
4.2 Medidas de dispersión
56ESTADÍSTICA BÁSICA
Es compatible con la asimetría 
positiva
4.2 Medidas de dispersión
4.1 Medidas de 
centralización
media, mediana, moda
4.2 Medidas de dispersión
varianza, desv. típica, coeficiente de 
variación, meda, rango, cuartiles, 
box-plot
4.3 Otras medidas de forma
• Medidas de asimetría
• Medidas de apuntamiento
• Medidas de asimetría
Coeficiente de 
asimetría (de Fisher)
•CA = 0; si la distribución es perfectamente simétrica
•CA > 0; si hay asimetría positiva
•CA < 0: si hay asimetría negativa
𝐶𝐴 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
3
𝑛𝑠𝑥
3
• Medidas de asimetría
Coeficiente de asimetría de Fisher
• CA = 0; si la distribución es perfectamente simétrica
• CA > 0; si hay asimetría positiva
• CA < 0: si hay asimetría negativa
𝐶𝐴 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
3
𝑛𝑠𝑥
3
Coeficientes de asimetría de Pearson (old-fashion)
Sólo tiene sentido en distribuciones unimodales
𝑆𝑘 < 0 𝑆𝑘 = 0 𝑆𝑘 > 0
Primer coeficiente de Pearson:
Segundo coeficiente de Pearson:
• Medidas de apuntamiento
Coeficiente de 
apuntamiento o 
Curtosis
•CAp = 3; distribución con forma de campana
•CAp>3; distribución más picuda que una campana
•CAp<3; distribución menos picuda que una campana
CAp=3CAp<3
CAp>3
Muchos programas de Estadística definen curtosis como CAp-3. Esta medida 
recibe también el nombre de ‘Exceso de curtosis’.
𝐾 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
4
𝑛𝑠𝑥
4
61ESTADÍSTICA BÁSICA
(Curtosis-3: ‘exceso de curtosis’)
Valores de curtosis muy bajos pueden ser indicio de ‘multimodalidad’ .
• Medidas de apuntamiento
62ESTADÍSTICA BÁSICA
Ejercicios
• El fichero EDB_2016_II.xlsx contiene información de los alumnos de EDB del
ciclo 2016-II. Haz un histograma de la variable IA (índice acumulado)
utilizando un número de clases adecuado. Comenta sus características más
importantes y busca un valor numérico que cuantifique cada una de ellas.
• Usando este mismo fichero, la siguiente figura muestra las ojivas de la variable
IA de cada programa académico. ¿En cuál te gustaría estar?
18,016,515,013,512,010,59,0
100
80
60
40
20
0
IA
P
o
rc
e
n
ta
je
 a
c
u
m
u
la
d
o
IC
IIS
IME
PA
Histograma de IA
EDB_2016_II.xlsx
63ESTADÍSTICA BÁSICA
Ejercicios
• Siguiendo con este mismo fichero, analiza con diagramas de barras la
diferencias de sexo en el alumnado de cada programa académico.
• Haz un análisis descriptivo del IA por programa académico. Específicamente,
compara sus histogramas y medidas características que permitan comparar
sus diferentes medidas de centralidad, dispersión y forma.
• Compara el IA de cada programa académico con diagramas box-plot.
• Calcula el porcentaje de estudiantes que hay en cada programa y el
porcentaje de chicos y chicas en cada programa. Para ellos calcula medias de
variables binarias
EDB_2016_II.xlsx
64ESTADÍSTICA BÁSICA
Ejercicios
El fichero Peso_langostinos_semanas.xlsx tiene el peso de los langostinos que se cultivan
en una piscifactoría del norte de Piura. Los langostinos se cultivan en grandes piscinas.
Cada semana se registra el peso medio de los langostinos en cada piscina. El fichero
tiene, por filas, los valores (medios) de cada piscina, y por columnas, los valores de cada
semana.
Utilizando las técnicas estadísticas que consideres apropiadas, compara la distribución de
los pesos en la semana de siembras, la semana 5 y la semana 10.
Peso_langostinos_semanas.xlsx 
euroweight.MTW
• El fichero euroweight.MTW tiene el peso de 2000 monedas de un euro. Las 
monedas son nuevas, y vienen en paquetes (lotes) de 500. Haz un estudio 
descriptivo del peso de estas monedas.
• Mediante box-plots, analiza las diferencias que pueda haber en el peso de 
cada lote

Continuar navegando

Materiales relacionados