Logo Studenta

introducción a la estadística y tratamiento de datos

¡Este material tiene más páginas!

Vista previa del material en texto

ESTADÍSTICA I
Clase del 04/04/2022
Introducción a la estadística y 
tratamiento de datos
Docente:
Roberto Emanuel Díaz Ansberck
Estadística: Concepto y Objetivo
• La Estadística es la ciencia cuyo objetivo es reunir 
información cuantitativa concerniente a individuos, grupos, 
series de hechos, etc. y deducir en base al análisis de estos 
datos, representaciones precisas o previsiones para el futuro. 
• En general, es la ciencia que trata de la recopilación, 
organización presentación, análisis e interpretación de datos 
numéricos con el fin de tomar de decisiones efectivas o de 
explicar condiciones regulares o irregulares de algún 
fenómeno de ocurrencia aleatoria o condicional.
• La definición más aceptada es la de Mínguez, que define la 
Estadística como “La ciencia que tiene por objeto 
aplicar las leyes de la cantidad a los hechos sociales o 
naturales para medir su intensidad, deducir las leyes 
que los rigen y hacer su predicción próxima”. 
http://es.wikipedia.org/wiki/Aleatoria
http://es.wikipedia.org/wiki/Condicional
Población y Variables de Estudio
En la formulación de los objetivos o hipótesis de investigación, 
queda implícito un conjunto de “unidades” a las que se 
observa determinadas “características o propiedades 
comunes”. Tales conceptos constituyen la población y las 
variables de estudio, respectivamente. 
• La población es el conjunto de todos los individuos, objetos, 
entidades o unidades a los cuales se pretende alcanzar o 
abarcar en las conclusiones del estudio. Esta debe quedar bien 
delimitada en espacio y tiempo, pues su tamaño determina la 
metodología de la investigación, pudiendo ser muy grande o 
indeterminado.
• Llamamos variables a aquellas características comunes y 
observables en cada unidad o entidad que integran la 
población de interés, que varían de una unidad a otra y que 
motivan la investigación.
Clasificación de las variables 
Las variables se pueden clasificar, entre otras 
formas, según su naturaleza, y se distinguen en 
cualitativa si la característica que se observa es 
una clase, y en cuantitativas según se pueda 
representar por cantidades numéricas
Clasificación de las variables 
Las variables cualitativas se clasifican en:
• Cualitativa nominal: aquellas variables que 
no siguen ningún orden en específico. Por 
ejemplo, los colores, tales como el negro, naranja 
o amarillo.
• Cualitativa ordinal: aquellas que siguen un 
orden o jerarquía. Por ejemplo, el nivel 
socioeconómico alto, medio o bajo.
Clasificación de las variables 
Las variables cuantitativas se clasifican en:
• Cuantitativa discreta: aquella variable que 
utiliza valores enteros y no finitos. Por ejemplo, 
la cantidad de familiares que tiene una persona, 
tal como 2, 3, 4 o más.
• Cuantitativa continua: aquella variable que 
utiliza valores finitos y objetivos, y suele 
caracterizarse por utilizar valores decimales. Por 
ejemplo, el peso de una persona, tal como 64.3 
kg, 72.3 kg, etc.
Muestreo y Recolección de Datos:
Las poblaciones suelen ser muy numerosas, por lo que 
resulta difícil, costoso y en algunos casos imposible, que 
el estudio abarque a todos sus elementos.
Por otra parte puede ser innecesario y hasta absurdo. 
Imaginemos el caso que se quisiera estudiar los ingresos 
por persona en San Juan y para ello, se intentara 
encuestar a todas las personas de San Juan.
Obviamente, sólo se puede tomar unas muestras y llegar a 
conclusiones generalizables con respecto a los ingresos 
por persona en San Juan.
Cuando no es posible medir cada uno de los individuos de 
una población, se toma una muestra que la debe 
representar. 
Muestreo y Recolección de Datos:
Una muestra es un subconjunto finito de la población, y 
en la cual, a partir de considerarla representativa, se 
basa la inferencia de la población. 
El tratamiento de la muestra y su inferencia a la población 
ha sido desarrollado en base al concepto de probabilidad 
que atañe al análisis estadístico. 
La validez de la generalización depende de condiciones de 
selección y tamaño de la muestra y constituye uno de los 
ejes temáticos de la estadística.
Entre las técnicas de selección de muestra, y con las cuales 
se asume representatividad, está el muestreo por azar 
simple, sistemático, por conglomerados y estratificado, 
según sean las características particulares de cada 
población de unidades.
Muestreo y Recolección de Datos:
• Muestreo aleatorio simple: Una de las mejores técnicas 
de muestreo probabilístico que ayuda a ahorrar tiempo y 
recursos es el método de muestreo aleatorio simple. Es 
un método fiable de obtención de información en el que 
cada uno de los miembros de una población se elige al 
azar, simplemente por casualidad. Cada individuo tiene 
la misma probabilidad de ser elegido para formar parte 
de una muestra.
• Por ejemplo, en una organización de 500 empleados, si 
el equipo de recursos humanos decide llevar a cabo 
actividades de creación de equipos, es muy probable que 
prefieran escoger fichas de una caja. En este caso, cada 
uno de los 500 empleados tiene la misma oportunidad 
de ser seleccionado.
https://www.questionpro.com/blog/es/muestreo-aleatorio-simple/
Muestreo y Recolección de Datos:
• Muestreo por conglomerados: es un método en el que los 
investigadores dividen a toda la población en secciones o 
conglomerados que representan a una población. Los grupos 
se identifican e incluyen en una muestra basada en 
parámetros demográficos como la edad, el sexo, la ubicación, 
etc. Esto hace que sea muy sencillo para el creador de la 
encuesta obtener una inferencia efectiva a partir de la 
retroalimentación.
• Por ejemplo, si el gobierno desea evaluar el número de 
inmigrantes que viven en su territorio, puede dividirlos en 
grupos basados en lo que conocemos como provincias; tales 
como San Juan, Catamarca, Mendoza, etc. Esta forma de 
realizar una encuesta será más efectiva ya que los resultados 
se organizarán por grupos y proporcionarán datos de 
inmigración objetivos.
https://www.questionpro.com/blog/es/muestreo-por-conglomerados/
Muestreo y Recolección de Datos:
• Muestreo sistemático: Los investigadores utilizan el método 
de muestreo sistemático para elegir los miembros de la 
muestra de una población a intervalos regulares.
• Para ello es necesario seleccionar un punto de partida para la 
muestra y un tamaño de muestra que pueda repetirse a 
intervalos regulares. Este tipo de método de muestreo tiene 
un alcance predefinido y, por lo tanto, esta técnica de 
muestreo es la que menos tiempo consume.
• Por ejemplo, un investigador tiene la intención de recoger una 
muestra sistemática de 500 personas en una población de 
5000. Numera cada elemento de la población de 1 a 5.000 y 
elegirá a cada 10 individuos para que formen parte de la 
muestra (Población total/tamaño de la muestra = 5.000/500 
= 10).
https://www.questionpro.com/blog/es/muestreo-sistematico/
Muestreo y Recolección de Datos:
• Muestreo estratificado: El muestreo aleatorio estratificado es un 
método en el que el investigador divide la población en grupos más 
pequeños que no se superponen, sino que representan a toda la 
población. Durante el muestreo, estos grupos pueden organizarse y 
luego extraer una muestra de cada grupo por separado.
• Por ejemplo, un investigador que desee analizar las características 
de las personas pertenecientes a diferentes divisiones de ingresos 
anuales creará estratos (grupos) según los ingresos anuales de la 
familia.
• Por ejemplo, menos de 20.000 pesos, 21.000 a 30.000 pesos, 
31.000 a 40.000 pesos, 41.000 a 50.000 pesos, etc.
• Con esto, el investigador concluye las características de las personas 
que pertenecen a diferentes grupos de ingresos. Los 
comercializadores pueden analizar a qué grupos de ingresos 
dirigirse y a cuáles eliminar para obtener los resultados deseados.
https://www.questionpro.com/blog/es/muestreo-estratificado/
Tratamiento y Análisis Estadístico
La estadística descriptiva comprende el análisisexploratorio de datos para la descripción, 
visualización y resumen de datos originados a 
partir de la observación de fenómenos. 
Los datos pueden ser resumidos numérica o 
gráficamente. 
Ejemplos básicos de resumen numérico son: la 
media y la desviación estándar. Algunos 
ejemplos gráficos son: histograma, diagrama de 
barras, ojiva, etc.
http://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva
Resumen descriptivo de muestras
A fin de introducir los métodos descriptivos más 
concretos, que dan pie a conceptos formales o teóricos, 
se verán las técnicas de tratamiento y resumen de un 
conjunto limitado de observaciones, que asumimos 
como muestra de alguna población de estudio. 
Estos métodos describen propiedades del conjunto de 
observaciones, como la diversidad, la repetición o 
concentración y la posición de datos, pero además, 
definen técnicas de resumen para su representación 
como: las tablas de distribución de frecuencias, gráficos 
y medidas resumen. 
Antes de todo, cabe señalar que la aplicabilidad de estas 
técnicas depende del tamaño de la muestra y la 
naturaleza de las variables
Caso discreto
Las tablas de distribución de frecuencias tienen por 
objeto interpretar el repartimiento o conteo a lo largo de 
la diversidad del conjunto, pero pierde sentido cuando 
se tienen pocos datos.
Por otra parte el conteo, que determina la cantidad de 
datos de una misma categoría y se conoce como 
frecuencia absoluta, depende del tipo de variable 
que se trate.
Los conjuntos de observaciones de variables cualitativas 
o cuantitativas discretas presentan valores 
discontinuos, que se repiten, por lo que para tales casos, 
las tablas presentan la asociación de cada valor 
individual (Xi ) con su frecuencia absoluta (fi). 
Tablas de distribución de frecuencias
Ejemplo
En un estudio que abarcó 75 días, se observó el 
“número de licencias aprobadas en las oficinas 
del ministerio de hacienda”. 
Los valores observados son los siguientes:
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 
2,2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 
5, 5, 5, 5, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8.
Ejemplo
Para trabajar con ellos debemos armar la tabla de 
frecuencias:
Xi fi
0 20
1 14
2 10
3 8
4 7
5 5
6 2
7 4
8 5
Tablas de distribución de frecuencias
Por cuestiones de interpretación vamos a añadir mas 
elementos a la tabla, estos son:
• La frecuencia relativa es la frecuencia absoluta 
dividida en la cantidad total de datos, se escribe fr .
• La frecuencia acumulada (Fi): a cada valor Xi, se 
define por la suma de su frecuencia fi y la de categorías 
con menor orden jerárquico. En caso que la variable sea 
cuantitativa, corresponde a la cantidad de datos menores 
o iguales a Xi. 
• La frecuencia acumulada relativa (Fr ) se calcula 
como la frecuencia relativa, pero usamos los valores de 
frecuencia acumulada, toma valores entre 0 y 1. 
Ejemplo
Xi fi fr Fi Fr
0 20 0,267 20 0,267
1 14 0,187 34 0,454
2 10 0,133 44 0,587
3 8 0,107 52 0,694
4 7 0,093 59 0,787
5 5 0,067 64 0,854
6 2 0,026 66 0,880
7 4 0,053 70 0,933
8 5 0,067 75 1,000
Tablas de distribución de frecuencias
Obsérvese que este tipo de tabla resume los datos sin perder 
detalle. 
De ella se puede desprender cualquier aspecto del conjunto.
En forma complementaria se añaden los gráficos, que 
representan los distintos aspectos de la distribución. Los 
gráficos más usados para el caso discreto son: 
• El Gráfico de Barras que representa la correspondencia 
entre la categoría de la variable Xi y su frecuencia absoluta fi.
• El Polígono de frecuencias acumuladas que ilustra la 
correspondencia entre las categorías de Xi y la frecuencia 
acumulada Fi, tomando la forma creciente, discontinua y 
escalonada.
Ejemplo
0
5
10
15
20
25
0 1 2 3 4 5 6 7 8
Gráfico de barras
Caso continuo
Tablas de distribución de frecuencias
Para los conjuntos de observaciones de variables 
cuantitativas continuas, el conteo por 
repetición no tiene sentido pues se 
caracterizan por la gran diversidad de valores, 
obtenidos por medición. De hecho, la repetición 
de valores de una variable continua sólo existe 
por el redondeo y/o falta de precisión del 
instrumento de la medición.
Ejemplo
Ejemplo: Consideremos los valores ordenados de 
asistencias en empleados de una clínica(medido 
en porcentaje) en 80 puestos de trabajo.
53 62 65 71 73 75 77 79 85 90
57 62 66 71 74 75 78 80 85 93
59 62 67 71 74 75 78 81 85 94
60 62 67 72 74 76 78 82 86 95
60 63 68 72 75 76 78 82 87 95
60 63 68 73 75 76 78 83 88 96
61 65 68 73 75 76 79 84 88 97
61 65 69 73 75 77 79 85 89 98
Tablas de distribución de frecuencias
De la presentación ordenada de los datos se 
desprende el Recorrido comprendido entre el 
mínimo (53) y el máximo (98) y la distancia entre 
ambos, denominada Rango, la denotamos con R.
En el ejemplo R = 98 - 53 = 45.
53 98
R
Tablas de distribución de frecuencias
La solución al problema de trabajar con tantos datos 
es considerar el conteo de los datos comprendidos 
en intervalos, determinados por una partición del 
recorrido. 
La asociación del conteo o frecuencia fi, con cada 
grupo o intervalo, se conoce como “Tabla de 
distribución de frecuencias para datos 
agrupados”. 
Cabe señalar que esta cuantía da noción de 
“densidad”, pues mientras mayor (o menor) sea la 
cantidad de datos contenidos en un segmento mayor 
(o menor) es la proximidad entre ellos. 
Tablas de distribución de frecuencias
¿Cómo construimos los intervalos?
El conjunto de intervalos Ii, es una partición del 
recorrido (V mín,V máx), en k segmentos 
consecutivos, para ello seguimos los siguientes 
pasos:
• 1- Determinación de la cantidad de intervalos 
k: A efectos gráficos se recomienda aplicar uno de 
dos criterios que establecen proporcionalidad con el 
tamaño de la muestra: 
▫ La fórmula de Sturges: k  1+3,3.log(n)
▫ La raíz del numero de elementos: k  √n
Siempre elegimos un valor de k impar.
Tablas de distribución de frecuencias
2- Calculamos la longitud o amplitud de cada 
intervalo (w), que queda determinada por w=R/k.
La división, la mayoría de las veces no es exacta y presenta 
infinitos dígitos decimales con parte periódica
El resultado de w es un número real que no puede ser 
truncado o redondeado a menos, porque en los k 
intervalos, no alcanzaría al valor del rango y 
perderíamos datos.
Para resolver esta situación problemática se salva 
aproximando a un número mayor, llamado amplitud 
ampliada (wa), no superior a un 10% de su magnitud. 
O sea:
w wa  1,1 w
Tablas de distribución de frecuencias
3- Construcción de los intervalos: La 
construcción de k intervalos de longitud wa, 
produce un rango mayor denominado “rango 
ampliado” que anotaremos con Ra, esto es: 
Ra =K.wa
En este punto debe observarse que, si se construyen 
los intervalos partiendo del V mín y se suma 
sucesivamente el valor wa, el último intervalo 
contiene a su derecha un segmento de longitud igual 
a la diferencia entre el rango real y el ampliado, 
d= Ra–R, que no contiene datos. Este aspecto 
desequilibra y debilita al último intervalo, 
generando una asimetría irreal.
Tablas de distribución de frecuencias
Para evitar esa consecuencia, se tiene que centrar 
el recorrido real con respecto al ampliado o lo 
que es lo mismo, distribuir simétricamente la 
diferencia hacia ambos lados de los extremos del 
recorrido de los datos.
Luego el primer valor, a partir del cual deberán 
construirse los intervalos, viene dado por: V mín
- d/2.
Tablas de distribución de frecuencias
4-Por último y volviendo al objetivo inicial de resumir 
los datos en una tabla, se disponen los intervalos Ii
en una primera columna y se completa con la 
cuantía o frecuencia fi, determinada por la cantidad 
de datos comprendidos en cada intervalo. 
También en este tipo de tablas, a efectos del análisis e 
interpretación, se completacon las cifras 
correspondientes a las frecuencias relativas fr, a las 
acumuladas Fi y acumuladas relativas Fr, ya 
definidas en el caso discreto, salvo que la 
acumulación de frecuencias se asocia al límite 
superior del intervalo.
Ejemplo
Ii fi Fi fr Fr
(51-58] 2 2 0,02 0,02
(58-65] 15 17 0,19 0.21
(65-72] 12 29 0,15 0,36
(72-79] 28 57 0,35 0,71
(79-86] 10 67 0,12 0,84
(86-93] 7 74 0,09 0,92
(93-100] 6 80 0,09 1
Tablas de distribución de frecuencias
Respecto a los gráficos que representan la información de este tipo de 
tablas, debemos citar al histograma, polígonos de frecuencias 
absolutas y acumuladas y el gráfico circular. 
• El Histograma representa la distribución de los datos con 
rectángulos cuyas bases son los intervalos y áreas proporcionales a 
sus frecuencias (Ii vs fi). Sólo en el caso que los intervalos posean la 
misma longitud, las alturas son proporcionales a las frecuencias de 
los rectángulos pudiéndose asociar a éstas en términos relativos. 
Aquí se grafica la frecuencia en función de la marca de clase, que es 
el valor medio del intervalo.
• El Polígono de frecuencias Absolutas ilustra la distribución de 
los datos, uniendo con trazos lineales la frecuencia concentrada en 
el punto medio Mi de cada intervalo (Mi, fi). Este polígono se 
cierra asignando a intervalos contiguos del primero y último, la 
frecuencia cero.
Tablas de distribución de frecuencias
• El Polígono de frecuencias Acumuladas 
muestra la distribución acumulada de los datos, 
uniendo con trazos lineales la frecuencia acumulada 
al límite superior de cada intervalo (Li, Fi). Este 
polígono se inicia en el primer límite inferior de 
frecuencia acumulada cero, adquiere forma 
creciente y luego es paralelo al eje de las x a partir 
del último valor con ordenada n. 
• El gráfico circular que representa la importancia 
de cada categorías (fr) distribuidos en sectores 
circulares. Sus ángulos quedan determinados por el 
reparto proporcional de las frecuencias en 360º:
i= (fi /n)360º= fr .360º
Ejemplo
Ii Mci fi Fi fr Fr αr
(51-58] 54,5 2 2 0,02 0,02 7,2
(58-65] 61,5 15 17 0,19 0.21 68,4
(65-72] 68,5 12 29 0,15 0,36 54
(72-79] 75,5 28 57 0,35 0,71 126
(79-86] 82,5 10 67 0,12 0,84 43,2
(86-93] 89,5 7 74 0,09 0,92 32,4
(93-100] 96,5 6 80 0,09 1 32,4
0
5
10
15
20
25
30
54.5 61.5 68.5 75.5 82.5 89.5 96.5
Histograma
0
10
20
30
40
50
60
70
80
90
51 58 65 72 79 86 93 100
Ojiva
Gráfico círcular
(51-58]
(58-65]
(65-72]
(72-79]
(79-86]
(86-93]
(93-100]
¡Muchas gracias por su atención!

Continuar navegando