Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA I Clase del 04/04/2022 Introducción a la estadística y tratamiento de datos Docente: Roberto Emanuel Díaz Ansberck Estadística: Concepto y Objetivo • La Estadística es la ciencia cuyo objetivo es reunir información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir en base al análisis de estos datos, representaciones precisas o previsiones para el futuro. • En general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de tomar de decisiones efectivas o de explicar condiciones regulares o irregulares de algún fenómeno de ocurrencia aleatoria o condicional. • La definición más aceptada es la de Mínguez, que define la Estadística como “La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales o naturales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”. http://es.wikipedia.org/wiki/Aleatoria http://es.wikipedia.org/wiki/Condicional Población y Variables de Estudio En la formulación de los objetivos o hipótesis de investigación, queda implícito un conjunto de “unidades” a las que se observa determinadas “características o propiedades comunes”. Tales conceptos constituyen la población y las variables de estudio, respectivamente. • La población es el conjunto de todos los individuos, objetos, entidades o unidades a los cuales se pretende alcanzar o abarcar en las conclusiones del estudio. Esta debe quedar bien delimitada en espacio y tiempo, pues su tamaño determina la metodología de la investigación, pudiendo ser muy grande o indeterminado. • Llamamos variables a aquellas características comunes y observables en cada unidad o entidad que integran la población de interés, que varían de una unidad a otra y que motivan la investigación. Clasificación de las variables Las variables se pueden clasificar, entre otras formas, según su naturaleza, y se distinguen en cualitativa si la característica que se observa es una clase, y en cuantitativas según se pueda representar por cantidades numéricas Clasificación de las variables Las variables cualitativas se clasifican en: • Cualitativa nominal: aquellas variables que no siguen ningún orden en específico. Por ejemplo, los colores, tales como el negro, naranja o amarillo. • Cualitativa ordinal: aquellas que siguen un orden o jerarquía. Por ejemplo, el nivel socioeconómico alto, medio o bajo. Clasificación de las variables Las variables cuantitativas se clasifican en: • Cuantitativa discreta: aquella variable que utiliza valores enteros y no finitos. Por ejemplo, la cantidad de familiares que tiene una persona, tal como 2, 3, 4 o más. • Cuantitativa continua: aquella variable que utiliza valores finitos y objetivos, y suele caracterizarse por utilizar valores decimales. Por ejemplo, el peso de una persona, tal como 64.3 kg, 72.3 kg, etc. Muestreo y Recolección de Datos: Las poblaciones suelen ser muy numerosas, por lo que resulta difícil, costoso y en algunos casos imposible, que el estudio abarque a todos sus elementos. Por otra parte puede ser innecesario y hasta absurdo. Imaginemos el caso que se quisiera estudiar los ingresos por persona en San Juan y para ello, se intentara encuestar a todas las personas de San Juan. Obviamente, sólo se puede tomar unas muestras y llegar a conclusiones generalizables con respecto a los ingresos por persona en San Juan. Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra que la debe representar. Muestreo y Recolección de Datos: Una muestra es un subconjunto finito de la población, y en la cual, a partir de considerarla representativa, se basa la inferencia de la población. El tratamiento de la muestra y su inferencia a la población ha sido desarrollado en base al concepto de probabilidad que atañe al análisis estadístico. La validez de la generalización depende de condiciones de selección y tamaño de la muestra y constituye uno de los ejes temáticos de la estadística. Entre las técnicas de selección de muestra, y con las cuales se asume representatividad, está el muestreo por azar simple, sistemático, por conglomerados y estratificado, según sean las características particulares de cada población de unidades. Muestreo y Recolección de Datos: • Muestreo aleatorio simple: Una de las mejores técnicas de muestreo probabilístico que ayuda a ahorrar tiempo y recursos es el método de muestreo aleatorio simple. Es un método fiable de obtención de información en el que cada uno de los miembros de una población se elige al azar, simplemente por casualidad. Cada individuo tiene la misma probabilidad de ser elegido para formar parte de una muestra. • Por ejemplo, en una organización de 500 empleados, si el equipo de recursos humanos decide llevar a cabo actividades de creación de equipos, es muy probable que prefieran escoger fichas de una caja. En este caso, cada uno de los 500 empleados tiene la misma oportunidad de ser seleccionado. https://www.questionpro.com/blog/es/muestreo-aleatorio-simple/ Muestreo y Recolección de Datos: • Muestreo por conglomerados: es un método en el que los investigadores dividen a toda la población en secciones o conglomerados que representan a una población. Los grupos se identifican e incluyen en una muestra basada en parámetros demográficos como la edad, el sexo, la ubicación, etc. Esto hace que sea muy sencillo para el creador de la encuesta obtener una inferencia efectiva a partir de la retroalimentación. • Por ejemplo, si el gobierno desea evaluar el número de inmigrantes que viven en su territorio, puede dividirlos en grupos basados en lo que conocemos como provincias; tales como San Juan, Catamarca, Mendoza, etc. Esta forma de realizar una encuesta será más efectiva ya que los resultados se organizarán por grupos y proporcionarán datos de inmigración objetivos. https://www.questionpro.com/blog/es/muestreo-por-conglomerados/ Muestreo y Recolección de Datos: • Muestreo sistemático: Los investigadores utilizan el método de muestreo sistemático para elegir los miembros de la muestra de una población a intervalos regulares. • Para ello es necesario seleccionar un punto de partida para la muestra y un tamaño de muestra que pueda repetirse a intervalos regulares. Este tipo de método de muestreo tiene un alcance predefinido y, por lo tanto, esta técnica de muestreo es la que menos tiempo consume. • Por ejemplo, un investigador tiene la intención de recoger una muestra sistemática de 500 personas en una población de 5000. Numera cada elemento de la población de 1 a 5.000 y elegirá a cada 10 individuos para que formen parte de la muestra (Población total/tamaño de la muestra = 5.000/500 = 10). https://www.questionpro.com/blog/es/muestreo-sistematico/ Muestreo y Recolección de Datos: • Muestreo estratificado: El muestreo aleatorio estratificado es un método en el que el investigador divide la población en grupos más pequeños que no se superponen, sino que representan a toda la población. Durante el muestreo, estos grupos pueden organizarse y luego extraer una muestra de cada grupo por separado. • Por ejemplo, un investigador que desee analizar las características de las personas pertenecientes a diferentes divisiones de ingresos anuales creará estratos (grupos) según los ingresos anuales de la familia. • Por ejemplo, menos de 20.000 pesos, 21.000 a 30.000 pesos, 31.000 a 40.000 pesos, 41.000 a 50.000 pesos, etc. • Con esto, el investigador concluye las características de las personas que pertenecen a diferentes grupos de ingresos. Los comercializadores pueden analizar a qué grupos de ingresos dirigirse y a cuáles eliminar para obtener los resultados deseados. https://www.questionpro.com/blog/es/muestreo-estratificado/ Tratamiento y Análisis Estadístico La estadística descriptiva comprende el análisisexploratorio de datos para la descripción, visualización y resumen de datos originados a partir de la observación de fenómenos. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de resumen numérico son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, diagrama de barras, ojiva, etc. http://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva Resumen descriptivo de muestras A fin de introducir los métodos descriptivos más concretos, que dan pie a conceptos formales o teóricos, se verán las técnicas de tratamiento y resumen de un conjunto limitado de observaciones, que asumimos como muestra de alguna población de estudio. Estos métodos describen propiedades del conjunto de observaciones, como la diversidad, la repetición o concentración y la posición de datos, pero además, definen técnicas de resumen para su representación como: las tablas de distribución de frecuencias, gráficos y medidas resumen. Antes de todo, cabe señalar que la aplicabilidad de estas técnicas depende del tamaño de la muestra y la naturaleza de las variables Caso discreto Las tablas de distribución de frecuencias tienen por objeto interpretar el repartimiento o conteo a lo largo de la diversidad del conjunto, pero pierde sentido cuando se tienen pocos datos. Por otra parte el conteo, que determina la cantidad de datos de una misma categoría y se conoce como frecuencia absoluta, depende del tipo de variable que se trate. Los conjuntos de observaciones de variables cualitativas o cuantitativas discretas presentan valores discontinuos, que se repiten, por lo que para tales casos, las tablas presentan la asociación de cada valor individual (Xi ) con su frecuencia absoluta (fi). Tablas de distribución de frecuencias Ejemplo En un estudio que abarcó 75 días, se observó el “número de licencias aprobadas en las oficinas del ministerio de hacienda”. Los valores observados son los siguientes: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2,2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8. Ejemplo Para trabajar con ellos debemos armar la tabla de frecuencias: Xi fi 0 20 1 14 2 10 3 8 4 7 5 5 6 2 7 4 8 5 Tablas de distribución de frecuencias Por cuestiones de interpretación vamos a añadir mas elementos a la tabla, estos son: • La frecuencia relativa es la frecuencia absoluta dividida en la cantidad total de datos, se escribe fr . • La frecuencia acumulada (Fi): a cada valor Xi, se define por la suma de su frecuencia fi y la de categorías con menor orden jerárquico. En caso que la variable sea cuantitativa, corresponde a la cantidad de datos menores o iguales a Xi. • La frecuencia acumulada relativa (Fr ) se calcula como la frecuencia relativa, pero usamos los valores de frecuencia acumulada, toma valores entre 0 y 1. Ejemplo Xi fi fr Fi Fr 0 20 0,267 20 0,267 1 14 0,187 34 0,454 2 10 0,133 44 0,587 3 8 0,107 52 0,694 4 7 0,093 59 0,787 5 5 0,067 64 0,854 6 2 0,026 66 0,880 7 4 0,053 70 0,933 8 5 0,067 75 1,000 Tablas de distribución de frecuencias Obsérvese que este tipo de tabla resume los datos sin perder detalle. De ella se puede desprender cualquier aspecto del conjunto. En forma complementaria se añaden los gráficos, que representan los distintos aspectos de la distribución. Los gráficos más usados para el caso discreto son: • El Gráfico de Barras que representa la correspondencia entre la categoría de la variable Xi y su frecuencia absoluta fi. • El Polígono de frecuencias acumuladas que ilustra la correspondencia entre las categorías de Xi y la frecuencia acumulada Fi, tomando la forma creciente, discontinua y escalonada. Ejemplo 0 5 10 15 20 25 0 1 2 3 4 5 6 7 8 Gráfico de barras Caso continuo Tablas de distribución de frecuencias Para los conjuntos de observaciones de variables cuantitativas continuas, el conteo por repetición no tiene sentido pues se caracterizan por la gran diversidad de valores, obtenidos por medición. De hecho, la repetición de valores de una variable continua sólo existe por el redondeo y/o falta de precisión del instrumento de la medición. Ejemplo Ejemplo: Consideremos los valores ordenados de asistencias en empleados de una clínica(medido en porcentaje) en 80 puestos de trabajo. 53 62 65 71 73 75 77 79 85 90 57 62 66 71 74 75 78 80 85 93 59 62 67 71 74 75 78 81 85 94 60 62 67 72 74 76 78 82 86 95 60 63 68 72 75 76 78 82 87 95 60 63 68 73 75 76 78 83 88 96 61 65 68 73 75 76 79 84 88 97 61 65 69 73 75 77 79 85 89 98 Tablas de distribución de frecuencias De la presentación ordenada de los datos se desprende el Recorrido comprendido entre el mínimo (53) y el máximo (98) y la distancia entre ambos, denominada Rango, la denotamos con R. En el ejemplo R = 98 - 53 = 45. 53 98 R Tablas de distribución de frecuencias La solución al problema de trabajar con tantos datos es considerar el conteo de los datos comprendidos en intervalos, determinados por una partición del recorrido. La asociación del conteo o frecuencia fi, con cada grupo o intervalo, se conoce como “Tabla de distribución de frecuencias para datos agrupados”. Cabe señalar que esta cuantía da noción de “densidad”, pues mientras mayor (o menor) sea la cantidad de datos contenidos en un segmento mayor (o menor) es la proximidad entre ellos. Tablas de distribución de frecuencias ¿Cómo construimos los intervalos? El conjunto de intervalos Ii, es una partición del recorrido (V mín,V máx), en k segmentos consecutivos, para ello seguimos los siguientes pasos: • 1- Determinación de la cantidad de intervalos k: A efectos gráficos se recomienda aplicar uno de dos criterios que establecen proporcionalidad con el tamaño de la muestra: ▫ La fórmula de Sturges: k 1+3,3.log(n) ▫ La raíz del numero de elementos: k √n Siempre elegimos un valor de k impar. Tablas de distribución de frecuencias 2- Calculamos la longitud o amplitud de cada intervalo (w), que queda determinada por w=R/k. La división, la mayoría de las veces no es exacta y presenta infinitos dígitos decimales con parte periódica El resultado de w es un número real que no puede ser truncado o redondeado a menos, porque en los k intervalos, no alcanzaría al valor del rango y perderíamos datos. Para resolver esta situación problemática se salva aproximando a un número mayor, llamado amplitud ampliada (wa), no superior a un 10% de su magnitud. O sea: w wa 1,1 w Tablas de distribución de frecuencias 3- Construcción de los intervalos: La construcción de k intervalos de longitud wa, produce un rango mayor denominado “rango ampliado” que anotaremos con Ra, esto es: Ra =K.wa En este punto debe observarse que, si se construyen los intervalos partiendo del V mín y se suma sucesivamente el valor wa, el último intervalo contiene a su derecha un segmento de longitud igual a la diferencia entre el rango real y el ampliado, d= Ra–R, que no contiene datos. Este aspecto desequilibra y debilita al último intervalo, generando una asimetría irreal. Tablas de distribución de frecuencias Para evitar esa consecuencia, se tiene que centrar el recorrido real con respecto al ampliado o lo que es lo mismo, distribuir simétricamente la diferencia hacia ambos lados de los extremos del recorrido de los datos. Luego el primer valor, a partir del cual deberán construirse los intervalos, viene dado por: V mín - d/2. Tablas de distribución de frecuencias 4-Por último y volviendo al objetivo inicial de resumir los datos en una tabla, se disponen los intervalos Ii en una primera columna y se completa con la cuantía o frecuencia fi, determinada por la cantidad de datos comprendidos en cada intervalo. También en este tipo de tablas, a efectos del análisis e interpretación, se completacon las cifras correspondientes a las frecuencias relativas fr, a las acumuladas Fi y acumuladas relativas Fr, ya definidas en el caso discreto, salvo que la acumulación de frecuencias se asocia al límite superior del intervalo. Ejemplo Ii fi Fi fr Fr (51-58] 2 2 0,02 0,02 (58-65] 15 17 0,19 0.21 (65-72] 12 29 0,15 0,36 (72-79] 28 57 0,35 0,71 (79-86] 10 67 0,12 0,84 (86-93] 7 74 0,09 0,92 (93-100] 6 80 0,09 1 Tablas de distribución de frecuencias Respecto a los gráficos que representan la información de este tipo de tablas, debemos citar al histograma, polígonos de frecuencias absolutas y acumuladas y el gráfico circular. • El Histograma representa la distribución de los datos con rectángulos cuyas bases son los intervalos y áreas proporcionales a sus frecuencias (Ii vs fi). Sólo en el caso que los intervalos posean la misma longitud, las alturas son proporcionales a las frecuencias de los rectángulos pudiéndose asociar a éstas en términos relativos. Aquí se grafica la frecuencia en función de la marca de clase, que es el valor medio del intervalo. • El Polígono de frecuencias Absolutas ilustra la distribución de los datos, uniendo con trazos lineales la frecuencia concentrada en el punto medio Mi de cada intervalo (Mi, fi). Este polígono se cierra asignando a intervalos contiguos del primero y último, la frecuencia cero. Tablas de distribución de frecuencias • El Polígono de frecuencias Acumuladas muestra la distribución acumulada de los datos, uniendo con trazos lineales la frecuencia acumulada al límite superior de cada intervalo (Li, Fi). Este polígono se inicia en el primer límite inferior de frecuencia acumulada cero, adquiere forma creciente y luego es paralelo al eje de las x a partir del último valor con ordenada n. • El gráfico circular que representa la importancia de cada categorías (fr) distribuidos en sectores circulares. Sus ángulos quedan determinados por el reparto proporcional de las frecuencias en 360º: i= (fi /n)360º= fr .360º Ejemplo Ii Mci fi Fi fr Fr αr (51-58] 54,5 2 2 0,02 0,02 7,2 (58-65] 61,5 15 17 0,19 0.21 68,4 (65-72] 68,5 12 29 0,15 0,36 54 (72-79] 75,5 28 57 0,35 0,71 126 (79-86] 82,5 10 67 0,12 0,84 43,2 (86-93] 89,5 7 74 0,09 0,92 32,4 (93-100] 96,5 6 80 0,09 1 32,4 0 5 10 15 20 25 30 54.5 61.5 68.5 75.5 82.5 89.5 96.5 Histograma 0 10 20 30 40 50 60 70 80 90 51 58 65 72 79 86 93 100 Ojiva Gráfico círcular (51-58] (58-65] (65-72] (72-79] (79-86] (86-93] (93-100] ¡Muchas gracias por su atención!
Compartir