Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 1 | 46 Apunte de catedra Estadística Descriptiva y Probabilidad Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 2 | 46 UNIDAD I INTRODUCCIÓN La palabra Estadística proviene del latín status (estado). Precisamente la primera aplicación de la estadística consistió en la recopilación de datos y la construcción de gráficos para describir el estado de un país. Con el correr del tiempo esta herramienta fue evolucionando hasta que en la actualidad podríamos decir que no hay aspectos de la vida cotidiana donde no se aplique la Estadística. Hogares, gobiernos y negocios se apoyan en datos estadísticos para dirigir sus acciones. El objetivo que se persigue con este módulo es proporcionar al docente herramientas y técnicas para obtener datos, procesarlos para obtener información que sirva para la interpretación correcta de fenómenos que se producen en su ámbito de trabajo. ESTADÍSTICA. CONCEPTOS. La Estadística es una colección de métodos para planear experimentos, obtener datos, y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en ellos (Triola, 2004). Otra definición considera a la Estadística como una disciplina perteneciente a la Matemática Aplicada que se dedica al estudio cuantitativo de fenómenos colectivos. Proporciona los métodos para: • La recolección de datos • Su ordenamiento, resumen y presentación, • Su análisis e interpretación y • Posterior enunciado de conclusiones. Los cuatro pasos que se han enumerado constituyen las etapas del trabajo estadístico. La primera etapa tiene como objetivo recolectar datos provenientes de medición, conteo u observación efectuado sobre el material objeto de estudio en base a un plan formulado según los principios del diseño experimental y las técnicas de muestreo. La segunda etapa consiste en ordenar los datos en tablas estadísticas, presentarlos mediante gráficos y diagramas y resumirlos a través del cálculo de promedios, porcentajes e índices. En la tercera etapa se analizan los resultados obtenidos en la etapa anterior, y comienzan a distinguirse las características del fenómeno, lo que permite utilizar diferentes métodos para analizarlos e interpretarlos. En la última etapa se debe concluir acerca del estudio realizado. Si las conclusiones, se refieren exclusivamente a los datos de los que se dispone (una parte de la población que se desea estudiar), se dice que la Estadística es Descriptiva. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 3 | 46 Si, por el contrario, las conclusiones van más allá de los datos que se dispone y se refieren a un conjunto mayor (población), del cual se extrajeron, se dice que la Estadística es Inferencial; las conclusiones van de lo particular (muestra) a lo general (la población). Esta se basa en el estudio de la teoría de probabilidades que nos permite medir el error de nuestras afirmaciones. Las estadísticas (en plural) se obtienen como resultado del trabajo estadístico y están constituidas por porcentajes, promedios, tablas, gráficos y otros elementos que describen un fenómeno y ayudan a su comprensión (Ej.: estadísticas demográficas, estadísticas del fútbol, estadísticas de accidentes de tránsito, estadísticas universitarias, etc.). Unidad de observación: es aquélla sobre la cual se efectúan las mediciones u observaciones. La unidad de observación puede ser una persona, una familia, una planta, una parcela, etc. Dato: es el valor que se obtiene de la medición, observación o conteo efectuada en la unidad de observación o unidad de muestreo. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 4 | 46 Por ejemplo, si el objetivo de una investigación es el rendimiento de los alumnos, la unidad de observación es el alumno. El número de materias rendidas contadas en un alumno es el dato. El conjunto de datos obtenidos de cada unidad de observación constituirá la base para el análisis estadístico del rendimiento de los alumnos. Variables. Concepto y tipos. Variable. Una variable es cualquier característica que varía de una unidad de muestreo a otra en la población o en la muestra Ejemplo 1: Supóngase que interesa conocer la salud de los alumnos, entonces la variable a observar en cada alumno será el estado de salud, el que podrá asumir dos valores: sano o enfermo. Ejemplo 2: Si interesa saber el número de hermanos que posee cada alumno, se tendrá valores que van desde 0(ningún hermano), 1, 2..., n y se deberá contar cuantos hermanos posee cada alumno. Ejemplo 3: Si el objetivo de un estudio fuera la talla alcanzada por alumnos, se debe medir la variable altura la que, expresada en metros podrá tener valores mayores a 1 metro. En los tres ejemplos anteriores, el nombre de la variable y la forma de obtener sus valores está resaltado en negrita. En el primer ejemplo, los valores que puede asumir la variable son calidades, por lo que se dice que la variable es cualitativa. Las calidades o categorías pueden ser naturales como al definir la variable sexo, o arbitrarias como la clasificación de alturas en bajas, medianas y altas. Por el contrario, en los otros dos ejemplos los valores que asumen las variables pueden expresarse mediante números, por lo que las dos últimas variables son cuantitativas. En el caso de número de hermanos, la variable toma sólo determinados valores en el intervalo que va de cero a n, por lo que se la denomina variable cuantitativa discreta o discontinua; cuando la variable toma los infinitos valores dentro del intervalo se dice que la variable es cuantitativa continua Otra forma de clasificación de las variables es mediante el empleo de cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. Cuando se manejan datos reales el nivel de medición es importante porque orienta sobre el procedimiento estadístico a utilizar. Un nivel de medición es nominal cuando los valores de variables son nombres, etiquetas o categorías y no se puede establecer un orden entre ellos. Ejemplo: colores de ojos, estado de salud, lugar de nacimiento de un alumno. Aunque las ciudades pueden ser ordenadas según su tamaño, densidad poblacional, grado de contaminación del aire, etc., en general, la variable “lugar de nacimiento” no tiene un orden establecido. Con estos datos no es posible realizar cálculos. A veces se asignan números a las diferentes categorías; a la variable salud que posee dos valores sano y enfermo, podemos codificarlas numéricamente de la siguiente manera 1= sano, 2= enfermo, pero esto no es nada más que una codificación y tales números no tienen significado computacional. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 5 | 46 Un nivel de medición es ordinal cuando se puede establecer un orden entre las categorías de la variable. Ejemplo: máximo nivel de instrucción alcanzado por los padres de los alumnos: analfabeto, primario, secundario, terciario, universitario. Lo único que podemos decir es que el nivel de instrucción secundario es mayor que el primario y que el universitario es mayor que el primario, secundario o terciario, pero no podemos decir cuanto mayor es una categoría de la variable respecto a la otra. Supongamos que se codifican dichos niveles con 1, 2, 3, 4 y 5. Si bien se podría hacer la diferencia entre 2-1=1 y 4-3=1, este resultado 1 no significa que entre el primario y el analfabeto hay la misma cantidad de conocimiento que entre el universitario y el nivel terciario. Otro nivel de medición es el de intervalo. En este nivel la diferencia entre dos valores de datos tiene un significado. En este nivel no hay un cero natural, donde nada de la cantidad esté presente. El valor del ceroes convencional Ejemplo: La variable Temperatura está medida en escala de intervalo. Un termómetro, por ejemplo, mide la temperatura en grados que son del mismo tamaño en cualquier punto de la escala. Aquí no existe un punto de partida natural, el valor 0° es arbitrario y no representa la ausencia total de calor. La diferencia entre 20ºC y 21ºC es la misma que entre 12ºC y 13º. Se pueden realizar operaciones de suma y resta, pero no cociente entre valores. Por último, el nivel de medición de razón o cociente, aunque se parece al nivel de medición de intervalo tiene un punto de partida o cero inherente (donde cero indica que nada de la cantidad está presente). Para los valores en este nivel tanto las diferencias como los cocientes tienen significado. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 6 | 46 Distribuciones de frecuencias Los datos en bruto, tal cual fueron obtenidos, sin agrupar constituyen una serie simple. Tablas y gráficos Organización de datos categóricos o cualitativos. Cuando la masa de datos obtenidos es muy grande y éstos están desordenados, no dan información alguna; conviene por lo tanto ordenarlos y tabularlos, haciendo uso de tablas estadísticas, que deben confeccionarse de tal modo que los datos resulten fáciles de ser leídos e interpretados. Tabla de frecuencias. Una tabla de frecuencias para variable cualitativa, es una tabla que asocia cada categoría de la variable con el número de veces que se repite la categoría. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 7 | 46 Los datos organizados en tabla de simple entrada para variable cualitativa, pueden presentarse mediante gráficos, que tiene la finalidad de que la información entre por los ojos. El gráfico que puede usarse en éste caso es el gráfico de barras. Otro gráfico adecuado para representar series de frecuencias de variable cualitativa es el gráfico de sectores circulares, llamado gráfico de tortas o pie charts. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 8 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 9 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 10 | 46 Para el caso de variables cuantitativas continuas como los datos del ejemplo 3 (altura en cm de 25 alumnos de una sección maternal de la Escuela San Francisco) que fueron obtenidos por medición, se recomienda construir intervalos de clase, cuya amplitud depende de la cantidad de intervalos que se deseen construir y la cantidad de datos que posee la serie simple. Es recomendable que los intervalos de clases sean iguales, es decir que la amplitud de los mismos (a) sea constante. La técnica a emplear para el agrupamiento de una serie simple de variable cuantitativa continua es sencilla. xi (cm): 70, 75, 74, 87, 88, 89, 72, 83, 84, 79, 98, 99, 95, 87, 84, 85, 79, 78, 95, 99, 97, 84, 86, 78, 74 1. -Se ubica el valor mayor que toma la variable (99 cm) y el valor menor (70 cm). 2. - Se obtiene la diferencia, la que se denomina Rango o amplitud de variación y se designa con la letra R. 3.– El número de intervalos aproximado se puede calcular con la siguiente formula: dónde n: n° de valores de la serie o tamaño de la muestra. log: logaritmo decimal Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 11 | 46 Cuando en la variable que se estudia existen intervalos predeterminados, el número de clases o intervalos dependerá de la amplitud que se usa habitualmente. 4. - El rango se divide entre el nº de clases o intervalos de clases, 5 para éste ejemplo, (se recomienda que el número de intervalos no sea menor que 5, ni mayor de 15, pues en el primer caso se reduce demasiado la información y en el segundo no se cumple con el objetivo del agrupamiento) obteniéndose una idea aproximada de la longitud o amplitud del intervalo de clase. Éste valor de amplitud es orientativo, por lo que se decide tomar una amplitud de intervalo 5 cm para facilitar el agrupamiento. 5.- Se delimitan las clases buscando preferentemente valores enteros para sus límites. Se debe elegir el límite inferior del 1er intervalo de tal manera que contenga al menor valor de la serie (70 cm). La elección recae en el 70. El límite superior del 1er intervalo, se obtiene sumando al Li la amplitud. Li del 1° intervalo = 70 Ls del 1° intervalo = Li + a= 70 + 5 = 75 El límite inferior del 2do intervalo debe coincidir con el límite superior del primer intervalo. Li del 2° intervalo = 75 Ls del 2° intervalo Li + a= 75+ 5 = 80 El límite inferior del 3° intervalo debe coincidir con el límite superior del 2° intervalo, y así sucesivamente, hasta que el límite superior del último intervalo, contenga el valor observado más alto de la variable. 6.- Una vez formadas las clases se procede al conteo, que consiste en determinar el nº de observaciones (frecuencias) de cada clase. Una manera sencilla de hacerlo es leyendo la serie simple y ubicando mediante marcas cada valor de la variable en su clase correspondiente. De ésta manera cuando se termine de pasar lista a la serie simple, el agrupamiento ha sido efectuado. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 12 | 46 Un problema que se puede presentar es el siguiente: si un valor de la variable coincide con uno de los límites del intervalo, por ejemplo, la altura 95 cm ¿dónde se lo ubica? ¿en el quinto o en el sexto intervalo de clase? La respuesta es: puede ubicarlo en cualquiera de los intervalos, pero si se elige un criterio se lo debe respetar hasta el final del agrupamiento. En éste ejemplo al nº 95 se lo ubica en el 6° intervalo, de la misma manera, cuando aparezca por ejemplo un valor 85, debe ser anotado como perteneciente al intervalo en el que el nº 85 se encuentra como límite inferior. El intervalo de clase es cerrado en el límite inferior y abierto en el superior. Esto se indica de la siguiente forma [75;80) los valores del intervalo van desde 75 a 79,9999. 7.- Se agrega una tercera columna, titulada “marca de clase” o “punto medio de clase” que se designa con xi que contiene los valores correspondientes a los puntos medios de cada uno de los intervalos y se calcula así: Un gráfico adecuado para representar una serie de frecuencias de variable cuantitativa continua es el histograma (gráfico nº 5). Su construcción es fácil. Se utiliza el sistema de coordenadas cartesianas ortogonales. En el eje de las ordenadas (vertical) se marcan las frecuencias (fi) y en el de las abscisas (horizontal), la variable según la cual se efectuó la clasificación (altura). Consiste en rectángulos adyacentes (uno por cada clase) con bases materializadas por la amplitud de clases (5 cm). La altura está dada por la frecuencia correspondiente a la clase. Cuando las clases son iguales, el área del histograma es proporcional a la frecuencia total. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 13 | 46 Otro gráfico adecuado para representar la serie de frecuencias de variable cuantitativa continua es el polígono de frecuencias (gráfico). 6). Se emplea para su realización el sistema de coordenadas cartesianas ortogonales. Se coloca la variable clasificadora en el eje horizontal y las frecuencias en el vertical. La principal ventaja de los polígonos de frecuencias consiste en que ellos permiten dibujar en el mismo sistema de eje dos o más polígonos correspondientes a series diferentes que tengan similar posición sobre el eje de las x, así se puede compararlos, lo cual resulta engorroso efectuar con los histogramas a causa de la superposición de las superficies de los rectángulos. Lic. Cristian MaldonadoEstadística Descriptiva Y Probabilidad P á g i n a 14 | 46 Medidas descriptivas Introducción En todo trabajo estadístico luego de recolectar los datos, ordenarlos, agruparlos en tablas y presentarlos gráficamente, es preciso extraer alguna información que caracterice a la población de la cual se los extrajo. Por ello, el objetivo de éste capítulo es interiorizarlos acerca de las medidas de posición y, variación más utilizadas para caracterizar a la población en estudio, y en qué caso se emplea cada una de ellas, interpretando los resultados a través del pensamiento crítico. Los métodos de éste capítulo suelen denominarse métodos de estadística descriptiva, porque su objetivo es resumir o describir las características importantes de un conjunto de datos. Éstas características se refieren al centro, variación, distribución, datos distantes y cambios a través del tiempo. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 15 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 16 | 46 Supongamos que una directora está preocupada por las inasistencias de los alumnos del jardín bajo su dirección. Necesita resumir los datos y dar un único valor sencillo y representativo que pueda servir de referencia para todos los alumnos; esta medida que sirve para ubicar el conjunto de datos en una escala de medición, se denominan Medidas de Posición, y si además indican el centro de ése conjunto de valores, se denominan Medidas de posición y tendencia central. Se conocen varias formas de determinar el centro de un conjunto de datos. A continuación, se indicarán tres que son las más comúnmente utilizadas: media aritmética, mediana y modo. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 17 | 46 Media aritmética La media (aritmética) es la medida de posición y tendencia central, generalmente, la más importante de todas las medidas numéricas utilizadas para describir los datos; constituye lo que la mayoría de la gente denomina promedio. Es quizás la más conocida y usada. En la fórmula se utiliza la letra griega Σ (sigma mayúscula) que indica que los valores de la variable deben sumarse. El símbolo n denota el tamaño de la muestra. Cuando los datos provienen de una muestra el símbolo de la media aritmética es x (se denomina “x barra”); si se calcula la media aritmética con los datos de toda la población se simboliza con: Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 18 | 46 Media aritmética. (Para datos agrupados en intervalos) Como en una serie de frecuencias, fi nos indica las veces que se repite el valor de la variable, debemos considerarlas en el cálculo de la media aritmética. Mediana. La mediana (de un conjunto de datos): es una medida de tendencia central que divide a la serie ordenada de datos en dos partes iguales. La mediana se designa con Me, es un valor de variable que expresa que el 50% de los datos son menores o iguales a la mediana y el otro 50% mayores o iguales a ella. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 19 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 20 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 21 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 22 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 23 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 24 | 46 Relación entre media, mediana y modo Cuando la media, la mediana y el modo coinciden, la serie de datos presenta una distribución simétrica unimodal (figura 1). Cuando esa coincidencia no existe, se dice que la distribución unimodal es asimétrica. La asimetría es positiva (figura 2) cuando la media es mayor que la mediana y la mediana mayor que el modo, en éste caso vemos que la media aritmética se dirige hacia el o los valores extremadamente grandes La distribución presenta asimetría negativa (figura 3) cuando la media es menor que la mediana y la mediana menor que el modo; en éste caso vemos que la media aritmética se dirige hacia el o los valores extremadamente pequeños. La distancia entre la media aritmética y el modo podría usarse como una medida de asimetría (Ya-Lun Chou, 1990). Asimetría = media – modo Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 25 | 46 Coeficiente de asimetría de FISHER Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 26 | 46 Medidas de Orden Son Medidas de Posición que dividen los valores ordenados de una serie en cuatro, diez o cien partes iguales y se denominan cuartiles, deciles y percentiles. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 27 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 28 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 29 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 30 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 31 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 32 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 33 | 46 Deciles Los Deciles son nueve valores de la variable que dividen a la serie ordenada de datos en 10 partes iguales, el decil 5 coincide con la Mediana, es decir el 50% de los valores son menores o iguales al D5. Rango percentil Se puede presentar, el problema inverso, es decir, conocer cuántos profesores de nivel inicial toman 52 días de licencia o menos, es decir nos dan como dato un valor de la variable y nos preguntan qué percentil le corresponde; a este procedimiento se lo denomina calcular el Rango percentil. Es decir, el rango percentil de un valor dado es el porcentaje de valores comprendidos debajo del valor solicitado. Ejemplo: Calcular el rango percentil que le corresponde a 52 días de licencia de los de los profesores de las escuelas de nivel inicial en la ciudad de Santiago del Estero en el año 2004. Repetimos la tabla 6 para visualizar mejor el cálculo. Días de inasistencia de los profesores de las escuelas de nivel inicial en la ciudad de Santiago del Estero en el año 2004. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 34 | 46 Solución 1.- Ubicamos en la tabla el intervalo de clase donde se encuentra el valor 52 es el intervalo que va de 50 a 60. 2.- Se calcula la Frecuencia acumulada que le correspondería al valor 52 con la siguiente fórmula: Interpretación: El 62% de los profesores de las escuelas de nivel inicial en la ciudad de Santiago del Estero en el año 2004, toman 52 días de licencia o menos. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 35 | 46 Cálculo gráfico de percentiles y rango percentil Ejemplo: Calcular gráficamente el percentil 20 Solución Se debe construir un gráfico de líneas; los pares de valores a graficar corresponden al límite superior del intervalo con el porcentaje acumulado correspondiente. 1.- Calcular porcentaje acumulados. Para ello se necesita calcular: a) frecuencia relativa para cada intervalo b) Porcentaje c) Porcentaje acumulado 2.- Se grafica un polígono (Lsup; %acum.). El gráfico que se obtiene se denomina ojiva. Días de inasistencia delos profesores de las escuelas de nivel inicial en la ciudad de Santiago del Estero en el año 2004. Si deseamos calcular el valor que corresponde al percentil 20. Se ubica el valor 20 en el eje vertical y se traza una paralela al eje horizontal hasta la curva y luego se traza una vertical hasta encontrar el valor de días correspondiente, el que aproximadamente es 23. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 36 | 46 Medidas de variabilidad o dispersión Las Medidas de Posición no son suficientes para describir el conjunto de datos, sino que es necesario tener una idea de cómo se distribuyen los datos alrededor del centro de la distribución. Para eso surgen las Medidas de Dispersión RANGO Es llamado también amplitud total de variación de la variable. Se lo obtiene como la diferencia entre el valor máximo y mínimo de la variable. Distribución A: 1, 5, 5, 5, 5, 5, 5, 5, 5, 9 Distribución B: 1, 1, 2, 4, 5, 6, 7, 7, 8, 9 Rango = Valor mayor – Valor menor RA = 9 -1 = 8 RB = 9 -1 = 8 Estas series tienen igual valor del rango, a pesar de que notamos que la variabilidad de las dos distribuciones es diferente. La desventaja de esta medida es que solo considera los valores extremos sin tener en cuenta el comportamiento del resto de las observaciones. Por lo que observamos que a pesar de tener variabilidades diferentes las dos distribuciones, el rango no la capta. Para solucionar este problema surgen otras medidas como el desvío medio. ¿Cómo se puede medir la variabilidad de un conjunto de datos? Si por variabilidad se entiende el grado en que los valores de la distribución difieren de la media y entre sí, entonces la desviación promedio de los valores a partir de la media puede resultar una medida razonable de variabilidad. Como esta medida de variabilidad parece razonable, debemos redefinir nuestra medida para evitar los valores negativos. Una manera de hacerlo es considerar el valor absoluto de los desvíos; la medida que se obtiene se denomina: DESVIO MEDIO: Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 37 | 46 Desvio medio: Se define como el promedio del valor absoluto de los desvíos; se designa con: DM Pero generalmente no se puede operar fácilmente cuando se trabaja con valor absoluto, por eso se considera una segunda forma de modificar esos signos negativos y consiste en elevar los desvíos al cuadrado, lo que dará desvíos al cuadrado positivos. Esta nueva medida de variabilidad se denomina varianza. Varianza es el promedio de los desvíos al cuadrado y se designa con S2 cuando se trata de una muestra y es un mejor estimador de la varianza poblacional (σ 2) cuando la suma de los desvíos al cuadrado se divide entre el tamaño de la muestra menos 1; por ello la fórmula para calcular es para: Variancia de una Muestra Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 38 | 46 Variancia Poblacional Cuántos más tiendan los valores a diferir de la media, mayor será la varianza. El valor numérico de la varianza de una distribución depende de la unidad de medida que se utilice. Por consiguiente, cuando se compara la varianza de dos o más distribuciones, hay que estar seguro que la unidad de medida empleada es igual en todas las distribuciones. Otra desventaja es que la varianza se expresa, en unidades al cuadrado y no en término de las unidades originales de medición, lo que hace difícil la tarea de relacionar en forma significativa el valor de la varianza con el conjunto original de datos. Por eso es conveniente, considerar una medida de variabilidad que se exprese en unidades originales. Esta nueva medida denominada desviación estándar se obtiene al extraer a la varianza la raíz cuadrada. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 39 | 46 Desviación estándar muestral S = 2 hermanos Desviación estándar poblacional Debe quedar claro que la desviación estándar mide la variación entre los valores. Los valores cercanos producirán una desviación estándar pequeña, mientras que los valores dispersos producirán una desviación estándar más grande. Medidas De Variabilidad En Series De Frecuencia Simple. Su Cálculo Ejemplo: Calcular la variabilidad de las inasistencias de 32 alumnos. Cuando se trata de variables cuantitativas discretas el Rango se calcula: Rango = Valor máximo - Valor mínimo + 1 Rango = R = 23 – 11 + 1 = 13 inasistencia Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 40 | 46 Desvío medio en serie de frecuencia 1) Se calcula la media aritmética 2) Se calculan los desvíos 3) Se obtiene el valor absoluto y se los multiplica por sus frecuencias 4) Se aplica la fórmula Varianza en serie de frecuencia simple Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 41 | 46 Desviación estándar en serie de frecuencia Medida De Variabilidad En Serie De Frecuencias De Intervalos De Clase Ej.: Peso de los alumnos del Jardín de una escuela rural. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 42 | 46 Rango: R = L. superior de la última clase – L. inferior de la primera clase. Como los límites superiores de las clases son abiertos, es decir no toma el valor 20, debemos colocar el valor 19,99 R =19,99 – 6 = 13,99 kg Desvío medio en serie de frecuencia de intervalos Se calcula la marca de clase y luego la media aritmética: Se calcula los desvíos: Variancia en serie de frecuencia de intervalos 1) Se calcula la media aritmética 2) Se calculan los desvíos 3) Se elevan los desvíos al cuadrado 4) Se multiplica cada desvío al cuadrado por su frecuencia 5) Se aplica la fórmula Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 43 | 46 Varianza en serie de frecuencias de intervalos, la única diferencia con las fórmulas para serie de frecuencias simples es que xi, representa el punto medio de la clase o marca de clase. Desviación estándar en serie de frecuencias de intervalos COEFICIENTE DE VARIACIÓN Las cuatro medidas de variabilidad enunciadas precedentemente son medidas de variabilidad absoluta. El coeficiente de variación es una medida de variabilidad relativa. Expresa la desviación estándar como un porcentaje de la media. Es una medida adimensional, se expresa en % y sirve para comparar la variabilidad entre dos o más distribuciones que provengan de diferentes unidades de medidas o teniendo igual unidad de medida los valores de diferente magnitud. Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 44 | 46 𝐶𝑉 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝐸𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑀𝑒𝑑𝑖𝑎 . 100% Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 45 | 46 Lic. Cristian Maldonado Estadística Descriptiva Y Probabilidad P á g i n a 46 | 46 El Diagrama de Caja y bigotes o Diagrama BoxPlot El Diagrama de Caja y bigotes es un tipo de gráfico que muestra un resumen de una gran cantidad de datos en cinco medidas descriptivas, además de intuir su morfología y simetría. Este tipo de gráficos nos permite identificar valores atípicos y comparar distribuciones. Además de conocer de una forma cómoda y rápida como el 50% de los valores centrales se distribuyen. Se puede detectar rápidamente los siguientes valores: Primer cuartil: el 25% de los valores son menores o igual a este valor Mediana o Segundo Cuartil: Divide en dos partes iguales la distribución. De forma que el 50% de los valores son menores o igual a este valor Tercer cuartil: el 75% de los valores son menores o igual a este valor Rango Intercuartílico(RIC): Diferencia entre el valor del tercer cuartil y el primer cuartil.
Compartir