Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 17 UNIDAD I ESTADÍSTICA DESCRIPTIVA 3.- MEDIDAS DE RESUMEN (ESTADÍSTICAS) Por lo general el análisis estadístico de datos, involucra grandes cantidades de datos, lo que hace necesario utilizar medidas que resuman la información, permitiendo la caracterización del colectivo en un aspecto de interés a través de la misma, estas medidas de resumen se denominan genéricamente estadísticas o estadísgrafos y cuantifican aspectos de interés referidos a: • Posición • Dispersión • Deformación • Curtosis 3.1.- Estadísticas de Posición Son medidas que describen puntos de interés en el conjunto, los que pueden tratar de describir el centro (medidas de tendencia central) o puntos laterales (medidas de tendencia lateral), conocidas universalmente como percentíles o cuantiles. 3.1.1.- Media Aritmética: La media aritmética es la medida de posición que tiene sentido cuando el nivel de medición de la variable de interés es a lo menos de intervalos y corresponde al valor promedio de las observaciones. Formalmente se tiene si { }n,321 X,X,X,X L es un conjunto de observaciones de una variable cuyo nivel de medición es a lo menos ordinal, tal que { }k,321 Y,Y,Y,Y L son los distintos valores observados de ésta, mientras que { }k,321 n,n,n,n L son las correspondientes frecuencias, entonces, se define la media aritmética de las observaciones como. n X X n 1i i∑ == Datos no agrupados o bien: n nY Y k 1i ii∑ = ⋅ = Datos agrupados Obs.: • Las expresiones para la media aritmética correspondiente a datos no agrupados y a datos agrupados son equivalentes entre sí, es decir, representan un mismo valor para el conjunto aunque numéricamente pueden ser distintas. • La media aritmética tiene el carácter de valor teórico o de valor ideal, puesto que representa el nivel que deberían alcanzar todas las observaciones bajo condiciones similares, es decir, bajo la condición de que éstas no son afectadas por factores aleatorios. • La media aritmética es la medida de posición más conocida y de mayor uso, tanto por su simpleza como por sus ventajas algebraicas, las que se muestran en las siguientes propiedades: Propiedades del Promedio Propiedad 1) El Promedio es un número acotado, esto significa que el promedio no puede estar por dabajo del menor valor observado ni por encima del mayor valor de la variable. )máx()mín( XXX ≤≤ Propiedad 2) La media de una constante, es la constante, es decir, Si Xi = K ∀i, entonces kX = ; k = constante UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 18 Propiedad 3) La media de una variable a la que se le adiciona una constante, es la constante adicionada a la media de la variable, es decir, Si Ti = k + Xi, entonces XkT += ; k = constante Propiedad 4) La media del producto entre una constante y una variable, es la constante multiplicada por el promedio de la variable, es decir, XkT ∗=Si Ti = k * Xi, entonces ; k = constante Propiedad 5) Las propiedades anteriores permiten establecer la siguiente relación: “El promedio de una combinación lineal de variables, es la combinación lineal de los promedios”, así por ejemplo: Si Ti = a*Xi +b*Yi + c., entonces cYbXaT +⋅+⋅= ¸ a, b y c ctes. Propiedad 6) En todo conjunto de observaciones, se tiene quw “La suma de los desvíos respecto del promedio es cero”, es decir, ( )∑ = =− n 1i i 0XX ( ) Propiedad 7) .La suma de los cuadrados de los desvíos respecto de un punto arbitrario cualquiera alcanza su valor mínimo, cuando este punto es el promedio, es decir: ∑ = =− n 1i 2 i XassimínimoesaX Además de las propiedades es importante tener presente las siguientes situaciones especiales: Situación 1: Promedio ponderado Existen muchas situaciones en las que las observaciones tienen distinta importancia “peso o ponderación”, situación que debe ser considerada al momento de realizar el cálculo, estas situaciones son las que hacen necesario ponderar cada observación por un factor que cuantifica su importancia en el conjunto, dando origen al promedio ponderado, el que está dado por: ∑ ∑ = = ⋅ = n 1i i n 1i ii w wX X ; wi factor de ponderación Obs.: • La media aritmética calculada para datos agrupados, es una forma de promedio ponderado, donde el factor de ponderación está dado por la frecuencia con la que aparece cada uno de los valores observados, mientras que la suma de los factores de ponderación corresponde al número total de observaciones. • Si los factores de ponderación son números relativos, entonces la suma de ellos es igual a 1, por lo que la expresión asociada al promedio ponderado queda: ∑ ∑ = = =⋅= n 1i i i i n 1i ii w w fcon;fXX • Algunas estadísticas que corresponden a promedios ponderados son: • La nota final de una asignatura • El índice de precios al consumidor (IPC) Situación 2: Promedio estratificado Otra forma de promedio corresponde al promedio ponderado o promedio de promedios, que como su nombre lo indica es una medida que resume los promedios de varias muestras o estratos en una sola medida. Si 1X es el promedio de las n1 observaciones de la muestra 1; 2X es el promedio de las n2 observaciones de la muestra 2; 3X es el promedio de las n3 observaciones de la muestra 3; . . . ; kX es el promedio de las nk observaciones de la muestra k, entonces el promedio estratificado TX está dado por: UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 19 ∑ ∑ = = ⋅ = k 1i i k 1i ii T n Xn X Obs.: • Un promedio estratificado es un promedio ponderado de promedios. • Como su nombre lo indica es la medida que debe utilizarse en muestras estratificadas. Ejemplo Sea X El monto de la mesada mensual que perciben cuatro alumnos del curso en el mes de octubre, de manera tal que X1 = 8000 X2 = 11000 X3 = 15000 X4 = 6000 Entonces 10000 4 40000 4 600015000110008000X ==+++= Respecto de las distintas propiedades, y considerando siempre los datos originales como referencia, se tiene que: Prop. 1: 10000 es un número que se encuentra entre 6000 (menor observación) y 15000 (mayor observación). Prop. 2: Si cada uno de los cuatro alumnos recibiera una mesada de $10000, entonces el promedio sería 10000 4 100004 4 10000100001000010000X =⋅=+++= Es decir, que el promedio de una constante es la misma constante. Prop. 3.: Si para el mes de noviembre cada alumno debe cancelar $2500 por concepto de pase escolar para el próximo año, por los que sus padres le incrementan la mesada en dicha cantidad, entonces, el monto que recibirá cada uno es: X1 = 10500 X2 = 13500 X3 = 17500 X4 = 8500 12500 4 50000 4 8500175001350010500X ==+++=Luego, el monto promedio es: En este caso, la propiedad, permite obtener el mismo resultado de manera mucho más rápida. En efecto, si Y es el monto de la mesada en noviembre, entonces: 12500100002500X2500Y =+=+=Yi = 2500 + Xi ⇒ Prop. 4.: Suponiendo que los alumnos ahorran el 25% su mesada, entonces, el monto del ahorro para cada uno de ellos es: X1 = 2000 X2 = 2750 X3 = 3750 X4 = 1500 Entonces, el monto promedio del ahorro es: 2500 4 10000 4 1500375027502000X ==+++= Al igual que en el caso anterior, se tiene quesi Y = Monto del ahorro mensual de los estudiantes, entonces: Yi = 0,25 ⋅ Xi ⇒ 25001000025,0X25,0Y =⋅=⋅= Prop. 5.: Si además de la información referida a mesada, se dispone de la información referida a gastos en fotocopias y a gastos en movilización, de manera tal que el saldo se destina a esparcimiento, según la siguiente tabla: Item Observaciones Promedio Mesada (X) X1 = 8000 X2 = 11000 X3 = 15000 X4 = 6000 10000 Fotocopias (F) F1 = 2500 F2 = 4000 F3 = 5000 F4 = 1000 3125 Movilización(M) M1 = 4000 M2 = 5000 M3 = 6000 M4 = 4500 4875 Esparcimiento(E) E1 = 1500 E2 = 2000 E3 = 4000 E4 = 500 2000 UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 20 Luego, si expresamos el monto del dinero destinado a esparcimiento como: E = X – F – M, entonces 20004875312510000MFXE =−−=−−= Prop. 6.: Para cada punto observado, se tiene que el desvío respecto de la media es: 4000XX5000XX1000XX2000XX 1321 −=−=−=−−=− , luego la suma de estos desvíos es cero. Prop. 7.: Calculemos los cuadrados de los desvíos respecto de distintos puntos y luego las correspondientes sumas: Observación (Xi – 10000)2 (Xi – 5000)2 (Xi – 8000)2 (Xi – 12000)2 8000 11000 15000 6000 100000X = Podemos observar que la menor suma es la obtenida en la primera columna, es decir, cuando los cuadrados de los desvíos se calculan respecto del promedio. 3.1.2.- Mediana (Me) La mediana es una estadística que requiere que la variable de interés admita orden, esto significa que la mediana puede ser obtenida en todas las variables que son a lo menos ordinal. Formalmente se define como aquel valor que supera a no más del 50% de las observaciones y que es superado por no más del 50% de las mismas. 50%50% MeX (MÍN) X(MÁX) Obtención de la mediana: a) Datos no agrupados: Como ya se estableció, para obtener la mediana los datos deben estar previamente ordenados, luego, si { }n321 X,,X,X,X L es un conjunto de observaciones de una variable que admite orden, tal que { })n()3()2()1( X,,X,X,X L representa la información dispuesta de manera tal que )1i()i( XX +≤ , entonces: a.1.- Si n es impar, la mediana coincide con la observación que se ubica en la posición central, es decir: ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = 2 1n e XM a.2.- Si n es impar, entonces la mediana corresponde al valor promedio de las observaciones centrales. 2 XXM 1 2 n 2 n e ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ +⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 21 b) Datos agrupados: Si la variable admite orden y está tabulada, entonces está ordenada, por lo tanto para determinar la mediana se debe ubicar la frecuencia absoluta acumulada menor de entre todas aquellas que superen a n/2. Sea Nj esta frecuencia. b.1.- Si la variable es discreta, entonces se debe comparar de frecuencia acumulada anterior con n/2. De esta comparación se tiene que: • je1j YMentonces2 nNSi =<− En efecto hasta la (j-1)ª categoría no se alcanza al 50% de las observaciones y en la jª categoría se sobrepasa, por lo tanto, el punto correspondiente a la jª categoría es en el que se alcanza el 50%. • 2 YY Mentonces2 nNSi j1je1j + == −− En esta caso, se tiene que hasta la (j-1)ª categoría se alcanza al 50% de las observaciones y desde la jª categoría se tiene también el 50%. Por lo tanto, la mediana corresponde al promedio de estos valores. b.2.- Si la variable es continua, entonces, el intervalo asociado a la frecuencia Nj, de denomina intervalo mediano. Para determinar el punto de dicho intervalo que se asocia con la mediana, representar la situación en un gráfico (ojiva) E C A B D La figura nos muestra el ∆ABC y el ∆ADE que son triángulos que tienen un ángulo común y un par de lados homólogos paralelos. Los triángulos que cumplen con esta condición se denominan triángulos semejantes y satisfacen la condición de que la razón entre sus lados es proporcional, es decir k AE AC DE BC AD ABADEABC ===⇒∆≅∆ pero , 1je yMAB −−= j , 1j , j ayyAD =−= − 1jN2nBC −−= j1jj nNNDE =−= − Luego al reemplazar en la proposición anterior, queda: j 1j j , 1je n N2n a yM −− −= − y despejando Me, se obtiene: j 1j j , 1je n N2n ayM −− − ⋅+= 3.1.3.- Moda (Md): Ni Nj-1 n/2 Me , 1jy − , jy Nj UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 22 La moda es la estadística que se puede obtener en todo tipo de variables, puesto que ésta sólo depen rmalmente, se tiene que la moda es aquel valor de la variable que presenta la mayor frecuencia. btención de la moda: a) Si la variable es nominal, ordinal o cuantitativa discreta, la determinación de la ativa discreta b) Si la variable es cuantitativa continua, entonces el intervalo asociado a la mayor de de la frecuencia, por lo tanto, es la única estadística posible de obtener en variables nominales. Fo O moda se logra al considerar la frecuencia más alta, es decir, si nj es la mayor frecuencia, entonces la moda corresponderá a la j-ésima categoría. • Si nj > ni; ∀ i ≠ j, entonces Md = Cj Si la variable es cualit • Si nj > ni; ∀ i ≠ j, entonces Md = Yj Si la variable es cuantitativa frecuencia es el intervalo modal, esto significa que la moda es un punto dentro de dicho intervalo. [ [ [ [,j, 1jd,j, 1j y,yMalmodervalointelesy,yentonces,j −− ∈⇒ En este caso, no existen reglas formales que permitan determinar con exactitud e se presenta apoyado en el siguiente gráfico: l que conduce a establecer que: ij i,nnSi ≠∀> l punto modal, sin embargo, existen criterios de aproximación de carácter netamente empíricos y por lo tanto no demostrables que nos permiten determinar valores bastantes cercanos a la moda. Uno de estos criterios es el que E n PA A j , 1jd ayM ∆+∆ +≈ − Donde: s la diferencia anterior, es decir, la diferencia entre la mayor frecuencia y la que le antecede bs: • La moda se asocia con el concepto de máximo local, por lo que tiene la connotación de • nto pueden existir varios máximos locales, entonces una distribución es decir el odal cuando posee dos modas, es decir, posee omina multimodal cuando posee varias modas. a variable .1.4.- Media Geométrica (Mg) ∆ Md , j , 1j yy − j 1jjP nn +−=∆ 1jjA nn −−=∆ nj-1 nj+1 • ∆A e • ∆P es la diferencia posterior, es decir, la diferencia entre la mayor frecuencia y la que le sucede O mayoría relativa. Como en un conju puede tener tantas modas como máximos locales. Desde esta perspectiva una distribución puede ser Unimodal, bimodal, multimodal o carente de moda. Una distribución se denomina unimodal cuando la moda es única, máximo tiene un carácter global. Una distribución se denomina bim dos máximos locales. Una distribución se den Una distribución carece de moda cuando todos las categorías de l presentan la misma frecuencia. (Uniformidad). 3 UNIVERSIDAD TECNOLÓGICA METROPOLITANAFACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 23 Es la medida de promedio que sólo puede ser obtenida en variables de razón cuyo recorrido puede considerar únicamente valores positivos. Formalmente: Si { }n es un conjunto de observaciones de una variable ≥ 0 y sean 321 X,,X,X,X L de razón, tal que Xi { }k3 Y,,L los distintos valores de ésta y { }n,,n,n,n L sus correspondientes frecuen edia geométrica del conjunto está dada p 21 Y,Y,Y cias (k<n). La m or: k321 ( ) n n 1i ig XXM ∏ = = Datos no agrupados o bien ( ) n k 1i n ig iYYM ∏ = = Datos agrupados Obs.: • La media geométrica es la medida de resumen más adecuada en variables de • ienen tasas promedios de crecimiento o de • rácter lineal y por lo tanto tiende a sobrevalorar al • , se representa a través de la relación: (X) ≤ M(X) • La expresión para la media geométrica considerando datos agrupados, supone un comportamiento exponencial, tales como la capitalización del dinero, la depreciación de un bien, el crecimiento poblacional, etc. Mediante la media geométrica se obt decrecimiento según sea el caso. La media aritmética tiene un ca promedio. Lo anterior Para un mismo conjunto de datos, se tiene que Mg ( ) XXM g volumen de información grande, lo que obligó a operacionalizar el uso de esta definición, para lo cual se aplica logaritmo, así queda: ( ) ( ) ( ) ( ) ( ) n Ylogn YMlog Ylog n 1YMlog YlogYMloglogYYM n 1i ii g n 1i n ig n k 1i n ign k n 1i ig i ii ∑ ∑ ∏∏ = = == =⇒ =⇒ =⇒= Lo que nos permite establecer que el log de la media geométrica es la media aritmética 3.1.5.- Percentiles (Cuantiles)(Pk): de los logaritmos, sin embargo, con la disponibilidad de recursos tecnológicos en la actualidad, esta operacionalización ya no es necesaria. UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 24 Son medidas de tendencia lateral, que pueden ser obtenidas en variables cuyo nivel de medición es entil de orden k (Pk ), se define como aquel valor que supera a no más del k% Obs.: La definición anterior, permite visualizar que el concepto de percentil es análogo al • ede establecer entonces que para obtener un percentil de orden • uo, el percentil de orden k, está dado por: • a lo menos ordinal. Formalmente el perc de las observaciones y que es superado por no más del (100-k)% de las mismas. (100-k)%k % PkX(MÍN) X (MÁX) • concepto de mediana. Por lo anterior, se pu específico, se deben aplicar los mismos principios establecidos para la obtención de la mediana, cambiando sólo el porcentaje de las observaciones 50% de n, es decir n/2 por el k% de n, es decir, (kn)/100. Así entones, en el caso contin j 1j j , 1jk n 100ayP − − ⋅+= • En particular se tiene que: .., 90, entonces los percentiles correspondientes se denominan cuartiles, y se entiles correspondientes se denominan • Los q yas preguntas son • men: 1. Las medidas anteriores dejan en evidencia la importancia de conocer el nivel de medición 2. s evidente que hay niveles de medición de variables que admiten mayores Estadística N)nk( −⋅ Si k=10, 20,30, 40, . decíles y se denotan por D1, D2, D3, ... , D8, y D9 respectivamente. Si K = 25, 50 o 75, los percentiles correspondientes se denotan denotan por Q1, Q2, y Q3 respectivamente. Si k = 20, 40, 60, 80, entonces los perc quintiles y los denotaremos por q1, q2, q3 y q4 respectivamente. uintiles son los percentiles de uso frecuente en encuestas cu presentadas en formato de respuesta cerrada, categorizadas en 5 niveles (Escala Lickerts). Nótese que Me = P50 = D5 = Q2 En resu de las variables, puesto que cada una de ellas sólo es posible de obtener en cierto tipos de variables. También e elementos en el análisis, lo que se muestra en el siguiente cuadro resumen: Nivel ón Moda Mediana Media A a Media Ge de Medici Percentiles ritmétic ométrica Nominal √ Ordinal √ √ √ Intervalar √ √ √ √ De razón √ √ √ √ √ 3. También es importante tener presente que de todas las medidas, el promedio (media 4. ediana, aritmética) es la más conocida y la de mayor uso, sin embargo, ésta tiene una gran desventaja, a saber, “El promedio es muy sensible al efecto de valores extremos”, esto significa que cuando en un conjunto, existen algunas observaciones extremas (de valores muy grandes o muy pequeños, respecto de la gran masa), entonces el promedio “es arrastrado” hacia ese extremo, lo que obviamente lo hace perder representatividad. La desventaja del promedio manifestada en el punto anterior, es resuelta por la m puesto que para esta medida los valores extremos no pasan más allá de ser los valores más pequeños o los valores más grandes según sea el caso. Esto significa que frente a la UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD I: Estadística Descriptiva PROFESOR HUGO GONZÁLEZ A. Página Nº 25 presencia de valores extremos, es preferible utilizar como medida de promedio a la mediana. Una carac5. terística importante de las tres medidas básicas (Promedio, Mediana y Moda), es 6. étrica cuando todos los puntos que equidistan de la el permitir visualizar la forma de la distribución. En este contexto, se debe hacer notar que la forma de la distribución es una característica de interés en distribuciones unimodales, puesto que la forma se conceptualiza tomando como referencia a la moda, tomando como referente a una distribución simétrica. Una distribución unimodal se dice sim moda tienen la misma frecuencia. 7. Si la relación anterior no se satisface, es decir, si la distribución tiene una cola más larga, se Distribución con sesgo positivo Distribución con sesgo negativo dice que es una distribución asimétrica o sesgada. (a la derecha o a la izquierda) (Cola a la derecha) (Cola a la izquierda) Xk Md Xj h(Xj) h(Xk) Md Me M(x) M(x) Me Md
Compartir