Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL DE COLOMBIA – SEDE BOGOTÁ 1000013-20 Probabilidad y Estadística Fundamental TALLER DE ESTADÍSTICA DESCRIPTIVA Presentado por: Jeisson Leonardo Rincón Novoa – 25201833 Luisa Fernanda Sabogal Russi – 25201805 Natalia Valenzuela Buitrago – 25211711 Presentado a: Willie Alexander Hernández Romero Bogotá D.C. 07/Mayo/2015 Página 2 de 98 1) FLUJOGRAMA DEL USO DE LAS MEDIDAS DE TENDENCIA CENTRAL Cualitativos Cuantitativos Medidas resúmenes Histograma Medidas de tendencia central Poco específico Exactitud Recolección de los datos cuantitativos Notas, edades, peso, altura, cantidad de hijos, etc. ¿Cuál es el centro de gravedad, en donde la sumatoria de las distancias de los demás datos respecto a este, es igual a 0? ¿Cuál es el dato central qué divide el conjunto en 2 partes cada una compuesta por el 50% de los datos? ¿Cuál es la nota más frecuente de este grupo de estudiantes? ¿Hay solo una? ¿Cuál es la medida a usar, cuando para cada dato hay una importancia relativa mayor o menor respecto a los demás? ¿Cuál es la media recomendada para la progresión geométrica, razones, interés compuesto y números índices? ¿Menos sensible a los outliers? ¿Cuál es la inversa a la media aritmética y recomendada para promediar velocidades? Si deseo eliminar los valores atípicos, ¿Cuál media uso? Recolección de datos Página 3 de 98 ¿Cuál es el centro de gravedad, en donde la sumatoria de las distancias de los demás datos respecto a este, es igual a 0? Sumar los datos y dividirlo entre la cantidad de estos Sensible a los outliers o valores atípicos ¿Cuál es el dato central qué divide el conjunto en 2 partes cada una compuesta por el 50% de los datos? Ordenar los datos de menor a mayor o viceversa y ubicar el valor central, en caso de haber 2, será el promedio de estos Solo tiene en cuenta un único dato ¿Cuál es la nota más frecuente de este grupo de estudiantes? ¿Hay solo una? Establecer cuál/cuáles dato es el que más se repite, dependiendo la cantidad se dice n-modal con los prefijos de cantidad (Uni-Bi…) Todos tienen la misma frecuencia ¿Cuál es la medida a usar, cuando para cada dato hay una importancia relativa mayor o menos respecto a los demás? ̅ = ∑�=∑�= Influenciada por los pesos grandes o falta de información Media Aritmética Mediana Moda Media Ponderada Página 4 de 98 ¿Cuál es la media recomendada para la progresión geométrica, razones, interés compuesto y números índices?¿Menos sensible a los outliers? ̅ = √∏� = � Menos intuitivo, difícil y se anula si es 0 ¿Cuál es la inversa a la media aritmética y recomendada para promediar velocidades? = ∑ ⁄�= Influencia de valores pequeños o 0 Si deseo eliminar los valores atípicos, ¿Cuál media uso? Eliminar un porcentaje de los datos más altos y más bajos (0%-25%) para eliminar outliers Usa más información que la mediana y a menos que sea simétrica, es poco probable que se obtenga un estimador poco sesgado de la media o mediana FIN Media Geométrica Media Armónica Promedio de Windsor Página 5 de 98 2) DENDOGRAMA O ÁRBOL JERÁRQUICO – ANÁLISIS DE CLUSTER El poder representar gráficamente el proceso de agrupar en forma de árbol las distancias ultramétricas sobre un conjunto finito, se le conoce como el desarrollo de dendogramas o árboles jerárquicos de forma indexada. Se nos plantea realizar este grafico a partir de la siguiente información suministrada: Mamífero Agua Proteínas Grasa Bisonte 0,681 -0,387 -0,818 Búfalo 0,307 -0,085 -0,229 Camello 0,743 -0,742 -0,657 Gato 0,268 1,064 -0,381 Venado -0,955 1,147 0,893 Perro -0,145 0,845 -0,077 Delfín -2,592 1,201 2,338 Burro 0,946 -1,235 -0,847 Elefante 0,628 -0,715 0,693 Zorro 0,268 0,106 -0,419 Hipopótamo 0,954 -1,536 -0,552 Caballo 0,93 -0,989 -0,885 Llama 0,65 -0,633 -0,676 Nota: Estandarizado con media de 0 y desviación estándar de 1. Página 6 de 98 2.1. Unidades de medida de las variables Como podemos observar tenemos 3 variables (agua, proteínas y grasas) la cuales describiremos para poder iniciar con el Análisis de Cluster, así; 2.1.1. Tipo de base de datos La base de datos que tenemos es de corte transversal ya que no hay varios valores tomados a través del tiempo para cada organismo en una misma variable, por lo cual se deduce que la muestra fue tomada en un período determinado. 2.1.2. Tipo de variable Las variables se definen como atributos o condiciones que caracterizan una situación experimental o un objeto en estudio que puede variar respecto al tiempo o a otros objetos, respectivamente; de esta manera se empieza a describir el tipo de variable que tenemos, así; I. Son variables de tipo cuantitativo o numérico, es decir, son susceptibles a ser medidas y a expresarse de manera numérica. II. Son variables cuantitativas continuas, es decir, admite valores intermedios entre dos unidades de medida, además, puede tomar un conjunto infinito de valores posibles dentro de un rango; sin embargo, en este caso las variables están aproximadas en máximo 3 dígitos a la derecha. III. Los valores se presentan en porcentajes indicándonos pues que es la relación entre dos cantidades (cociente), en este caso al ser sobre la composición de la leche materna se puede concluir que esta base es un valor estándar preexistente con el cual se calculan los valores de las 3 variables. Hay que tener en cuenta que al tener valores por encima del 100% o 1 y por debajo de 0% o 0 (-2,592 o 2,338), se debe entender Página 7 de 98 que son estandarizados para cuestión de análisis de los cambios de las variables en cada objeto. IV. Son variables dependientes, ya que todas vienen determinadas por un valor estándar preexistente (que es la composición de la leche materna); más adelante, podremos observar con el Coeficiente de Correlación de Pearson que están relacionadas muy fuerte el agua y las grasas (mientras una aumenta la otra disminuye), con fuerte relación el agua y proteínas (mientras una aumenta la otra disminuye) y finalmente grasas y proteínas tienen una relación medianamente fuerte (a medida que una aumenta la otra aumenta de igual manera). Además se puede evidenciar el principio de Endogenidad (una se explica por medio de la otra), puesto que se pueden explicar entre ellas, por ejemplo los porcentajes positivos de participación en grasas significan porcentajes negativos en la participación del agua. V. Finalmente, la clasificación de las variables según su nivel o escala de medición es numérica, dado que es cuantitativa, y dentro de ésta muestra operaciones matemáticas, es decir, es intervalar, debido a que permite sumar, restar, multiplicar o dividir; además si llegase a existir el valor 0 no significa ausencia en el % de participación en la composición de la leche materna (dado que son datos estandarizados). Para adicionar, no se puede decir que el % de participación del agua en la leche materna del elefante (0.628) es aproximadamente el doble que en la del búfalo (0.307), por la misma razón de que 0 no es ausencia de la característica. 2.1.3. Composición de la leche materna (Concepto biológico) La composición química de la leche materna, depende de la raza del mamífero que se esté estudiando y en qué época se hallan tomado los datos (en invierno es más rica en grasas que en verano); la leche se compone principalmente de agua, grasas, prótidos y glúcidos, determinados por los niveles de , calorías y sustancias nitrogenadas presentes en la muestra de la leche producida por el ser vivo. Página 8de 98 2.2. Análisis de Cluster – Conglomerados Para poder resolver problemas de clasificación como el que se nos presenta en el ejercicio (mamíferos dependiendo de la composición de la leche materna) se usa la técnica de Análisis de Cluster o de Conglomerados, la cual consiste en ordenar objetos en grupos de tal manera que el grado de similitud entre objetos formen uno nuevo, marcando así un menor grado de estos respecto a los demás y definiendo una clase a la que los objetos hacen parte; sin embargo, se toma este agrupamiento como otro objeto el cual se debe agrupar para así ir formando el diseño de árbol jerárquico. También cabe resaltar que el dendograma permite establecer asociaciones de manera más sistémica (que se pueden identificar de forma anticipada) y contribuye a la formación de esquemas de clasificación parecidos a un proceso taxonómico del conjunto de objetos. Ahora bien, los Cluster se pueden establecer bajo dos métodos de clasificación; los jerárquicos y los no jerárquicos, es decir, entre clases anidadas y clases no anidadas; y estos a su vez pueden identificarse como aglomerativos o divisivos; en donde el primero (aglomerativo) parte de tantas clases como objetos hay para obtener tipos de objetos relacionados, y el segundo (divisivo) de una única que se dividirá en clases sucesivamente; para todo ello se usan los siguientes pasos; I. Definir e identificar los datos a usar. II. Elegir las medidas de similitud entre objetos (mamíferos) para identificar los Clusters. III. Determinar los objetos (mamíferos) más cercanos. IV. Juntar los objetos (mamíferos) en el mismo Cluster. V. Calcular la distancia entre el Cluster y los demás objetos (mamíferos). VI. Juntar objetos (mamíferos o Cluster) dependiendo de la distancia, hasta lograr tener solo 1 Cluster general. Página 9 de 98 En suma para poder determinar las distancias entre los objetos se deben determinar en primer lugar el tipo de análisis, en segundo lugar la medida de similitud/distancia y finalmente el algoritmo de agrupamiento que se piensa utilizar para la generación de los Clusters. 2.3. Medidas utilizadas en el Análisis Cluster En este apartado se determinarán la clasificación del análisis de Cluster (jerarquizadas o no jerarquizadas; aglomerativos o divisivos), las medidas de similitud/distancia que se utilizarán y los algoritmos de agrupación para la creación de la estructura gráfica. 2.3.1. Clasificación del Análisis de Cluster Se decide hacer un dendograma que se basa en una clasificación de método jerarquizado, el cual se genera a partir de fases de agrupación o desagrupación sucesivas que traerá como resultado el de una jerarquía de unión de todos los objetos que en alguna determinada base se agrupa o disocia. Por otro lado, se complementa con el método aglomerativo que consiste en obtener clases de objetos relacionados partiendo la información suministrada de tantas formas como objetos hayan en esta. Específicamente hablando, lo que pretendemos hacer es agrupar sucesivamente los diferentes mamíferos en grupos más pequeños que se irán adhiriendo a otros grupos hasta tener un solo Cluster y hacerlo mediante el método aglomerativo que determina partir los objetos e irlos uniendo a través de clases de objetos relacionados por determinadas características. 2.3.2. Medidas de similitud o distancia En las medidas de similitud o distancia, hay que tener en cuenta que su elección es netamente subjetiva y depende del observador escoger la que a su parecer más le convenga; dentro de estas se pueden utilizar dos tipos, la Correlación (a través del cálculo de un coeficiente de Página 10 de 98 correlación aplicándolos a observaciones de los mamíferos) o la de Medición de distancias (definen proximidad basadas en escalas ordinales, de intervalo, razón o de amplia variedad) Ahora bien, nosotros hemos decidido utilizar la medición de distancias, dado que pretendemos utilizar una lógica de proximidad entre los diferentes mamíferos mas no una lógica de correlación entre mamíferos (si lo hubiéramos hecho por el otro método), además en nuestra información suministrada podemos observar que las variables son numéricas, es decir, son intervalares o de razón; y para ello se pueden encontrar diversas técnicas. De entre las múltiples técnicas existentes tales como, Distancia Euclídea, Euclídea Normalizadora, Manhattan, Chebyshev, Minkowsky, entre otras; nosotros escogimos la Distancia Euclídea definida como la más conocida y sencilla de entender de todas las posibles a usar, expresada de la siguiente manera; d , = ‖ − ‖ = √∑ −� = La Distancia Euclídea se define como la distancia ordinaria (medida con una regla) entre dos puntos ubicados en un espacio “n” dimensional (dependiendo de la cantidad de variables se define la expresión a utilizar); ahora bien, para poder utilizarla se deben cumplir las siguientes condiciones; dados dos vectores , pertenecientes a ℝ (campo escalar de números reales), se define una función “d” como la distancia entre estos dos vectores ubicados en el campo escalar, cumpliendo las siguientes propiedades; 1. d : ℝ ℝ ℝ+, es decir d ( , ≥ 0; lo que indica que la distancia es positiva. Página 11 de 98 2. d ( , = ∀i, puesto que la distancia de un objeto entre sí, es decir, la distancia de un punto respecto al mismo punto es igual a 0. 3. d ( , = d , , dado que la distancia entre un objeto y otro es simétrica, ya que la distancia entre dos puntos se puede hacer tomando como referencia a o a y esto no afecta su resultado. Claro está que se debe tener en cuenta unas de sus grandes falencias como lo son, en primer lugar, el saber que si hay variables de valores altos y valores bajos, los resultados se verán fácilmente influenciados por las restas de los valores altos en mayor proporción que por los valores bajos; y en segundo lugar, la naturaleza de las mismas, dado que si estas están correlacionadas darán una información en gran medida redundante. Sin embargo, el grupo decide utilizarla para el cálculo de las distancias, debido a que en primer lugar, las variables en general no muestran una dispersión en cuanto a sus valores (altos y bajos) respecto a las otras, así; Agua Proteínas Grasa Mínimo1 -2,592 -1,536 -0,885 Máximo2 0,954 1,201 2,338 En general se puede observar un intervalo de acción (en los números reales) de cada una de estas estimado entre [-2.592,2.338]; y en segunda medida, para identificar sí no se encuentran relacionadas se debe revisar el coeficiente de correlación que permite establecer 1 Se define como el valor mínimo entre los datos suministrados 2 Se define como el dato máximo entre los datos suministrados Página 12 de 98 a través de un indicador numérico la relación que existe entre dos o más variables cuantitativas, en donde se puede observar lo siguiente; Agua Proteínas Grasa Agua 1 -0,78418265 -0,91106861 Proteínas -0,78418265 1 0,62604445 Grasa -0,91106861 0,62604445 1 Nota: La anterior tabla se realiza mediante el paquete de Office (Excel) En Excel, al tener la base de datos, se accede en la parte superior al menú de “DATOS”, luego se da clic sobre el botón “Análisis de datos”; en el recuadro que se abre se escoge Coeficiente de Correlación, se da clic en “Aceptar” con lo cual se abre un parametrizador de datos en donde se piden los valores de entrada y allí se seleccionan las columnas con los datos, se selecciona “Rótulos en la primera fila” junto con un nuevo rango de salida (la misma hoja, una hoja nueva o libro nuevo); y finalmente se desarrolla la Matriz de Correlación. En adición a lo anterior, Excel maneja las siguientes formulas características para desarrollar el Coeficiente de Correlación, así; Donde: esla covarianza de . es la desviación estándar de la variable . es la desviación estándar de la variable . Nota: Dado que en este caso se tienen 3 variables, hay que hacer 3 veces el Coeficiente de Correlación entre [agua, proteínas], [agua, grasas] y [proteínas, grasas]. Página 13 de 98 Ahora bien, para calcular la covarianza toma como base el estimador insesgado de la covarianza denotado por de dos variables aleatorias e , así; Donde: hace referencia a los diferentes valores de la variable y es la media del conjunto de valores de la variable en cuestión, en este caso � − �̅ − ̅ − ̅ . representa la cantidad de objetos dentro del conjunto. Finalmente, toma en cuenta para la desviación estándar la expresión usada bajo la corrección de Bessel, que no toma una desviación poblacional sino una desviación muestral, en otras palabras, pasar de a − , quedando así; Nota: Como ya se especificó anteriormente se hará para cada una de las variables tomando los valores de la variable y su media (durante todo el proceso la media es definida como el promedio de los datos). Conforme a todo lo anterior, concluimos pues que están relacionadas dada la matriz de correlación, es decir, tenemos claro que la información de una o de otra forma tal vez podrá ser redundante a la hora de hacer el dendograma, pero este fenómeno no significa que sea errónea o que nos distorsione el mismo y su forma de construirlo. Página 14 de 98 Dado que usamos 3 variables, definimos la siguiente expresión matemática para el desarrollo del problema; d , , = ‖ − − ‖ = √∑ −= Que luego se traducirá así; d , , = √( − ) + ( − ) + ( − ) 2.3.3. Algoritmo de agrupación Al igual que la medida de similitud o distancia, el algoritmo de agrupación se escoge de manera subjetiva teniendo en cuenta que éste tiene ventajas y desventajas frente a lo que se pretenda hacer y los datos suministrados por el ejercicio. La lógica de usar el algoritmo es para ubicar la distancia entre los demás elementos respecto a cada asociación (Cluster) ya organizada. Así pues existen múltiples algoritmos a usar como lo son el método de Ward (varianza mínima), del Centroide, vecino más cercano, media (Average Linkage), el del vecino más lejano (Complete Linkage), entre otros. Para el estudio de este caso principalmente, vamos a usar el método del vecino más lejano (Complete Linkage), definido como la distancia máxima de un objeto dentro del Cluster respecto a uno fuera del mismo (obtenido previamente por la matriz de distancias por método Euclídeo), expresado de la siguiente manera; , + = � , , , Donde: es un elemento para agrupar y + es la unión de dos elementos que conforman el Cluster. � es determinar el número máximo de entre las 2 distancias. Página 15 de 98 Nota: Hay que entender que no se hace para agrupar los objetos, sino para determinar las distancias entre el Cluster y los demás objetos que se piensan clasificar e ir ubicándolos en la matriz de distancias. Lo anterior justificado en que este método permite identificar los outliers (datos atípicos), se puede usar para las diferentes medidas de similitud o distancia, tiende a construir Clusters pequeños y compactos; e invariante bajo transformaciones monótonas de la matriz de distancias. 2.4. Construcción del Dendograma Teniendo en cuenta las siguientes características, empezaremos la construcción del dendograma, así; A. La medida de similitud a utilizar es la “Distancia Euclidiana”. B. El algoritmo de agrupación a utilizar es el “Método del vecino más lejano – Furthest Neighbour – Complete Linkage”. C. Clasificación jerárquica aglomerativa (Dendograma). D. Definimos los objetos, así; Bisonte M Búfalo N Camello O Gato P Venado Q Perro R Delfín S Burro T Elefante U Zorro V Hipopótamo W Caballo X Llama Y Página 16 de 98 E. Matrices realizadas en Excel. F. Gráfico realizado por medio del complemento de Excel – statistiXL. G. Los cuadros de color amarillo en las matrices, significa un valor igual a 0. H. Las matrices son , de identidad o unidad por la diagonal =1; y simétrica, dado que al transponerla es igual � = � . Para empezar, debemos establecer la primer matriz de distancias Euclidianas basadas en la formula anteriormente vista, así; = � ( ( − ) + ( − ) + ( − ) ) 3 MATRIZ POR DISTANCIAS EUCLÍDEAS M N O P Q R S T U V W X Y M 0,760 0,395 1,571 2,821 1,658 4,816 0,889 1,547 0,757 1,211 0,655 0,286 N 0,760 0,897 1,160 2,090 1,045 4,080 1,454 1,162 0,272 1,621 1,279 0,786 O 0,395 0,897 1,888 2,976 1,909 4,885 0,566 1,355 1,001 0,828 0,385 0,145 P 1,571 1,160 1,888 1,768 0,558 3,949 2,442 2,109 0,959 2,694 2,215 1,764 Q 2,821 2,090 2,976 1,768 1,299 2,184 3,509 2,452 2,074 3,596 3,358 2,865 R 1,658 1,045 1,909 0,558 1,299 3,456 2,472 1,904 0,913 2,665 2,274 1,782 S 4,816 4,080 4,885 3,949 2,184 3,456 5,348 4,092 4,121 5,331 5,252 4,791 T 0,889 1,454 0,566 2,442 3,509 2,472 5,348 1,656 1,562 0,422 0,249 0,692 U 1,547 1,162 1,355 2,109 2,452 1,904 4,092 1,656 1,428 1,527 1,630 1,372 V 0,757 0,272 1,001 0,959 2,074 0,913 4,121 1,562 1,428 1,785 1,362 0,871 W 1,211 1,621 0,828 2,694 3,596 2,665 5,331 0,422 1,527 1,785 0,641 0,961 X 0,655 1,279 0,385 2,215 3,358 2,274 5,252 0,249 1,630 1,362 0,641 0,499 Y 0,286 0,786 0,145 1,764 2,865 1,782 4,791 0,692 1,372 0,871 0,961 0,499 3 X Agua; Y Proteínas y Z Grasas Página 17 de 98 Para establecer el primer Cluster (A), buscaremos la distancia mínima 0,145 (resaltada con color verde) y juntaremos estos dos objetos O e Y (camello-llama); y a partir del algoritmo de agrupamiento (Furthest Neighbour), hallaremos la distancia de A, respecto a los demás objetos desagrupados, basados en la siguiente formula, así; ∝, � = � ( ∝, : ∝ ) 4 Calculando las siguientes distancias (color verde), así; d(Y,O) Unión dA A 0,145 Y O Objetos M 0,286 0,395 0,395 N 0,786 0,897 0,897 P 1,764 1,888 1,888 Q 2,865 2,976 2,976 R 1,782 1,909 1,909 S 4,791 4,885 4,885 T 0,692 0,566 0,692 U 1,372 1,355 1,372 V 0,871 1,001 1,001 W 0,961 0,828 0,961 X 0,499 0,385 0,499 4 ∝ Objeto desagrupado; e Objetos/Clusters agrupados en el nuevo Cluster Página 18 de 98 De acuerdo a la anterior tabla, se regenera la matriz de distancias Euclidianas tomando como base las nuevas distancias halladas (resaltadas de color naranja), así; MATRIZ POR DISTANCIAS EUCLÍDEAS M N A P Q R S T U V W X M N 0,760 A 0,395 0,897 P 1,571 1,160 1,888 Q 2,821 2,090 2,976 1,768 R 1,658 1,045 1,909 0,558 1,299 S 4,816 4,080 4,885 3,949 2,184 3,456 T 0,889 1,454 0,692 2,442 3,509 2,472 5,348 U 1,547 1,162 1,372 2,109 2,452 1,904 4,092 1,656 V 0,757 0,272 1,001 0,959 2,074 0,913 4,121 1,562 1,428 W 1,211 1,621 0,961 2,694 3,596 2,665 5,331 0,422 1,527 1,785 X 0,655 1,279 0,499 2,215 3,358 2,274 5,252 0,249 1,630 1,362 0,641 Al haber generado la inclusión del primer Cluster (A) a la matriz, ahora se reiniciará el proceso hallando la mínima distancia (0,249) y agrupando los dos elementos T y X (burro- caballo) en el Cluster (B); de la misma manera se aplica el proceso de la aplicación del algoritmo de agrupamiento para calcular las nuevas distancias (color verde), así; d(X,T) Unión dB B 0,249 X T Objetos M 0,655 0,889 0,889 N 1,279 1,454 1,454 A 0,499 0,692 0,692 P 2,215 2,442 2,442 Q 3,358 3,509 3,509 R 2,274 2,472 2,472 S 5,252 5,348 5,348 U 1,630 1,656 1,656 V 1,362 1,562 1,562 W 0,641 0,422 0,641 Página 19 de 98 En secuencia lógica, como ya se viene trabajando reemplazamos (color naranja) en la matriz de distancias Euclidianas,así; MATRIZ POR DISTANCIAS EUCLÍDEAS M N A P Q R S B U V W M N 0,760 A 0,395 0,897 P 1,571 1,160 1,888 Q 2,821 2,090 2,976 1,768 R 1,658 1,045 1,909 0,558 1,299 S 4,816 4,080 4,885 3,949 2,184 3,456 B 0,889 1,454 0,692 2,442 3,509 2,472 5,348 U 1,547 1,162 1,372 2,109 2,452 1,904 4,092 1,656 V 0,757 0,272 1,001 0,959 2,074 0,913 4,121 1,562 1,428 W 1,211 1,621 0,961 2,694 3,596 2,665 5,331 0,641 1,527 1,785 Continuando con el proceso, ahora se determina que la distancia mínima es la de 0,272, correspondiente a los objetos V y N (zorro-búfalo) conformando así el Cluster C; aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(V,N) Unión dC C 0,272 V N Objetos M 0,757 0,760 0,760 A 1,001 0,897 1,001 P 0,959 1,160 1,160 Q 2,074 2,090 2,090 R 0,913 1,045 1,045 S 4,121 4,080 4,121 B 1,562 1,454 1,562 U 1,428 1,162 1,428 W 1,785 1,621 1,785 Página 20 de 98 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS M C A P Q R S B U W M C 0,760 A 0,395 1,001 P 1,571 1,160 1,888 Q 2,821 2,090 2,976 1,768 R 1,658 1,045 1,909 0,558 1,299 S 4,816 4,121 4,885 3,949 2,184 3,456 B 0,889 1,562 0,692 2,442 3,509 2,472 5,348 U 1,547 1,428 1,372 2,109 2,452 1,904 4,092 1,656 W 1,211 1,785 0,961 2,694 3,596 2,665 5,331 0,641 1,527 Siguiendo los pasos del proceso, ahora se determina que la distancia mínima es la de 0,395, correspondiente a los objetos A y M (Cluster A-bisonte) conformando así el Cluster D; aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(A,M) Unión dD D 0,395 A M Objetos C 1,001 0,760 1,001 P 1,888 1,571 1,888 Q 2,976 2,821 2,976 R 1,909 1,658 1,909 S 4,885 4,816 4,885 B 0,692 0,889 0,889 U 1,372 1,547 1,547 W 0,961 1,211 1,211 Página 21 de 98 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS C D P Q R S B U W C D 1,001 P 1,160 1,888 Q 2,090 2,976 1,768 R 1,045 1,909 0,558 1,299 S 4,121 4,885 3,949 2,184 3,456 B 1,562 0,889 2,442 3,509 2,472 5,348 U 1,428 1,547 2,109 2,452 1,904 4,092 1,656 W 1,785 1,211 2,694 3,596 2,665 5,331 0,641 1,527 Manteniendo la secuencia de los pasos del proceso, ahora se determina que la distancia mínima es la de 0,558, correspondiente a los objetos P y R (gato-perro) conformando así el Cluster E. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde). d(R,P) Unión dE E 0,558 R P Objetos C 1,045 1,160 1,160 D 1,909 1,888 1,909 Q 1,299 1,768 1,768 S 3,456 3,949 3,949 B 2,472 2,442 2,472 U 1,904 2,109 2,109 W 2,665 2,694 2,694 Página 22 de 98 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS C D E Q S B U W C D 1,001 E 1,160 1,909 Q 2,090 2,976 1,768 S 4,121 4,885 3,949 2,184 B 1,562 0,889 2,472 3,509 5,348 U 1,428 1,547 2,109 2,452 4,092 1,656 W 1,785 1,211 2,694 3,596 5,331 0,641 1,527 Manteniendo la secuencia de los pasos del proceso, ahora se determina que la distancia mínima es la de 0,641, correspondiente a los objetos B y W (Cluster B-hipopótamo) conformando así el Cluster F. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde). d(B,W) Unión dF F 0,641 B W Objetos C 1,562 1,785 1,785 D 0,889 1,211 1,211 E 2,472 2,694 2,694 Q 3,509 3,596 3,596 S 5,348 5,331 5,348 U 1,656 1,527 1,656 Página 23 de 98 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS C D E Q S F U C D 1,001 E 1,160 1,909 Q 2,090 2,976 1,768 S 4,121 4,885 3,949 2,184 F 1,785 1,211 2,694 3,596 5,348 U 1,428 1,547 2,109 2,452 4,092 1,656 Ahora, se determina que la distancia mínima es la de 1,001, correspondiente a los objetos C y D (Cluster C-Cluster D) conformando así el Cluster G. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(C,D) Unión dG G 1,001 C D Objetos F 1,785 1,211 1,785 E 1,160 1,909 1,909 Q 2,090 2,976 2,976 S 4,121 4,885 4,885 U 1,428 1,547 1,547 Página 24 de 98 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS G E Q S F U G E 1,909 Q 2,976 1,768 S 4,885 3,949 2,184 F 1,785 2,694 3,596 5,348 U 1,547 2,109 2,452 4,092 1,656 Ahora, se determina que la distancia mínima es la de 1,547, correspondiente a los objetos G y U (Cluster G-elefante) conformando así el Cluster H. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(G,U) Unión dH H 1,547 U G Objetos F 1,656 1,785 1,785 E 2,109 1,909 2,109 Q 2,452 2,976 2,976 S 4,092 4,885 4,885 Página 25 de 98 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; Ahora, se determina que la distancia mínima es la de 1,768, correspondiente a los objetos E y Q (Cluster E-venado) conformando así el Cluster I. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(E,Q) Unión dI I 1,768 E Q Objetos F 2,694 3,596 3,596 H 2,109 2,976 2,976 S 4,885 2,184 4,885 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS H I S F H I 2,976 S 4,885 4,885 F 1,785 3,596 5,348 MATRIZ POR DISTANCIAS EUCLÍDEAS H E Q S F H E 2,109 Q 2,976 1,768 S 4,885 3,949 2,184 F 1,785 2,694 3,596 5,348 Página 26 de 98 Ahora, se determina que la distancia mínima es la de 1,785, correspondiente a los objetos H y F (Cluster H-Cluster F) conformando así el Cluster J. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(H,F) Unión dJ J 1,785 F H Objetos I 3,596 2,976 3,596 S 5,348 4,885 5,348 Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; MATRIZ POR DISTANCIAS EUCLÍDEAS I S J I S 4,885 J 3,596 5,348 Ahora, se determina que la distancia mínima es la de 3,596, correspondiente a los objetos I y J (Cluster I-Cluster J) conformando así el Cluster K. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; d(I,J) Unión dK K 3,596 I J Objetos S 4,885 5,348 5,348 Página 27 de 98 Reemplazamos en la matriz final de distancias Euclidianas, así; MATRIZ FINAL DE DISTANCIAS EUCLÍDEAS K S K S 5,348 Para finalizar, se puede concluir que el objeto o mamífero más lejano o menos cerca a los demás es el S (Delfín), con una distancia al último Cluster formado (K) de 5,348. dFinal Final 5,348 Al haber concluido con la construcción matemática de las distancias y los agrupamientos de las mismas para poder unir los diferentes mamíferos, podemos resumir en las siguientes tablas la forma en que se unen secuencialmente para formar el dendograma, así; ESTRATEGIA DE CLUSTER Cluster Objetos Unidos Distancia A Y O 0,145 B X T 0,249 C V N 0,272 D A M 0,395 E R P 0,558 F B W 0,641 G D C 1,001 H G U 1,547I E Q 1,768 J H F 1,785 K J I 3,596 Final K S 5,348 Página 28 de 98 En suma, con la tabla anterior, haremos las respectivas correspondencias, para tener la información más clara y específica; por lo tanto se hará el dendograma con la siguiente tabla final. ESTRATEGIA DE CLUSTER Cluster Objetos Unidos Distancia Cluster A Llama Camello 0,145 Cluster B Caballo Burro 0,249 Cluster C Zorro Búfalo 0,272 Cluster D Cluster A Bisonte 0,395 Cluster E Perro Gato 0,558 Cluster F Cluster B Hipopótamo 0,641 Cluster G Cluster D Cluster C 1,001 Cluster H Cluster G Elefante 1,547 Cluster I Cluster E Venado 1,768 Cluster J Cluster H Cluster F 1,785 Cluster K Cluster J Cluster I 3,596 Cluster Final Cluster K Delfín 5,348 Nota: A partir de la tabla anterior se realiza el dendograma. (Nos hemos ayudado con el complemento para Excel “statistiXL”, solo para la gráfica); para usarlo solo es introducir los datos a la hoja de Excel y seguir la siguiente ruta; 1. Ir a la pestaña Complementos. 2. Clic sobre el complemento statistiXL. 3. Se despliega una serie de opciones y darle clic a “Clustering”. 4. Se abre un parametrizador. En la parte superior INPUT 5. En donde dice “Data Set” se introducen las celdas donde se encuentran los datos. Página 29 de 98 6. En “Data Tipe” se selecciona “Distance Matrix” junto con la marcación de “Labels in First Col?”. 7. En “Cluster Method” se selecciona “Furthest Neighbour”. En la parte inferior OUTPUT 8. En “Output Range” se seleccionan las celdas de salida. 9. Finalmente se marca el espacio “Graph Dendogram” 10. Se da clic en Aceptar y saldrá en dendograma graficado así. Página 30 de 98 2.5. Dendograma Llama Camello Caballo Burro Zorro Búfalo 0,145 Bisonte Perro Gato 0,249 Hipopotamo 0,395 0,272 1,001 Elefante 0,558 Venado 1,547 0,641 1,785 1,768 3,596 Delfín 5,348 -0,117749 1,3822509 2,8822509 4,3822509 5,8822509 Página 31 de 98 2.6. Conclusiones a partir del Dendograma Para determinar conclusiones a partir del dendograma, partimos desde la premisa de que los datos suministrados están estandarizados con media de 0 y desviación estándar de 1, lo cual indica que si colocamos en una recta las variables, obtendríamos las siguientes gráficas, así; Ubicación en línea recta de la variable agua Ubicación en línea recta de la variable proteínas Ubicación en línea recta de la variable grasas Página 32 de 98 Por lo tanto podemos evidenciar, describir e interpretar respecto a las variables y los mamíferos, lo siguiente; a) En primer lugar, podemos ver que el delfín, en variables como agua y grasa, se encuentra muy alejado de la media 0 y por lo tanto del grupo; esto hace que no se una en un Cluster intermedio sino que sea el último mamífero para unirse y que lo haga con el penúltimo Cluster a una altura de 5.348. b) En segundo lugar, podemos observar que; la llama y el camello; estos con el bisonte; el zorro y el búfalo; y el caballo con el burro, se unen rápidamente debido a que frente a su estandarización en las 3 variables, se ubican de manera cercana debido a la similitud entre ellos, principalmente como ya se ha hablado en las variables agua y grasas; las anteriores uniones se ven influenciadas respectivamente por las variables grasa; agua; agua; y tanto en agua como en grasas. Las anteriores uniones basadas en una distancia de agrupación en el intervalo [0,0.4]. c) En tercer lugar, la unión entre (llama-camello-bisonte) y (zorro-búfalo) se presenta debido a que los Cluster se encuentran muy cercanos, principalmente en la variable agua, en las otras también hay una cercanía fuerte pero menos identificable a primera vista; esta unión prácticamente se hace a una altura unitaria. Nota: Hasta aquí las diferentes uniones o agrupaciones entre los objetos se ven influenciadas por las cercanías bastante fuertes de las 3 variables en general. d) En cuarto lugar, podemos establecer que la unión, del perro y el gato, del hipopótamo con el (caballo-burro); y el elefante con el (búfalo-zorro-bisonte-llama-camello); se dan debido a que; en la primera, aunque no se encuentran en una relación muy estrecha, en las tres variable presentan una lejanía muy similar, es decir, la distancia entre los mamíferos en agua es la misma en grasas y proteínas respecto a otros mamíferos, lo que hace que tengan una relación más fuerte entre sí respecto a distancias más cercanas en una única Página 33 de 98 variable; en la segunda, se puede evidenciar que en la variable agua, este presenta una relación muy fuerte/estrecha con respecto al caballo-burro; y en la tercera, dado que este presenta una estandarización muy similar en variables como agua y proteínas (especialmente con el bisonte y la llama), así esté bastante alejado del grupo en la variable grasas. Las anteriores uniones se hacen a la altura del intervalo [0.5, 1.6]. e) En quinto lugar, podemos evidenciar que la uniones por un lado del venado con el (perro- gato) y por el otro del (caballo-burro-hipopótamo) con el (elefante-búfalo-zorro-bisonte- llama-camello) se presentan correspondientemente así; La primera principalmente por 2 factores; en variables como agua y grasas el venado está muy alejado del grupo, es decir, su estandarización frente a la media no es similar con la mayoría de los miembros en estas dos variables, mientras que en la variable proteínas, está muy cerca al Cluster formado por el perro-gato, con lo cual se puede establecer que la variable proteínas es la que genera la unión de este mamífero. La segunda se presenta debido a que si observamos la Imagen N°. 1, es decir, la variable agua, se concluye que está variable determina principalmente el desarrollo de esta unión, puesto que la estandarización de esta los ubica al lado derecho de esta, junto con que sus valores no son muy lejanos (incluso podemos observar como esta variable muestra cómo se formaron los Clusters que hacen parte de esta unión). f) Finalmente podemos establecer que la unión del penúltimo Cluster no se encuentra relativamente relacionado a una variable, sino es una redundancia del ejercicio, puesto que es el grupo de mamíferos más cercanos, dado que el delfín muestra una desviación muy fuerte en las variables agua y grasa. Por lo cual se unen para identificar una relación, de ahí es que de una altura de 1.785 se pase a una de 3.596 (se puede decir que es el doble de altura a al que ya más del 50% de los mamíferos se han unido). Nota: Como conclusión general el grupo establece que la variable agua es la más fuerte a la hora de organizar los Cluster, le sigue la grasa con una menor proporción y finalmente la proteína, puesto que ésta última solo define la unión de 1 solo Cluster. Página 34 de 98 3) INFORME EJECUTIVO DE LA SITUACIÓN ACTUAL DE LOS DESPLAZADOS EN COLOMBIA Las poblaciones victimas de desplazamiento forzoso migran intempestivamente y dejan atrás sus actividades económicas habituales, sus lazos sociales, su estilo de vida y su identidad (Ibáñez, Moya y Velásquez, 2005); de manera que tanto su bienestar como calidad de vida se ven sumamente deteriorados. Actualmente los hogares colombianos víctimas del desplazamiento han perdido todos los factores que les generaban seguridad y estabilidad al tener que movilizarse a territorios diferentes al de su origen. Entre dichos factores se encuentran la tierra, la vivienda, el empleo, la educación, el servicio de salud, entre otros. Las familias desplazadas están compuestas por un gran número de miembros; en promedio un jefe de hogar debe mantener 2,8 hijos o hijastros, y en total 4,13 miembros, haciendo difícil la situación económica del hogar. Por otro lado el nivel educativo de los miembros de la familia es bastante bajo, dificultando de esta manera la obtención de empleo.Según el análisis de los datos el 21,75% de la población desplazada no sabe leer ni escribir, dentro de este porcentaje el 22,04% corresponde a los jefes del hogar. Se sabe también que la media de los años de escolaridad de los miembros es 4,175087 años, (la media se ve afectada por los outliers que se presentan en el gráfico de boxplot, estos son aquellas personas que tienen un título universitario, o inclusive uno de posgrado), y que la mayor parte de individuos (65,46%) solo ha logrado alcanzar un título de básica primaria, aumentando así las desventajas de esta población. Antes del desplazamiento, la mayor parte de personas se desempeñaba en las labores de agricultura (37,69%), le seguía las actividades del hogar (25,75%) y otras labores (14,73%); al llegar a los municipios de recepción la participación en un empleo disminuyó, pasando de 6163 a 896 personas ocupadas (de aquellas que respondieron la encuesta), los desempleados pasaron de un 7,51% a un 13,06%; la agricultura disminuyo (21,21%), al igual que los oficios del hogar (22,66%) y otras actividades aumentaron (20,20%); sectores como el comercio pasaron a tomar un papel un poco más relevante (5,99%-9,49%) , al igual que el de servicios (4,71%-6,58%). Después de la movilización un 19,72% de las personas se encontraban Página 35 de 98 buscando empleo. Con lo anterior se puede decir que dada la poca escolaridad de los jefes de hogar y demás miembros, al igual que la disminución de la demanda de labores agrícolas en las urbes, la situación económica de los desplazados es bastante precaria, ya que al no poseer los conocimientos necesarios al igual que la experiencia para desarrollar otro tipo de labores, intentar de conseguir un empleo para mantener a los miembros del hogar se hace sumamente difícil. En base a la encuesta de hogares desplazados realizada en el 2004 por la Universidad de los Andes, se puede determinar que el 42,18% de las víctimas de desplazamiento contaban con afiliación al servicio de salud mientras que un 57,82% no lo poseía, después de trasladarse a los municipios de recepción el número de afiliados subió a un 71,22% (ver anexo 2), esto es explicado por la facilidad de financiación del servicio de salud a comunidades desplazadas por parte del gobierno y otras entidades tales como ONG’S. Sin embargo, esto no garantiza una mejora en las condiciones de la salud de aquellos que han sido desplazados. A partir de tablas de frecuencias (las cuales permiten determinar el número y el porcentaje de unidades de análisis, en este caso enfermedades) se determina que las enfermedades más graves con mayor incidencia en esta población han sido los problemas respiratorios (14,94%), diarrea (18,86%) y fiebre (32,11%), enfermedades generalmente originadas a causa de la desnutrición y deficientes condiciones de salubridad; las cuales han sido padecidas en una mayor proporción en menos de un mes (66,67%), podría decirse que han sido adquiridas después del desplazamiento. Según lo anterior se puede decir que condiciones como la inestabilidad económica han contribuido en el aumento de esta problemática, ya que al no poseer los medios suficientes para cubrir necesidades básicas (tales como la alimentación), los individuos caen en problemas de desnutrición, aumentando el nivel de vulnerabilidad de esta población, haciendo que sea más susceptible a otro tipo de enfermedades. El desplazamiento genera la perdida de la tierra, la vivienda y los activos de los hogares, con lo que también se genera desempleo, marginación, el deterioro en las condiciones de salud, inseguridad alimentaria y empobrecimiento (Ibáñez, Moya y Velásquez, 2005). Página 36 de 98 3.1. Anexos Afiliados al sistema de seguridad social de salud Origen Recepción Afiliados 42,18% 71,22% No afiliados 57,82% 28,78% Total 100,00% 100,00% Parentesco con el jefe de hogar Frecuencia Frecuencia relativa Frecuencia relativa acumulada Individuo por jefe de hogar jefe de hogar 2300 19,47% 19,47% Cónyuge 1573 13,31% 32,78% 0,68391 hijo, hijastro 6537 55,33% 88,11% 2,84217 nieto 648 5,48% 93,59% 0,28174 Padres 171 1,45% 95,04% 0,07435 Hermano 156 1,32% 96,36% 0,06783 nuera, yerno 112 0,95% 97,31% 0,04870 Abuelos 27 0,23% 97,54% 0,01174 Suegros 53 0,45% 97,99% 0,02304 Tío 2 0,02% 98,00% 0,00087 sobrino 136 1,15% 99,15% 0,05913 Primo 12 0,10% 99,26% 0,00522 cuñado 39 0,33% 99,59% 0,01696 otro familiar 30 0,25% 99,84% 0,01304 no pariente 14 0,12% 99,96% 0,00609 Amigo 5 0,04% 100,00% 0,00217 Total 11815 100,00% 4,13696 Enfermedades más graves que ha tenido en los últimos 12 meses Frecuencia Frecuencia relativa Frecuencia relativa acumulada 0 2 0,02% 0,02% lesión 373 4,64% 4,66% enfermedad mental 85 1,06% 5,72% problema respiratorio 1.202 14,94% 20,66% problema del corazón 165 2,05% 22,71% presión arterial 328 4,08% 26,79% Fiebre 2.583 32,11% 58,89% Diarrea 1.517 18,86% 77,75% Página 37 de 98 discapacidad permanente 161 2,00% 79,75% otra 1.628 20,24% 99,99% 74 1 0,01% 100,00% Total 8.045 100,00% Cuanto tiempo ha padecido la enfermedad Frecuencia Frecuencia relativa Frecuencia relativa acumulada menos de un mes 5.080 66,67% 66,67% entre un mes y un año 993 13,03% 79,70% Más de un año 1.246 16,35% 96,05% desde el nacimiento 295 3,87% 99,92% 7 2 0,03% 99,95% 9 3 0,04% 99,99% 5 1 0,01% 100,00% Total 7.620 100,00% Grado escolar más alto alcanzado 0 5 1 0 1 5 cu ál e ra e l g ra do e sc ol ar m ás a lto a lc an za do p or u st ed Página 38 de 98 4) COEFICIENTE DE THEIL Henri Theil fue uno de los pioneros de la econometría moderna quien con su trabajo ha influido en toda una generación de economistas; hizo importantes aportes a la teoría de la agregación, la información y su aplicación económica, las ciencias de la administración, el análisis de la demanda del consumidor, la política económica cuantitativa y a diferentes investigaciones econométricas, entre otras cosas. En efecto, uno de sus más grandes aportes a la economía fue el Coeficiente de Theil, una medida de desigualdad de los ingresos de una determinada población que surge a partir del concepto de entropía (incertidumbre o desorden) que el mismo definió como “el valor esperado del logaritmo de las probabilidades con signo negativo”. (Altimir & Piñera, pág. 1) Se caracteriza por tener propiedades de descomposición que permiten “analizar la asociación existente entre el grado de desigualdad de una determinada variable y el grado de desigualdad de una serie de variables explicativas (Altimir & Piñera, pág. 1); en este caso la variable general es la población norteamericana y a partir de ella se hace una desagregación según las características que posea como la edad, los años de educación, el coeficiente intelectual, etc. 1. El coeficiente de entropía de la distribución de ingresos está dado por: H (y) = - ∑ XiLn XiNi Donde: N es el número de individuos de la población. � es la participación de cada individuo dentro del total de las rentas. El coeficiente de desigualdad fluctúa entre 0 (perfecta desigualdad) y log N (perfecta igualdad) 2. Theil transforma la fórmula de entropía en una medida de desigualdad restando su valor de su propio valor máximo, así T = Ln N – H y Página 39 de 98 = ∑ Xii Ln nu⁄ Nota: El valor máximo de la medida de igualdad es cuando todos los individuos ganan la misma proporción de rentas. Donde: es la participación de la u-ésima unidad en la población y corresponde a 1/N entonces:= ∑ X Ln � N⁄⁄ 3. Para que el campo de variación no cambie respecto al tamaño de la población se estandariza el índice dividiendo el valor que tome por el logaritmo del tamaño de la población respectiva: T* = TLn N 4.1. Paso a paso Para comenzar se debe hallar el coeficiente de Theil de la variable general sin hacer ningún tipo de segregación, para ello se usa el siguiente esquema: Donde: Individuo es la posición que toma (no es necesario que tenga un orden específico). Wage es el ingreso del individuo. Xi es la participación de cada individuo en el ingreso total. XiN mide la desviación relativa del ingreso del individuo con respecto al promedio. Ln (XiN) se halla para establecer los individuos con ingresos por debajo del promedio (negativo) y por encima (positivo). XiLn (XiN) consiste en asignarle a cada una de las desviaciones logarítmicas una ponderación equivalente a la participación de cada individuo en el ingreso total, al hacer esto el coeficiente siempre sea positivo. Página 40 de 98 Procedimiento: 1. Se sabe que el número total de individuos es 935. 2. Los ingresos de cada individuo son dados por el ejercicio. 3. El porcentaje que le corresponde al ingreso está dado por la división de este mismo en la suma de todos los ingresos. Así: 4. La desviación relativa del ingreso del individuo con respecto al promedio se halla multiplicando el número de individuos, en este caso 935, con el porcentaje que se halló en la operación inmediatamente anterior. 5. Para hallar cuales ingresos están bajo el promedio o por encima se saca el Ln de la desviación relativa. 6. El resultado de la operación anterior se multiplica por la participación de cada individuo dentro de los ingresos total, después se suma el resultado de todos los individuos. Página 41 de 98 7. El resultado de la suma anterior se divide por el logaritmo del total de los individuos, esto nos dará el coeficiente de Theil, es decir, el coeficiente de desigualdad en los ingresos de esta población. Ahora bien, como se indicó anteriormente el índice de Theil permite hacer una desagregación de la población teniendo en cuenta sus características; esto se hace para saber qué población dada unos aspectos tienden a tener mayores ingresos y a partir de la información adquirida poder tomar medidas al respecto. Nota: Para hacer el paso a paso tomaremos como ejemplo si los individuos son afroamericanos o no lo son; en la base de datos toman el valor de 1 y 0 respectivamente. Para hallar el coeficiente de Theil según la característica utilizaremos el siguiente formato: Donde: Vj es la participación del grupo j en el ingreso total. Zij es la participación del individuo-i en el ingreso del grupo j. Nj es el número de individuos del grupo j. N es el número total de individuos. ZijNj mide la desviación relativa del ingreso del individuo con respecto al promedio. Ln (ZiNj) ayuda a identificar los individuos con el ingreso por encima y debajo del promedio. 1. Se filtran los datos y se ordenan de menor a mayor o viceversa. Página 42 de 98 2. Se seleccionan los datos de los ingresos de todos aquellos que tienen el número cero (no afrodescendientes) y se copian en la parte del formato que dice wage luego de eso se le otorga un número a cada dato empezando por el uno; se repite el procedimiento con los ingresos que tienen el número 1 (individuos afrodescendientes) 3. Se cuenta el total de los individuos en cada grupo que deberá ser igual al número del individuo del último dato, desde ahora se denominará Nj; en el primer caso el número de afrodescendientes es de 120, y aquellos que no lo son suman 815, es importante que la suma de estos dos datos de 935, de lo contrario no se estarían tomando todos los individuos de la población. 4. A continuación, para saber la participación del individuo-i en el ingreso del grupo j se dividirá su ingreso en la suma de los ingresos totales como se hizo en la fórmula general. 5. Para hallar la desviación relativa del ingreso del individuo respecto al promedio se multiplica su participación en los ingresos (el dato anterior) por el número de individuos del grupo. Página 43 de 98 6. Se halla el logaritmo de la desviación para establecer si su ingreso está por encima del promedio o debajo de él y se multiplica por la participación del individuo en los ingresos totales. 7. Para poder llenar la última casilla del formato es necesario primero hallar el valor de Vj que es la participación del grupo j en el ingreso total. Para ello utilizaremos el siguiente esquema: Nota: Es importante aclarar que los pasos que se han realizado hasta ahora se deben realizar de forma simultánea para ambos grupos, es decir para los afroamericanos y los no afroamericanos. Básicamente hasta ahora se deben tener los siguientes datos listos. Este es el dato que necesitamos para hallar el último valor. Página 44 de 98 8. Ahora bien, se debe calcular el ingreso total de cada grupo, para esto se suman todos los datos de la casilla wage; es importante tener en cuenta que la suma de ambos tiene que dar exactamente 895.679 no solo para este caso sino para todos. 9. Para hallar el valor de Vj (participación del grupo j en el ingreso total) se debe dividir el valor de la suma de los ingresos de cada grupo en los ingresos totales. Por ejemplo, la participación de los afrodescendientes seria 88.301/895.679 esto da como resultado 0.099; al hacer lo mismo con los dos no afrodescendientes da 0,901. 10. Con el dato anterior ya se puede llenar la última casilla del primero formato, esto se hace multiplicado la participación del grupo por cada Zi Ln (ZiNj) (dato de la casilla izquierda). 11. Para cada grupo se suma el valor total de Vj*ZijLn (ZijNj); y luego se divide este valor por el Ln de N (la suma de los individuos de cada conjunto); esto se hace para ambos grupos. 12. La suma de los dos resultados anteriores nos dará la desigualdad entre grupos (T1) Página 45 de 98 13. Para hallar la desigualdad dentro de cada grupo (T2) se debe multiplicar el Vj (participación del grupo j en el ingreso total) de cada conjunto por el logaritmo natural de ese mismo número multiplicado por la suma de Nj de ambos grupos (el total de individuos) y dividiendo en el Nj del grupo respectivo. En el caso de los afrodescendientes seria así: = 0.099* Ln ((0.099*(120+815))/120) 14. El dato anterior se divide en el logaritmo natural de 935 (número de individuos de la población). Se hace con ambos grupos y se suma el resultado, que será el T2. 15. Finalmente se suman el T1 y el T2 para obtener el coeficiente de desigualdad de la población que debe dar 0.0122. Nota: hay que tener en cuenta que sin importar que característica se esté observando el coeficiente de Theil siempre será el mismo al final. Como se puede observar hay casos en los que las características no están determinadas en 0 o 1 como en el caso anterior sino que tiene un valor específico, por ejemplo la edad, la experiencia, los años de educación; para estos casos el procedimiento es prácticamente igual, pero para saber cómo dividir los grupos se debe usar el siguiente formato: Nota: en el siguiente paso vamos a utilizar 3 desviaciones, esto se hace bajo los parámetros de la función de distribución normal que cumple con las siguientes propiedades: Página 46 de 98 No importa cuales sean los valores de la media y la desviación para una distribución de probabilidad normal, el área total bajo la curva siempre es 1. Aproximadamente el 68% de todos los valores de una población normalmente distribuida se encuentra dentro de+/- 1 desviación estándar media; el 95.5% se halla dentro de +/- 2 desviaciones estándar y el 99.7% está dentro de +/- 3 desviaciones estándar. 1. Ahora bien, para hallar la media solo es necesario sacar el promedio de los datos que nos dan; para encontrar la desviación usamos la fórmula =DESVEST.M y el dato que obtenemos lo multiplicamos en el primer caso por 3 y en segundo por -3 y ambos se suman con la media; esto nos dará como resultado el rango en el que estarán divididos los grupos; es decir, el primer grupo estará compuestos por aquellos que están debajo de la media, y los otros los que están por encima de la media. Nota: hay características que no tienen todos los datos, específicamente los años de educación de la madre y el padre, para eso hemos dividido la población en tres: los que no tienen datos, los que están debajo del promedio y los que están por encima del promedio; delimitando el rango como se explicó anteriormente pero solo con los que tienen datos. Ilustración 1 Distribución normal Página 47 de 98 4.2. Exponga las ventajas que tiene el coeficiente de Theil sobre el coeficiente de Gini. El coeficiente de Theil presenta ciertas ventajas analíticas frente a otros índices de desigualdad ya que permite estudiar el efecto que pueden tener diferentes factores en el margen de diferencia económica dentro de un territorio. Por otro lado, “dos países pueden tener el mismo Coeficiente de Gini aunque tengan diferentes desigualdades ya que las dos curvas de Lorenz pueden tener la misma área pero diferentes formas” (Sharma); además, la desigualdad representada no puede descomponerse dentro y entre los subgrupos de la población; no puede haber tantos grupos definidos como uno puede desear con respecto a sus características. En efecto, el Coeficiente de Gini sería una medida de desigualdad más exacta si se tuviesen todos los datos de cada individuo, aseguraría una curva más puntual de Lorenz y un cálculo más preciso del coeficiente, pero como esto no es posible, al hacer el cómputo usualmente se toma una integral sobre la función de distribución definida, ajustando los datos obtenidos a esta curva. Si bien, al querer analizar los datos a nivel individual de la población, el índice de “Theil es una herramienta más apropiada ya que da una imagen más precisa por la forma en que se mide” (Sharma), para ser más claros, el valor del Coeficiente de Theil está compuesto de dos partes: la primera, es la desigualdad entre grupos, y la segunda, la disparidad al interior de ellos, permitiendo analizar más datos y particularidades que el Coeficiente de Gini; básicamente brinda la posibilidad de descomponer una población por partes basándose en los aspectos que posee, ofreciendo una solución al análisis general que hace el método convencional de las correlaciones factoriales. Es una mejor herramienta para el análisis de la diferencia económica entre regiones, ya que sugiere la importancia relativa de la dimensión espacial de la desigualdad. Entre otras cosas, el Coeficiente de Theil es invariante a cambios escalares, si se incrementa la población proporcionalmente en todos los grupos, o hay un cambio en la prevalencia que no altera sus tasas relativas, la medida de la desigualdad se mantiene constante. Página 48 de 98 4.3. Análisis El Coeficiente de Theil tomado del total de la población, sin hacer ningún tipo de abstracción fue de 0.0122, en si el solo dato no nos dice nada, por ello se calculó cual debería ser el índice si la población tuviera una distribución equitativa, una perfecta distribución, o una distribución no equitativa; en orden respectivo los datos obtenidos fueron: 0,0111, 0, y 6,8405; ya teniendo esta información se puede decir que la distribución de los ingresos dentro de esta población tiende a ser equitativa, esto sucede porque es la menor de las diferencias entre el coeficiente y las otras cifras. Al hacer la separación de la población de acuerdo a las características que presentaba, el coeficiente de desigualdad siempre da lo mismo, esto sucede porque si bien hay factores que influyen en la cantidad de ingresos que una persona tiene, al hacer la división por grupos la población que se está analizando es la misma. 4.3.1. Horas La primera característica a partir de la cual se hizo la desagregación fueron las horas por semana que le dedicaba una persona a su trabajo; la clasificación se hizo en dos partes, aquellos que dedicaban entre 20 y 43 horas, y quienes laboraban más de 43; los ingresos del primer grupo representan el 61% del total de las rentas de la población, y los demás tienen una participación del 39%. Ahora bien, como se sabe el coeficiente de Theil mide dos tipos de desigualdad, inter grupos e intra grupos, para el primer caso la entropía generada es tan pequeña dentro de cada uno que es del 0%, en otras palabras, la diferencia económica que hay al interior de cada grupo es muy pequeña, prácticamente nula, por consiguiente, la desigualdad entre los grupos es del 100% sobre la desigualdad total de la población. Entre otras cosas, se puede decir que aquellos que los que trabajan entre 20 y 43 horas concentran mayor parte de los ingresos, con una diferencia del 8,34% con respecto a aquellos que trabajan más de 43 horas. Página 49 de 98 Esto se puede deber a que es mayor la cantidad de gente que labora menos de 43 horas, y aunque pueda que ganen menos, la suma de todos sus ingresos da más. 4.3.2. IQ El segundo aspecto que fue tomado para hacer la desagregación fue el IQ (coeficiente intelectual de las personas), en este caso la división hecha fue entre aquellos que tenían un IQ de 50 a 101 y quienes tenían de 102 a 150; los ingresos del primer grupo representan el 43% de los ingresos totales, y el 57% el segundo. Ahora bien, la entropía generada dentro de los grupos no era igual de relevante que la que se daba entre los grupos, no obstante en este caso fue de 8%, esto quiere decir que se presenta desigualdad dentro de los mismos conjuntos pero baja en comparación con la otra del 92% sobre el total. El mayor grado de entropía entre los grupos fue generado por aquellos que tenían un IQ entre 101 y 145, es decir que son ellos quienes concentran mayor parte de los ingresos. 4.3.3. Educación El tercer aspecto a analizar son los años de educación de las persona, la población fue dividida entre aquellos que tenían entre 9 y 13 años de educación y entre 14 y 19, los ingresos del primer grupo son el 54% de los ingresos de toda la población, por ende el otro 46% es el porcentaje de la renta de los que tienen más años de educación. Hay mayor grado de desigualdad se presenta entre grupos y no al interior de ellos, siendo el porcentaje de contribución al índice total del 91% y el 9%, en ese mismo orden; en la entropía generada entre grupos, aquellos que tienen menos años de educación son los que concentran mayor cantidad de dinero. De manera similar al aspecto de las horas, quienes tienen menos años de educación son quienes tienen una mayor participación dentro de los ingresos totales de la población, pero Página 50 de 98 esto se debe no a la condición en si misma sino por la diferencia de personas que hay entre un grupo y otro, que es casi de 200. 4.3.4. Experiencia El cuarto aspecto que se tomó en cuenta fueron los años de experiencia de las personas, la forma en que fueron divididos los grupos fue en aquellos que tenían entre 1 año y 11, y los que tenían de 12 a 23. Los ingresos de quienes tienen menos años de experiencia son el 52% del total, mientras quienes tienen más de 12 constituyen el 48% del mismo; en este caso también se puede observar que el 100% de la entropía es generada por la desigualdad entre los grupos, así mismo, quienes tienen menos años de experiencia son los que acumulan mayor parte del dinero,esto pasa por que hay mayor cantidad de gente en este grupo y por ende sus ingresos suman más. 4.3.5. Edad Otro aspecto a analizar es la edad de las personas, la forma en que se fraccionan los grupos es dependiendo si tienen entre 28 a 33 años o si es mayor de 33, la participación de los grupos es muy similar a los ya nombrados, de 54% y 46% respectivamente. El 2% de la entropía es generada por la desigualdad dentro de los grupos y el 98% restante es creada por la desigualdad entre los grupos, los que acumulan mayor parte de los ingresos son los que pertenecen al grupo de los más jóvenes. 4.3.6. Casados – No casados Este grupo, como su nombre lo indica se divide en casados y no casados; la diferencia en la participación de los ingresos es más evidente que en los casos anteriores, pues la renta de las personas casadas representa el 91% de las rentas totales; igualmente la entropía es causada Página 51 de 98 en mayor parte por la desigualdad entre los dos grupos, donde concentración de las personas no casadas es menor. En algunos casos las parejas casadas pueden solicitar beneficios fiscales que las personas solteras, además, estudios indican que las personas casadas pueden ser más productivas lo que conduce a obtener salarios más altos. 4.3.7. Negros y no negros La interacción de los dos grupos genera demasiada entropía (95%) a diferencia de la desigualdad que se presenta dentro de ellos mismos (5%); para este caso las personas no negras son las que mayor concentración de ingresos tienen (representan el 98% de las rentas totales) y generan un 94% de entropía entre grupos. En muchos casos se considera que los afrodescendientes tienen menos ingresos debido a que tienen un nivel menor de educación, no obstante, instituciones como la Oficina Nacional de Investigación Económica y la Universidad Estatal de Pensilvania han realizado estudios dejando la educación y las habilidades como un factor constante, y aun así los ingresos siguen siendo menores, por lo que se llega a la conclusión que esto se debe a discriminación racial en mayor grado. 4.3.8. Sur o no La entropía que se da al interior de los grupos es del 3% esto quiere decir que la desigualdad se crea principalmente por la desigualdad entre las personas que pertenecen a los estados del sur y los que no, (97%); análogamente, se puede ver que tan solo el 31% de todos los ingresos corresponden a quienes viven al sur, y al analizar el porcentaje de entropía de cada grupo, se observa que quienes no son del sur concentran una mayor parte de las rentas. 4.3.9. Urbano o no El 96% de la entropía es generada por la desigualdad que hay entre los grupos, el otro 4% por la desigualdad al interior de los mismos; se puede observar como el 76% de los ingresos Página 52 de 98 es de las personas que habitan en zonas urbanas, y como la concentración de las rentas es menor para aquellos que no lo son, generan así tan solo un 24% de la entropía entre ambos. Esto se puede explicar porque el nivel educativo en las zonas no urbanas es menor que en las ciudades, entre otras cosas, la acumulación de personas educadas en las metrópolis tiende a producir un aumento de la rentabilidad económica, y además predominan los empleos de baja cualificación en las zonas rurales. 4.3.10. Años de educación de la madre y el padre En estos casos no todas las personas tenían datos, no obstante, la población fue dividida entre aquellos cuyos padres tenían entre 0 y 10 años de educación y entre 11 y 18, los resultados indicaron, como en todos los demás hasta ahora, que la diferencia se presenta principalmente entre los grupos (en más del 90% en ambos aspectos) y no dentro de ellos; entre otras cosas, se puede observar como las personas que tenían padres con más años de estudio eran quienes concentraban la mayor cantidad de ingresos. En conclusión, la población norteamericana cuenta con una serie de condiciones que pueden ayudar a determinar si una persona gana más o menos dinero en comparación con aquellos que tienen otras características; los resultados del análisis revelan las personas casadas, no afrodescendientes, que tienen un mayor IQ, viven en zonas urbanas, no son del sur y cuyos padres son más educados generan mayor entropía, siendo más exactos son los que concentran la mayor par de las rentas; así mismo, son más los individuos que tienen entre 18 y 33 años, educación entre 9 y 13 años, y experiencia entre 1 y 11 años (no necesariamente de forma simultanea) y por ende son los que más acumulan ingresos dentro de la población. Página 53 de 98 5) INTERPRETACIÓN DE LA TABLA ELABORADA POR LA UNIVERSIDAD FRANCISCO DE PAULA SANTANDER A continuación se presenta una tabla con el resumen de la estadística descriptiva correspondiente al código de 52 estudiantes de la universidad Francisco de Paula Santander. A partir de los datos obtenidos ¿Qué interpretación puede realizar? Población Mean* 17.856,630 Median* 17.205,500 Maximum* 22.211,000 Minimum* 15.232,000 Std. Dev.* 1.826,501 Skewness* 0,677871 Kurtosis* 2,367123 Jarque-Bera 4,850240 Probability* 0,088467 Sum 928.545,000 Sum Sq. Dev.* 1,70E+08 Observations* 52 Se tomaron los datos de un grupo de 52 estudiantes de la universidad Francisco de Paula Santander, de manera que con estos se realizó la estadística descriptiva presentada en el cuadro anterior; con este resumen se puede decir en primer lugar, que según la media, el centro de la distribución del conjunto de datos de los 52 estudiantes es de 17.856,63, mientras que la mediana dice que el dato que ocupa la posición central en la muestra ordenada es 17.205,5, por lo tanto se podría afirmar que dicha distribución tiende a ser simétrica dado que el valor de la media y mediana es casi el mismo, pero no por esto lo es, ya que la diferencia entre estas dos medidas de posición es de 651.13 y no es exactamente el mismo Página 54 de 98 valor, por lo que no se puede considerar simétrica. Además, en este caso la media tiene un valor mayor que la mediana, indicando que es una distribución asimétrica a la derecha, dada la existencia de algunos valores atípicos. El valor de la asimetría presentado en la tabla confirma lo anterior. Si la asimetría es cero se dice que la distribución de los datos es simétrica, y por tanto no tiene sesgo (Asociación española para la calidad, 2010) cuando este valor es positivo la distribución tendrá una cola asimétrica hacia los valores negativos, es decir que los valores con asimetría positiva tienden a reunirse en los valores menores a la media, mientras que si el sesgo es negativo sucede los contrario. Ahora bien, con un 0,677871 de asimetría para esta distribución se dice que tiene asimetría positiva, de manera que la distribución tiene la siguiente forma: Asimetría a la derecha o positiva Por otro lado, el valor mínimo que toma la distribución de datos es 15.232, mientras que el máximo es de 22.211, con ello se puede determinar el rango de la distribución al determinar su diferencia, el cual vendría siendo 6979, dicho valor no informa demasiado sobre las características de los datos, pero señala la amplitud de la variación de un fenómeno entre su límite menor y el mayor, dado que permite tener una idea sobre la dispersión de los datos, ya que cuanto mayor es el rango, mas dispersos se encuentran estos. En el caso de que existan datos outliers o atípicos, el rango se hace extremadamente sensible a estos, dado que estos estarán en los extremos y ocuparan el lugar del máximo o mínimo (Orellana, 2001). También puede observarse la desviación estándar como medida que representa el grado de dispersión de datos respecto al promedioo la media para determinar si esta medida es alta o baja, se determina el coeficiente de variación dividiendo dicha desviación entre la media dando como resultado 0.10, con ello se puede decir que la variación de los datos respecto a la media puede considerarse relativamente baja. Página 55 de 98 Con el coeficiente de curtosis se logra medir el grado de estilización de la representación gráfica de la distribución, en otras palabras permite determinar cuánto están los datos agrupados en torno a la moda, dado que estudia la concentración de frecuencias en la zona central de la variable, de modo que variables con esta medida alta tienen forma apuntada y achatada si sucede lo contrario. Cuando se dan valores de la curtosis, no siempre está claro cuál es el criterio con el que se ha calculado (Behar y Grima, 2011), puesto que para su interpretación tanto el 0 como el 3 pueden ser tomados como números de referencia; si este coeficiente es iguala 0 o 3 la distribución es mesocúrtica o normal, si es mayor que 0 o 3 la distribución es leptocúrtica o por encima de lo normal y si es menor que 0 o 3 la distribución es platicúrtica o por debajo de lo normal (Sarabia y pascual, 2005). En este caso dado que el valor de curtosis de los datos es de 2,367123 se dice que la distribución es de tipo leptocúrtica, tomando el 0 como referencia, pero si se toma el número 3, se dice que la distribución es platicúrtica, de manera que puede tomar las siguientes formas: Forma de la distribución tomando el 0 como referencia. Forma de la distribución tomando el 3 como referencia. La probabilidad muestra la frecuencia con la que es posible obtener cierto resultado, en este caso la probabilidad tiene un valor de 0,088467 por lo que podría considerarse que es poco probable obtener el resultado descrito con los valores de la tabla presentada para los 52 Página 56 de 98 estudiantes de la Universidad Francisco de Paula Santander, (se afirma esto sabiendo que una función de probabilidad viene dada en un intervalo cerrado de 0 hasta 1 [0,1]), por lo tanto se podría decir que es muy difícil que se obtengan 2 resultados totalmente iguales. Finalmente con la suma de desviaciones al cuadrado es posible determinar la varianza. � = − ̅ + ⋯+ � − ̅− = ∑ − ̅�= − En donde s2 es la varianza muestral y ∑ �� − �̅��= es la suma de desviaciones al cuadrado respecto a la media, y n es el número de observaciones; en este caso la varianza es igual a: � = ∑ ��−�̅��= �− = , �+− = , �+ Página 57 de 98 6) CUESTIONARIO SOBRE ESTADÍSTICA DESCRIPTIVA 6.1. ¿Por qué es mejor usar el coeficiente de correlación lineal que la covarianza para establecer el grado de relación lineal entre dos variables? La covarianza posee un defecto importante como medida de la relación lineal entre dos variables numéricas; dado que esta puede tener cualquier valor, es imposible determinar la fortaleza relativa de la relación, para ello es necesario calcular el coeficiente de correlación, puesto que con este se logra medir la fortaleza relativa de una relación lineal entre dos variables numéricas (Levine, Berenson, y Krehbiel, 2006). Por otro lado los valores de la covarianza oscilan entre -∞ y +∞, además, depende de las unidades de medida en las que se han recogido las variables, por lo que a partir de este indicador no es posible determinar si la relación que se establece entre las dos variables es importante o no (un valor grande o pequeño, no significa necesariamente una relación grande o pequeña entre las variables). El coeficiente de correlación resuelve este problema, ya que no depende de las unidades de medida de las variables y sus valores oscilan entre -1 y +1, en realidad el coeficiente de correlación es la covarianza estandarizada. Un valor próximo a 0 indica ausencia de relación lineal, un valor cercano a 1 la presencia de relación lineal directa muy intensa (si una aumenta la otra también) y un valor cercano a -1 la presencia de relación lineal inversa (si una aumenta la otra disminuye). Si el valor del coeficiente de correlación es exactamente 1 o -1 indica una relación lineal perfecta, ya sea directa o inversa respectivamente, es decir que en otras palabras todos los puntos de la línea de puntos de un diagrama de dispersión forman un línea recta perfecta (Guárdia, Freixa, Peró y Turbany, 2008). Página 58 de 98 6.2. ¿Qué es el Boxplot o diagrama de bigotes y para qué sirve? El boxplot o diagrama de bigotes es un gráfico utilizado en estadística descriptiva propuesto por el estadístico John W. Tukey para presentar datos numéricos, especialmente útil para comparar distribuciones de varios conjuntos de observaciones, basado también en medidas robustas de posición y dispersión, tales como la mediana. Esta herramienta de análisis exploratorio de datos permite estudiar la simetría de los mismos, detectar los valores atípicos y vislumbrar un ajuste de los datos a una distribución de frecuencias determinada. Este diagrama divide los datos en cuatro áreas de igual frecuencia, una caja central dividida en dos áreas por una línea vertical y otras dos áreas representadas por dos segmentos horizontales, denominadas bigotes, que parten del centro de cada lado de la caja. Algunas de las características de la distribución de los datos que se manifiestan en el boxplot son: Cinco números resúmenes. Una medida de posición robusta (Mediana). Una medida de dispersión robusta (Distancia intercuartil) Simetría de la distribución. Criterios de detección de los datos outliers o atípicos. El diagrama de bigotes se representa gráficamente como se muestra en la siguiente imagen: Página 59 de 98 6.3. ¿Qué es la ojiva y en qué se diferencia con respecto al polígono de frecuencia? El polígono de frecuencia es un gráfico de representación de datos numéricos, el cual pretende dar una imagen aproximada de la ‘’curva’’ definida por la distribución de la variable numérica que se muestra en un histograma (otro gráfico de representación de datos numéricos realizado a partir de la construcción de una tabla de frecuencias). En otras palabras, puede definirse como un gráfico de líneas quebradas formado al unir los puntos medios de las bases superiores de cada rectángulo del histograma (de esta manera busca la representación gráfica de frecuencias y frecuencias relativas). Por otro lado la ojiva consiste en una gráfica lineal que representa frecuencias acumulativas; dichas frecuencias permiten ver cuantas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro de elementos que hay dentro de los intervalos. La diferencia que existe entre estos dos gráficos de representación de datos radica en que el polígono de frecuencia es una representación gráfica de frecuencias y frecuencias relativas mientras que la ojiva representa frecuencias acumulativas; dicho en otras palabras el primero muestra el número y/o porcentaje de casos que cae en el intervalo i-ésimo mientras que el segundo revela la suma de las frecuencias y frecuencias relativas desde la primera categoría hasta la categoría i-ésima. A continuación se presenta una tabla de frecuencias para los datos de tasas de neumonía por cada 1000 habitantes (Orellana, 2001); de esta manera se observa con mayor claridad cuál es el tipo de información que revela cada uno de los gráficos anteriormente mencionados. Intervalo Frecuencia (fi) Frecuencia relativa porcentual (fr i) Frecuencia acumulada (fai) Frecuencia relativa acumulada (frai) [0,1) 1 4.2 1 4.2 [1,2) 3 12.5 4 16.7 [2,3) 2 8.3 6 25.0 [3,4) 8 33.3 14 58.3 Página 60 de 98 [4,5) 5 20.8 19 79.2 [5,6) 1 4.2 20 83.3 [6,7) 0 0.0 20 83.3 [7,8) 1 4.2 21 87.5 [8,9) 1 4.2 22 91.7 [9,10) 1 4.2 23 95.8 [10,11) 1 4.2 24 100.0 # de casos que cae en el intervalo
Compartir