UNIVERSIDAD_NACIONAL_DE_COLOMBIA_SEDE_BO

•
SIN SIGLA

jeferson
8/4/2024
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Ingeniería de software y sistemas

977 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD NACIONAL DE COLOMBIA – SEDE BOGOTÁ 
 
1000013-20 
Probabilidad y Estadística Fundamental 
 
 
TALLER DE ESTADÍSTICA DESCRIPTIVA 
 
Presentado por: 
Jeisson Leonardo Rincón Novoa – 25201833 
Luisa Fernanda Sabogal Russi – 25201805 
Natalia Valenzuela Buitrago – 25211711 
 
Presentado a: 
Willie Alexander Hernández Romero 
 
 
Bogotá D.C. 
07/Mayo/2015 
 
Página 2 de 98 
 
1) FLUJOGRAMA DEL USO DE LAS MEDIDAS DE 
TENDENCIA CENTRAL 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Cualitativos Cuantitativos 
Medidas 
resúmenes Histograma 
Medidas de tendencia central 
Poco específico 
Exactitud 
Recolección de los datos 
cuantitativos 
Notas, edades, peso, altura, cantidad de hijos, etc. 
¿Cuál es el centro de gravedad, en donde la sumatoria de las distancias de los demás datos 
respecto a este, es igual a 0? 
¿Cuál es el dato central qué divide el conjunto en 2 partes cada una compuesta por el 50% de los 
datos? 
¿Cuál es la nota más frecuente de este grupo de estudiantes? ¿Hay solo una? 
¿Cuál es la medida a usar, cuando para cada dato hay una importancia relativa mayor o menor 
respecto a los demás? 
¿Cuál es la media recomendada para la progresión geométrica, razones, interés compuesto y 
números índices? ¿Menos sensible a los outliers? 
¿Cuál es la inversa a la media aritmética y recomendada para promediar velocidades? 
Si deseo eliminar los valores atípicos, ¿Cuál media uso? 
Recolección de datos 
Página 3 de 98 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
¿Cuál es el centro de gravedad, 
en donde la sumatoria de las 
distancias de los demás datos 
respecto a este, es igual a 0? 
Sumar los datos y dividirlo 
entre la cantidad de estos 
Sensible a los 
outliers o 
valores atípicos 
¿Cuál es el dato central qué 
divide el conjunto en 2 partes 
cada una compuesta por el 50% 
de los datos? 
Ordenar los datos de menor a mayor o 
viceversa y ubicar el valor central, en caso 
de haber 2, será el promedio de estos 
Solo tiene en 
cuenta un 
único dato 
¿Cuál es la nota más frecuente 
de este grupo de estudiantes? 
¿Hay solo una? 
Establecer cuál/cuáles dato es el que más se 
repite, dependiendo la cantidad se dice n-modal 
con los prefijos de cantidad (Uni-Bi…) 
Todos tienen 
la misma 
frecuencia 
¿Cuál es la medida a usar, 
cuando para cada dato hay una 
importancia relativa mayor o 
menos respecto a los demás? 
̅ = ∑�=∑�= 
Influenciada por los 
pesos grandes o falta 
de información 
Media 
Aritmética 
Mediana 
Moda 
Media 
Ponderada 
Página 4 de 98 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
¿Cuál es la media recomendada 
para la progresión geométrica, 
razones, interés compuesto y 
números índices?¿Menos 
sensible a los outliers? 
̅ = √∏�
=
�
 
Menos intuitivo, 
difícil y se 
anula si es 0 
 
¿Cuál es la inversa a la media 
aritmética y recomendada para 
promediar velocidades? 
 = ∑ ⁄�= 
Influencia de 
valores 
pequeños o 0 
 
Si deseo eliminar los valores 
atípicos, ¿Cuál media uso? 
Eliminar un porcentaje de los datos más altos y 
más bajos (0%-25%) para eliminar outliers 
Usa más 
información que 
la mediana y a 
menos que sea 
simétrica, es poco 
probable que se 
obtenga un 
estimador poco 
sesgado de la 
media o mediana 
FIN 
Media 
Geométrica 
Media 
Armónica 
Promedio 
de 
Windsor 
Página 5 de 98 
 
2) DENDOGRAMA O ÁRBOL JERÁRQUICO – ANÁLISIS 
DE CLUSTER 
 
El poder representar gráficamente el proceso de agrupar en forma de árbol las distancias 
ultramétricas sobre un conjunto finito, se le conoce como el desarrollo de dendogramas o 
árboles jerárquicos de forma indexada. Se nos plantea realizar este grafico a partir de la 
siguiente información suministrada: 
Mamífero Agua Proteínas Grasa 
Bisonte 0,681 -0,387 -0,818 
Búfalo 0,307 -0,085 -0,229 
Camello 0,743 -0,742 -0,657 
Gato 0,268 1,064 -0,381 
Venado -0,955 1,147 0,893 
Perro -0,145 0,845 -0,077 
Delfín -2,592 1,201 2,338 
Burro 0,946 -1,235 -0,847 
Elefante 0,628 -0,715 0,693 
Zorro 0,268 0,106 -0,419 
Hipopótamo 0,954 -1,536 -0,552 
Caballo 0,93 -0,989 -0,885 
Llama 0,65 -0,633 -0,676 
 
Nota: Estandarizado con media de 0 y desviación estándar de 1. 
 
Página 6 de 98 
 
2.1. Unidades de medida de las variables 
Como podemos observar tenemos 3 variables (agua, proteínas y grasas) la cuales 
describiremos para poder iniciar con el Análisis de Cluster, así; 
 
2.1.1. Tipo de base de datos 
La base de datos que tenemos es de corte transversal ya que no hay varios valores tomados a 
través del tiempo para cada organismo en una misma variable, por lo cual se deduce que la 
muestra fue tomada en un período determinado. 
 
2.1.2. Tipo de variable 
Las variables se definen como atributos o condiciones que caracterizan una situación 
experimental o un objeto en estudio que puede variar respecto al tiempo o a otros objetos, 
respectivamente; de esta manera se empieza a describir el tipo de variable que tenemos, así; 
 
I. Son variables de tipo cuantitativo o numérico, es decir, son susceptibles a ser medidas 
y a expresarse de manera numérica. 
 
II. Son variables cuantitativas continuas, es decir, admite valores intermedios entre dos 
unidades de medida, además, puede tomar un conjunto infinito de valores posibles 
dentro de un rango; sin embargo, en este caso las variables están aproximadas en 
máximo 3 dígitos a la derecha. 
 
III. Los valores se presentan en porcentajes indicándonos pues que es la relación entre 
dos cantidades (cociente), en este caso al ser sobre la composición de la leche materna 
se puede concluir que esta base es un valor estándar preexistente con el cual se 
calculan los valores de las 3 variables. Hay que tener en cuenta que al tener valores 
por encima del 100% o 1 y por debajo de 0% o 0 (-2,592 o 2,338), se debe entender 
Página 7 de 98 
 
que son estandarizados para cuestión de análisis de los cambios de las variables en 
cada objeto. 
 
IV. Son variables dependientes, ya que todas vienen determinadas por un valor estándar 
preexistente (que es la composición de la leche materna); más adelante, podremos 
observar con el Coeficiente de Correlación de Pearson que están relacionadas muy 
fuerte el agua y las grasas (mientras una aumenta la otra disminuye), con fuerte 
relación el agua y proteínas (mientras una aumenta la otra disminuye) y finalmente 
grasas y proteínas tienen una relación medianamente fuerte (a medida que una 
aumenta la otra aumenta de igual manera). 
Además se puede evidenciar el principio de Endogenidad (una se explica por medio 
de la otra), puesto que se pueden explicar entre ellas, por ejemplo los porcentajes 
positivos de participación en grasas significan porcentajes negativos en la 
participación del agua. 
 
V. Finalmente, la clasificación de las variables según su nivel o escala de medición es 
numérica, dado que es cuantitativa, y dentro de ésta muestra operaciones 
matemáticas, es decir, es intervalar, debido a que permite sumar, restar, multiplicar o 
dividir; además si llegase a existir el valor 0 no significa ausencia en el % de 
participación en la composición de la leche materna (dado que son datos 
estandarizados). Para adicionar, no se puede decir que el % de participación del agua 
en la leche materna del elefante (0.628) es aproximadamente el doble que en la del 
búfalo (0.307), por la misma razón de que 0 no es ausencia de la característica. 
 
2.1.3. Composición de la leche materna (Concepto biológico) 
La composición química de la leche materna, depende de la raza del mamífero que se esté 
estudiando y en qué época se hallan tomado los datos (en invierno es más rica en grasas que 
en verano); la leche se compone principalmente de agua, grasas, prótidos y glúcidos, 
determinados por los niveles de , calorías y sustancias nitrogenadas presentes en la 
muestra de la leche producida por el ser vivo. 
Página 8de 98 
 
2.2. Análisis de Cluster – Conglomerados 
Para poder resolver problemas de clasificación como el que se nos presenta en el ejercicio 
(mamíferos dependiendo de la composición de la leche materna) se usa la técnica de Análisis 
de Cluster o de Conglomerados, la cual consiste en ordenar objetos en grupos de tal manera 
que el grado de similitud entre objetos formen uno nuevo, marcando así un menor grado de 
estos respecto a los demás y definiendo una clase a la que los objetos hacen parte; sin 
embargo, se toma este agrupamiento como otro objeto el cual se debe agrupar para así ir 
formando el diseño de árbol jerárquico. 
 
También cabe resaltar que el dendograma permite establecer asociaciones de manera más 
sistémica (que se pueden identificar de forma anticipada) y contribuye a la formación de 
esquemas de clasificación parecidos a un proceso taxonómico del conjunto de objetos. 
 
Ahora bien, los Cluster se pueden establecer bajo dos métodos de clasificación; los 
jerárquicos y los no jerárquicos, es decir, entre clases anidadas y clases no anidadas; y estos 
a su vez pueden identificarse como aglomerativos o divisivos; en donde el primero 
(aglomerativo) parte de tantas clases como objetos hay para obtener tipos de objetos 
relacionados, y el segundo (divisivo) de una única que se dividirá en clases sucesivamente; 
para todo ello se usan los siguientes pasos; 
 
I. Definir e identificar los datos a usar. 
II. Elegir las medidas de similitud entre objetos (mamíferos) para identificar los 
Clusters. 
III. Determinar los objetos (mamíferos) más cercanos. 
IV. Juntar los objetos (mamíferos) en el mismo Cluster. 
V. Calcular la distancia entre el Cluster y los demás objetos (mamíferos). 
VI. Juntar objetos (mamíferos o Cluster) dependiendo de la distancia, hasta lograr 
tener solo 1 Cluster general. 
Página 9 de 98 
 
En suma para poder determinar las distancias entre los objetos se deben determinar en primer 
lugar el tipo de análisis, en segundo lugar la medida de similitud/distancia y finalmente el 
algoritmo de agrupamiento que se piensa utilizar para la generación de los Clusters. 
 
2.3. Medidas utilizadas en el Análisis Cluster 
En este apartado se determinarán la clasificación del análisis de Cluster (jerarquizadas o no 
jerarquizadas; aglomerativos o divisivos), las medidas de similitud/distancia que se utilizarán 
y los algoritmos de agrupación para la creación de la estructura gráfica. 
 
2.3.1. Clasificación del Análisis de Cluster 
Se decide hacer un dendograma que se basa en una clasificación de método jerarquizado, el 
cual se genera a partir de fases de agrupación o desagrupación sucesivas que traerá como 
resultado el de una jerarquía de unión de todos los objetos que en alguna determinada base 
se agrupa o disocia. 
 
Por otro lado, se complementa con el método aglomerativo que consiste en obtener clases de 
objetos relacionados partiendo la información suministrada de tantas formas como objetos 
hayan en esta. Específicamente hablando, lo que pretendemos hacer es agrupar 
sucesivamente los diferentes mamíferos en grupos más pequeños que se irán adhiriendo a 
otros grupos hasta tener un solo Cluster y hacerlo mediante el método aglomerativo que 
determina partir los objetos e irlos uniendo a través de clases de objetos relacionados por 
determinadas características. 
 
2.3.2. Medidas de similitud o distancia 
En las medidas de similitud o distancia, hay que tener en cuenta que su elección es netamente 
subjetiva y depende del observador escoger la que a su parecer más le convenga; dentro de 
estas se pueden utilizar dos tipos, la Correlación (a través del cálculo de un coeficiente de 
Página 10 de 98 
 
correlación aplicándolos a observaciones de los mamíferos) o la de Medición de distancias 
(definen proximidad basadas en escalas ordinales, de intervalo, razón o de amplia variedad) 
 
Ahora bien, nosotros hemos decidido utilizar la medición de distancias, dado que 
pretendemos utilizar una lógica de proximidad entre los diferentes mamíferos mas no una 
lógica de correlación entre mamíferos (si lo hubiéramos hecho por el otro método), además 
en nuestra información suministrada podemos observar que las variables son numéricas, es 
decir, son intervalares o de razón; y para ello se pueden encontrar diversas técnicas. 
 
De entre las múltiples técnicas existentes tales como, Distancia Euclídea, Euclídea 
Normalizadora, Manhattan, Chebyshev, Minkowsky, entre otras; nosotros escogimos la 
Distancia Euclídea definida como la más conocida y sencilla de entender de todas las 
posibles a usar, expresada de la siguiente manera; 
 
d , = ‖ − ‖ = √∑ −�
= 
 
La Distancia Euclídea se define como la distancia ordinaria (medida con una regla) entre dos 
puntos ubicados en un espacio “n” dimensional (dependiendo de la cantidad de variables se 
define la expresión a utilizar); ahora bien, para poder utilizarla se deben cumplir las siguientes 
condiciones; dados dos vectores , pertenecientes a ℝ (campo escalar de números 
reales), se define una función “d” como la distancia entre estos dos vectores ubicados en el 
campo escalar, cumpliendo las siguientes propiedades; 
 
1. d : ℝ ℝ  ℝ+, es decir d ( , ≥ 0; lo que indica que la distancia es positiva. 
 
Página 11 de 98 
 
2. d ( , = ∀i, puesto que la distancia de un objeto entre sí, es decir, la distancia 
de un punto respecto al mismo punto es igual a 0. 
 
 
3. d ( , = d , , dado que la distancia entre un objeto y otro es simétrica, ya 
que la distancia entre dos puntos se puede hacer tomando como referencia a o a 
 y esto no afecta su resultado. 
 
Claro está que se debe tener en cuenta unas de sus grandes falencias como lo son, en primer 
lugar, el saber que si hay variables de valores altos y valores bajos, los resultados se verán 
fácilmente influenciados por las restas de los valores altos en mayor proporción que por los 
valores bajos; y en segundo lugar, la naturaleza de las mismas, dado que si estas están 
correlacionadas darán una información en gran medida redundante. 
 
Sin embargo, el grupo decide utilizarla para el cálculo de las distancias, debido a que en 
primer lugar, las variables en general no muestran una dispersión en cuanto a sus valores 
(altos y bajos) respecto a las otras, así; 
 
 Agua Proteínas Grasa 
Mínimo1 -2,592 -1,536 -0,885 
Máximo2 0,954 1,201 2,338 
 
En general se puede observar un intervalo de acción (en los números reales) de cada una de 
estas estimado entre [-2.592,2.338]; y en segunda medida, para identificar sí no se 
encuentran relacionadas se debe revisar el coeficiente de correlación que permite establecer 
 
1 Se define como el valor mínimo entre los datos suministrados 
2 Se define como el dato máximo entre los datos suministrados 
Página 12 de 98 
 
a través de un indicador numérico la relación que existe entre dos o más variables 
cuantitativas, en donde se puede observar lo siguiente; 
 Agua Proteínas Grasa 
Agua 1 -0,78418265 -0,91106861 
Proteínas -0,78418265 1 0,62604445 
Grasa -0,91106861 0,62604445 1 
 
Nota: La anterior tabla se realiza mediante el paquete de Office (Excel) 
 
En Excel, al tener la base de datos, se accede en la parte superior al menú de “DATOS”, 
luego se da clic sobre el botón “Análisis de datos”; en el recuadro que se abre se escoge 
Coeficiente de Correlación, se da clic en “Aceptar” con lo cual se abre un parametrizador de 
datos en donde se piden los valores de entrada y allí se seleccionan las columnas con los 
datos, se selecciona “Rótulos en la primera fila” junto con un nuevo rango de salida (la misma 
hoja, una hoja nueva o libro nuevo); y finalmente se desarrolla la Matriz de Correlación. 
 
En adición a lo anterior, Excel maneja las siguientes formulas características para desarrollar 
el Coeficiente de Correlación, así; 
 
Donde: 
 esla covarianza de . 
 es la desviación estándar de la variable . 
 es la desviación estándar de la variable . 
Nota: Dado que en este caso se tienen 3 variables, hay que hacer 3 veces el Coeficiente 
de Correlación entre [agua, proteínas], [agua, grasas] y [proteínas, grasas]. 
 
Página 13 de 98 
 
Ahora bien, para calcular la covarianza toma como base el estimador insesgado de la 
covarianza denotado por de dos variables aleatorias e , así; 
 
 
Donde: 
 hace referencia a los diferentes valores de la variable y es la media del conjunto 
de valores de la variable en cuestión, en este caso � − �̅ − ̅ − ̅ . 
 representa la cantidad de objetos dentro del conjunto. 
 
Finalmente, toma en cuenta para la desviación estándar la expresión usada bajo la corrección 
de Bessel, que no toma una desviación poblacional sino una desviación muestral, en otras 
palabras, pasar de a − , quedando así; 
 
 
 
Nota: Como ya se especificó anteriormente se hará para cada una de las variables 
tomando los valores de la variable y su media (durante todo el proceso la media es 
definida como el promedio de los datos). 
 
Conforme a todo lo anterior, concluimos pues que están relacionadas dada la matriz de 
correlación, es decir, tenemos claro que la información de una o de otra forma tal vez podrá 
ser redundante a la hora de hacer el dendograma, pero este fenómeno no significa que sea 
errónea o que nos distorsione el mismo y su forma de construirlo. 
Página 14 de 98 
 
Dado que usamos 3 variables, definimos la siguiente expresión matemática para el desarrollo 
del problema; 
d , , = ‖ − − ‖ = √∑ −= 
Que luego se traducirá así; 
d , , = √( − ) + ( − ) + ( − ) 
 
2.3.3. Algoritmo de agrupación 
Al igual que la medida de similitud o distancia, el algoritmo de agrupación se escoge de 
manera subjetiva teniendo en cuenta que éste tiene ventajas y desventajas frente a lo que se 
pretenda hacer y los datos suministrados por el ejercicio. La lógica de usar el algoritmo es 
para ubicar la distancia entre los demás elementos respecto a cada asociación (Cluster) ya 
organizada. Así pues existen múltiples algoritmos a usar como lo son el método de Ward 
(varianza mínima), del Centroide, vecino más cercano, media (Average Linkage), el del 
vecino más lejano (Complete Linkage), entre otros. 
 
Para el estudio de este caso principalmente, vamos a usar el método del vecino más lejano 
(Complete Linkage), definido como la distancia máxima de un objeto dentro del Cluster 
respecto a uno fuera del mismo (obtenido previamente por la matriz de distancias por método 
Euclídeo), expresado de la siguiente manera; , + = � , , , 
Donde: 
 es un elemento para agrupar y + es la unión de dos elementos que conforman 
el Cluster. 
 � es determinar el número máximo de entre las 2 distancias. 
Página 15 de 98 
 
Nota: Hay que entender que no se hace para agrupar los objetos, sino para 
determinar las distancias entre el Cluster y los demás objetos que se piensan clasificar 
e ir ubicándolos en la matriz de distancias. 
 
Lo anterior justificado en que este método permite identificar los outliers (datos atípicos), se 
puede usar para las diferentes medidas de similitud o distancia, tiende a construir Clusters 
pequeños y compactos; e invariante bajo transformaciones monótonas de la matriz de 
distancias. 
 
2.4. Construcción del Dendograma 
Teniendo en cuenta las siguientes características, empezaremos la construcción del 
dendograma, así; 
 
A. La medida de similitud a utilizar es la “Distancia Euclidiana”. 
B. El algoritmo de agrupación a utilizar es el “Método del vecino más lejano – 
Furthest Neighbour – Complete Linkage”. 
C. Clasificación jerárquica aglomerativa (Dendograma). 
D. Definimos los objetos, así; 
Bisonte M 
Búfalo N 
Camello O 
Gato P 
Venado Q 
Perro R 
Delfín S 
Burro T 
Elefante U 
Zorro V 
Hipopótamo W 
Caballo X 
Llama Y 
Página 16 de 98 
 
E. Matrices realizadas en Excel. 
F. Gráfico realizado por medio del complemento de Excel – statistiXL. 
G. Los cuadros de color amarillo en las matrices, significa un valor igual a 0. 
H. Las matrices son , de identidad o unidad por la diagonal =1; y simétrica, dado 
que al transponerla es igual � = � . 
Para empezar, debemos establecer la primer matriz de distancias Euclidianas basadas en la 
formula anteriormente vista, así; 
= � ( ( − ) + ( − ) + ( − ) ) 3 
 MATRIZ POR DISTANCIAS EUCLÍDEAS 
 M N O P Q R S T U V W X Y 
M 0,760 0,395 1,571 2,821 1,658 4,816 0,889 1,547 0,757 1,211 0,655 0,286 
N 0,760 0,897 1,160 2,090 1,045 4,080 1,454 1,162 0,272 1,621 1,279 0,786 
O 0,395 0,897 1,888 2,976 1,909 4,885 0,566 1,355 1,001 0,828 0,385 0,145 
P 1,571 1,160 1,888 1,768 0,558 3,949 2,442 2,109 0,959 2,694 2,215 1,764 
Q 2,821 2,090 2,976 1,768 1,299 2,184 3,509 2,452 2,074 3,596 3,358 2,865 
R 1,658 1,045 1,909 0,558 1,299 3,456 2,472 1,904 0,913 2,665 2,274 1,782 
S 4,816 4,080 4,885 3,949 2,184 3,456 5,348 4,092 4,121 5,331 5,252 4,791 
T 0,889 1,454 0,566 2,442 3,509 2,472 5,348 1,656 1,562 0,422 0,249 0,692 
U 1,547 1,162 1,355 2,109 2,452 1,904 4,092 1,656 1,428 1,527 1,630 1,372 
V 0,757 0,272 1,001 0,959 2,074 0,913 4,121 1,562 1,428 1,785 1,362 0,871 
W 1,211 1,621 0,828 2,694 3,596 2,665 5,331 0,422 1,527 1,785 0,641 0,961 
X 0,655 1,279 0,385 2,215 3,358 2,274 5,252 0,249 1,630 1,362 0,641 0,499 
Y 0,286 0,786 0,145 1,764 2,865 1,782 4,791 0,692 1,372 0,871 0,961 0,499 
 
3 X  Agua; Y  Proteínas y Z  Grasas 
Página 17 de 98 
 
 
Para establecer el primer Cluster (A), buscaremos la distancia mínima 0,145 (resaltada con 
color verde) y juntaremos estos dos objetos O e Y (camello-llama); y a partir del algoritmo 
de agrupamiento (Furthest Neighbour), hallaremos la distancia de A, respecto a los demás 
objetos desagrupados, basados en la siguiente formula, así; 
 ∝, � = � ( ∝, : ∝ ) 4 
 
Calculando las siguientes distancias (color verde), así; 
 
d(Y,O) Unión 
dA A 0,145 
Y O 
Objetos 
M 0,286 0,395 0,395 
N 0,786 0,897 0,897 
P 1,764 1,888 1,888 
Q 2,865 2,976 2,976 
R 1,782 1,909 1,909 
S 4,791 4,885 4,885 
T 0,692 0,566 0,692 
U 1,372 1,355 1,372 
V 0,871 1,001 1,001 
W 0,961 0,828 0,961 
X 0,499 0,385 0,499 
 
 
4 ∝  Objeto desagrupado; e  Objetos/Clusters agrupados en el nuevo Cluster 
Página 18 de 98 
 
De acuerdo a la anterior tabla, se regenera la matriz de distancias Euclidianas tomando como 
base las nuevas distancias halladas (resaltadas de color naranja), así; 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 M N A P Q R S T U V W X 
M 
N 0,760 
A 0,395 0,897 
P 1,571 1,160 1,888 
Q 2,821 2,090 2,976 1,768 
R 1,658 1,045 1,909 0,558 1,299 
S 4,816 4,080 4,885 3,949 2,184 3,456 
T 0,889 1,454 0,692 2,442 3,509 2,472 5,348 
U 1,547 1,162 1,372 2,109 2,452 1,904 4,092 1,656 
V 0,757 0,272 1,001 0,959 2,074 0,913 4,121 1,562 1,428 
W 1,211 1,621 0,961 2,694 3,596 2,665 5,331 0,422 1,527 1,785 
X 0,655 1,279 0,499 2,215 3,358 2,274 5,252 0,249 1,630 1,362 0,641 
 
Al haber generado la inclusión del primer Cluster (A) a la matriz, ahora se reiniciará el 
proceso hallando la mínima distancia (0,249) y agrupando los dos elementos T y X (burro-
caballo) en el Cluster (B); de la misma manera se aplica el proceso de la aplicación del 
algoritmo de agrupamiento para calcular las nuevas distancias (color verde), así; 
d(X,T) Unión 
dB B 0,249 
X T 
Objetos 
M 0,655 0,889 0,889 
N 1,279 1,454 1,454 
A 0,499 0,692 0,692 
P 2,215 2,442 2,442 
Q 3,358 3,509 3,509 
R 2,274 2,472 2,472 
S 5,252 5,348 5,348 
U 1,630 1,656 1,656 
V 1,362 1,562 1,562 
W 0,641 0,422 0,641 
Página 19 de 98 
 
En secuencia lógica, como ya se viene trabajando reemplazamos (color naranja) en la matriz 
de distancias Euclidianas,así; 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 M N A P Q R S B U V W 
M 
N 0,760 
A 0,395 0,897 
P 1,571 1,160 1,888 
Q 2,821 2,090 2,976 1,768 
R 1,658 1,045 1,909 0,558 1,299 
S 4,816 4,080 4,885 3,949 2,184 3,456 
B 0,889 1,454 0,692 2,442 3,509 2,472 5,348 
U 1,547 1,162 1,372 2,109 2,452 1,904 4,092 1,656 
V 0,757 0,272 1,001 0,959 2,074 0,913 4,121 1,562 1,428 
W 1,211 1,621 0,961 2,694 3,596 2,665 5,331 0,641 1,527 1,785 
 
Continuando con el proceso, ahora se determina que la distancia mínima es la de 0,272, 
correspondiente a los objetos V y N (zorro-búfalo) conformando así el Cluster C; aplicando 
el concepto del algoritmo determinaremos las siguientes distancias con respecto a los demás 
objetos (color verde), así; 
d(V,N) Unión 
dC C 0,272 
V N 
Objetos 
M 0,757 0,760 0,760 
A 1,001 0,897 1,001 
P 0,959 1,160 1,160 
Q 2,074 2,090 2,090 
R 0,913 1,045 1,045 
S 4,121 4,080 4,121 
B 1,562 1,454 1,562 
U 1,428 1,162 1,428 
W 1,785 1,621 1,785 
 
Página 20 de 98 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 M C A P Q R S B U W 
M 
C 0,760 
A 0,395 1,001 
P 1,571 1,160 1,888 
Q 2,821 2,090 2,976 1,768 
R 1,658 1,045 1,909 0,558 1,299 
S 4,816 4,121 4,885 3,949 2,184 3,456 
B 0,889 1,562 0,692 2,442 3,509 2,472 5,348 
U 1,547 1,428 1,372 2,109 2,452 1,904 4,092 1,656 
W 1,211 1,785 0,961 2,694 3,596 2,665 5,331 0,641 1,527 
 
Siguiendo los pasos del proceso, ahora se determina que la distancia mínima es la de 0,395, 
correspondiente a los objetos A y M (Cluster A-bisonte) conformando así el Cluster D; 
aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a 
los demás objetos (color verde), así; 
d(A,M) Unión 
dD D 0,395 
A M 
Objetos 
C 1,001 0,760 1,001 
P 1,888 1,571 1,888 
Q 2,976 2,821 2,976 
R 1,909 1,658 1,909 
S 4,885 4,816 4,885 
B 0,692 0,889 0,889 
U 1,372 1,547 1,547 
W 0,961 1,211 1,211 
 
 
Página 21 de 98 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 C D P Q R S B U W 
C 
D 1,001 
P 1,160 1,888 
Q 2,090 2,976 1,768 
R 1,045 1,909 0,558 1,299 
S 4,121 4,885 3,949 2,184 3,456 
B 1,562 0,889 2,442 3,509 2,472 5,348 
U 1,428 1,547 2,109 2,452 1,904 4,092 1,656 
W 1,785 1,211 2,694 3,596 2,665 5,331 0,641 1,527 
 
Manteniendo la secuencia de los pasos del proceso, ahora se determina que la distancia 
mínima es la de 0,558, correspondiente a los objetos P y R (gato-perro) conformando así el 
Cluster E. Aplicando el concepto del algoritmo determinaremos las siguientes distancias con 
respecto a los demás objetos (color verde). 
 
d(R,P) Unión 
dE E 0,558 
R P 
Objetos 
C 1,045 1,160 1,160 
D 1,909 1,888 1,909 
Q 1,299 1,768 1,768 
S 3,456 3,949 3,949 
B 2,472 2,442 2,472 
U 1,904 2,109 2,109 
W 2,665 2,694 2,694 
 
Página 22 de 98 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
 
MATRIZ POR DISTANCIAS 
EUCLÍDEAS 
 C D E Q S B U W 
C 
D 1,001 
E 1,160 1,909 
Q 2,090 2,976 1,768 
S 4,121 4,885 3,949 2,184 
B 1,562 0,889 2,472 3,509 5,348 
U 1,428 1,547 2,109 2,452 4,092 1,656 
W 1,785 1,211 2,694 3,596 5,331 0,641 1,527 
 
Manteniendo la secuencia de los pasos del proceso, ahora se determina que la distancia 
mínima es la de 0,641, correspondiente a los objetos B y W (Cluster B-hipopótamo) 
conformando así el Cluster F. Aplicando el concepto del algoritmo determinaremos las 
siguientes distancias con respecto a los demás objetos (color verde). 
 
d(B,W) Unión 
dF F 0,641 
B W 
Objetos 
C 1,562 1,785 1,785 
D 0,889 1,211 1,211 
E 2,472 2,694 2,694 
Q 3,509 3,596 3,596 
S 5,348 5,331 5,348 
U 1,656 1,527 1,656 
Página 23 de 98 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 C D E Q S F U 
C 
D 1,001 
E 1,160 1,909 
Q 2,090 2,976 1,768 
S 4,121 4,885 3,949 2,184 
F 1,785 1,211 2,694 3,596 5,348 
U 1,428 1,547 2,109 2,452 4,092 1,656 
 
Ahora, se determina que la distancia mínima es la de 1,001, correspondiente a los objetos C 
y D (Cluster C-Cluster D) conformando así el Cluster G. 
 
Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a 
los demás objetos (color verde), así; 
 
d(C,D) Unión 
dG G 1,001 
C D 
Objetos 
F 1,785 1,211 1,785 
E 1,160 1,909 1,909 
Q 2,090 2,976 2,976 
S 4,121 4,885 4,885 
U 1,428 1,547 1,547 
 
Página 24 de 98 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 G E Q S F U 
G 
E 1,909 
Q 2,976 1,768 
S 4,885 3,949 2,184 
F 1,785 2,694 3,596 5,348 
U 1,547 2,109 2,452 4,092 1,656 
 
Ahora, se determina que la distancia mínima es la de 1,547, correspondiente a los objetos G 
y U (Cluster G-elefante) conformando así el Cluster H. 
 
Aplicando el concepto del algoritmo determinaremos las siguientes distancias con respecto a 
los demás objetos (color verde), así; 
 
d(G,U) Unión 
dH H 1,547 
U G 
Objetos 
F 1,656 1,785 1,785 
E 2,109 1,909 2,109 
Q 2,452 2,976 2,976 
S 4,092 4,885 4,885 
 
Página 25 de 98 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
 
 
 
 
 
 
 
Ahora, se determina que la distancia mínima es la de 1,768, correspondiente a los objetos E 
y Q (Cluster E-venado) conformando así el Cluster I. Aplicando el concepto del algoritmo 
determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; 
d(E,Q) Unión 
dI I 1,768 
E Q 
Objetos 
F 2,694 3,596 3,596 
H 2,109 2,976 2,976 
S 4,885 2,184 4,885 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
MATRIZ POR DISTANCIAS 
EUCLÍDEAS 
 H I S F 
H 
I 2,976 
S 4,885 4,885 
F 1,785 3,596 5,348 
 
MATRIZ POR DISTANCIAS EUCLÍDEAS 
 H E Q S F 
H 
E 2,109 
Q 2,976 1,768 
S 4,885 3,949 2,184 
F 1,785 2,694 3,596 5,348 
Página 26 de 98 
 
Ahora, se determina que la distancia mínima es la de 1,785, correspondiente a los objetos H 
y F (Cluster H-Cluster F) conformando así el Cluster J. Aplicando el concepto del algoritmo 
determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; 
d(H,F) Unión 
dJ J 1,785 
F H 
Objetos 
I 3,596 2,976 3,596 
S 5,348 4,885 5,348 
 
 
Reemplazamos (color naranja) en la matriz de distancias Euclidianas, así; 
MATRIZ POR DISTANCIAS 
EUCLÍDEAS 
 I S J 
I 
S 4,885 
J 3,596 5,348 
 
Ahora, se determina que la distancia mínima es la de 3,596, correspondiente a los objetos I 
y J (Cluster I-Cluster J) conformando así el Cluster K. Aplicando el concepto del algoritmo 
determinaremos las siguientes distancias con respecto a los demás objetos (color verde), así; 
 
d(I,J) Unión 
dK K 3,596 
I J 
Objetos 
S 4,885 5,348 5,348 
 
Página 27 de 98 
 
Reemplazamos en la matriz final de distancias Euclidianas, así; 
MATRIZ FINAL DE 
DISTANCIAS 
EUCLÍDEAS 
 K S 
K 
S 5,348 
 
Para finalizar, se puede concluir que el objeto o mamífero más lejano o menos cerca a los 
demás es el S (Delfín), con una distancia al último Cluster formado (K) de 5,348. 
 
dFinal 
Final 5,348 
 
Al haber concluido con la construcción matemática de las distancias y los agrupamientos de 
las mismas para poder unir los diferentes mamíferos, podemos resumir en las siguientes 
tablas la forma en que se unen secuencialmente para formar el dendograma, así; 
ESTRATEGIA DE CLUSTER 
Cluster Objetos Unidos Distancia 
A Y O 0,145 
B X T 0,249 
C V N 0,272 
D A M 0,395 
E R P 0,558 
F B W 0,641 
G D C 1,001 
H G U 1,547I E Q 1,768 
J H F 1,785 
K J I 3,596 
Final K S 5,348 
 
Página 28 de 98 
 
En suma, con la tabla anterior, haremos las respectivas correspondencias, para tener la 
información más clara y específica; por lo tanto se hará el dendograma con la siguiente tabla 
final. 
ESTRATEGIA DE CLUSTER 
Cluster Objetos Unidos Distancia 
Cluster A Llama Camello 0,145 
Cluster B Caballo Burro 0,249 
Cluster C Zorro Búfalo 0,272 
Cluster D Cluster A Bisonte 0,395 
Cluster E Perro Gato 0,558 
Cluster F Cluster B Hipopótamo 0,641 
Cluster G Cluster D Cluster C 1,001 
Cluster H Cluster G Elefante 1,547 
Cluster I Cluster E Venado 1,768 
Cluster J Cluster H Cluster F 1,785 
Cluster K Cluster J Cluster I 3,596 
Cluster Final Cluster K Delfín 5,348 
 
Nota: A partir de la tabla anterior se realiza el dendograma. (Nos hemos ayudado con 
el complemento para Excel “statistiXL”, solo para la gráfica); para usarlo solo es 
introducir los datos a la hoja de Excel y seguir la siguiente ruta; 
 
1. Ir a la pestaña Complementos. 
 
2. Clic sobre el complemento statistiXL. 
 
3. Se despliega una serie de opciones y darle clic a “Clustering”. 
 
4. Se abre un parametrizador. 
 
En la parte superior INPUT 
 
5. En donde dice “Data Set” se introducen las celdas donde se encuentran los datos. 
Página 29 de 98 
 
 
6. En “Data Tipe” se selecciona “Distance Matrix” junto con la marcación de “Labels 
in First Col?”. 
 
7. En “Cluster Method” se selecciona “Furthest Neighbour”. 
 
En la parte inferior OUTPUT 
 
8. En “Output Range” se seleccionan las celdas de salida. 
 
9. Finalmente se marca el espacio “Graph Dendogram” 
 
10. Se da clic en Aceptar y saldrá en dendograma graficado así. 
 
Página 30 de 98 
 
2.5. Dendograma
Llama
Camello
Caballo
Burro
Zorro
Búfalo
0,145
Bisonte
Perro
Gato
0,249
Hipopotamo
0,395
0,272
1,001
Elefante
0,558
Venado
1,547
0,641
1,785
1,768
3,596
Delfín
5,348 
-0,117749 1,3822509 2,8822509 4,3822509 5,8822509
Página 31 de 98 
 
2.6. Conclusiones a partir del Dendograma 
Para determinar conclusiones a partir del dendograma, partimos desde la premisa de que los datos suministrados están estandarizados 
con media de 0 y desviación estándar de 1, lo cual indica que si colocamos en una recta las variables, obtendríamos las siguientes gráficas, 
así; 
Ubicación en línea recta de la variable agua 
 
 
 
Ubicación en línea recta de la variable proteínas 
 
 
 
Ubicación en línea recta de la variable grasas
Página 32 de 98 
 
Por lo tanto podemos evidenciar, describir e interpretar respecto a las variables y los 
mamíferos, lo siguiente; 
 
a) En primer lugar, podemos ver que el delfín, en variables como agua y grasa, se encuentra 
muy alejado de la media 0 y por lo tanto del grupo; esto hace que no se una en un Cluster 
intermedio sino que sea el último mamífero para unirse y que lo haga con el penúltimo 
Cluster a una altura de 5.348. 
 
b) En segundo lugar, podemos observar que; la llama y el camello; estos con el bisonte; el 
zorro y el búfalo; y el caballo con el burro, se unen rápidamente debido a que frente a su 
estandarización en las 3 variables, se ubican de manera cercana debido a la similitud entre 
ellos, principalmente como ya se ha hablado en las variables agua y grasas; las anteriores 
uniones se ven influenciadas respectivamente por las variables grasa; agua; agua; y tanto 
en agua como en grasas. Las anteriores uniones basadas en una distancia de agrupación 
en el intervalo [0,0.4]. 
 
c) En tercer lugar, la unión entre (llama-camello-bisonte) y (zorro-búfalo) se presenta debido 
a que los Cluster se encuentran muy cercanos, principalmente en la variable agua, en las 
otras también hay una cercanía fuerte pero menos identificable a primera vista; esta unión 
prácticamente se hace a una altura unitaria. 
 
Nota: Hasta aquí las diferentes uniones o agrupaciones entre los objetos se ven 
influenciadas por las cercanías bastante fuertes de las 3 variables en general. 
 
d) En cuarto lugar, podemos establecer que la unión, del perro y el gato, del hipopótamo con 
el (caballo-burro); y el elefante con el (búfalo-zorro-bisonte-llama-camello); se dan 
debido a que; en la primera, aunque no se encuentran en una relación muy estrecha, en las 
tres variable presentan una lejanía muy similar, es decir, la distancia entre los mamíferos 
en agua es la misma en grasas y proteínas respecto a otros mamíferos, lo que hace que 
tengan una relación más fuerte entre sí respecto a distancias más cercanas en una única 
Página 33 de 98 
 
variable; en la segunda, se puede evidenciar que en la variable agua, este presenta una 
relación muy fuerte/estrecha con respecto al caballo-burro; y en la tercera, dado que este 
presenta una estandarización muy similar en variables como agua y proteínas 
(especialmente con el bisonte y la llama), así esté bastante alejado del grupo en la variable 
grasas. Las anteriores uniones se hacen a la altura del intervalo [0.5, 1.6]. 
 
e) En quinto lugar, podemos evidenciar que la uniones por un lado del venado con el (perro-
gato) y por el otro del (caballo-burro-hipopótamo) con el (elefante-búfalo-zorro-bisonte-
llama-camello) se presentan correspondientemente así; 
La primera principalmente por 2 factores; en variables como agua y grasas el venado 
está muy alejado del grupo, es decir, su estandarización frente a la media no es similar 
con la mayoría de los miembros en estas dos variables, mientras que en la variable 
proteínas, está muy cerca al Cluster formado por el perro-gato, con lo cual se puede 
establecer que la variable proteínas es la que genera la unión de este mamífero. 
La segunda se presenta debido a que si observamos la Imagen N°. 1, es decir, la variable 
agua, se concluye que está variable determina principalmente el desarrollo de esta unión, 
puesto que la estandarización de esta los ubica al lado derecho de esta, junto con que sus 
valores no son muy lejanos (incluso podemos observar como esta variable muestra cómo 
se formaron los Clusters que hacen parte de esta unión). 
 
f) Finalmente podemos establecer que la unión del penúltimo Cluster no se encuentra 
relativamente relacionado a una variable, sino es una redundancia del ejercicio, puesto 
que es el grupo de mamíferos más cercanos, dado que el delfín muestra una desviación 
muy fuerte en las variables agua y grasa. Por lo cual se unen para identificar una relación, 
de ahí es que de una altura de 1.785 se pase a una de 3.596 (se puede decir que es el doble 
de altura a al que ya más del 50% de los mamíferos se han unido). 
 
Nota: Como conclusión general el grupo establece que la variable agua es la más fuerte 
a la hora de organizar los Cluster, le sigue la grasa con una menor proporción y 
finalmente la proteína, puesto que ésta última solo define la unión de 1 solo Cluster. 
Página 34 de 98 
 
3) INFORME EJECUTIVO DE LA SITUACIÓN ACTUAL 
DE LOS DESPLAZADOS EN COLOMBIA 
Las poblaciones victimas de desplazamiento forzoso migran intempestivamente y dejan atrás 
sus actividades económicas habituales, sus lazos sociales, su estilo de vida y su identidad 
(Ibáñez, Moya y Velásquez, 2005); de manera que tanto su bienestar como calidad de vida 
se ven sumamente deteriorados. 
Actualmente los hogares colombianos víctimas del desplazamiento han perdido todos los 
factores que les generaban seguridad y estabilidad al tener que movilizarse a territorios 
diferentes al de su origen. Entre dichos factores se encuentran la tierra, la vivienda, el empleo, 
la educación, el servicio de salud, entre otros. 
Las familias desplazadas están compuestas por un gran número de miembros; en promedio 
un jefe de hogar debe mantener 2,8 hijos o hijastros, y en total 4,13 miembros, haciendo 
difícil la situación económica del hogar. 
Por otro lado el nivel educativo de los miembros de la familia es bastante bajo, dificultando 
de esta manera la obtención de empleo.Según el análisis de los datos el 21,75% de la 
población desplazada no sabe leer ni escribir, dentro de este porcentaje el 22,04% 
corresponde a los jefes del hogar. Se sabe también que la media de los años de escolaridad 
de los miembros es 4,175087 años, (la media se ve afectada por los outliers que se presentan 
en el gráfico de boxplot, estos son aquellas personas que tienen un título universitario, o 
inclusive uno de posgrado), y que la mayor parte de individuos (65,46%) solo ha logrado 
alcanzar un título de básica primaria, aumentando así las desventajas de esta población. 
Antes del desplazamiento, la mayor parte de personas se desempeñaba en las labores de 
agricultura (37,69%), le seguía las actividades del hogar (25,75%) y otras labores (14,73%); 
al llegar a los municipios de recepción la participación en un empleo disminuyó, pasando de 
6163 a 896 personas ocupadas (de aquellas que respondieron la encuesta), los desempleados 
pasaron de un 7,51% a un 13,06%; la agricultura disminuyo (21,21%), al igual que los oficios 
del hogar (22,66%) y otras actividades aumentaron (20,20%); sectores como el comercio 
pasaron a tomar un papel un poco más relevante (5,99%-9,49%) , al igual que el de servicios 
(4,71%-6,58%). Después de la movilización un 19,72% de las personas se encontraban 
Página 35 de 98 
 
buscando empleo. Con lo anterior se puede decir que dada la poca escolaridad de los jefes de 
hogar y demás miembros, al igual que la disminución de la demanda de labores agrícolas en 
las urbes, la situación económica de los desplazados es bastante precaria, ya que al no poseer 
los conocimientos necesarios al igual que la experiencia para desarrollar otro tipo de labores, 
intentar de conseguir un empleo para mantener a los miembros del hogar se hace sumamente 
difícil. 
En base a la encuesta de hogares desplazados realizada en el 2004 por la Universidad de los 
Andes, se puede determinar que el 42,18% de las víctimas de desplazamiento contaban con 
afiliación al servicio de salud mientras que un 57,82% no lo poseía, después de trasladarse a 
los municipios de recepción el número de afiliados subió a un 71,22% (ver anexo 2), esto es 
explicado por la facilidad de financiación del servicio de salud a comunidades desplazadas 
por parte del gobierno y otras entidades tales como ONG’S. Sin embargo, esto no garantiza 
una mejora en las condiciones de la salud de aquellos que han sido desplazados. A partir de 
tablas de frecuencias (las cuales permiten determinar el número y el porcentaje de unidades de 
análisis, en este caso enfermedades) se determina que las enfermedades más graves con 
mayor incidencia en esta población han sido los problemas respiratorios (14,94%), diarrea 
(18,86%) y fiebre (32,11%), enfermedades generalmente originadas a causa de la 
desnutrición y deficientes condiciones de salubridad; las cuales han sido padecidas en una 
mayor proporción en menos de un mes (66,67%), podría decirse que han sido adquiridas 
después del desplazamiento. 
Según lo anterior se puede decir que condiciones como la inestabilidad económica han 
contribuido en el aumento de esta problemática, ya que al no poseer los medios suficientes 
para cubrir necesidades básicas (tales como la alimentación), los individuos caen en 
problemas de desnutrición, aumentando el nivel de vulnerabilidad de esta población, 
haciendo que sea más susceptible a otro tipo de enfermedades. 
El desplazamiento genera la perdida de la tierra, la vivienda y los activos de los hogares, con 
lo que también se genera desempleo, marginación, el deterioro en las condiciones de salud, 
inseguridad alimentaria y empobrecimiento (Ibáñez, Moya y Velásquez, 2005). 
 
 
Página 36 de 98 
 
3.1. Anexos 
Afiliados al sistema de seguridad social de salud 
 Origen Recepción 
Afiliados 42,18% 71,22% 
No afiliados 57,82% 28,78% 
Total 100,00% 100,00% 
 
Parentesco con el jefe de hogar 
 Frecuencia 
Frecuencia 
relativa 
Frecuencia relativa 
acumulada 
Individuo por 
jefe de hogar 
jefe de hogar 2300 19,47% 19,47% 
Cónyuge 1573 13,31% 32,78% 0,68391 
hijo, hijastro 6537 55,33% 88,11% 2,84217 
nieto 648 5,48% 93,59% 0,28174 
Padres 171 1,45% 95,04% 0,07435 
Hermano 156 1,32% 96,36% 0,06783 
nuera, yerno 112 0,95% 97,31% 0,04870 
Abuelos 27 0,23% 97,54% 0,01174 
Suegros 53 0,45% 97,99% 0,02304 
Tío 2 0,02% 98,00% 0,00087 
sobrino 136 1,15% 99,15% 0,05913 
Primo 12 0,10% 99,26% 0,00522 
cuñado 39 0,33% 99,59% 0,01696 
otro familiar 30 0,25% 99,84% 0,01304 
no pariente 14 0,12% 99,96% 0,00609 
Amigo 5 0,04% 100,00% 0,00217 
Total 11815 100,00% 4,13696 
 
Enfermedades más graves que ha tenido en los últimos 12 meses 
 Frecuencia 
Frecuencia 
relativa 
Frecuencia relativa 
acumulada 
0 2 0,02% 0,02% 
lesión 373 4,64% 4,66% 
enfermedad mental 85 1,06% 5,72% 
problema respiratorio 1.202 14,94% 20,66% 
problema del corazón 165 2,05% 22,71% 
presión arterial 328 4,08% 26,79% 
Fiebre 2.583 32,11% 58,89% 
Diarrea 1.517 18,86% 77,75% 
Página 37 de 98 
 
discapacidad permanente 161 2,00% 79,75% 
otra 1.628 20,24% 99,99% 
74 1 0,01% 100,00% 
Total 8.045 100,00% 
 
Cuanto tiempo ha padecido la enfermedad 
 Frecuencia 
Frecuencia 
relativa 
Frecuencia relativa 
acumulada 
menos de un mes 5.080 66,67% 66,67% 
entre un mes y un año 993 13,03% 79,70% 
Más de un año 1.246 16,35% 96,05% 
desde el nacimiento 295 3,87% 99,92% 
7 2 0,03% 99,95% 
9 3 0,04% 99,99% 
5 1 0,01% 100,00% 
Total 7.620 100,00% 
 
Grado escolar más alto alcanzado 
 
 
0
5
1
0
1
5
cu
ál
 e
ra
 e
l g
ra
do
 e
sc
ol
ar
 m
ás
 a
lto
 a
lc
an
za
do
 p
or
 u
st
ed
Página 38 de 98 
 
4) COEFICIENTE DE THEIL 
Henri Theil fue uno de los pioneros de la econometría moderna quien con su trabajo ha 
influido en toda una generación de economistas; hizo importantes aportes a la teoría de la 
agregación, la información y su aplicación económica, las ciencias de la administración, el 
análisis de la demanda del consumidor, la política económica cuantitativa y a diferentes 
investigaciones econométricas, entre otras cosas. 
En efecto, uno de sus más grandes aportes a la economía fue el Coeficiente de Theil, una 
medida de desigualdad de los ingresos de una determinada población que surge a partir del 
concepto de entropía (incertidumbre o desorden) que el mismo definió como “el valor 
esperado del logaritmo de las probabilidades con signo negativo”. (Altimir & Piñera, pág. 
1) 
Se caracteriza por tener propiedades de descomposición que permiten “analizar la 
asociación existente entre el grado de desigualdad de una determinada variable y el grado 
de desigualdad de una serie de variables explicativas (Altimir & Piñera, pág. 1); en este caso 
la variable general es la población norteamericana y a partir de ella se hace una desagregación 
según las características que posea como la edad, los años de educación, el coeficiente 
intelectual, etc. 
1. El coeficiente de entropía de la distribución de ingresos está dado por: 
H (y) = - ∑ XiLn XiNi 
Donde: 
 N es el número de individuos de la población. 
 � es la participación de cada individuo dentro del total de las rentas. 
 El coeficiente de desigualdad fluctúa entre 0 (perfecta desigualdad) y log N (perfecta 
igualdad) 
 
2. Theil transforma la fórmula de entropía en una medida de desigualdad restando su 
valor de su propio valor máximo, así 
T = Ln N – H y 
Página 39 de 98 
 
= ∑ Xii Ln nu⁄ 
Nota: El valor máximo de la medida de igualdad es cuando todos los individuos ganan la 
misma proporción de rentas. 
Donde: es la participación de la u-ésima unidad en la población y corresponde a 1/N 
entonces:= ∑ X Ln � N⁄⁄ 
3. Para que el campo de variación no cambie respecto al tamaño de la población se 
estandariza el índice dividiendo el valor que tome por el logaritmo del tamaño de la 
población respectiva: 
T* = 
TLn N 
4.1. Paso a paso 
Para comenzar se debe hallar el coeficiente de Theil de la variable general sin hacer ningún 
tipo de segregación, para ello se usa el siguiente esquema: 
Donde: 
 Individuo es la posición que toma (no es necesario que tenga un orden específico). 
 Wage es el ingreso del individuo. 
 Xi es la participación de cada individuo en el ingreso total. 
 XiN mide la desviación relativa del ingreso del individuo con respecto al promedio. 
 Ln (XiN) se halla para establecer los individuos con ingresos por debajo del promedio 
(negativo) y por encima (positivo). 
 XiLn (XiN) consiste en asignarle a cada una de las desviaciones logarítmicas una 
ponderación equivalente a la participación de cada individuo en el ingreso total, al 
hacer esto el coeficiente siempre sea positivo. 
Página 40 de 98 
 
Procedimiento: 
 
1. Se sabe que el número total de individuos es 935. 
 
2. Los ingresos de cada individuo son dados por el ejercicio. 
 
3. El porcentaje que le corresponde al ingreso está dado por la división de este mismo 
en la suma de todos los ingresos. Así: 
 
4. La desviación relativa del ingreso del individuo con respecto al promedio se halla 
multiplicando el número de individuos, en este caso 935, con el porcentaje que se 
halló en la operación inmediatamente anterior. 
 
5. Para hallar cuales ingresos están bajo el promedio o por encima se saca el Ln de la 
desviación relativa. 
6. El resultado de la operación anterior se multiplica por la participación de cada 
individuo dentro de los ingresos total, después se suma el resultado de todos los 
individuos. 
 
Página 41 de 98 
 
7. El resultado de la suma anterior se divide por el logaritmo del total de los individuos, 
esto nos dará el coeficiente de Theil, es decir, el coeficiente de desigualdad en los 
ingresos de esta población. 
 
Ahora bien, como se indicó anteriormente el índice de Theil permite hacer una desagregación 
de la población teniendo en cuenta sus características; esto se hace para saber qué población 
dada unos aspectos tienden a tener mayores ingresos y a partir de la información adquirida 
poder tomar medidas al respecto. 
 
Nota: Para hacer el paso a paso tomaremos como ejemplo si los individuos son 
afroamericanos o no lo son; en la base de datos toman el valor de 1 y 0 respectivamente. 
 
Para hallar el coeficiente de Theil según la característica utilizaremos el siguiente formato: 
Donde: 
 Vj es la participación del grupo j en el ingreso total. 
 Zij es la participación del individuo-i en el ingreso del grupo j. 
 Nj es el número de individuos del grupo j. 
 N es el número total de individuos. 
 ZijNj mide la desviación relativa del ingreso del individuo con respecto al promedio. 
 Ln (ZiNj) ayuda a identificar los individuos con el ingreso por encima y debajo del 
promedio. 
 
1. Se filtran los datos y se ordenan de menor a mayor o viceversa. 
 
Página 42 de 98 
 
2. Se seleccionan los datos de los ingresos de 
todos aquellos que tienen el número cero (no 
afrodescendientes) y se copian en la parte 
del formato que dice wage luego de eso se 
le otorga un número a cada dato empezando 
por el uno; se repite el procedimiento con 
los ingresos que tienen el número 1 
(individuos afrodescendientes) 
 
3. Se cuenta el total de los individuos en cada grupo que deberá ser igual al número del 
individuo del último dato, desde ahora se denominará Nj; en el primer caso el número 
de afrodescendientes es de 120, y aquellos que no lo son suman 815, es importante 
que la suma de estos dos datos de 935, de lo contrario no se estarían tomando todos 
los individuos de la población. 
 
4. A continuación, para saber la participación del individuo-i en el ingreso del grupo j 
se dividirá su ingreso en la suma de los ingresos totales como se hizo en la fórmula 
general. 
 
 
 
 
 
5. Para hallar la desviación relativa del ingreso del individuo respecto al promedio se 
multiplica su participación en los ingresos (el dato anterior) por el número de 
individuos del grupo. 
 
 
 
 
 
Página 43 de 98 
 
6. Se halla el logaritmo de la desviación para establecer si su ingreso está por encima 
del promedio o debajo de él y se multiplica por la participación del individuo en los 
ingresos totales. 
 
 
 
 
7. Para poder llenar la última casilla del formato es necesario primero hallar el valor de 
Vj que es la participación del grupo j en el ingreso total. Para ello utilizaremos el 
siguiente esquema: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Nota: Es importante aclarar que los pasos que se han realizado hasta ahora se deben realizar 
de forma simultánea para ambos grupos, es decir para los afroamericanos y los no 
afroamericanos. Básicamente hasta ahora se deben tener los siguientes datos listos. 
 
 
Este es el dato que 
necesitamos para hallar 
el último valor. 
Página 44 de 98 
 
 
 
 
 
 
 
 
 
 
8. Ahora bien, se debe calcular el ingreso total de cada grupo, para esto se suman todos 
los datos de la casilla wage; es importante tener en cuenta que la suma de ambos tiene 
que dar exactamente 895.679 no solo para este caso sino para todos. 
 
9. Para hallar el valor de Vj (participación del grupo j en el ingreso total) se debe dividir 
el valor de la suma de los ingresos de cada grupo en los ingresos totales. Por ejemplo, 
la participación de los afrodescendientes seria 88.301/895.679 esto da como resultado 
0.099; al hacer lo mismo con los dos no afrodescendientes da 0,901. 
 
10. Con el dato anterior ya se puede llenar la última casilla del primero formato, esto se 
hace multiplicado la participación del grupo por cada Zi Ln (ZiNj) (dato de la casilla 
izquierda). 
 
11. Para cada grupo se suma el valor total de Vj*ZijLn (ZijNj); y luego se divide este 
valor por el Ln de N (la suma de los individuos de cada conjunto); esto se hace para 
ambos grupos. 
 
12. La suma de los dos resultados anteriores nos dará la desigualdad entre grupos (T1) 
 
Página 45 de 98 
 
13. Para hallar la desigualdad dentro de cada grupo (T2) se debe multiplicar el Vj 
(participación del grupo j en el ingreso total) de cada conjunto por el logaritmo natural 
de ese mismo número multiplicado por la suma de Nj de ambos grupos (el total de 
individuos) y dividiendo en el Nj del grupo respectivo. En el caso de los 
afrodescendientes seria así: 
 
= 0.099* Ln ((0.099*(120+815))/120) 
 
14. El dato anterior se divide en el logaritmo natural de 935 (número de individuos de la 
población). Se hace con ambos grupos y se suma el resultado, que será el T2. 
 
15. Finalmente se suman el T1 y el T2 para obtener el coeficiente de desigualdad de la 
población que debe dar 0.0122. 
 
Nota: hay que tener en cuenta que sin importar que característica se esté observando el 
coeficiente de Theil siempre será el mismo al final. 
 
Como se puede observar hay casos en los que las características no están determinadas en 0 
o 1 como en el caso anterior sino que tiene un valor específico, por ejemplo la edad, la 
experiencia, los años de educación; para estos casos el procedimiento es prácticamente igual, 
pero para saber cómo dividir los grupos se debe usar el siguiente formato: 
 
Nota: en el siguiente paso vamos a utilizar 3 desviaciones, esto se hace bajo los parámetros 
de la función de distribución normal que cumple con las siguientes propiedades: 
Página 46 de 98 
 
 No importa cuales sean los valores de la media y la desviación para una distribución 
de probabilidad normal, el área total bajo la curva siempre es 1. 
 
 Aproximadamente el 68% de todos los valores de una población normalmente 
distribuida se encuentra dentro de+/- 1 desviación estándar media; el 95.5% se halla 
dentro de +/- 2 desviaciones estándar y el 99.7% está dentro de +/- 3 desviaciones 
estándar. 
 
1. Ahora bien, para hallar la media solo es necesario sacar el promedio de los datos que 
nos dan; para encontrar la desviación usamos la fórmula =DESVEST.M y el dato que 
obtenemos lo multiplicamos en el primer caso por 3 y en segundo por -3 y ambos se 
suman con la media; esto nos dará como resultado el rango en el que estarán divididos 
los grupos; es decir, el primer grupo estará compuestos por aquellos que están debajo 
de la media, y los otros los que están por encima de la media. 
 
Nota: hay características que no tienen todos los datos, específicamente los años de 
educación de la madre y el padre, para eso hemos dividido la población en tres: los que no 
tienen datos, los que están debajo del promedio y los que están por encima del promedio; 
delimitando el rango como se explicó anteriormente pero solo con los que tienen datos. 
 
 
 
Ilustración 1 Distribución normal 
Página 47 de 98 
 
4.2. Exponga las ventajas que tiene el coeficiente de Theil sobre el coeficiente de 
Gini. 
El coeficiente de Theil presenta ciertas ventajas analíticas frente a otros índices de 
desigualdad ya que permite estudiar el efecto que pueden tener diferentes factores en el 
margen de diferencia económica dentro de un territorio. 
Por otro lado, “dos países pueden tener el mismo Coeficiente de Gini aunque tengan 
diferentes desigualdades ya que las dos curvas de Lorenz pueden tener la misma área pero 
diferentes formas” (Sharma); además, la desigualdad representada no puede descomponerse 
dentro y entre los subgrupos de la población; no puede haber tantos grupos definidos como 
uno puede desear con respecto a sus características. 
En efecto, el Coeficiente de Gini sería una medida de desigualdad más exacta si se tuviesen 
todos los datos de cada individuo, aseguraría una curva más puntual de Lorenz y un cálculo 
más preciso del coeficiente, pero como esto no es posible, al hacer el cómputo usualmente se 
toma una integral sobre la función de distribución definida, ajustando los datos obtenidos a 
esta curva. 
Si bien, al querer analizar los datos a nivel individual de la población, el índice de “Theil es 
una herramienta más apropiada ya que da una imagen más precisa por la forma en que se 
mide” (Sharma), para ser más claros, el valor del Coeficiente de Theil está compuesto de dos 
partes: la primera, es la desigualdad entre grupos, y la segunda, la disparidad al interior de 
ellos, permitiendo analizar más datos y particularidades que el Coeficiente de Gini; 
básicamente brinda la posibilidad de descomponer una población por partes basándose en los 
aspectos que posee, ofreciendo una solución al análisis general que hace el método 
convencional de las correlaciones factoriales. 
Es una mejor herramienta para el análisis de la diferencia económica entre regiones, ya que 
sugiere la importancia relativa de la dimensión espacial de la desigualdad. Entre otras cosas, 
el Coeficiente de Theil es invariante a cambios escalares, si se incrementa la población 
proporcionalmente en todos los grupos, o hay un cambio en la prevalencia que no altera sus 
tasas relativas, la medida de la desigualdad se mantiene constante. 
 
Página 48 de 98 
 
4.3. Análisis 
El Coeficiente de Theil tomado del total de la población, sin hacer ningún tipo de abstracción 
fue de 0.0122, en si el solo dato no nos dice nada, por ello se calculó cual debería ser el índice 
si la población tuviera una distribución equitativa, una perfecta distribución, o una 
distribución no equitativa; en orden respectivo los datos obtenidos fueron: 0,0111, 0, y 
6,8405; ya teniendo esta información se puede decir que la distribución de los ingresos dentro 
de esta población tiende a ser equitativa, esto sucede porque es la menor de las diferencias 
entre el coeficiente y las otras cifras. 
Al hacer la separación de la población de acuerdo a las características que presentaba, el 
coeficiente de desigualdad siempre da lo mismo, esto sucede porque si bien hay factores que 
influyen en la cantidad de ingresos que una persona tiene, al hacer la división por grupos la 
población que se está analizando es la misma. 
 
4.3.1. Horas 
La primera característica a partir de la cual se hizo la desagregación fueron las horas por 
semana que le dedicaba una persona a su trabajo; la clasificación se hizo en dos partes, 
aquellos que dedicaban entre 20 y 43 horas, y quienes laboraban más de 43; los ingresos del 
primer grupo representan el 61% del total de las rentas de la población, y los demás tienen 
una participación del 39%. 
Ahora bien, como se sabe el coeficiente de Theil mide dos tipos de desigualdad, inter grupos 
e intra grupos, para el primer caso la entropía generada es tan pequeña dentro de cada uno 
que es del 0%, en otras palabras, la diferencia económica que hay al interior de cada grupo 
es muy pequeña, prácticamente nula, por consiguiente, la desigualdad entre los grupos es del 
100% sobre la desigualdad total de la población. 
Entre otras cosas, se puede decir que aquellos que los que trabajan entre 20 y 43 horas 
concentran mayor parte de los ingresos, con una diferencia del 8,34% con respecto a aquellos 
que trabajan más de 43 horas. 
Página 49 de 98 
 
Esto se puede deber a que es mayor la cantidad de gente que labora menos de 43 horas, y 
aunque pueda que ganen menos, la suma de todos sus ingresos da más. 
 
4.3.2. IQ 
El segundo aspecto que fue tomado para hacer la desagregación fue el IQ (coeficiente 
intelectual de las personas), en este caso la división hecha fue entre aquellos que tenían un 
IQ de 50 a 101 y quienes tenían de 102 a 150; los ingresos del primer grupo representan el 
43% de los ingresos totales, y el 57% el segundo. 
Ahora bien, la entropía generada dentro de los grupos no era igual de relevante que la que se 
daba entre los grupos, no obstante en este caso fue de 8%, esto quiere decir que se presenta 
desigualdad dentro de los mismos conjuntos pero baja en comparación con la otra del 92% 
sobre el total. 
El mayor grado de entropía entre los grupos fue generado por aquellos que tenían un IQ entre 
101 y 145, es decir que son ellos quienes concentran mayor parte de los ingresos. 
 
4.3.3. Educación 
El tercer aspecto a analizar son los años de educación de las persona, la población fue dividida 
entre aquellos que tenían entre 9 y 13 años de educación y entre 14 y 19, los ingresos del 
primer grupo son el 54% de los ingresos de toda la población, por ende el otro 46% es el 
porcentaje de la renta de los que tienen más años de educación. 
Hay mayor grado de desigualdad se presenta entre grupos y no al interior de ellos, siendo el 
porcentaje de contribución al índice total del 91% y el 9%, en ese mismo orden; en la entropía 
generada entre grupos, aquellos que tienen menos años de educación son los que concentran 
mayor cantidad de dinero. 
De manera similar al aspecto de las horas, quienes tienen menos años de educación son 
quienes tienen una mayor participación dentro de los ingresos totales de la población, pero 
Página 50 de 98 
 
esto se debe no a la condición en si misma sino por la diferencia de personas que hay entre 
un grupo y otro, que es casi de 200. 
 
4.3.4. Experiencia 
El cuarto aspecto que se tomó en cuenta fueron los años de experiencia de las personas, la 
forma en que fueron divididos los grupos fue en aquellos que tenían entre 1 año y 11, y los 
que tenían de 12 a 23. 
Los ingresos de quienes tienen menos años de experiencia son el 52% del total, mientras 
quienes tienen más de 12 constituyen el 48% del mismo; en este caso también se puede 
observar que el 100% de la entropía es generada por la desigualdad entre los grupos, así 
mismo, quienes tienen menos años de experiencia son los que acumulan mayor parte del 
dinero,esto pasa por que hay mayor cantidad de gente en este grupo y por ende sus ingresos 
suman más. 
 
4.3.5. Edad 
Otro aspecto a analizar es la edad de las personas, la forma en que se fraccionan los grupos 
es dependiendo si tienen entre 28 a 33 años o si es mayor de 33, la participación de los grupos 
es muy similar a los ya nombrados, de 54% y 46% respectivamente. 
El 2% de la entropía es generada por la desigualdad dentro de los grupos y el 98% restante 
es creada por la desigualdad entre los grupos, los que acumulan mayor parte de los ingresos 
son los que pertenecen al grupo de los más jóvenes. 
 
4.3.6. Casados – No casados 
Este grupo, como su nombre lo indica se divide en casados y no casados; la diferencia en la 
participación de los ingresos es más evidente que en los casos anteriores, pues la renta de las 
personas casadas representa el 91% de las rentas totales; igualmente la entropía es causada 
Página 51 de 98 
 
en mayor parte por la desigualdad entre los dos grupos, donde concentración de las personas 
no casadas es menor. 
En algunos casos las parejas casadas pueden solicitar beneficios fiscales que las personas 
solteras, además, estudios indican que las personas casadas pueden ser más productivas lo 
que conduce a obtener salarios más altos. 
 
4.3.7. Negros y no negros 
La interacción de los dos grupos genera demasiada entropía (95%) a diferencia de la 
desigualdad que se presenta dentro de ellos mismos (5%); para este caso las personas no 
negras son las que mayor concentración de ingresos tienen (representan el 98% de las rentas 
totales) y generan un 94% de entropía entre grupos. En muchos casos se considera que los 
afrodescendientes tienen menos ingresos debido a que tienen un nivel menor de educación, 
no obstante, instituciones como la Oficina Nacional de Investigación Económica y la 
Universidad Estatal de Pensilvania han realizado estudios dejando la educación y las 
habilidades como un factor constante, y aun así los ingresos siguen siendo menores, por lo 
que se llega a la conclusión que esto se debe a discriminación racial en mayor grado. 
 
4.3.8. Sur o no 
La entropía que se da al interior de los grupos es del 3% esto quiere decir que la desigualdad 
se crea principalmente por la desigualdad entre las personas que pertenecen a los estados del 
sur y los que no, (97%); análogamente, se puede ver que tan solo el 31% de todos los ingresos 
corresponden a quienes viven al sur, y al analizar el porcentaje de entropía de cada grupo, se 
observa que quienes no son del sur concentran una mayor parte de las rentas. 
 
4.3.9. Urbano o no 
El 96% de la entropía es generada por la desigualdad que hay entre los grupos, el otro 4% 
por la desigualdad al interior de los mismos; se puede observar como el 76% de los ingresos 
Página 52 de 98 
 
es de las personas que habitan en zonas urbanas, y como la concentración de las rentas es 
menor para aquellos que no lo son, generan así tan solo un 24% de la entropía entre ambos. 
Esto se puede explicar porque el nivel educativo en las zonas no urbanas es menor que en las 
ciudades, entre otras cosas, la acumulación de personas educadas en las metrópolis tiende a 
producir un aumento de la rentabilidad económica, y además predominan los empleos de baja 
cualificación en las zonas rurales. 
 
4.3.10. Años de educación de la madre y el padre 
En estos casos no todas las personas tenían datos, no obstante, la población fue dividida entre 
aquellos cuyos padres tenían entre 0 y 10 años de educación y entre 11 y 18, los resultados 
indicaron, como en todos los demás hasta ahora, que la diferencia se presenta principalmente 
entre los grupos (en más del 90% en ambos aspectos) y no dentro de ellos; entre otras cosas, 
se puede observar como las personas que tenían padres con más años de estudio eran quienes 
concentraban la mayor cantidad de ingresos. 
En conclusión, la población norteamericana cuenta con una serie de condiciones que pueden 
ayudar a determinar si una persona gana más o menos dinero en comparación con aquellos 
que tienen otras características; los resultados del análisis revelan las personas casadas, no 
afrodescendientes, que tienen un mayor IQ, viven en zonas urbanas, no son del sur y cuyos 
padres son más educados generan mayor entropía, siendo más exactos son los que concentran 
la mayor par de las rentas; así mismo, son más los individuos que tienen entre 18 y 33 años, 
educación entre 9 y 13 años, y experiencia entre 1 y 11 años (no necesariamente de forma 
simultanea) y por ende son los que más acumulan ingresos dentro de la población.
Página 53 de 98 
 
5) INTERPRETACIÓN DE LA TABLA ELABORADA POR 
LA UNIVERSIDAD FRANCISCO DE PAULA 
SANTANDER 
A continuación se presenta una tabla con el resumen de la estadística descriptiva 
correspondiente al código de 52 estudiantes de la universidad Francisco de Paula Santander. 
A partir de los datos obtenidos ¿Qué interpretación puede realizar? 
 
 Población 
Mean* 17.856,630 
Median* 17.205,500 
Maximum* 22.211,000 
Minimum* 15.232,000 
Std. Dev.* 1.826,501 
Skewness* 0,677871 
Kurtosis* 2,367123 
Jarque-Bera 4,850240 
Probability* 0,088467 
Sum 928.545,000 
Sum Sq. Dev.* 1,70E+08 
Observations* 52 
 
Se tomaron los datos de un grupo de 52 estudiantes de la universidad Francisco de Paula 
Santander, de manera que con estos se realizó la estadística descriptiva presentada en el 
cuadro anterior; con este resumen se puede decir en primer lugar, que según la media, el 
centro de la distribución del conjunto de datos de los 52 estudiantes es de 17.856,63, mientras 
que la mediana dice que el dato que ocupa la posición central en la muestra ordenada es 
17.205,5, por lo tanto se podría afirmar que dicha distribución tiende a ser simétrica dado 
que el valor de la media y mediana es casi el mismo, pero no por esto lo es, ya que la 
diferencia entre estas dos medidas de posición es de 651.13 y no es exactamente el mismo 
Página 54 de 98 
 
valor, por lo que no se puede considerar simétrica. Además, en este caso la media tiene un 
valor mayor que la mediana, indicando que es una distribución asimétrica a la derecha, dada 
la existencia de algunos valores atípicos. 
El valor de la asimetría presentado en la tabla confirma lo anterior. Si la asimetría es cero se 
dice que la distribución de los datos es simétrica, y por tanto no tiene sesgo (Asociación 
española para la calidad, 2010) cuando este valor es positivo la distribución tendrá una cola 
asimétrica hacia los valores negativos, es decir que los valores con asimetría positiva tienden 
a reunirse en los valores menores a la media, mientras que si el sesgo es negativo sucede los 
contrario. Ahora bien, con un 0,677871 de asimetría para esta distribución se dice que tiene 
asimetría positiva, de manera que la distribución tiene la siguiente forma: 
 
Asimetría a la derecha o positiva 
Por otro lado, el valor mínimo que toma la distribución de datos es 15.232, mientras que el 
máximo es de 22.211, con ello se puede determinar el rango de la distribución al determinar 
su diferencia, el cual vendría siendo 6979, dicho valor no informa demasiado sobre las 
características de los datos, pero señala la amplitud de la variación de un fenómeno entre su 
límite menor y el mayor, dado que permite tener una idea sobre la dispersión de los datos, ya 
que cuanto mayor es el rango, mas dispersos se encuentran estos. En el caso de que existan 
datos outliers o atípicos, el rango se hace extremadamente sensible a estos, dado que estos 
estarán en los extremos y ocuparan el lugar del máximo o mínimo (Orellana, 2001). 
También puede observarse la desviación estándar como medida que representa el grado de 
dispersión de datos respecto al promedioo la media para determinar si esta medida es alta o 
baja, se determina el coeficiente de variación dividiendo dicha desviación entre la media 
dando como resultado 0.10, con ello se puede decir que la variación de los datos respecto a 
la media puede considerarse relativamente baja. 
Página 55 de 98 
 
Con el coeficiente de curtosis se logra medir el grado de estilización de la representación 
gráfica de la distribución, en otras palabras permite determinar cuánto están los datos 
agrupados en torno a la moda, dado que estudia la concentración de frecuencias en la zona 
central de la variable, de modo que variables con esta medida alta tienen forma apuntada y 
achatada si sucede lo contrario. Cuando se dan valores de la curtosis, no siempre está claro 
cuál es el criterio con el que se ha calculado (Behar y Grima, 2011), puesto que para su 
interpretación tanto el 0 como el 3 pueden ser tomados como números de referencia; si este 
coeficiente es iguala 0 o 3 la distribución es mesocúrtica o normal, si es mayor que 0 o 3 la 
distribución es leptocúrtica o por encima de lo normal y si es menor que 0 o 3 la distribución 
es platicúrtica o por debajo de lo normal (Sarabia y pascual, 2005). 
En este caso dado que el valor de curtosis de los datos es de 2,367123 se dice que la 
distribución es de tipo leptocúrtica, tomando el 0 como referencia, pero si se toma el número 
3, se dice que la distribución es platicúrtica, de manera que puede tomar las siguientes formas: 
 
Forma de la distribución tomando el 0 como referencia. 
 
Forma de la distribución tomando el 3 como referencia. 
 
La probabilidad muestra la frecuencia con la que es posible obtener cierto resultado, en este 
caso la probabilidad tiene un valor de 0,088467 por lo que podría considerarse que es poco 
probable obtener el resultado descrito con los valores de la tabla presentada para los 52 
Página 56 de 98 
 
estudiantes de la Universidad Francisco de Paula Santander, (se afirma esto sabiendo que una 
función de probabilidad viene dada en un intervalo cerrado de 0 hasta 1 [0,1]), por lo tanto 
se podría decir que es muy difícil que se obtengan 2 resultados totalmente iguales. 
Finalmente con la suma de desviaciones al cuadrado es posible determinar la varianza. 
� = − ̅ + ⋯+ � − ̅− = ∑ − ̅�= − 
En donde s2 es la varianza muestral y ∑ �� − �̅��= es la suma de desviaciones al cuadrado 
respecto a la media, y n es el número de observaciones; en este caso la varianza es igual a: � = ∑ ��−�̅��= �− = , �+− = , �+
 
Página 57 de 98 
 
6) CUESTIONARIO SOBRE ESTADÍSTICA 
DESCRIPTIVA 
 
6.1. ¿Por qué es mejor usar el coeficiente de correlación lineal que la covarianza 
para establecer el grado de relación lineal entre dos variables? 
 
La covarianza posee un defecto importante como medida de la relación lineal entre dos 
variables numéricas; dado que esta puede tener cualquier valor, es imposible determinar la 
fortaleza relativa de la relación, para ello es necesario calcular el coeficiente de correlación, 
puesto que con este se logra medir la fortaleza relativa de una relación lineal entre dos 
variables numéricas (Levine, Berenson, y Krehbiel, 2006). 
 
Por otro lado los valores de la covarianza oscilan entre -∞ y +∞, además, depende de las 
unidades de medida en las que se han recogido las variables, por lo que a partir de este 
indicador no es posible determinar si la relación que se establece entre las dos variables es 
importante o no (un valor grande o pequeño, no significa necesariamente una relación grande 
o pequeña entre las variables). 
 
El coeficiente de correlación resuelve este problema, ya que no depende de las unidades de 
medida de las variables y sus valores oscilan entre -1 y +1, en realidad el coeficiente de 
correlación es la covarianza estandarizada. Un valor próximo a 0 indica ausencia de relación 
lineal, un valor cercano a 1 la presencia de relación lineal directa muy intensa (si una aumenta 
la otra también) y un valor cercano a -1 la presencia de relación lineal inversa (si una aumenta 
la otra disminuye). Si el valor del coeficiente de correlación es exactamente 1 o -1 indica una 
relación lineal perfecta, ya sea directa o inversa respectivamente, es decir que en otras 
palabras todos los puntos de la línea de puntos de un diagrama de dispersión forman un línea 
recta perfecta (Guárdia, Freixa, Peró y Turbany, 2008). 
 
 
 
Página 58 de 98 
 
6.2. ¿Qué es el Boxplot o diagrama de bigotes y para qué sirve? 
El boxplot o diagrama de bigotes es un gráfico utilizado en estadística descriptiva propuesto 
por el estadístico John W. Tukey para presentar datos numéricos, especialmente útil para 
comparar distribuciones de varios conjuntos de observaciones, basado también en medidas 
robustas de posición y dispersión, tales como la mediana. 
Esta herramienta de análisis exploratorio de datos permite estudiar la simetría de los mismos, 
detectar los valores atípicos y vislumbrar un ajuste de los datos a una distribución de 
frecuencias determinada. 
Este diagrama divide los datos en cuatro áreas de igual frecuencia, una caja central dividida 
en dos áreas por una línea vertical y otras dos áreas representadas por dos segmentos 
horizontales, denominadas bigotes, que parten del centro de cada lado de la caja. 
Algunas de las características de la distribución de los datos que se manifiestan en el boxplot 
son: 
 Cinco números resúmenes. 
 Una medida de posición robusta (Mediana). 
 Una medida de dispersión robusta (Distancia intercuartil) 
 Simetría de la distribución. 
 Criterios de detección de los datos outliers o atípicos. 
 
El diagrama de bigotes se representa gráficamente como se muestra en la siguiente imagen: 
 
 
Página 59 de 98 
 
6.3. ¿Qué es la ojiva y en qué se diferencia con respecto al polígono de frecuencia? 
 
El polígono de frecuencia es un gráfico de representación de datos numéricos, el cual 
pretende dar una imagen aproximada de la ‘’curva’’ definida por la distribución de la variable 
numérica que se muestra en un histograma (otro gráfico de representación de datos numéricos 
realizado a partir de la construcción de una tabla de frecuencias). 
En otras palabras, puede definirse como un gráfico de líneas quebradas formado al unir los 
puntos medios de las bases superiores de cada rectángulo del histograma (de esta manera 
busca la representación gráfica de frecuencias y frecuencias relativas). 
Por otro lado la ojiva consiste en una gráfica lineal que representa frecuencias acumulativas; 
dichas frecuencias permiten ver cuantas observaciones están por encima de ciertos valores, 
en lugar de hacer un mero registro de elementos que hay dentro de los intervalos. 
La diferencia que existe entre estos dos gráficos de representación de datos radica en que el 
polígono de frecuencia es una representación gráfica de frecuencias y frecuencias relativas 
mientras que la ojiva representa frecuencias acumulativas; dicho en otras palabras el primero 
muestra el número y/o porcentaje de casos que cae en el intervalo i-ésimo mientras que el 
segundo revela la suma de las frecuencias y frecuencias relativas desde la primera categoría 
hasta la categoría i-ésima. 
A continuación se presenta una tabla de frecuencias para los datos de tasas de neumonía por 
cada 1000 habitantes (Orellana, 2001); de esta manera se observa con mayor claridad cuál es 
el tipo de información que revela cada uno de los gráficos anteriormente mencionados. 
 
Intervalo Frecuencia (fi) Frecuencia relativa 
porcentual (fr i) 
Frecuencia 
acumulada (fai) 
Frecuencia relativa 
acumulada (frai) 
[0,1) 1 4.2 1 4.2 
[1,2) 3 12.5 4 16.7 
[2,3) 2 8.3 6 25.0 
[3,4) 8 33.3 14 58.3 
Página 60 de 98 
 
[4,5) 5 20.8 19 79.2 
[5,6) 1 4.2 20 83.3 
[6,7) 0 0.0 20 83.3 
[7,8) 1 4.2 21 87.5 
[8,9) 1 4.2 22 91.7 
[9,10) 1 4.2 23 95.8 
[10,11) 1 4.2 24 100.0 
 # de casos que cae en 
el intervalo