Logo Studenta

libro_estadistica_con_aplicaciones_en_r_def_ago_11

¡Este material tiene más páginas!

Vista previa del material en texto

E stadística con aplicacionesen R
Manuel Ricardo Contento Rubio
Manuel Ricardo Contento Rubio 
Estadístico y Magíster en Enseñanza de las Ciencias 
Exactas y Naturales (Universidad Nacional de Colombia), 
Magíster en Modelado y Simulación (Universidad de Bogotá 
Jorge Tadeo Lozano). Pertenece al grupo de investigación 
de Didáctica de las Ciencias en la Línea de evaluación 
de la educación de la UJTL en donde ha desarrollado 
investigación en Modelos de la Teoría de respuesta al ítem. 
Ha sido profesor y director de tesis de estudiantes de la 
Maestría en Ciencias Ambientales y Maestría en Modelado 
y Simulación de la UJTL.
Estadística con 
aplicaciones en R 
4
Estadística con aplicaciones en R
ISBN impreso: 978-958-725-272-9
ISBN digital: 978-958-725-273-6
ISBN e-pub: 978-958-725-274-3
Rector: Carlos Sánchez Gaitán
Vicerrector Académico: Andrés Franco Herrera
Vicerrectora Administrativa: Liliana Álvarez Revelo
Decano de la Facultad de Ciencias Naturales e Ingeniería:
Isaac Dyner Rezonzew
Director Departamento de Ciencias Básicas y Modelado: 
Favio Cala Vitery
Editorial Utadeo
Jefe de Publicaciones: Marco Giraldo Barreto
Coordinación gráfica y diseño: Luis Carlos Celis Calderón
Coordinación editorial: Mary Lidia Molina Bernal
Coordinación revistas científicas: Juan Carlos García Sáenz
Distribución y ventas: Sandra Guzmán
Asistente administrativa: María Teresa Murcia
Edición:
Diseño de carátula y pauta gráfica: Juanita Giraldo
Adecuación pauta gráfica: Luis Carlos Celis Calderón
Corrección de estilo: Hernando García Bustos
Coordinación editorial: Mary Lidia Molina Bernal
Diagramación: Francisco Jiménez
Contento Rubio, Manuel Ricardo
 Estadística con aplicaciones en R. / Manuel Ricardo Contento Rubio. - Bogotá: 
Universidad de Bogotá Jorge Tadeo Lozano, 2019. 
 412 páginas ; 22 cm.
 ISBN: 978-958-725-272-9
1. Estadística – Procesamiento de datos. 2. R (Lenguaje de programación de computadores). 
3. Estadística descriptiva. 
4. Probabilidades. 5. Intervalos de confianza. 6. Prueba de hipótesis estadística. 7. Análisis 
de varianza. 8. Análisis de regresión. I. Tít.
CDD519.50285
Fundación Universidad de Bogotá Jorge Tadeo Lozano | 
Vigilada Mineducación.
Reconocimiento de personería jurídica: Resolución N°. 2613 
de 14 de agosto de 1959, Minjusticia.
Acreditación institucional de alta calidad, 6 años: Resolución 
4624 del 21 de marzo de 2018, Mineducación.
Estadística con 
aplicaciones en R 
Manuel Ricardo Contento Rubio
7
Contenido
Presentación 13
El contexto estadístico 15
Introducción 15
¿Por qué estudiar estadística? 16
¿Qué es estadística? 18
Software estadístico R 20
Instalación del software R 22
Introducción a R 24
Referencias 43
Análisis descriptivo 45
Introducción 45
Algunos conceptos fundamentales 46
Observaciones y notación 50
Componentes del análisis descriptivo 51
Medidas de tendencia central 54
Medidas de dispersión o variabilidad 61
Distribucionalidad 67
Referencias 107
1
2
8
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Probabilidad y variables aleatorias 109
Introducción 109
El significado de probabilidad 110
Experimento aleatorio 111
Enfoques de la probabilidad 112
Algunas técnicas de conteo 116
Desarrollo axiomático de la probabilidad 121
Ley aditiva de la probabilidad 127
Probabilidad conjunta, marginal y condicional 131
Ley multiplicativa de la probabilidad 135
Independencia estadística 140
Ley de probabilidad total 144
Teorema de Bayes 145
Variable aleatoria 150
Referencias 170
Distribuciones de probabilidad univariadas 171
Introducción 171
Distribuciones discretas de probabilidad 172
Distribución uniforme discreta 172
Distribución binomial 176
Experimento binomial 177
Función de probabilidad binomial 178
Valor promedio y varianza de una distribución binomial 178
Distribución de Poisson 185
Función de masa de probabilidad Poisson 186
Promedio y varianza de una distribución de Poisson 186
3
4
9
C
on
te
ni
do
Aproximación binomial - Poisson 188
Distribución hipergeométrica 192
Propiedades hipergeométricas 192
Función de masa de probabilidad hipergeométrica 192
Valor esperado y varianza hipergeométrica 193
Distribuciones continuas de probabilidad 196
Distribución uniforme continua 196
Valor esperado y varianza de uniforme continua 197
Distribución normal 200
Contexto histórico de la distribución normal 200
Características de la distribución normal 203
Función de probabilidad y parámetros de normal 203
Cálculo de probabilidades en la distribución normal 207
Estandarización (tipificación) 208
Tabla normal estándar 209
Distribución ji cuadrado 223
Distribución t de Student 227
Distribución F 232
Referencias 236
Muestras aleatorias y distribuciones de muestreo 237
Introducción 237
Muestra aleatoria 238
Parámetro 238
Estadística (estadígrafo) 239
Distribución de muestreo de una estadística 240
Distribución de muestreo para el promedio 241
Teorema del límite central 244
5
10
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Tamaño de muestra para estimar el promedio y la proporción 255
Otros teoremas de distribuciones de muestreo 260
Distribución de muestreo para el promedio 
( , desconocida) 260
Distribución de muestreo para la varianza ( ) 260
Distribución de muestreo para la diferencia 
de promedios ( ) 260
Distribución de muestreo para la proporción (P) 261
Distribución de muestreo para la diferencia 
de proporciones ( ) 262
Distribución para el cociente de varianzas ( ) 262
Referencias 269
Estimación puntual y por intervalo 271
Introducción 271
Nociones básicas de estimación 272
Estimación por intervalo 273
Intervalo de confianza para μ 274
Intervalo de confianza para la proporción 276
Intervalo de confianza para la varianza 278
Intervalo de confianza para el cociente de varianzas 280
Intervalo de confianza para la diferencia de promedios 284
Intervalo de confianza para la diferencia de proporciones 287
Consideraciones finales 290
Referencias 300
6
11
C
on
te
ni
do
Prueba de hipótesis estadística 301
Introducción 301
Definición de hipótesis 302
Características de una hipótesis 302
Tipos de hipótesis 302
Hipótesis estadísticas 303
Prueba de hipótesis estadísticas 304
Elementos de una prueba de hipótesis estadística 305
Prueba de hipótesis para el promedio 307
Prueba de hipótesis para la proporción 311
Prueba de hipótesis para la varianza 313
Prueba de hipótesis para cociente de varianzas 315
Prueba de hipótesis para diferencia de promedios 318
Prueba de hipótesis para diferencia de proporciones 321
Inferencia con muestras pareadas 326
Comparación de la media de dos poblaciones 
usando muestras pareadas 327
Intervalo de confianza para μd 328
Prueba de hipótesis para μd 328
Referencias 349
Análisis de varianza 351
Introducción 351
Experimento 352
Elementos básicos de un diseño de experimentos 352
Pasos por seguir en un diseño de experimentos 353
Análisis de varianza 353
7
8
12
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Análisis de varianza a una vía 356
Identidad de la suma de cuadrados 358
Aditividad de grados de libertad 359
Cuadrados medios y su cálculo 360
Prueba de hipótesis y tabla ANOVA 360
Comparaciones múltiples 369
Comparaciones a priori 369
Comparaciones a posteriori 369
Referencias 383
Regresión lineal 385
Introducción 385
El modelo 386
Estimación de los parámetros del modelo 387
Inferencia respecto a β1 391
Intervalo de confianza para E(y/x = x0) 394
Intervalo de predicción paray dado x = x0 394
Coeficiente de correlación y determinación 395
Prueba de hipótesis para el coeficiente de correlación 396
Análisis de varianza en regresión lineal 398
Examen de los supuestos del modelo de regresión 401
Referencias 411
9
Presentación
A lo largo de la experiencia como docente de universidad, es frecuente evidenciar que cuando los estu-
diantes enfrentan el aprendizaje de conceptos de estadística logran la habilidad suficiente para saber utilizar 
algunos algoritmos y aplicar ciertos modelos de probabilidad. Saben, por ejemplo, cómo proceder cuando se 
encuentran frente a una variable con distribución normal y cuándo aplicar un determinado intervalo de confian-
za o algunas pruebas de hipótesis; sin embargo, también se evidencian dificultades al momento de la inter-
pretación en contexto, debido en muchos casos a que no comprenden el sentido de lo que aprenden. ¿Qué 
caracteriza a los valores que se distribuyen de forma sesgada versus distribuciones simétricas? ¿Cuál es el 
significado y las implicaciones del teorema central del límite? ¿Cuál es la relación que existe entre el valor de 
la estadística de prueba y el p-valor?
Tener la posibilidad de explorar las ideas detrás de cada concepto o procedimiento y descubrir relaciones 
entre ellos puede favorecer la comprensión para así aprender mejor su verdadero significado. La tecnología y 
el software hacen posible este hecho al permitir la simulación de experimentos aleatorios con rapidez y fiabili-
dad, así como visualizar datos para revelar patrones que generan detalle y conocimiento a profundidad de cier-
tos fenómenos y que al final se convierten en información comprensible al usuario. El software elegido es R, 
el cual tiene dos ventajas: la primera, es de uso libre; la segunda, los estudiantes pueden usarlo en cualquier 
lugar y momento sin limitarse al entorno del aula.
El software, descargable de manera gratuita en http://cran.r-project.org, es un conjunto integrado de pro-
gramas que permite, entre otras acciones, manejar bases de datos, hacer cálculos complejos, proveer re-
sultados rápidamente y elaborar gráficos estadísticos de gran calidad. Este software consta de una serie de 
paquetes básicos y otros que se pueden descargar según las necesidades del usuario, de manera que se po-
tencian las posibilidades de la aplicación. 
14
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Este libro presenta el entorno del software R como una herramienta para los cálculos y proporciona una jus-
tificación para usar este programa sobre cualquier otro, en particular los que requieren de licencia. Inicialmente, 
se ofrece una introducción general a R en el contexto estadístico (capítulo 1), para luego dar paso al análisis 
descriptivo (capítulo 2) en el cual se muestran algunas funciones clave de R para visualizar información. Los 
conceptos de probabilidad y variables aleatorias cobijan el tercer capítulo y son fundamentales para el manejo 
de los modelos estadísticos más usados para variables discretas y continuas. El capítulo 4 ofrece las funcio-
nes de R para el cálculo de probabilidades y cuantiles, sustituyendo el manejo de tablas. El capítulo 5 trata las 
distribuciones de muestreo y los teoremas asociados más importantes y que constituyen la base de la infe-
rencia mediante intervalos de confianza (capítulo 6) y prueba de hipótesis (capítulo 7). Finalmente, se da paso 
a dos métodos que tienen un lugar preponderante entre los procedimientos estadísticos: el análisis de varian-
za (capítulo 8) y la regresión lineal (capítulo 9).
Aprovecho para dar gracias a las sugerencias y comentarios de profesores y estudiantes, quienes usaron 
las versiones preliminares en la Universidad de Bogotá Jorge Tadeo Lozano y el conjunto de temas que final-
mente se plasman en este libro ha evolucionado y se ha enriquecido de las conversaciones mantenidas con 
ellos.
15
El contexto estadístico
Introducción
Es frecuente que muchos de ustedes se pregunten ¿qué es estadística?, ¿quiénes la usan?, ¿cuándo se debe 
aplicar?, ¿por qué debo estudiarla? En este capítulo se hace una presentación de la estadística, su contexto y 
sobre el software R que apoya este libro, buscando aportar a responder estos interrogantes y animar al lector 
a darse una oportunidad de conocer un poco de esta útil herramienta.
1
16
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
¿Por qué estudiar estadística?
En el ámbito académico y profesional es frecuente la lectura de artículos científicos y una diversidad de 
otras publicaciones en donde se utiliza estadística, con el consabido reto para el lector de comprender aque-
llo que está escrito. A manera de ejemplo, se presenta el aparte de análisis estadístico que fue efectuado 
en una investigación sobre la contaminación de una fuente de agua (Claret, Urrutia, Ortega, Abarzua, Perez 
& Palacios, 2005).
Al pasar por la lectura de este fragmento de la publicación se puede identificar una serie de términos 
técnicos, referidos al análisis de los datos obtenidos, que tienen implicaciones estadísticas: sw SAS, aná-
lisis de varianza, estadísticas básicas, coeficiente de correlación de Pearson, matriz de resultados, correla-
ción significativa (< 0.05 correlación significativa), valor de < 0.001. Al final aparece una conclusión derivada 
de los métodos estadísticos usados, anunciando que la conductividad eléctrica está asociada con el conte-
nido de nitratos.
Las preguntas relevantes ahora son: ¿podemos entender lo que allí está escrito?, ¿qué significado tie-
nen los números que aparecen?, ¿qué se debe entender por correlación?, ¿qué implicación tiene el califi-
cativo significativo adjuntado a la correlación?, ¿cuáles son los resultados que sugieren la conclusión que 
se presenta?
17
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
La práctica más cómoda para el lector sin mayor preocupación por una postura crítica sobre la publica-
ción es dar por sentado lo que aparece escrito, considerar pertinentes y adecuados los métodos estadís-
ticos usados y validas las conclusiones que se derivan de los datos. En resumen, ser de la opinión "si está 
publicado debe ser cierto".
Hay que comentar que esta posición implica una situación ideal, donde los editores de las publicaciones 
científicas "garantizan" el adecuado uso de los métodos estadísticos por parte de los autores, y los lectores, 
sin preocuparse por este aspecto de la investigación, suponen que los resultados son verídicos. 
El afán desmedido por usar métodos estadísticos para el análisis de datos ha llevado a percibir que la es-
tadística es una "herramienta", o que los estadísticos son técnicos a quienes recurrir para solucionar proble-
mas que se aprecian simplemente como "operativos" (aplicar una determinada prueba estadística, sacar el 
valor-p, calcular la potencia de la prueba, correr el modelo, cuántas observaciones tomar, etcétera), la mayor 
parte de las veces sin haberlos vinculado al proceso de formulación, diseño o discusión del estudio. Esto ha 
llevado a un uso de la estadística sin suficiente reconocimiento de su estatus como disciplina científica in-
dependiente, lo que ha devenido en una instrumentalización simple y superficial, que impide el aprovecha-
miento completo de sus potencialidades, pero que además puede afectar el rigor y validez de los estudios 
(Fernández & Belem, 2016). 
Sin embargo, lo cierto es que los consumidores de las publicaciones científicas deben estar en capa-
cidad de valorar los métodos estadísticos aplicados, con el objetivo de evaluar la contundencia de los ar-
gumentos a favor o en contra de las conclusiones de la investigación. Esta necesidad puede desaminar a 
estudiantes, profesionales o investigadores que sin dedicarse a la estadística tienen que hacerle frente. 
Buena parte de los desaciertos que se encuentran en las publicaciones científicas son errores de diseño 
fundados, en gran medida, en el desconocimientode los principios básicos de la estadística. Hay que co-
mentar que la cantidad de errores que se cometen no es despreciable, en parte debido a que cuando se re-
quiere la aplicación de la estadística en las publicaciones, están en manos de los investigadores la sensatez 
y el cuidado al usar los métodos estadísticos.
La tarea para los consumidores y productores de las publicaciones científicas es adentrarse en el estu-
dio detallado de los principios básicos de la estadística para que estén en capacidad de comprender, criticar 
y valorar los métodos estadísticos usados en las publicaciones (Guttman, 1979). Afortunadamente las ideas 
básicas para comprender el contexto estadístico en las publicaciones no son complicadas y generalmente 
acuden a la lógica y al sentido común. 
18
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
¿Qué es estadística?
Una idea frecuente es creer que la estadística se reduce a la presentación de cifras, tal como la utilizan los pre-
sentadores de las noticias deportivas al referirse, por ejemplo, a los resultados de los partidos de fútbol, posi-
ciones de los equipos, número de partidos jugados, ganados o perdidos, empatados, y así sucesivamente. En 
otras situaciones, también son presentados en los medios de comunicación datos relativos al número de ac-
cidentes automovilísticos que ocurren en un determinado lapso, muertes violentas, opinión de electores, ci-
fras de desempleo, índices de inflación y de precios, etc. Esta es la faceta más notoria de la estadística, pero 
tiene un espectro más amplio tanto a nivel teórico como en las aplicaciones.
Un aspecto básico para comenzar el estudio y la comprensión de la estadística es acercarse a una delimi-
tación de sus objetivos. Entre las primeras impresiones, se concibe la estadística como un conjunto de méto-
dos para recopilar, analizar, interpretar y presentar grandes volúmenes de datos; el énfasis principal de esta 
visión es mostrar su aspecto procedimental y revelar la relación estadística-datos, aunque se reconoce que los 
datos son parte importante de esta disciplina. Otros aspectos y preguntas que tienen mayor relevancia para 
señalar el verdadero objetivo de la estadística son:
• ¿Para qué se han recolectado los datos? La intención final para disponer de registros (mediciones) 
debe evidenciar la concordancia con los objetivos de la investigación.
• ¿Fue adecuado el método de recolección de los datos? Son diversas las formas en que puede se-
leccionarse los datos: encuestas estructuradas, entrevistas, registros administrativos y registros de-
mográficos, entre otros; cada uno de estos tiene ventajas y limitaciones que deben preverse para 
evitar sesgos en los registros obtenidos.
• ¿Está sustentada la cantidad de datos recolectados? Cuando se recolecta información se cuestiona 
insistentemente a los investigadores sobre el tamaño de muestra y el diseño muestral, cuyos deta-
lles deben formar parte del protocolo de la investigación.
• ¿Se verificó el cumplimiento de los requisitos de aplicación de los métodos estadísticos utiliza-
dos? Todo método estadístico se sustenta en desarrollos teóricos con supuestos distribucionales. 
Lamentablemente, desde cierto sector despreocupado por la base estadística y matemática, se 
cree que la verificación de dichos supuestos, como parte del análisis estadístico, es engorrosa y un 
capricho teórico, sin reconocer que estos constituyen las condiciones bajo las cuales las conclusio-
nes son justificables y válidas.
19
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
• ¿Concuerdan las conclusiones de la investigación con la realidad? Esto pone de manifiesto ciertos 
errores en que se puede incurrir cuando se trabaja con la información proveniente de una muestra, 
particularmente en las pruebas de hipótesis.
Si el investigador no puede responder adecuadamente estas preguntas de manera técnica y científica, en-
tonces la validez de los resultados queda en entredicho. Lo anterior evidencia que el objetivo de la estadística 
está lejos de ser la obtención de datos; se debe pensar con anterioridad en puntos como los mencionados y 
disponer de un detallado plan de investigación antes de proceder a la recolección de los datos, y no esperar 
enfrentar dudas acerca de la capacidad que tiene la información disponible para responder los objetivos de la 
investigación. En casos más extremos, darse a la recolección de datos y posteriormente ajustar algunos obje-
tivos con el ánimo de conducir una investigación.
Si bien la estadística se preocupa por la consecución de datos, tiene en principio que ver con el diseño de 
investigaciones y con la inferencia. Para la primera hay que entender que se preocupa por las etapas que han 
de seguirse en una investigación y la manera en que se llevan a cabo según el método científico. La inferen-
cia atiende a la manera en que los datos conforman una evidencia sólida para llegar a una conclusión valida. 
Uno de los puntos neurálgicos radica en que los datos provienen de un conjunto mayor llamado población, 
que en la mayoría de los casos no es posible estudiar en su totalidad, es decir, llevar a cabo el CENSO. La es-
tadística proporciona a los investigadores una alternativa al censo, al indagar solo una fracción de la población 
con el ánimo de emitir conclusiones a nivel general. Lo anterior resulta cómodo y atractivo para los usuarios, 
pero es necesario planear cuidadosamente ciertas etapas para disfrutar de un conjunto de resultados que 
sean relevantes y poder extrapolar las conclusiones a la población.
La estadística y el pensamiento estadístico son factores principales en la vida cotidiana y en muchas de las 
ocupaciones. Casi cada profesión tiene que ver con datos (cuantitativos y cualitativos), y por consiguiente, una 
necesidad de investigadores y ciudadanos instruidos estadísticamente que puedan contribuir a generar un ra-
zonamiento crítico, fundamental para una sociedad bien informada. 
20
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Software estadístico R
Otro punto importante que ha hecho posible la incursión de los investigadores en el contexto estadístico 
es el acceso cada vez más fácil a programas especializados en el procesamiento de información promovi-
do en parte por la llamada "piratería de software". Entre los programas estadísticos más conocidos se pue-
den mencionar SPSS, SAS, STATISTICA, S-Plus, STATA. Existe también una explosión de textos en donde 
se expone someramente la manera de aplicar un método estadístico (Regresión, Anova, Estadística no pa-
ramétrica, por mencionar algunos) con un detrimento de los conceptos involucrados. 
Por otra parte, hay que ser precavido pues el solo acceso a un software estadístico no es garantía de 
una adecuada aplicación; el buen uso que se puede dar a la estadística depende en mayor proporción del 
nivel de dominio conceptual que tenga quien la aplica, más que del software usado. No obstante, el uso 
de software puede colaborar para adentrarse en el fascinante mundo de la estadística, y para facilitar aún 
más dicho proceso este libro usa y promueve el uso del software libre, siendo R el caso más sobresaliente 
(R Core Team, 2016). 
El software R es uno de los más flexibles, potentes y profesionales que existen actualmente para realizar 
tareas estadísticas, desde las más elementales hasta las más avanzadas. Está desarrollado y soportado por 
una comunidad académica a nivel mundial, cuenta además con la ventaja de ser gratuito y su descarga e ins-
talación son sencillas; consulte el sitio http://cran.r-project.org/ para este efecto. 
Para dimensionar las posibilidades y características de este software se recomienda la lectura del artícu-
lo "Por qué comprar un programa estadístico si existe R" (Salas, 2008), donde se compara R con SAS y SPSS, 
dos de los programas estadísticos licenciados más usados en docencia e investigación. (Disponible en línea: 
http://www.scielo.org.ar/pdf/ecoaus/v18n2/v18n2a07.pdf)Con el objetivo de sustentar la versatilidad de R para efectuar análisis estadísticos se mencionan algunas 
de las ventajas que tiene este software, esperando animar a los estudiantes a iniciarse en el manejo de esta 
potente herramienta:
1. R es gratuito. No necesita hacerse a versiones "piratas" o comprar costosas licencias que deben re-
novarse periódicamente, claro está, después de pagar.
2. R tiene el sustento de toda una comunidad académica mundial. Además se dispone de una excelen-
te documentación y apoyo en línea.
3. R es empleado por investigadores de múltiples áreas del conocimiento. Esto hace posible conocer 
diversas facetas de aplicación.
21
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
4. R se está mejorando cada día. Continuamente aparecen nuevos paquetes gratuitos que expanden la 
capacidad de R para solucionar diferentes problemas.
5. Emplea una interfaz de línea de comando (command-line) que permite aprender mientras se hacen 
los cálculos. Los paquetes que se manipulan por ventanas y con clics se asemejan a una caja negra; 
si el usuario es neófito, nunca sabrá qué hizo el software.
6. R es uno de los paquetes estadísticos de mayor crecimiento respecto de su uso en diferentes 
disciplinas.
7. El lenguaje de programación de R es intuitivo.
8. R crea gráficos de gran calidad y con la posibilidad de adecuarlos a las necesidades de los 
investigadores.
9. R y LaTex (software diseñado para generar documentos científicos) trabajan de manera integrada. 
Esto hace posible componer documentos técnicos y científicos sin problemas de compatibilidad.
10. R es multiplataforma. Funciona en Mac, Windows o Linux.
11. R hace pensar al usuario en los fundamentos de la estadística.
Este libro utiliza R para las diversas aplicaciones; además se provee un número importante de ejemplos 
que incluyen el código utilizado y cuyas instrucciones pueden modificarse para solucionar los ejercicios pro-
puestos y demás aplicaciones posteriores. Para iniciarse con el software se recomienda la lectura de los si-
guientes documentos (disponibles en línea, ver las referencias bibliográficas), en donde se proporcionan los 
elementos básicos para trabajar con R en el ámbito de la estadística.
• R para principiantes (Paradis, 2002). 
• Introducción a R (R Development Core Team, 2000). 
22
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Instalación del software R
La descarga e instalación de R es sencilla, a continuación se indican los pasos esenciales para una adecuada 
instalación de R en Windows (para otros sistemas operativos es similar):
1. Ingrese a la página 
http://cran.r-project.org/
Seleccione "Download R for 
Windows". 
2. Seleccione "install R for the 
first time".
3. Espere la descarga, ejecute y 
seleccione el idioma.
4. En las ventanas consecu-
tivas, seleccione. "Siguiente". 
Indique "Finalizar" para comple-
tar la instalación.
23
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
5. Busque R en el menú Inicio 
para tener acceso al programa.
Al ingresar a R encontrará una consola en la cual serán impresos los resultados de las operaciones y/o ins-
trucciones asignadas desde el editor.
24
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Introducción a R
R es un lenguaje interpretado, es decir, que el código no necesita ser preprocesado mediante un compilador; 
eso significa que el computador es capaz de ejecutar la sucesión de instrucciones dadas por el programador 
sin necesidad de leer y traducir exhaustivamente todo el código; por otra parte, se tiene que R es un lenguaje 
que diferencia las letras minúsculas y mayúsculas (case sensitive). 
R es un lenguaje de formato libre, es decir, que se admiten espacios, tabuladores y comentarios en cual-
quier parte del código. Se puede entrar un comando a la vez en la línea que identifica el símbolo del sistema 
o command prompt (>) o correr un conjunto de comandos desde un archivo fuente. Las sentencias finalizan 
en punto y coma o en salto de línea. Cuando se quiere poner más de una sentencia en una línea, es necesa-
rio poner un punto y coma (;) para separarlas.
La mayor parte de la funcionalidad en R se proporciona a través de funciones integradas y creadas por el 
usuario, así como por la manipulación de objetos. Un objeto es básicamente cualquier cosa (datos, variables, 
cadena de caracteres, funciones, gráficos, resultados analíticos, etc.) a la cual se le puede asignar un valor; 
cada objeto tiene un atributo de clase que dice a R cómo manejarlo. Es el uso de objetos como entidad bási-
ca una diferencia fundamental de la filosofía de R, con el resto del software estadístico.
Cualquier expresión evaluada por R se realiza en una serie de pasos, con unos resultados intermedios que 
se van almacenando en objetos para ser observados o analizados posteriormente, de tal manera que se puede 
hacer un análisis sin necesidad de mostrar su resultado inmediatamente produciendo unas salidas mínimas. 
Cada objeto pertenece a una clase, de modo que las funciones pueden tener comportamientos diferentes se-
gún sea la clase a la que pertenece su objeto argumento; por ejemplo, no se comporta igual una función cuan-
do su argumento es un vector que cuando es un fichero de datos u otra función. 
Todos los objetos de datos se mantienen en la memoria durante una sesión interactiva. Las funciones básicas 
están disponibles de forma predeterminada. Otras funciones están contenidas en los paquetes que se pueden ad-
juntar a una sesión actual, según sea necesario; el tema de los paquetes se tratará más adelante en esta sección. 
Las declaraciones o sentencias consisten en funciones y asignaciones. R utiliza el símbolo <- para asigna-
ciones, en vez del típico signo de igual (=). Por ejemplo, escriba en el editor las cuatro líneas siguientes:
a <- 300
b <- 500
c <- a+b
c
25
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
Seleccione (sombree) las cuatro líneas de código anteriores, luego presione "Ctrl" + "r" (o en su defec-
to, F5) para ejecutar los comandos elegidos en el ambiente Windows, mientras que para Mac se ejecuta con 
"command"+"enter". Estas instrucciones crean un objeto denominado a al cual se asigna el valor 300; de 
manera similar se crea un objeto b con asignación de 500, luego se crea un objeto c que contiene la suma 
de a y b, finalmente se solicita al software mostrar el valor consignado en el objeto c. Se observará el resul-
tado en la consola.
> a <- 300
> b <- 500
> c <- a+b
> c
[1] 800
Con la sentencia x<-rnorm(5);x se crea un vector x que contiene cinco valores provenientes de una 
distribución normal estándar y se visualiza los datos que se guardan en el vector x. Otra forma en que se 
muestran directamente los resultados guardados en el objeto x es escribir la sentencia entre paréntesis, así: 
(x<-rnorm(5)). Para este ejemplo se obtienen los siguientes resultados, pero note que los datos genera-
dos son diferentes pues los cinco valores son aleatorios.
> x<-rnorm(5);x
[1] 0.1850220 0.6883421 0.3681860 0.2622298 1.2763340
> (x<-rnorm(5))
[1] -0.6414067 -0.9604300 0.2379763 -1.0163363 -0.4056877
Aunque el software permite que el signo = sea usado para las asignaciones de objetos, no es usual escri-
bir los programas de esa manera, ya que no es la sintaxis estándar; hay algunas situaciones en que no funcio-
nará, y si usted decide usarla puede causar una mala impresión, a tal punto de ser blanco de críticas por parte 
de los programadores ya diestros en R. También puede invertir la dirección de asignación, rnorm(5)-> x es 
equivalente a la sentencia anterior. Una vez más, hacerlo es poco común y no se recomienda.
Ahora piense que estamos interesados en estudiar la relación entre la edad y el peso en la etapa de la 
infancia a la adolescencia. Los datos están dados en la Tabla 1.1. Se dispone de la información de nueve 
personas. 
26
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Tabla 1.1 Datos antropométricosen jóvenes.
Edad (años) Peso (kg) Edad (años) Peso (kg)
3 14 3 12
5 17 6 20
6 19 8 26
8 23 14 40
10 32
Los registros de edad y peso se introducen como vectores usando la función c(), la cual combina sus ar-
gumentos en vectores o listas; el promedio se obtiene con la función mean(), la desviación estándar con 
sd(), la correlación entre la edad y el peso se calcula usando cor(). Finalmente se grafica el peso contra la 
edad mediante la función plot(). Las funciones en R, por ejemplo mean(), cor() y plot() se denotan de 
manera similar a como se hace en matemáticas, con el nombre de la función y el argumento entre paréntesis.
Una práctica muy útil consiste en escribir las instrucciones en el editor y salvar este archivo (script) con un 
nombre corto pero descriptivo y con extensión .R; por ejemplo, los vectores que guardan los datos de Edad y 
Peso y las funciones que calculan el promedio de la variable Peso, la desviación estándar de la Edad, la correla-
ción entre Edad y Peso y el gráfico de estas variables se puede guardar en un script de nombre relación.R, 
y se puede ejecutar en cualquier momento o si lo requiere se pueden copiar algunas instrucciones que se pue-
dan necesitar para ejecutar cálculos similares pero sobre otras variables. A continuación se presentan los re-
sultados que se obtienen al ejecutar las instrucciones que se consignaron en el script.
> Edad <- c(3,5,6,8,10,3,6,8,14)
> Peso <- c(14,17,19,23,32,12,20,26,40)
> mean(Peso)
[1] 22.55556
> sd(Edad)
[1] 3.5
> cor(Edad, Peso)
[1] 0.9900868
> plot(Edad, Peso)
De los resultados anteriores se tiene que el peso promedio es aproximadamente 22.56 kilogramos, la des-
viación estándar de la edad es 3.5 años y se evidencia una relación directa y fuerte entre la edad y el peso, 
dado que el coeficiente de correlación es positivo y cercano a uno (correlación = 0.9900868). El diagrama de 
dispersión se muestra en la Figura 1.1. y dada la relación directa entre las variables, se aprecia gráficamente 
cómo a medida que aumenta la edad también lo hace el peso.
27
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
Figura 1.1 Diagrama de dispersión para peso y edad.
Cuando se instala el software se incluyen una serie de bases de datos obtenidas por investigadores en 
distintos contextos y que han sido liberadas con propósitos fundamentalmente académicos y conforman una 
buena fuente de información para aplicaciones estadísticas. Para obtener una lista de los datos disponibles, 
ejecute la sentencia data(); en el recuadro se presenta una fracción de las mencionadas bases de datos que 
se visualizan según orden alfabético.
Data sets in package ‘datasets’:
AirPassengers Monthly Airline Passenger Numbers 1949-1960
BJsales Sales Data with Leading Indicator
BJsales.lead (BJsales)
 Sales Data with Leading Indicator
BOD Biochemical Oxygen Demand
CO2 Carbon Dioxide Uptake in Grass Plants
ChickWeight Weight versus age of chicks on different diets
DNase Elisa assay of DNase
EuStockMarkets Daily Closing Prices of Major European Stock
 Indices, 1991-1998
Formaldehyde Determination of Formaldehyde
Para cargar una de estas bases de datos, por ejemplo BOD, se debe suministrar dicho nombre como argu-
mento de la función. Si desea visualizar la información contenida en este objeto, simplemente digite el nom-
bre de la base de datos.
28
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
> data(BOD)
> BOD
 Time demand
1 1 8.3
2 2 10.3
3 3 19.0
4 4 16.0
5 5 15.6
6 7 19.8
Se puede acceder a una descripción general de la base de datos usando la función help(BOD). Esta ayu-
da se ejecuta en la web, por lo cual conviene estar conectado; además help()también se puede aplicar para 
obtener información sobre el manejo de las funciones en R y solo basta poner entre paréntesis el nombre de 
la respectiva función. La ayuda para la base de datos BOD es la siguiente:
BOD {datasets} R Documentation 
Biochemical Oxygen Demand
Description
The BOD data frame has 6 rows and 2 columns giving the biochemical 
oxygen demand versus time in an evaluation of water quality. 
Usage
BOD
Format
This data frame contains the following columns: 
Time
 A numeric vector giving the time of the measurement (days). 
demand
 A numeric vector giving the biochemical oxygen demand (mg/l). 
29
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
Source
Bates, D.M., and Watts, D.G. (1988). Nonlinear Regression Analysis and 
Its Applications. Wiley, Appendix A1.4. 
Originally from Marske (1967), Biochemical Oxygen Demand Data 
Interpretation Using Sum of Squares Surface. M.Sc. Thesis, University 
of Wisconsin – Madison.
Otro aspecto importante que vale la pena mencionar en esta breve introducción es acerca de los deno-
minados paquetes (package) en R, los cuales ayudan a obtener mejor provecho del uso del software. La ins-
talación básica de R viene equipada con múltiples funciones que permiten efectuar procedimientos como: 
importar y manejar bases de datos, realizar transformaciones de datos, ajustar y evaluar modelos estadísticos, 
manejar funciones probabilísticas, diseñar representaciones gráficas, entre otras. Sin embargo, la enorme po-
tencia de R deriva de su capacidad de incorporar en cualquier momento nuevas funciones capaces de realizar 
procedimientos más sofisticados y completos.
Un paquete es una colección de funciones, datos, código R y documentación que se almacenan en una 
carpeta conforme a una estructura bien definida y fácilmente accesible para R. En la página web del software 
(indagar la dirección: https://cran.r-project.org/web/packages/) se puede consultar la lista de paquetes disponi-
bles. A mediados de 2018 esta lista incluía algo más de 12.500 paquetes. Al instalar el software se incorporan 
por defecto numerosos paquetes y el usuario puede potenciarlo con algunos otros, según la necesidad; para 
acceder a la lista de aquellos que actualmente tiene instalados en su computador, use la función library(). 
La manera más rápida para disponer de un paquete es instalarlo mediante internet. A manera de ejemplo, 
para instalar el paquete car (Companion to Applied Regression) se escribe en la consola o en un script la ins-
trucción install.packages("car") y al ejecutarla aparece el mensaje: Please select a CRAN mirror for 
use in this sesion, que solicita elegir un servidor (repositorio) de una lista desplegable y de donde se instalará 
el paquete. Existen muchas universidades y otras instituciones que ofrecen ser repositorios de R pero se pue-
de elegir para este propósito cualquier sitio. 
Una vez instalado el paquete (¡proceso que solo se realiza una vez!), el software está en capacidad de usar 
las funciones que contiene, siempre y cuando el usuario solicite tenerlo a disposición en la sesión de trabajo; 
esta acción se denomina cargar el paquete y se usa la función library()con argumento el nombre del pa-
quete, así: library(car).
30
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Es muy importante entonces distinguir entre un paquete instalado en el computador y un paquete carga-
do en memoria:
• Tener instalado un paquete significa que en algún momento el usuario lo dispuso en su computador 
a través de internet y fue copiado en algún directorio en donde R lo puede localizar.
• Cargar en memoria significa que durante nuestra sesión de trabajo R se ha leído el contenido del paquete 
e incorporado las funciones que contiene a su espacio de trabajo mediante la función library(); en 
dicho caso las funciones contenidas en el paquete pueden ya ser invocadas y ejecutadas.
Tener a disposición un recurso como este software implica gran responsabilidad en el momento deluso para 
lograr aplicaciones coherentes o para apoyar el proceso de aprendizaje de la estadística; por tanto, es necesario re-
conocer algunos elementos que pueden guiar el uso de R para resolver problemas de tipo estadístico; estos son:
1. Se requiere en principio conocer los fundamentos básicos del área estadística que se desea usar. Sin 
conocimiento previo no se pude pensar en usar R de manera apropiada.
2. El software requiere tener algunos conceptos básicos de programación. En los últimos años la pro-
gramación se ha convertido en un aspecto tan importante en la educación como la lectura, la escri-
tura o el aprendizaje de un nuevo idioma.
3. Es indispensable contar con un manual sobre R, no para leerlo completamente, sino para consultar-
lo en caso de ser necesario. Hay una extensa bibliografía de libros, documentos y manuales que vin-
culan el uso del software y los métodos estadísticos.
Aunque hay diversas formas de empezar a conocer este programa, bien sea en internet, como a través de 
manuales, blogs especializados o vídeos, se puede considerar una práctica provechosa examinar códigos de 
otras personas para comprender su funcionamiento y ajustarlos a la situación de interés. También es una bue-
na manera tratar de comprender cómo actúan las diferentes funciones.
Para finalizar esta breve introducción se explica cómo se puede actualizar R, proceso fácil en particular para 
Windows; con otros sistemas operativos se debe recurrir al sitio web de CRAN -Comprehensive R Archive 
Network (https://www.r-project.org/) para instalar la versión más nueva. 
Para la actualización se usan los siguientes comandos:
install.packages("installr", dependencies = TRUE)
library(installr)
updateR()
31
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
Se despliega un cuadro de diálogo que lo guía por los siguientes pasos:
• Comprueba una versión más nueva de R.
• Si existe, la función descargará la versión R más actualizada y ejecutará su instalador.
• Una vez hecho esto, la función ofrecerá copiar (o mover) todos los paquetes de la antigua bibliote-
ca R a la nueva biblioteca R.
• A continuación ofrecerá actualizar los paquetes movidos.
Ejercicios
Adelante las actividades propuestas con base en las lecturas recomendadas (Introducción a R: capítulos 1, 2, 
5, 6, 7 y R para principiantes: hasta el capítulo 4).
1. Efectúe las asignaciones siguientes en R: x = 5, y = 0, z = 0.0005, w = 0, Z = 0.00005. Posteriormente 
use el software para efectuar las siguientes operaciones. Comente sobre el resultado.
a. w /x
b. x /z
c. x /Z
d. x /y
e. y /w
f. 
g. 
2. Asigne el siguiente vector: A=(21,35,28,63,9,89,54,19,26,56,54,22,49) e indique cuál instrucción 
debe usar para efectuar las siguientes operaciones sobre A. 
a. Suma de los elementos de A
b. Mínimo de A
c. Máximo de A
d. Número de elementos de A
e. Elementos ordenados del vector.
f. Promedio de los elementos de A
g. Promedio de 6 ∙ A
32
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
3. Usar el código que aparece en el recuadro, para hacer la gráfica para las horas trabajadas en un 
taller (X), y el número de unidades producidas (Y).
X 80 79 83 84 78 60 82 85 79 84 80 62
Y 300 302 315 330 300 250 300 340 315 330 310 240
x <- c(80,79,83,84,78,60,82,85,79,84,80,62)
y <- c(300,302,315,330,300,250,300,340,315,330,310,240)
plot(x,y)
a. Para insertar el título apropiado al gráfico, modifique la tercera línea del código y coloque 
plot(x, y, main="Diagrama de Dispersión"). Tenga en cuenta usar una coma para se-
parar las opciones.
b. Coloque el título HORAS TRABAJADAS al eje X usando la opción xlab="titulo eje x" y 
dentro de las comillas el rótulo respectivo. 
c. Coloque el título PRODUCCIÓN al eje Y usando la opción ylab="titulo eje y" y el rótulo 
del eje entre comillas. 
d. Cambie el color a los puntos que por defecto es negro. Use col = 1, o también col="black"
e. Cambie el tamaño a los puntos mediante cex=1. Si usa número inferior a uno se reduce el 
tamaño de los puntos.
f. Modifique el símbolo usado para los puntos y ponga un asterisco. La opción por defecto es 
pch=1 que usa para los puntos el círculo; a manera de ejemplo, con pch=2 identifica las coor-
denadas en la gráfica con un triángulo.
g. Analizando el contexto, ¿qué tipo de relación (directa o inversa) deberían presentar estas 
variables?
h. Halle el coeficiente de correlación entre las variables. ¿El signo del coeficiente corresponde 
a lo estipulado en el numeral anterior? 
i. Llamando a una relación como fuerte y directa cuando el coeficiente está en el intervalo 
[0.9 ; 1.0] y si dicho coeficiente cae dentro del intervalo [-0.9 ; -1.0], la relación es fuerte 
pero inversa. De acuerdo con lo anterior, ¿cómo catalogaría la relación entre las horas tra-
bajadas y la producción?
33
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
4. Construya la siguiente base de datos en Excel y luego guarde el archivo como tipo CSV (Comma 
Separated Values) con el siguiente nombre "indicadores.csv".
ciudad población menores5 desempleo2013 desempleo2014
A 125000 31250 8.6 9.1
B 230000 46000 10.6 10.4
C 150000 22500 9.3 9.5
D 80000 14400 8.9 8.2
La definición de las variables incluidas en esta base de datos es:
población: cantidad de habitantes de la ciudad.
menores5: población de personas menores de cinco años en la ciudad.
desempleo2013: tasa de desempleo (%) para el año 2013
desempleo2014: tasa de desempleo (%) para el año 2014
Para leer los datos desde un archivo, debe indicar a R en cuál directorio se encuentran los datos. Para eso 
acceda al menú Archivo y después a la opción Cambiar dir… y buscar el directorio en donde guardó sus datos 
y señalarlo. Luego use la siguiente instrucción para leer esta base de datos,
x <- read.table("indicadores.csv", header = T, sep = ";", dec=".")
Otro método consiste en leer datos de un archivo que usted pueda elegir, escribiendo:
x <- read.table(file.choose(), header = T, sep = ";", dec=".")
Sin necesidad de cambiar el directorio, se puede leer el archivo si previamente le indicamos al software la 
ruta de acceso usando la funcion setwd(), tal como se ejemplifica a continuación:
setwd("C:/Users/manuel.contento/Dropbox/Curso_ESTADISTICA/BasesDatos")
x <- read.table("indicadores.csv", header = T, sep = ";", dec=".")
34
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Si lee el archivo de esta última manera, tenga presente que la ruta de acceso depende de la manera en que 
cada usuario tiene configurado su computador.
Usando cualquiera de las opciones anteriores, el software crea un objeto "x" que contiene la base de da-
tos. Si quiere visualizarlo, simplemente digite el nombre del objeto en la siguiente línea y ejecute; el softwa-
re muestra la base de datos.
> x
 ciudad población menores5 desempleo2013 desempleo2014
1 A 125000 31250 8.6 9.1
2 B 230000 46000 10.6 10.4
3 C 150000 22500 9.3 9.5
4 D 80000 14400 8.9 8.2
Calcule la proporción de menores de cinco años usando
tasamenores5 <- x$menores5/x$población
Se puede modificar la base de batos adicionando esta columna; tenga la precaución de usar un nuevo nom-
bre para el conjunto de datos con dicha modificación, esto se logra con la instrucción siguiente.
xnuevo <- data.frame(x, tasamenores5)
La nueva base de datos, con la proporción de menores de cinco años, queda así:
> xnuevo
 ciudad población menores5 desempleo2013 desempleo2014 tasamenores5
1 A 125000 31250 8.6 9.1 0.25
2 B 230000 46000 10.6 10.4 0.20
3 C 150000 22500 9.3 9.5 0.15
4 D 80000 14400 8.9 8.2 0.18
Genere un diagrama circular (pie) usando el código adjunto:
35
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
pie(xnuevo$población,labels=xnuevo$ciudad, main="Distribuciónporcentual de la población por ciudad", col = c("purple4", 
"violetred1", "green3", "cornsilk2"))
a. Analice el gráfico que aparece. ¿Qué utilidad tiene la información que se presenta?
Compile el siguiente conjunto de instrucciones y obtenga el diagrama de barras ordenado.
#Ordena base datos descendente según tasamenores5 (- indica descendente)
xnuevo1<-xnuevo[order(-xnuevo$tasamenores5),] 
barplot(xnuevo1$tasamenores5, main="Proporción de población menor 
de 5 años por ciudad", xlab ="Ciudad", names.arg=xnuevo1$ciudad, 
ylim=c(0,0.25),col = rainbow(4),cex.names=0.9)
b. Describa la proporción de población inferior a cinco años. ¿Qué deduce de la información 
presentada?
Ahora ejecute las instrucciones siguientes.
desempleo<-rbind(xnuevo$desempleo2013,xnuevo$desempleo2014)
barplot(desempleo, main="Tasa de desempleo 2013-2014 por ciudad", 
xlab="Ciudad",
names.arg=xnuevo$ciudad, ylim=c(0,15), col=c("lightcyan","lavender"), 
cex.names=0.9, beside = T, legend.text = c("2013", "2014"))
c. A partir del gráfico obtenido, interprete el comportamiento y evolución de la tasa de desem-
pleo para 2013-2014 en estas cuatro ciudades.
5. La información de la tabla corresponde a los indicadores sobre pobreza y desigualdad de las urbes 
que hacen parte de la Red Colombiana de Ciudades Cómo Vamos, y que ha sido extractados del 
Informe de Calidad de Vida (http://redcomovamos.org/wp-content/uploads/2015/03/Pobreza_ICV7.
pdf). Se incluyen las siguientes variables:
36
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Poblacion2013: cantidad de habitantes para el año 2013 en las áreas metropolitanas así: Barranquilla 
incluye Soledad, Bucaramanga incluye Floridablanca, Girón y Piedecuesta, Manizales incluye Villamaría, 
Medellín incluye Valle de Aburrá, Cali incluye Yumbo, Pereira incluye Dosquebradas y La Virginia.
IPM: Incidencia de Pobreza Monetaria. Es el porcentaje de la población que está bajo la línea de po-
breza. Se considera pobres aquellos hogares que obtengan ingresos inferiores al valor mensual de 
una canasta de alimentos y otros bienes básicos como vivienda, educación, salud, transporte y es-
parcimiento. De acuerdo con las estimaciones del DANE, durante el año 2013 en las trece principales 
ciudades de Colombia, satisfacer todo el conjunto de necesidades básicas (alimenticias y no alimen-
ticias), costaba $227.118 por persona al mes, lo que corresponde al valor de la línea de pobreza en 
este conjunto de ciudades. Se provee la incidencia de pobreza monetaria para 2011, 2012 y 2013 de-
notadas IPM2011, IPM2012 e IPM2013, respectivamente.
TTI: Tasa de Trabajo Infantil. Proporción de menores que participan del mercado laboral, calculado 
por el DANE para la población entre 5 y 17 años de edad.
TTI_A: Tasa de Trabajo Infantil Ampliada. Proporción de menores que trabajan, agregando aquellos 
que dedican más de 15 horas a las labores de cuidado (oficios domésticos). Calculado por el DANE 
para la población entre 5 y 17 años de edad.
PPE: Población en Pobreza Extrema. De acuerdo con las estimaciones del DANE, durante el año 2013 
en las trece principales ciudades de Colombia, satisfacer las necesidades alimenticias básicas de una 
persona costaba $96.422, lo que corresponde al valor de la línea de pobreza monetaria extrema.
Ciudad Poblacion2013 IPM2011 IPM2012 IPM2013 TTI_A2012 TTI2012 PPE2013
Bogotá 7674366 13.1 11.6 10.2 12 8 122790
Medellín 3685382 19.2 17.7 16.1 11 7 110561
Cali 2431437 25.1 23.1 21.9 10 6 106983
Barranquilla 1822438 34.7 30.4 29.1 7 3 76542
Bucaramanga 1103989 10.7 10.4 10.3 12 9 13248
Cartagena 978600 33.4 32.7 29.2 13 3 56759
Ibagué 542876 22.0 21.3 18.6 18 10 13572
Valledupar 433242 36.0 32.8 31.4 12 6 19063
Manizales 447344 19.2 17.6 16.2 8 2 11631
Pereira 226862 21.6 21.9 24.0 10 6 11570
37
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
Construya la base de datos en Excel y guarde el archivo como tipo CSV. Luego cargue en R los datos desde 
el archivo de tipo CSV que creó en Excel. Visualice el archivo en R para cerciorarse de que la información que 
contiene corresponda fielmente a los datos que se proporcionan.
a. Calcule la proporción de personas en pobreza extrema como tasaPPE2013=PPE2013 / 
Poblacion2013 y luego modifique la base de batos adicionando esta columna.
b. Genere un diagrama circular (pie) para la Distribución porcentual de la población por ciudad y 
analice la información a partir de la gráfica que obtiene.
c. Diseñe un diagrama de barras para mostrar en forma descendente la proporción de perso-
nas que están en pobreza extrema para el año 2013. Describa los resultados con base en el 
diagrama.
d. Elabore un gráfico que muestre el comportamiento y evolución de la incidencia de pobre-
za monetaria de 2011 a 2013 en estas ciudades. Describa los resultados a partir del gráfico 
elaborado.
6. El gerente de mercadeo de un banco quiere desarrollar un estudio orientado a conocer mejor a sus 
clientes, ampliando información relacionada con sus hábitos de consumo de medios con el fin de 
mejorar la efectividad de sus acciones de marketing. En el cuestionario, además de la información 
demográfica, se preguntó a los entrevistados en qué medios han visto/obtenido información del pro-
ducto (cuenta de ahorros, crédito de libre inversión, crédito hipotecario, tarjeta de crédito) que han 
adquirido con el banco. Se dispone de la información de las siguientes variables:
V0: Identificador
V1: Educación. (1: Primaria incompleta, 2: Primaria completa, 3: Bachillerato incompleto, 4: Bachillerato 
completo, 5: Técnico, 6: Universitario)
V2: Edad (años cumplidos)
V3: Actividad económica. (1:Ama de Casa, 2:Estudiante, 3:Empleado, 4:Independiente)
V4: Género. (1:Femenino, 2:Masculino)
V5: Estado civil. (1:Soltero, 2:Unión libre, 3:Casado, 4:Divorciado, 5:Viudo)
V6: Número de hijos.
V7: Ingreso (en miles de pesos). Los campos en blanco son de clientes que no informan ingreso
V8: Producto que adquiere el cliente. (1:Cuenta de Ahorros, 2:Crédito Hipotecario, 3:Crédito Libre 
Inversión, 4: Tarjeta de Crédito)
38
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
V9: Medio por el cual se enteró del producto. (1:Cine, 2:Correo Electrónico, 3:Contacto con Asesor, 
4:Pagina Web del Banco, 5:Paraderos, 6:Periódico, 7:Publicidad en Buscadores (Google), 
8:Publicidad Página Web, 9:Publicidad en redes sociales, 10:Radio, 11:Recomendación Amigo, 
12: Recomendación Familiar, 13:TV, 14:Vallas)
Usando la información que se proporciona en la Tabla 1.2., realice las actividades que se describen a 
continuación.
a. Construya una base de datos en Excel con la información recolectada. Grabe la base como 
tipo CSV (Comma Separated Values) con un nombre apropiado.
b. Lea en R los datos desde un archivo siguiendo las indicaciones dadas anteriormente. 
A manera de ejemplo se puede usar el siguiente código para leer el archivo de nombre 
DataEjer6Clientes.csv que en el entorno de R se denominó clientes. La opción 
names() muestra los nombres de las variables. Ejecute esta y las demás instrucciones 
desde el editor, y guarde todo en un script con un nombre apropiado.
clientes <- read.table("DataEjer6Clientes.csv", header=TRUE, sep=";", 
dec=".")
clientes
names(clientes)
Al correr el código anterior, en particular al solicitar los nombre de las variables, notará que están denomi-
nadas como V0, V1,…, V9. Se requiere cambiar el nombre de las variables por denominaciones apropiadas y 
útiles en el momento de hacer futuros procesamientos. 
c. Use la siguiente instrucción para denominar ID a la variable V0.
colnames(clientes)[ colnames(clientes) == "V0" ] <- "ID"
Si vuelve a solicitar los nombres con la instrucción name(clientes) se observa el cambio en la designa-
ción de esta variable, tal como se evidencia en el resultado que aparece en la consola.
[1] "ID" "V1" "V2" "V3" "V4" "V5" "V6" "V7" "V8" "V9"
39
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
Usando como base el código con el que se cambió elnombre a V0 por ID, cambie el nombre de las demás va-
riables a los siguientes:
V1: Educación V6: Número_Hijos
V2: Edad V7: Ingreso
V3: Actividad_Económica V8: Producto
V4: Género V9: Medio
V5: Estado_Civil
d. En el software R, un factor representa una variable cualitativa o categórica. El factor almace-
na las categorías en la forma de un vector con valores discretos numéricos (1, 2, 3, 4, etc.) que 
son los códigos de los valores de la variable y otro vector de caracteres interno que contiene 
las etiquetas de esos códigos. Por ejemplo, la variable educación tiene almacenados números 
del 1 al 6 que identifican cada nivel de educación. Esta variable es de tipo categórica y además 
los niveles están ordenados, donde 1 indica el más bajo nivel de educación y 6 el máximo. Para 
indicar que esta variable es de tal naturaleza se debe convertir a factor, estipular las etiquetas 
asociadas a cada código y finalmente establecer que los niveles están ordenados. 
Puesto que esta base de datos tiene 9 variables, se requiere ser eficiente para hacer mención 
a ellas; para esto se usa la opción attach() que permite hacer referencia a las variables del 
dataframe clientes de manera directa. Si la opción no se usa previamente, es necesario re-
ferirse a la variable Educación mediante clientes$Educación. El siguiente grupo de instruc-
ciones permite convertir la variable Educación en factor categórico ordinal y definir sus etiquetas.
attach(clientes) #para fijar las variables del data frame 
clientes
#Convertir la variable Educación en un factor
Educación <- factor(Educación)
#Asignación de los niveles al factor:
levels(Educación) <- c("Primaria Incompleta", "Primaria Completa", 
"Bachillerato Incompleto",
"Bachillerato Completo", "Técnico", "Universitario")
#Indicar que se trata de un factor ordinal:
Educación <- ordered(Educación)
Educación
40
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Si la variable es categórica pero los niveles no implican un orden, técnicamente llamada variable nominal, 
simplemente no se usa la opción ordered(). A manera de ejemplo, veamos el caso para la variable Género.
#Convertimos la variable Género en un factor
Género <- factor(Género)
#Asignamos los niveles al factor:
levels(Género) <- c("Femenino", "Masculino")
Género
Convierta en factor las demás variables categóricas del conjunto de datos, a saber: Actividad_Económica, 
Estado_Civil, Producto y Medio. Determine si la variable es ordinal o nominal.
e. En el recuadro se proporciona un conjunto de instrucciones que debe ejecutar en R; descri-
ba lo que hace la instrucción table() y barplot(), así como los cambios que percibe en 
cada una de las gráficas que se obtienen. Indique cuál opción se encarga de la modificación; 
por ejemplo, la opción main="Distribución por Género" asigna un título a la gráfica.
table(Género)
#Gráfica 1
barplot(table(Género))
#Gráfica 2
barplot(table(Género), main="Distribución por Género", xlab="Género", 
ylab="Frecuencia")
#Gráfica 3
barplot(table(Género), main="Distribución por Género", xlab="Género", 
ylab="Frecuencia", names.arg=c("Mujeres","Hombres"))
#Gráfica 4
barplot(table(Género), main="Distribucion por Género", xlab="Género", 
ylab="Frecuencia", names.arg=abbreviate(levels(Género)))
¿Cuál de las cuatro gráficas considera más conveniente o apropiada para hacer una presentación en públi-
co? Explique.
41
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
f. Use la opción barplot() para obtener la gráfica para la variable Educación, Actividad_
Económica, Estado_Civil, Producto y Medio. Decida cuál de las opciones que se presentaron 
en el anterior numeral conviene usar de manera que la gráfica para cada variable sea simple, 
clara y funcional. ¿Qué puede deducir de las gráficas para cada variable? 
g. Ejecute las instrucciones summary(Número_Hijos) y summary(Ingreso). Averigüe qué 
cálculos proporciona el software cuando se usan estas instrucciones.
h. ¿Qué puede deducir de la gráfica que se obtiene mediante plot(Número_Hijos,Ingreso)? 
Explique.
7. Transcriba en un script el código que se provee en el recuadro. Ejecute línea a línea las instruccio-
nes y responda las preguntas. Note que con la primera instrucción se instalará el paquete faraway.
install.packages("faraway") #instala el paquete faraway
library(faraway) #carga el paquete faraway 
try(data(package = "faraway")) #lista las BD incluidas en el paquete 
"faraway"
help(gala) #información de la data gala
data(gala) #carga la base de datos especificada (gala)
gala #muestra la base de datos gala
dim(gala) #indica la dimensión de la base de datos
names(gala) #Muestra los nombres de las variables
summary(gala) #Visualiza un resumen de las variables 
pairs(gala) #matriz de diagramas de dispersión
a. ¿Cuántas bases de datos contiene el paquete faraway?
b. Describa las variables que están en la base de datos de nombre gala
c. ¿Qué indica la dimensión de la base de datos? 
d. Indague sobre los resultados que provee la función summary()
e. ¿Qué tipo de gráfica se obtiene cuando se aplica la función pairs() a la base de datos? 
Averigüe sobre la utilidad de este diagrama y explique
42
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Tabla 1.2 Datos para el ejercicio 6.
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9
1 4 23 3 1 1 1 963 3 5
2 3 49 4 2 3 4 2509 3 8
3 4 50 4 2 3 4 2738 2 10
4 4 27 1 1 2 0 922 1 13
5 3 21 2 1 2 1 894 3 13
6 4 29 4 2 2 1 2092 1 8
7 4 26 3 2 2 1 1350 3 2
8 1 55 4 2 2 0 897 3 13
9 4 18 2 1 1 0 979 3 3
10 5 58 3 1 1 1 1046 3 13
11 5 33 3 2 1 1 2072 3 9
12 4 28 3 2 2 0 1418 1 13
13 5 21 4 2 1 1 915 1 11
14 4 50 3 2 2 1 1737 3 14
15 4 54 4 1 4 4 1073 3 13
16 6 21 3 1 1 0 1328 1 10
17 5 48 3 1 3 3 846 1 10
18 4 46 3 1 1 0 917 3 13
19 3 35 3 1 5 0 1181 1 13
20 6 25 2 2 1 1 1347 3 9
21 6 24 3 2 1 0 1022 3 13
22 4 38 3 2 4 3 988 1 5
23 6 27 3 2 1 1 1827 1 6
24 6 19 2 2 1 1 961 1 13
25 4 20 2 1 1 1 899 1 13
26 6 22 2 1 1 1 3 13
27 5 18 3 1 1 1 1613 3 5
28 6 18 2 1 1 1 1 14
29 5 27 4 1 1 1 1681 3 5
30 6 43 3 1 4 4 2425 4 7
31 5 23 4 2 1 1 1915 1 10
32 6 23 2 2 1 1 885 3 7
43
1
E
l c
on
te
xt
o 
es
ta
dí
st
ic
o
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9
33 6 23 2 2 1 1 824 1 12
34 4 27 3 1 2 0 829 3 1
35 4 20 3 2 1 1 949 1 7
36 6 19 2 2 1 0 854 3 5
37 4 23 2 2 1 0 1000 3 9
38 1 31 4 1 1 1 998 1 13
39 2 33 1 1 2 1 981 3 4
Referencias
Claret, M.; Urrutia, R.; Ortega, R.; Abarzua, M.; Pérez, C., y Palacios, M. (2005). www.yumpu.com. 
Recuperado el 01 de 05 de 2015, de: https://www.yumpu.com/es/document/view/37483525/
estudio-de-la-contaminacin-en-agua-de-pozo-destinada-a-consumo-
Fernández, J., y Belem, T. (2016). Costumbres, mal uso y abuso en Estadística. Rev. Univ. Ind. Santander. 
Salud, 5-6.
Guttman, L. (1979). Malos usos en Estadística. Reis: Revista española de investigaciones sociológicas, 101-130.
Paradis, E. (2002). cran.r-project.org. Obtenido de: https://cran.r-project.org/doc/contrib/rdebuts_es.pdf
R Core Team (2018). R: A language and Environment for Statistical Computing. Vienna, Austria. URL http://ww-
w.R-project.org
R Development Core Team (2000). https://cran.r-project.org. Obtenido de: https://cran.r-project.org/doc/
contrib/R-intro-1.1.0-espanol.1.pdf
Salas, C. (2008). ¿Por qué comprar un programa estadístico si existe R? Ecología austral, 223-231.
45
2
Análisis descriptivo 
Introducción
En este capítulo se presenta una introducción al análisis descriptivo de los datos, teniendo en mente que un 
buen resumen estadístico asume que la centralidad, la variabilidad y la forma en que se distribuyen los datos 
son la base para lograr interpretaciones con pertinencia y sentido. 
El análisis descriptivo utiliza medidas numéricas así como expresiones gráficas para lograr resumir con la 
mayor fidelidad posible aquellas características que identifican un conjunto de observaciones.
46
E
st
ad
ís
tic
a 
con 
ap
lic
ac
io
ne
s 
en
 R
Algunos conceptos fundamentales
En el momento de hacer uso de la estadística es necesario comprender y manejar un conjunto de conceptos 
básicos que evita convertir la práctica de la estadística en procedimientos mecánicos y exponiéndose a co-
meter errores de base que invaliden los resultados y, por ende, las conclusiones obtenidas. Las definiciones 
que se presentan a continuación procuran equilibrar el enfoque intuitivo con los aspectos formales propios de 
la estadística.
Variable: Intuitivamente se puede pensar en una variable como toda aquella característica que puede tomar 
diversos valores (más de dos) en un grupo de individuos. Las variables generalmente se denotan con letras 
mayúsculas y se debe definir claramente la característica a la cual hace referencia. Para efectos de la notación 
y puesto que se tiene una cantidad limitada de letras, pueden usarse subíndices para distinguirlas; algunos 
ejemplos se presentan a continuación:
L: tiempo (horas) que permanece detenida una máquina al mes por descomposturas.
S: salario inicial de los profesionales ($US) recién graduados de ingeniería.
X: longitud de la lagartija (mm) común en una zona determinada.
Y: peso (g) del cuervo común mexicano.
W: cantidad de lluvia (mm) que cae en un región por mes.
Z: puntaje obtenido en un examen estandarizado de conocimientos.
X1: tiempo de demora (min) respecto de la hora de partida de un vuelo comercial.
X2: tiempo de incubación de la influenza aviar en patos silvestres.
X3: diámetro medio a la altura del pecho (DMAP) de cerezos.
X4: presencia de hojas infestadas por una plaga en pinos canadienses.
Las variables se subdividen en cualitativas y cuantitativas. Las cualitativas son aquellas características que 
obedecen a tributos o adjetivos, que no se pueden asociar directamente a medidas numéricas, como son: 
sexo, lugar de captura de un espécimen, especie a la cual pertenece un individuo, profesión, etc. Mientras 
que las cuantitativas son aquellas variables que se pueden evaluar numéricamente, como la edad, el número 
de huevos, la temperatura, el pH, la longitud o el tiempo, entre otras.
47
2
A
ná
lis
is
 d
es
cr
ip
tiv
o
A su vez, las variables cualitativas se subdividen en nominales y ordinales. Las nominales son aquellas va-
riables que generan categorizaciones en donde ninguna de ellas prevalece a otra, como el género (macho o 
hembra), estado de infestación de un árbol (enfermo o sano), presencia de una sustancia contaminante (sí o 
no), etc. Las ordinales, por su parte, generan respuestas con categorizaciones que se pueden graduar en un 
orden determinado y con alguna secuencialidad o intensidad de la medida. Algunos ejemplos son: evaluación 
del riesgo de erosión (bajo, medio, alto), estado de salud de un cachorro de felino (bueno, regular, malo), per-
cepción de la satisfacción con respecto a un producto o servicio (excelente, bueno, regular, malo, pésimo), 
evaluación del riesgo de especies según la Unión Mundial para la Naturaleza (UICN), EX: extinta (extinct); EW: 
extinto en estado silvestre (extinct in the wild); CR: críticamente amenazado (critically endangered); EN: 
en peligro (endangered); VU:vulnerable (vulnerable); NT: Casi amenazado (near threatened); LC: preocu-
pación menor (least concern); DD: Datos insuficientes (data deficient); NE: No evaluado (not evaluated). Para 
obtener mayor información sobre esta última categorización se puede consultar http://www.humboldt.org.co/
conservacion/cat-uicn.htm y además, la lista de especies en Colombia con algún riesgo según la categoriza-
ción UICN, en: http://www.humboldt.org.co/conservacion/Listas.htm
Ahora, dentro de las cuantitativas se pueden distinguir dos subtipos: discretas y continuas. Las variables 
discretas toman un conjunto contable de valores en un rango de los reales y generalmente proceden de con-
teos; ejemplos de esta variable pueden ser: número de nidos en una colonia, número de hembras adultas en 
una manada, veces que se descompone una máquina por mes, etc. 
Las variables continuas pueden tomar cualquier valor en un subconjunto de los reales, tales como el tiem-
po que demora un paquete en ser entregado por una empresa de envíos, la longitud y el peso de especíme-
nes, el tiempo que dura el canto de un ave, la distancia a la corriente de agua más cercana, el tiempo que un 
estudiante tarda en terminar una evaluación, el diámetro interior de las agujas hipodérmicas producidas en una 
fábrica, la resistencia a la cizalladura de un tornillo de acero, etc.
Universo: Es el conjunto de "individuos" objeto de investigación. La palabra individuos se ha puesto entre co-
millas para indicar que no se refiere exclusivamente a personas, tampoco se circunscribe solamente a un 
universo discreto, es decir, en donde se pueda contabilizar su tamaño. En el ámbito de la ciencia y la ingenie-
ría se pueden contemplar una amplia gama de situaciones que generan universos como los presentados a 
continuación:
• Tornillos de acero producidos en el último año. 
• Especímenes (animales) que viven en una región. 
48
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
• Cuerpo de agua presente en un lago (o en corriente).
• Capa de aire sobre una ciudad. 
• Ríos que componen una vertiente.
• Suelo superficial en la capital de un país. 
• Árboles que componen un bosque. 
• Ejemplares que conforman un banco de peces. 
• Torrente sanguíneo de un mamífero.
• Habitantes de la ciudad de Bogotá.
• Colonias (manadas, clanes, etc.,) de animales en una región.
• Fincas que se encuentran en un municipio. 
• Agujas hipodérmicas fabricadas por una empresa.
• Paquetes entregados por una empresa de envíos.
Población: En el ambiente estadístico, es el conjunto de mediciones de una variable evaluada en cada uno de 
los "individuos" que componen el universo. El tamaño de población se denota usualmente con N. 
Por ejemplo, al universo de manadas de felinos en un parque nacional del Serengueti en Tanzania pueden 
asociarse las poblaciones referidas a cada una de las siguientes variables: número de individuos que compo-
nen la manada, número de presas obtenidas por semana, distancia recorrida por jornada de caza, área que 
resguardan. Si el universo es el cuerpo de agua presente en un lago, pueden obtenerse poblaciones de datos 
asociadas a variables como pH, temperatura, conductividad, oxígeno disuelto.
Muestra: Es uno de los conceptos más importantes en estadística, pero a su vez puede causar mayor dificul-
tad de comprensión. Inicialmente se provee una definición muy intuitiva y en el aparte de inferencia se dispo-
ne la definición estricta. Por muestra se entiende un subconjunto representativo de la población, entendiendo 
que las características de la muestra deberían referir lo que acontece en la población. El número de individuos 
que componen la muestra se denota con n, tal que n << N.
Debido a que el objetivo de la inferencia estadística es emitir conclusiones poblacionales a partir de los re-
sultados de una muestra, se debe advertir que no todo subconjunto de una población puede ser considerado 
para propósitos de inferencia. 
49
2
A
ná
lis
is
 d
es
cr
ip
tiv
o
Parámetro: Se denomina así cualquier característica de la población de referencia. Los más comunes son: 
promedio, proporción, total, varianza, distribucionalidad. Los parámetros usualmente son desconocidos y por 
tanto, objeto de investigación. 
Se usan letras griegas para denotar los parámetros; por ejemplo, para el promedio poblacional se emplea 
la letra griega miu (μ); para la varianza, la letra sigma al cuadrado (σ2) y para la proporción se utiliza la letra pi (π). 
El significado que tiene cada uno de estos parámetros se explica más adelante.
Estadística (estadígrafo): Es cualquier cálculo que se realiza con la información (datos) proveniente de la 
muestra y que tiene como principal objetivo conocer (estimar) las características de la poblaciónde donde se 
ha obtenido la muestra. Se denotan con letras del alfabeto tradicional y algunas de las estadísticas más usa-
das son: promedio muestral ( ), varianza muestral (S2) y proporción muestral (p).
Las anteriores definiciones son necesarias para saber cuándo es pertinente hacer uso de la estadística. 
Usarla o no es un dilema que enfrentan desde investigadores consumados hasta aquellos que se inician como 
usuarios, en particular, cuando en algún contexto se han tomado algunos datos (observaciones o mediciones) 
y sugieren a los investigadores "aplicar estadística". La situación que amerita reflexión es ¿cuáles son las ca-
racterísticas de un problema estadístico? 
Puesto que no se puede pensar en una relación directa datos-estadística, es necesario establecer las par-
ticulares que debería tener un problema para que amerite el concurso de esta área del conocimiento. Para 
mostrar dichas particularidades se plantea la siguiente situación: un investigador está interesado en evaluar 
el contenido de plomo en tres tipos de peces de río, esto debido a la descarga de desechos tóxicos por parte 
de plantas químicas y manufactureras en los ríos y corrientes de agua. Se consideran algunos factores asocia-
dos a los niveles de plomo como son: el río en el cual fue capturado el pez, la especie a la cual pertenece el 
ejemplar, la distancia en donde fue capturado con respecto al lugar de descarga de los desechos tóxicos y fi-
nalmente, el tamaño del espécimen.
El anterior es un problema estadístico y las características que lo identifican son:
1. Se asocia con un conjunto grande de objetos (en este caso, los peces del río) de los cuales pueden 
hacerse inferencias. A este conjunto de objetos se le denomina población.
2. Algunas características de los objetos de la población son de particular interés. El valor de cada una 
de las características puede cambiar de un pez a otro dentro de la población; estas características se 
denominan variables aleatorias: son variables porque su valor no está establecido y aleatorias por-
que su comportamiento es impredecible.
50
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
3. El grupo de especímenes objeto de investigación (población de peces de las especies consideradas 
en los ríos de interés) es, además de grande, muy disperso. Por tanto, resulta impracticable estu-
diar todos y cada uno de los especímenes que componen la población, y se requiere entonces to-
mar una muestra y estudiarla minuciosamente para poder extrapolar los resultados a la población.
En resumen, un problema o contexto de investigación requiere el uso de la estadística cuando se pretende 
estudiar un conjunto de individuos que conforman una población de interés, a la cual se evaluará un conjunto 
bien establecido de variables de interés en una muestra aleatoria seleccionada de la población investigada, 
con el objetivo de hacer inferencias válidas.
Observaciones y notación
Las observaciones acerca de una variable X en todos los individuos que componen la población se denotan 
por {X1, X2,
…,XN }. De manera similar al conjunto de observaciones de la variable X en una muestra de tama-
ño n se le denota mediante {X1, X2,
…,Xn }.
Existe una forma de hacer referencia al conjunto de observaciones ordenadas ascendentemente, puesto 
que en general un conjunto de observaciones de una variable no debería seguir ninguna secuencia de orden 
al ser medida en los individuos. A tal conjunto de observaciones ordenado de menor a mayor se le conoce 
como las estadísticas de orden y se denotan mediante {X (1), X (2),
…,X (n)}. Estas estadísticas de orden cumplen 
la siguiente condición: X (1) ≤ X (2) ≤ … ≤ X (n). Para ilustrar lo anterior, la Tabla 2.1 contiene medidas de la varia-
ble X: longitud (cm) de la lagartija común en una zona determinada. Se eligió una muestra de 20 especímenes.
Tabla 2.1 Notación para las medidas de lagartijas.
X1=12 X2=9 X3=9 X4=22 X5=24
X6=6 X7=10 X8=9 X9=7 X10=9
X11=12 X12=19 X13=15 X14=13 X15=10
X16=16 X17=8 X18=12 X19=14 X20=12
51
2
A
ná
lis
is
 d
es
cr
ip
tiv
o
Note que los resultados no presentan ninguna secuencia de ocurrencia, revelando la aleatoriedad de las 
mediciones; sería extraño que los animales presentaran alguna relación entre el tamaño y el orden en que fue-
ron capturados. En la Tabla 2.2 se evidencia ahora el conjunto de observaciones ordenadas.
Tabla 2.2 Estadísticas de orden para las medidas de lagartijas.
X (1)=6 X (2)=7 X (3)=8 X (4)=9 X (5)=9
X (6)=9 X (7)=9 X (8)=10 X (9)=10 X (10)=12
X (11)=12 X (12)=12 X (13)=12 X (14)=13 X (15)=14
X (16)=15 X (17)=16 X (18)=19 X (19)=22 X (20)=24
Este ordenamiento ayuda a establecer cuál es el espécimen más grande (24 cm) y que corresponde en 
este caso a la estadística de orden 20, el máximo de las observaciones de la variable y denotada X (20) y aquel 
más pequeño (6 cm) el mínimo de las observaciones y que corresponde a X (1). Aunque este no resulta ser el 
objetivo central de la estadística, el ordenamiento es una buena forma de comenzar con el estudio de los da-
tos que conforman la muestra que se tiene a disposición. 
Componentes del análisis descriptivo
Cuando un investigador dispone de un conjunto de observaciones se enfrenta a una pregunta de crucial inte-
rés: ¿cuáles son las características que permiten describir este agregado de mediciones? En general, cuando 
se desea describir un conjunto de observaciones se debe disponer de algunas pautas, de tal manera que per-
mitan resumir la información proporcionada por los datos.
Recordando que el objetivo central de la estadística es estudiar las poblaciones a partir de muestras, es ne-
cesario aquí introducir una guía acerca de las características que son de importancia para estudiar las observa-
ciones recolectadas de una variable aleatoria, en particular de tipo numérico. 
A manera de ejemplo, sea la variable X: peso (g) de los huevos del búho común, y los datos de cuatro nida-
das compuestas de tres huevos:
Nidada 1: 23, 24, 25. Nidada 2: 21, 24, 27. Nidada 3: 21, 26, 27. Nidada 4: 21, 22, 27.
52
E
st
ad
ís
tic
a 
co
n 
ap
lic
ac
io
ne
s 
en
 R
Una de las tareas iniciales es visualizar los datos, labor que puede empezar con el diagrama o gráfico de 
puntos, muy útil para presentar conjuntos relativamente pequeños de datos de variables cuantitativas e identi-
ficar con facilidad la localización y la dispersión de los mismos. En la Figura 2.1 se provee un diagrama de pun-
tos obtenido con R para los dos primeros nidos observados.
20 22 24 26 28
Peso de huevos: nidadas 1 y 2
peso(gr)
●● ●● ●●
nidada 1
●● ●● ●●
nidada 2
Figura 2.1 Diagrama de puntos para los pesos de las nidadas 1 y 2.
Del diagrama presentado se puede establecer que los pesos de los huevos de las dos nidadas están alre-
dedor de 24 g. La determinación del lugar en torno al cual gravitan las observaciones es de gran interés para 
describir los datos; los indicadores que evalúan dicha particularidad conforman las medidas de centralidad o de 
tendencia central. El diagrama presentado puede ser obtenido en R mediante la función stripchart() y el 
conjunto de instrucciones mostradas en el recuadro, entre las que se encuentra la lectura de los pesos de los 
huevos de las dos nidadas mediante la creación de dos vectores de observaciones usando la función c() y 
separando los datos con coma; también se usa la función text()para indicar las coordenadas en donde apa-
rece el texto (nidada 1 y nidada 2) que identifica los huevos de cada nido. 
Usando R
nidada1 <- c(23, 24, 25)
nidada2 <- c(21, 24, 27)
stripchart(nidada1, pch=19, at = 0.8, xlim=c(20,28), main="Peso de 
huevos, nidadas 1 y 2", xlab="peso(gr)")
text(24, 0.9, "nidada 1")
abline(h=0.8,lty=3) #traza eje punteado a lo largo de nidada 1
stripchart(nidada2,pch=19,add = TRUE, at = 1.1)
text(24, 1.2, "nidada 2")
abline(h=1.1,lty=3) #traza un eje punteado a lo largo de nidada 2
53
2
A
ná
lis
is
 d
es
cr
ip

Continuar navegando