Logo Studenta

Estadisticadescriptivaseinferancial (1)

¡Este material tiene más páginas!

Vista previa del material en texto

Capítulo 22
EstadÍstiCa dEsCriptiva E infErEnCial
Pedro Romero Aroca, Carlos Lázaro García, Julio José González López
1. introducción
2. Estadística descriptiva
 a) definir una distribución de datos. Índices de 
centralización y dispersión
 b) Consideraciones estadísticas acerca de la agudeza 
vidual
 c) leyes teóricas que se ajustan a distribuciones 
biológicas
 d) representaciones gráficas
3. programas estadísticos. spss
4. Estimación de parámetros
 a) Estimación puntual y por intervalos
 b) inferencia bayesiana
1. intrOdUCCiÓn
La estadística da sentido a la información acumu-
lada en los trabajos de investigación. Muchos pro-
fesionales se sienten intimidados ante ella porque 
creen que se trata de un campo complejo y extraño, 
ignorando que no es necesario ser un experto para 
utilizar e interpretar la inmensa mayoría de las he-
rramientas estadísticas utilizadas en los estudios clí-
nicos. Al igual que no es preciso saber programación 
para utilizar los programas de ordenador más habi-
tuales, no se precisa tener una elevada base matemá-
tica para utilizar correctamente la estadística. Solo 
tenemos que tener claro cuándo y cómo aplicar de 
manera apropiada los test estadísticos más frecuentes 
y comprender su verdadero significado. Si necesita-
mos algo más complejo debemos hacer lo mismo 
que hacemos con toda naturalidad en nuestra profe-
sión: consultar con un especialista.
Los métodos estadísticos se clasifican en descrip-
tivos e inferenciales. Los métodos descriptivos carac-
terizan las variables y se utilizan en trabajos descripti-
vos y para definir nuestra muestra como primer paso 
para realizar un análisis. La estadística inferencial, 
en cambio, infiere alguna propiedad de la población 
a partir de nuestra muestra y se divide en dos tipos 
principales de técnicas: estimación de parámetros y 
contraste de hipótesis (estadística analítica). En este 
capítulo abordaremos la estadística descriptiva y la 
estimación de parámetros, reservando el próximo ca-
pítulo para el contraste de hipótesis.
2. EstadÍstiCa dEsCriptiva
a) definir una distribución de datos. Índices de 
centralización y dispersión
Vamos a aprender, antes que nada, a resumir 
todos los datos que hemos recopilado de nuestros 
pacientes en índices (por ejemplo, media o desvia-
ción típica) que representan fielmente cada una de 
las variables registradas. Las mayoría de las pruebas 
estadísticas se sustentan en el uso de estos índices. 
Para poder resumir de manera eficaz una variable, 
debemos responder a tres preguntas:
– ¿Cuántos individuos hay en nuestra muestra? 
tamaño muestral (n).
– ¿Cuál es el valor central de la distribución? Me-
didas de centralización.
– ¿Los datos están muy próximos o muy disper-
sos? Medidas de dispersión.
Medidas de centralización. Cuando medimos una 
variable cuantitativa, observamos que hay valores 
muy frecuentes en torno a los cuales se agrupan lo 
demás, mientras que los valores extremos (muy altos 
o muy bajos) son muy raros. A ese valor central es al 
que denominamos media aritmética (x). Su cálculo 
«El auge de la estadística en el Siglo XX, como el de la geometría en el siglo III antes de Cristo, parece marcar 
una de las grandes eras o periodos críticos en el desarrollo 
del conocimiento humano»
Sir Ronald A. Fisher
166 22. Estadística descriptiva e inferencial
es sencillo: basta con sumar todos los valores medi-
dos y dividir la suma entre el total de observaciones 
(n).
La media aritmética se usa como índice de cen-
tralización en muestras grandes y variables que si-
guen una distribución normal y es con mucho la más 
utilizada, pero no la única. Para muestras pequeñas, 
asimétricas, y que no siguen la curva de Gauss, exis-
ten otras medidas de centralización: La mediana: es 
el valor que divide a la muestra en dos partes iguales, 
una vez ordenadas todas las medidas de menos a ma-
yor. Es equivalente del percentil 50 (P50) o del segun-
do cuartil (Q2). Si el tamaño muestral es impar, es el 
valor que queda en el medio. Si el tamaño muestral 
es par, es la media aritmética (o semisuma) de los dos 
valores centrales. La moda es el valor más repetido 
de la distribución. Una distribución normal es uni-
modal (esto es, hay una única moda, que coincide 
con la media y la mediana), pero puede haber distri-
buciones bimodales (con dos modas) o con más de 
dos modas. Otras medidas de centralización, menos 
usadas en investigación clínica, son la media geomé-
trica y la media armónica.
Medidas de posición. La interpretación de estos 
índices es similar al de la mediana. Se trata de índices 
que dividen a la muestra en X partes iguales.
– Cuartiles: son los 3 valores que dividen la 
muestra en 4 partes de igual tamaño.
– deciles: son los 9 valores que dividen la mues-
tra en 10 partes de igual tamaño.
– percentiles: son los 99 valores que dividen la 
muestra en 100 partes de igual tamaño.
Medidas de dispersión. La forma más sencilla de 
explicar la dispersión de nuestros datos consiste en 
calcular la extensión del intervalo entre el menor va-
lor observado y el mayor. Este índice es el rango o 
recorrido. Sin embargo, el rango se ve muy afectado 
por los valores extremos y es útil para describir la 
dispersión de muestras pequeñas, asimétricas, o que 
no siguen una distribución normal.
Para variables normales y muestras grandes, las 
medidas de dispersión más usadas son la varianza, y 
la desviación típica (o estándar).
Una primera iaproximación para definir la dis-
persión de las observaciones es calcular la diferen-
cia entre la media aritmética y cada observación. El 
problema que tendremos aquí es que la mitad de las 
diferencias tendrán un resultado negativo y la mitad 
un resultado positivo. Por tanto, si calculamos direc-
tamente la media de estas diferencias, el resultado 
siempre será 0. Para solucionar esto, podríamos cal-
cular la media de los valores absolutos de cada una 
de las diferencias. El resultado de esto es la desvia-
ción media: 
Sin embargo, este índice es poco útil. Otra forma 
que tenemos de deshacernos de los signos negativos 
es elevar al cuadrado, por lo que el resultado de este 
índice estará medido con las unidades originales ele-
vadas al cuadrado. Promediando este sumatorio de 
los cuadrados de las diferencias, el índice que obte-
nemos es la varianza (V):
Por ejemplo, si estamos calculando la varianza de 
una longitud axial, medida en mm, el resultado de la 
varianza estará dado en mm2. Si queremos que el va-
lor del índice de dispersión venga dado en las mismas 
unidades que la media aritmética, la solución consis-
te en hallar su raíz cuadrada. Al resultado de esto es 
a lo que llamamos desviación típica, o estándar (SD):
b) Consideraciones estadísticas de la agudeza 
vidual
El cálculo de la media y la desviación estándar de 
la agudeza visual no es difícil, pero se hace de una 
manera incorrecta en múltiples estudios de investiga-
ción. El problema reside en que los optotipos actua-
les siguen una progresión geométrica, no aritmética 
(el tamaño del optotipo correspondiente a una AV de 
0,1 no es el doble que la que corresponde a 0,2, sino 
que cada paso de nivel supone un cambio de 0,1 uni-
dades logarítmicas). Por ello debe utilizarse la media 
geométrica, no la aritmética. La forma más sencilla 
de calcular la medida de un grupo de agudezas vi-
suales es utilizar no los optotipos de Snellen, sino 
los optotipos de LogMAR (que significa logaritmo del 
ángulo mínimo de resolución) y calcular entonces la 
media aritmética de los valores obtenidos. Si no dis-
ponemos de éstos, debemos convertir cada valor al 
LogMAR equivalente y seguidamente hacer la media, 
16722. Estadística descriptiva e inferencial
volviendo a hacer la conversión a la escala decimal 
del resultado. También vale con hacer una transfor-
mación logarítmica de los valores decimales, con lo 
que consigue normalizar la distribución. La tabla I da 
una equivalencia de ambos parámetros y existen cal-
culadoras on-line parael mismo propósito (www.in-
fodoctor.org/gipi/f/calculos_optotipos.xls). Lo mismo 
que ocurre para el cálculo de la media, sucede para 
otros cálculos estadísticos, tales como t de Student, 
ANOVA, correlaciones. Siempre deben utilizarse los 
valores del LogMar.
Otro problema se plantea con las agudezas visua-
les computadas como «contar dedos» «movimiento 
de manos», «percepción de luz» y «no percepción 
de luz». Holliday da las siguientes recomendaciones 
de equivalencia:
– «Contar dedos»: se puede asumir que, en pies 
se puede hacer un equivalente con un cociente entre 
el número de pies a los que se ha contado dedos y 
200 de denominador A 10 pies la AV sería de 10/200 
y a 2 pies 2/200. Si lo tomamos en metros, es lo mis-
mo con un denominador de 60. Por ejemplo, si se 
cuenta dedos a 3 metros 3/60= 0,03 en escala deci-
mal y a 1 metro 1/60=0,016. 
– Si no cuenta dedos y solo ve movimiento de 
mano, los denominadores son, respectivamene 2000 
y 600. Es decir, que movimiento de manos a un me-
tro es 1/600= 0,0016 en escala decimal. 
– La agudeza visual reducida a la percepción de 
luz y no percepción de luz, según Holliday no son 
medidas reales de la agudeza visual y por lo tanto 
estos casos deberían ser excluídas del estudios y se-
ñaladas como criterio de exclusión en el material y 
métodos. Ese punto es muy discutible, ya que da lu-
gar a un sesgo evidente.
Otro caso muy frecuente se da en pacientes que 
no leen todos los optotipos de una línea. Una so-
lución, probablemente la más utilizada, es tomar la 
línea con mayor agudeza visual en la cual el pacien-
te ha sido capaz de ver la mayoría de los optotipos 
(por ejemplo, 3 de 5). Un método más exacto es in-
terpolar entre los valores vistos completamente y los 
parcialmetne con el cociente de letras vistas, siempre 
sobre el LogMar.
Ejemplo 22.1
 Un paciente ve todas las letras de la fila 
de optotipos correspondientes a 20/50 
(0,4), pero sólo tres de cinco de la fila de 
20/40 (0,5). En escala LogMar ambas es-
calas corresponden a +0,4 y +0,3. Y 3 de 
5 letras corresponden a 3/5 del intervalo 
entre +0,4 y +0,3, que es +0,36, el valor 
que debe ser tomado.
Ejemplo 22.2
 Vamos a hallar la media de la AV de los 7 
ojos que se detallan en la siguiente tabla: 
datos de agudeza visual 
Ojo av 
(pies)
Equivalente 
snellen 
en pies
Equivalente 
decimal
logMar 
equivalente
1 20/10 20/10 2 -0,3
2 20/10(-2) 20/10(-2) 2 (-2) -0,25
3 20/40 20/40 0,5 0,3
4 20/40(+3) 20/40(+3) 0,5 (+3) 0,24
5 20/200 20/200 0,1 1
6 Cuenta 
dedos a 2 
pies (=60 
cm)
2/200 0,01 2
7 Movimiento 
de manos 
a 2 pies 
(=60 cm)
2/2000 0,001 3
Medias 20/142 0,141 0,85
 Las agudezas visuales se han pasado to-
das a LogMar (última columna), respe-
tando la conversión de interpolación an-
teriormente citada de aquellos pacientes 
que solo veían unos cuantos optotipos 
tabla i . COrrEspOndEnCia EntrE agUdEzas 
visUalEs
Equivalente 
snellen (pies)
Equivalente deci-
mal (minutos)
Equivalente
logMar
20/16 1,25 -0,10
20/20 1 0
20/25 0,8 +0,10
20/32 0,63 +0,20
20/40 0,5 +0,30
20/50 0,40 +0,40
20/63 0,32 +0,50
20/100 0,2 +0,7
20/200 0,1 +1
20/400 0,05 +1,3
168 22. Estadística descriptiva e inferencial
de su última fila (paciente 2 y 4) y las 
conversiones de contar dedos y movi-
miento de mano (paciente 5 y 6) 
c) leyes teóricas que se ajustan a distribuciones 
biológicas
Las variables de una población en muchas ocasiones 
se ajustan a modelos matemáticos preestablecidos. Si 
sabemos que la variable que estudiamos se asocia a un 
modelo conocido, eso significa que tenemos un enor-
me poder sobre ella. Al tener la fórmula matemática que 
siguen nuestros datos podemos, por ejemplo, dibujar 
la curva que expresa ese modelo y aplicar test estadís-
ticos que están basados precisamente en que nuestras 
variables siguen determinados modelos matemáticos y 
no otros. Hay modelos a los que se ajustan una gran 
cantidad de mediciones en la naturaleza y el modelo de 
distribución normal o de Gauss es el más frecuente y co-
nocido. Saber si nuestras variables siguen una distribu-
ción normal es vital para utilizar más tarde las pruebas 
estadísticas más frecuentes, llamadas paramétricas (ver 
capítulo 21, contraste de hipótesis). Existen otras distri-
buciones que también se dan en la naturaleza, como la 
distribución binomial o la de Poisson, pero su descrip-
ción queda fuera del ámbito de este trabajo.
distribución normal de gauss: La distribución 
normal fue descrita inicialmente por A. Moivre y pos-
teriormente desarrollada por C.F. Gauss, por lo que 
es también conocida comúnmente como «Curva de 
Gauss» (fig. 1) La distribución de una variable normal 
está determinada por su media (m) y desviación típi-
ca (s). Las propiedades de una distribución normal se 
describen en la tabla II.
d) representaciones gráficas
Las representaciones gráficas son un medio muy 
útil para entender los estudios estadísticos, debido a 
que una imagen penetra más fácilmente en nuestro 
entendimiento de los resultados que la observación 
simple de series numéricas.
Utilidad de las representaciones gráficas (1, 2):
1. Permiten que nos demos cuenta del desarrollo 
de cualquier fenómeno estadístico fácilmente
2. Facilitan la observación y detección de rela-
ciones entre series de datos, en las que aún no se ha 
analizado matemáticamente su posible relación.
3. Nos ayudan a juzgar la exactitud de los resul-
tados obtenidos, tras el análisis matemático.
4. Facilitan la observación de la interdependen-
cia que pudiera existir entre dos variables.
Si bien las representaciones gráficas son muy úti-
les para observar de forma clara y resumida la infor-
mación recogida sobre la variable estudiada (es muy 
cierto el aserto que una imagen vale más que mil pa-
labras), hemos de ser muy prudentes al confeccionar 
o interpretar las mismas, puesto que una misma infor-
mación se puede representar de formas muy diversas, 
y no todas ellas van a ser válidas. 
Variables cualitativas y cuantitativas discretas
– diagrama de barras o columnas: Se realizan 
sobre dos ejes de coordenadas, uno de abscisas (hori-
zontal) y otro de ordenadas (vertical). En el de absci-
sas se disponen los valores de la variable, y en el or-
denadas la escala de frecuencias a partir del valor 0. 
La altura del valor de cada variable en las ordenadas 
corresponderá a la frecuencia de cada variable. Es 
importante en la elaboración de este gráfico tener en 
cuenta que sea cual sea la frecuencia considerada, la 
escala siempre debe iniciarse en cero y coincidir con 
el cero de ordenadas. La representación puede reali-
zarse de forma horizontal, como en la figura 2 o bien 
con el cero de frecuencias en vertical, además como 
presentamos los distintos valores de frecuencias pue-
den dibujares uno junto a otro o bien separados entre 
ellos. 
– sectores circulares. Este gráfico se construye 
repartiendo los 360º del círculo proporcionalmente 
a la intensidad que registra el fenómeno considerado 
y expresado generalmente en forma de porcentaje. 
Cada sector que se forma debe ajustarse a la frecuen-
cia de aparición de los valores de la variable estudia-
da, para ello es preciso calcular los grados del ángu-
Fig. 1: Distribución normal y sus porcentajes respecto de la 
desviación estándar.
16922. Estadística descriptiva e inferencial
lo de su sector circular, una vez repartidos los 360º 
del círculo en los diferentes sectores, uno por cada 
variable, se puede trazar la imagen. En el ejemplo 
que presentamos en la figura 3, definimos dos secto-
res diferenciados que corresponden al porcentaje de 
hombres y mujeres de la muestra de un estudio de 
prevalencia de retinopatía diabética (3). 
– pictogramas y cartogramas. Los pictogramas 
son gráficos especiales, en que para hacer más llama-
tivo el mismo, se dibujan en lugar de barras, figuras 
representativas de la variable estudiada, por ejemplo 
el caso típico es la representación del crecimiento 
de la población de un determinado País, de manera 
que sevan representando imágenes progresivamente 
más altas de un sujeto, que representan el aumento 
de la población. Los cartogramas son mapas geográ-
ficos en los que la intensidad de la variable estudiada 
en diferentes regiones, se representan por ejemplo, 
mediante la intensidad del rayado o de la coloración 
de cada una de ellas, son muy utilizados para señalar 
datos demográficos como densidad de población o 
prevalencia de una determinada enfermedad en las 
distintas regiones de un país o del mundo.
– diagrama polar: Es una forma de gráfico similar 
a los sectores circulares, por ejemplo si queremos re-
presentar la asistencia anual, de los pacientes diabéti-
cos a una unidad de cámara no midriática, para reali-
zarse las retinografías de control del fondo de ojo, en 
este caso para reproducir la gráfica representaremos 
el número de pacientes vistos en cada mes mediante 
una línea con punto 0 y que se irán disponiendo en 
forma circular una al lado de la otra separadas por el 
ángulo polar, dando lugar a una circunferencia divi-
dida en los doce meses del año. Cada línea formará 
un radio propio de longitud proporcional al número 
de visitas realizadas cada mes en la unidad de cáma-
ra no midriática (4). En estos gráficos siempre se traza 
un círculo con radio en la media aritmética, y así se 
puede visualizar mejor las variaciones de asistencia 
según los meses del año (fig. 4).
Variables cuantitativas continuas
– Histograma. Este tipo de gráfico es el más uti-
lizado para la representación de variables cuantita-
tabla ii. prOpiEdadEs dE Una distribUCiÓn nOrMal
– La curva normal es asintótica al eje de abscisas (se acerca cada vez más a ella por ambos extremos sin llegar nunca a 
encontrarla), por lo que cualquier valor entre -∞ y +∞ es posible. El área total bajo la curva es 1
– La distancia entre la línea en la media y el punto de inflexión de la curva es igual a una desviación estándar. Cuanto 
mayor sea σ, más aplanada será la curva
– Presenta sólo una moda, coincidiendo con la media y la mediana
– Es una distribución «simétrica» con relación a su media. Es por tanto igual de probable observar un dato menor que 
mayor a la media (50%)
– Hay un 95% de probabilidades de que un valor cualquiera se encuentre entre el valor de la media ± dos desviaciones 
estándar
– La forma de la campana de Gauss dependerá de la media y de la desviación estándar. La media nos va a indicar la po-
sición de la campana desplazándose a lo largo del eje horizontal mientras que la desviación estándar es la responsable 
del grado de elevación de la curva. A mayor desviación estándar, mayor dispersión de los valores alrededor de la media 
y por lo tanto la curva será más plana
Fig. 2: Gráfico en forma de columnas de la prevalencia de 
pacientes con retinopatía diabética (3).
Fig. 3: Imagen en sector circular representa la distribución 
según el sexo de los pacientes con diabetes mellitus tipo 2.
170 22. Estadística descriptiva e inferencial
tivas, tanto discretas como continuas. Recordemos 
que una variable continua discreta se denomina a 
aquella que su conjunto de valores posibles es finito 
o se puede enumerar en una sucesión infinita (una 
en la cual existe un primer número, un segundo nú-
mero y así sucesivamente, una variable discreta re-
sulta de contar sus valores así pueden estos ser 0, 1, 
2, 3, 4 ,5…), asimismo una variable cuantitativa es 
continua si sus valores posibles abarcan un intervalo 
completo sobre la línea de números (1,2). De todas 
maneras prácticamente todas las variables que vamos 
a manejar en los estudios van a ser discretas, puesto 
que los instrumentos de medida que disponemos, por 
precisos que sean, no permiten apreciar datos infini-
tesimales. Para poder representar gráficamente estas 
variables mediante un histograma hemos de seguir 
una sistemática de tal manera que hemos de seguir 
los siguientes pasos:
1. Los valores de la variable deben agruparse en 
intervalos
2. Deberemos fijar los límites exactos de cada 
uno de los intervalos de la variable en el eje de abs-
cisas
3. Sobre el eje de ordenadas construiremos una 
escala de frecuencias que debe iniciarse en el valor 
0 (requisito que no es necesario para iniciar el eje de 
abscisas)
4. Sobre el eje de abscisas levantaremos tantos 
rectángulos como intervalos existan. 
Como vemos en el último punto es necesario de-
terminar la frecuencia de un suceso para poder plas-
mar en el gráfico los datos, debemos pues primero 
detenernos a describir que se entiende por frecuen-
cia y los tipos de la misma que existen: frecuencia 
absoluta y frecuencia relativa. Tal y como hemos 
descrito anteriormente prácticamente utilizaremos 
variables cuantitativas discretas, si consideramos los 
datos compuestos de observaciones de una variable 
discreta X, la frecuencia absoluta de cualquier valor x 
particular es el número de veces que ocurre un valor 
en el conjunto de datos, y la frecuencia relativa es la 
fracción o proporción de veces que ocurre el valor, y 
puede obtenerse mediante la fórmula:
Frecuencia relativa = Número de veces que ocu-
rre el valor / número de observaciones en el conjunto 
de datos
Si se multiplica una frecuencia relativa por 100, se 
obtiene un porcentaje, con lo que las frecuencias re-
lativas las podemos definir en forma de porcentajes, 
que generalmente interesan más que las frecuencias 
mismas, al convertir las frecuencias en porcentajes va 
a tener lugar un suceso que es frecuente encontrar en 
los estudios científicos publicados, y es que la suma 
de los valores de todas las frecuencias relativas en 
forma de porcentaje de una variable, aunque debe-
rían sumar 1, en la práctica podemos encontrarnos 
valores que difieren de 1 (normalmente por debajo 
de 1), debido al redondeo que se produce al presen-
tar un valor en forma de porcentaje. 
Una vez descrito lo que significa frecuencia y fre-
cuencia relativa, podemos volver a la construcción 
de la gráfica de frecuencias (fig. 5). 
Fig. 4: Representación mediante un gráfico polar, de los pa-
cientes que acudieron a una Unidad de Cámara no Midriá-
tica (4), durante el periodo de un año dividido en meses, 
para el cribado de la retinopatía diabética.
Fig. 5: Histograma y polígono de frecuencias que represen-
tan la distribución de los niveles de HbA1c de la muestra de 
un estudio de retinopatía diabética y microalbuminuria (3).
17122. Estadística descriptiva e inferencial
Otros tipos de representaciones gráficas
Los tipos de representaciones gráficas hasta aho-
ra descritos, son los más habituales en los estudios 
estadísticos, pero hay que hacer mención también 
a otros a los que se puede recurrir en determinadas 
circunstancias, como son el diagrama de puntos y las 
gráficas en dos dimensiones.
– diagrama de puntos. Consiste en figuras 
geométricas iguales, que pueden ser cuadrados o lí-
neas de abscisas, que contienen cada uno un número 
de puntos proporcionales a la intensidad del fenó-
meno a representar. Cada punto puede representar 
la unidad o bien un número equivalente a la misma. 
Su principal ventaja es que puede representar una 
cantidad grande de información y proporcionar un 
impacto visual de conjunto sobre el fenómeno estu-
diado. Los gráficos de puntos pueden utilizarse cuan-
do el conjunto de datos es razonablemente pequeño 
o existen pocos valores de datos distintos. 
Gráficos lineales y semilogarítmicos
– gráfico lineal. Este tipo de gráfico se construye 
sobre dos ejes (eje x = abscisas, eje y = ordenadas) 
con un punto 0 de origen de ambos ejes. Estos gráfi-
cos se diferencian de los de barras y del histograma, 
porque en estos últimos los valores de las variables 
que se colocan sobre el eje de abscisas no tienen por 
qué empezar en el valor 0, ni este coincidir con el 
cero de ordenadas; además en ellos se utiliza el eje 
de ordenadas (y) para colocar las frecuencias de la 
aparición de los valores de la variable, mientras que 
en el gráfico lineal esto no es así. Como ejemplo pre-
sentamos la incidenciade retinopatía diabética y de 
insuficiencia renal diabética en un estudio de segui-
miento de una población de pacientes con diabetes 
mellitus tipo 1 (fig.  6), a lo largo de 20 años, con 
cortes realizados cada 5 años (3).
– gráfico semilogarítmico. La diferencia entre 
un gráfico lineal y uno semilogarítmico, radica en 
la escala utilizada en el eje de ordenadas (eje y), ya 
que utilizaremos una escala logarítmica de los datos, 
mientras que en el eje de abscisas (eje x) utilizaremos 
una escala lineal de datos. Este tipo de gráfico se uti-
liza cuando la variable que vamos a colocar sobre 
el eje de ordenadas es susceptible de transformación 
logarítmica. 
– gráfico de máximos y mínimos. En este tipo de 
gráfico se representan en el eje de abscisas los valo-
res de la variable a estudiar, y en el de ordenadas se 
distribuyen los valores máximos, mínimos y media 
para cada uno de los valores de la variable estudiada, 
con lo que podemos a su vez observar el grado de 
dispersión para cada dato representado en el eje de 
abscisas. 
Este tipo de gráficos pueden servirnos para obser-
var de forma visual rápida la mayor o menor concen-
tración de sujetos de una muestra según la variable 
tiempo, como podemos observar en la figura 7, en 
la que presentamos los valores de HbA1c para cada 
tipo de retinopatía diabética (RD), gráficamente ob-
servamos que los niveles medios de HbA1c son cada 
vez mayores a medida que la RD se agrava, de forma 
que la forma proliferativa es la que tiene niveles me-
dios mayores de HbA1c, a su vez podemos observar 
que la mayor oscilación de valores de HbA1c se da 
en el grupo de pacientes con RD de tipo moderado, 
con niveles mínimos y máximos superiores a los de-
Fig. 6: En el gráfico representamos la incidencia de distintas 
formas de afectación ocular y renal, de una muestra de po-
blación de pacientes con diabetes mellitus a lo largo de 20 
años de seguimiento, con cortes realizados cada 5 años (3).
Fig. 7: En el eje de abscisas se representan los tipos de reti-
nopatía diabética que se han encontrado en un estudio de 
incidencia (0 = no RD, 1 = RD leve, 2 = RD moderada, 3= 
RD severa, y 4 = RD proliferativa).
172 22. Estadística descriptiva e inferencial
más tipos de retinopatía. Una variante actualmente 
introducida es la de los gráficos de cajas, se utilizan 
para describir las características más prominentes de 
un conjunto de datos, que incluyen: la media, la dis-
persión, la mediana y los valores más extremos (infe-
rior y superior).
– gráfico de dispersión. Un gráfico de dispersión 
es un tipo de gráfico que se utiliza para mostrar los 
valores de dos variables para un conjunto de datos, 
son útiles para mostrar la relación entre diferentes 
puntos de datos, y utiliza valores numéricos para am-
bos ejes. Los datos se muestran como un conjunto de 
puntos, cada uno con el valor de una variable en el 
eje de abscisas y el valor de la otra variable situado 
en el de ordenadas. La variable independiente habi-
tualmente se representa a lo largo del eje de absci-
sas y la dependiente usualmente se representa a lo 
largo del eje de ordenadas. Si no existe una variable 
dependiente, cualquier variable se puede represen-
tar en cada eje. El diagrama de dispersión mostrará 
el grado de correlación entre las dos variables. Un 
gráfico de dispersión puede sugerir varios tipos de 
correlaciones entre las variables. Se puede dibujar 
una línea de ajuste (llamada también “línea de ten-
dencia”) con el fin de estudiar la correlación entre las 
variables. Uno de los aspectos más importantes de un 
gráfico de dispersión, es su capacidad para mostrar 
las relaciones no lineales entre las variables. Presen-
tamos como ejemplo, en la figura 8 un gráfico de 
dispersión para la variable grosor macular en los ca-
sos de edema macular diabético de una serie clínica 
(5), en este caso las variables de los dos ejes no están 
correlacionadas (correlación nula), ya que el eje de 
abscisas se limita a representar cada uno de los casos 
registrados en el estudio.
3. prOgraMas EstadÍstiCOs, spss
Los programas estadísticos se crearon para poder 
realizar cualquier estudio estadístico o epidemioló-
gico, a partir de datos almacenados en plantillas de 
otros programas como Excel o Access. Actualmente 
existen diferentes programas que se usan habitual-
mente en los estudios de biomedicina, los más fre-
cuentes son: STATA, SAS y SPSS. Y entre los gratuitos, 
Epi-Info y Epidat. Existen también numerosas calcu-
ladoras «on line» que realizan el cálculo de numero-
sos test estadísticos y encontrarlos es sencillo desde 
cualquier buscador. Por ejemplo, en un sitio como 
http://statpages.org/#WhichAnalysis encontramos 
múltiples aplicaciones estadísticas. En los apartados 
correspondientes pondremos ejemplos de calculado-
ras on line de algunos test específicos.
El programa spss (Statistical package for the so-
cial sciences), está elaborado por IBM y está en uso 
la versión 21.0. Es el más extendido actualmente en 
oftalmología sobre todo en Europa, y especialmente 
en España, posiblemente porque su interfaz gráfica de 
usuario (GUI) sea más sencilla que el funcionamien-
to por comandos de los otros dos programas. Es muy 
útil y completo, pero también muy caro (generalmente 
solo los hospitales o unidades de investigación tienen 
acceso a él) y lleva cierto tiempo conocer su manejo. 
Si deseamos investigar de manera habitual emplear 
un poco de tiempo en su aprendizaje nos será muy 
provechoso. Aquí vamos a dar un vistazo general del 
programa y en apartados posteriores pondremos algún 
ejemplo de su uso con las pruebas más utilizadas .
La pantalla del SPSS se compone de dos tablas. La 
tabla de datos (fig. 9) es donde colocaremos los datos, 
bien de forma directa o bien importándolos desde una 
tabla de Excel (mediante un sencillo paso de copiar y 
pegar). Cada columna de la tabla de datos es una va-
riable, con su nombre en la cabecera y cada fila es un 
caso. Desde esta tabla podemos realizar la conversión 
de una variable en otra, o fundir dos variables distin-
tas de datos, o definir nuevas variables a partir de las 
operaciones que queramos. Una tabla adjunta es la 
tabla de variables (fig. 10), donde debemos definir las 
características de cada una, si es numérica (cuantita-
tiva) o bien cualitativa. Las variables cualitativas de-
berían seguir siendo numéricas, y adjudicaremos un 
número a cada valor (por ejemplo, 0=no; 1=sí). Con 
las variables de tipo cadena no podremos operar. La 
columna denominada «medida» define de nuevo la 
variable como escala, ordinal o nominal.
El análisis estadístico lo hemos de realizar a partir 
de la tabla de datos. En la barra superior aparece la 
Fig. 8: Gráfico en el que representamos los valores del gro-
sor macular en pacientes con edema macular diabético, 
procedentes de una muestra de un estudio de incidencia 
a los 15 años (5).
17322. Estadística descriptiva e inferencial
Fig. 9: Tabla de definición de variables en el SPSS en un ejemplo de estudio propio del autor. 
Fig. 10: Tabla de ejemplo de las variables de un estudio.
174 22. Estadística descriptiva e inferencial
pestaña análisis, que al abrirla nos permite realizar 
el análisis estadístico que deseemos, empieza por el 
estudio de estadísticas descriptivas (que hemos se-
ñalado en amarillo en la fig. 12), que nos permitira 
analizar las frecuencias de las variables cualitativas y 
el estudio descriptivo de las variables cuantitativas. 
En los siguientes puntos de la pestaña (fig. 11), pode-
mos comparar medias mediante los distintos estadís-
ticos como la T de Student o el análisis de varianza 
mediante ANOVA. Siguiendo veremos la posibilidad 
de estudiar tablas de contingencia mediante los esta-
dísticos Chi Cuadrado o equivalentes. Siguiendo ten-
dremos la posibilidad de estudios mediante regresión 
logística, o estudios de supervivencia o el estudio de 
la curva de ROC.
En la misma barra superior en las versiones más 
recientes, se puede realizar la construcción de gráfi-cas, abriendo la pestaña gráficos (fig. 12), al hacerlo 
veremos que se abre la posibilidad de escoger la grá-
fica a construir (observar la barra inferior derecha de 
la figura 12): barras, líneas, áreas, sectores/polar, etc.
4. EstiMaCiÓn dE parÁMEtrOs
Pasemos ahora de la mera descripción de los da-
tos de nuestra muestra a extraer datos que puedan 
ser aplicados al conjunto de la población de la cual 
procede nuestra muestra. Pasamos, por tanto, a la es-
tadística inferencial. Los datos obtenidos de nuestra 
muestra tienen un interés limitado, ya que de los mis-
Fig. 11: Observamos la pestaña de análisis estadístico abierta, con todos los posibles análisis a realizar, en concreto hemos 
abierto la pestaña frecuencias y observamos que se desplegan la posibilidad de realizar estudios de frecuencia, descriptivos 
o tablas de contingencia (ver capítulo 23).
17522. Estadística descriptiva e inferencial
mos sólo se pueden obtener conclusiones atribuibles 
a la propia muestra, y no a la población de la que 
proviene. Para poder generalizar los resultados de 
nuestra muestra al conjunto de la población, es ne-
cesario hacer una estimación o inferencia, y además, 
poder cuantificar la probabilidad de equivocarnos al 
hacer esa estimación. He aquí una de las grandes 
aportaciones del método estadístico a la investiga-
ción: la posibilidad de extrapolar conclusiones pro-
venientes de experimentos limitados a poblaciones 
enteras. Debemos saber cómo se hace y también a 
cuantificar el error de nuestras estimaciones.
a) Estimación puntual y por intervalos
Si deseamos obtener conclusiones sobre la pobla-
ción a partir de una muestra debemos pagar dos tri-
butos: perder precisión, y admitir la probabilidad de 
que podamos equivocarnos. La pérdida de precisión 
nos dará un «temblor», un intervalo de incertidum-
bre dentro del cual suponemos que está el verdadero 
valor de la variable poblacional estudiada: ese es el 
intervalo de confianza. Si junto a nuestro resultado 
incluimos el intervalo de confianza, y la probabilidad 
de que el verdadero resultado poblacional se escape 
de él, estaremos ya no nos referimos a nuestra mues-
tra, sino a la población. Es relativamente frecuente 
que en artículos publicados se den estimaciones de 
parámetros en forma de medias o porcentajes sin dar 
su correspondiente intervalo de confianza. Como ya 
comentamos (capítulo 7), esa es una información que 
tiene muy poco o nulo valor, ya que el resultado real 
podría estar muy diferente al propuesto si el interva-
lo de confianza desconocido resulta ser demasiado 
amplio. 
Ejemplo 22.3
 En un viejo chiste de los libros de esta-
dística, se ve un anuncio que reza: «El 
66% de los odontólogos encuestados 
recomiendan nuestro dentífrico sin azú-
car». Y en letra diminuta se lee debajo. 
«A Jones no pudimos convencerle». El 
porcentaje expresado es correcto: en-
Fig. 12: Observamos la pestaña gráficos abierta, y una gráfica de columnas.
176 22. Estadística descriptiva e inferencial
trevistaron a tres odontólogos y dos se 
mostraron partidarios de su producto, 
exactamente el 66,66%, pero la infor-
mación que nos da sobre la opinión real 
de todos los odontólogos es muy escasa. 
El porcentaje real que opinan de esa for-
ma podría ser muy diferente.
Ejemplo 22.4
 Los autores de un estudio afirman que 
el porcentaje de pacientes con hiperten-
sión ocular inferidos para una población 
mayor de 40 años es de un 4,8%, con 
un intervalo de confianza del 95% cu-
yos límites son 3,9% y 5,8%. Eso signi-
fica que se tiene un 95% de confianza 
de que el porcentaje real de hipertensos 
está incluído en ese intervalo. 
El cálculo del intervalo de confianza en la estima-
ción de una media es muy sencillo, basta con cono-
cer la media, la desviación estándar y el tamaño de 
la muestra. Para el cálculo de los intervalos de con-
fianza, aparte de los programas habituales, tenemos 
herramientas muy sencillas, por ejemplo:
http://www.mccallum-layton.co.uk/stats/Confi-
denceIntervalCalc.aspx
http://www.mccallum-layton.co.uk/stats/Confi-
denceIntervalCalcProportions.aspx
Ejemplo 22.5
 Hemos realizado las medidas del as-
tigmatismo de 51 sujetos de pobla-
ción normal y deseamos calcular la 
media y desviación estándar, así como 
los intervalos de confianza al 95%. 
En el SPSS, una vez introducidos los da-
tos y vamos al apartado Analizar g Es-
tadísticos descriptivos g Explorar y ajus-
tando en la pestaña «estadísticos« un 
95% de intervalo de confianza, tenemos 
el siguiente resultado: nuestra media es 
de 0.81 D con un intervalo de confianza 
de 0,67 a 0,94 D. Se muestran también 
otros parámetros, como la mediana, el 
rango o la desviación típica.
bibliOgrafÍa
 1. Devore JL. Probabilidad y estadística para ingenieros y 
ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.; 
2008 pag 10-31.
 2. Pardell H, Cobo E, Canela J. Manual de bioestadística. . 
Editorial MASSON SA Barcelona 1986. pag: 11-14.
 3. Pardell H, Cobo E, Canela J. Manual de bioestadística. Edi-
torial MASSON SA Barcelona 1986. pag: 38-52.
 4. Devore JL. Probabilidad y estadística para ingenieros y 
ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.; 
2008 pag 10-31 3.
 5. Romero Aroca, P; Del Castillo Dejarin, D. Estudio de pre-
valencia de la retinopatía diabética en la población del 
Baix Camp (Tarragona). Arch Soc Esp Oftalmol 1996; 71 
(3): 261-268.
 6. Romero-Aroca P, Reyes Torres J, Sagarra-Alamo R, Basora 
Gallisa J, Fernández-Balart J, Pareja Ríos A, Baget-Bernal-
diz M. Impacto de la implantación de la cámara no midriá-
tica sobre la población diabética. Salud & Ciencia 2012; 
2(19): 158-62.
 7. Romero P, Baget M, Mendez I, Fernández J, Salvat M, Mar-
tinez I. Diabetic macular edema and its relationship to re-
nal microangiopathy: a sample of Type I diabetes mellitus 
patients in a 15-year follow-up study. J Diabetes Complica-
tions. 2007 May-Jun; 21(3): 172-80.
 8. Bolstad, William M. (2004) Introduction to Bayesian Statis-
tics, John Wiley.
descriptivos
astigmatismo Estadístico Error 
típ.
Media ,812 ,0659
Intervalo de confianza para la 
media al 9
 Límite inferior
 Límite superior
,679
,944
Media recortada al 5% ,778
Mediana ,700
Varianza ,221
Desv. típ. ,4706
Mínimo ,2
Máximo 2,2
Rango 2,0
Amplitud intercuartil ,7
Asimetría ,911 ,333
Curtosis ,530 ,656

Continuar navegando

Contenido elegido para ti

226 pag.
Fundamentos Básicos de Estadística-Libro

ULT

User badge image

Manuel Rodrigues Monameo

111 pag.
estadistica-basica-con-R

User badge image

Contenidos Diversos

38 pag.

Otros materiales