Estadisticadescriptivaseinferancial (1)

Estadística Descriptiva

•

SIN SIGLA

0

lizethsalin748

29/9/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística Descriptiva

1953 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Capítulo 22
EstadÍstiCa dEsCriptiva E infErEnCial
Pedro Romero Aroca, Carlos Lázaro García, Julio José González López
1. introducción
2. Estadística descriptiva
a) definir una distribución de datos. Índices de
centralización y dispersión
b) Consideraciones estadísticas acerca de la agudeza
vidual
c) leyes teóricas que se ajustan a distribuciones
biológicas
d) representaciones gráficas
3. programas estadísticos. spss
4. Estimación de parámetros
a) Estimación puntual y por intervalos
b) inferencia bayesiana
1. intrOdUCCiÓn
La estadística da sentido a la información acumu-
lada en los trabajos de investigación. Muchos pro-
fesionales se sienten intimidados ante ella porque
creen que se trata de un campo complejo y extraño,
ignorando que no es necesario ser un experto para
utilizar e interpretar la inmensa mayoría de las he-
rramientas estadísticas utilizadas en los estudios clí-
nicos. Al igual que no es preciso saber programación
para utilizar los programas de ordenador más habi-
tuales, no se precisa tener una elevada base matemá-
tica para utilizar correctamente la estadística. Solo
tenemos que tener claro cuándo y cómo aplicar de
manera apropiada los test estadísticos más frecuentes
y comprender su verdadero significado. Si necesita-
mos algo más complejo debemos hacer lo mismo
que hacemos con toda naturalidad en nuestra profe-
sión: consultar con un especialista.
Los métodos estadísticos se clasifican en descrip-
tivos e inferenciales. Los métodos descriptivos carac-
terizan las variables y se utilizan en trabajos descripti-
vos y para definir nuestra muestra como primer paso
para realizar un análisis. La estadística inferencial,
en cambio, infiere alguna propiedad de la población
a partir de nuestra muestra y se divide en dos tipos
principales de técnicas: estimación de parámetros y
contraste de hipótesis (estadística analítica). En este
capítulo abordaremos la estadística descriptiva y la
estimación de parámetros, reservando el próximo ca-
pítulo para el contraste de hipótesis.
2. EstadÍstiCa dEsCriptiva
a) definir una distribución de datos. Índices de
centralización y dispersión
Vamos a aprender, antes que nada, a resumir
todos los datos que hemos recopilado de nuestros
pacientes en índices (por ejemplo, media o desvia-
ción típica) que representan fielmente cada una de
las variables registradas. Las mayoría de las pruebas
estadísticas se sustentan en el uso de estos índices.
Para poder resumir de manera eficaz una variable,
debemos responder a tres preguntas:
– ¿Cuántos individuos hay en nuestra muestra?
tamaño muestral (n).
– ¿Cuál es el valor central de la distribución? Me-
didas de centralización.
– ¿Los datos están muy próximos o muy disper-
sos? Medidas de dispersión.
Medidas de centralización. Cuando medimos una
variable cuantitativa, observamos que hay valores
muy frecuentes en torno a los cuales se agrupan lo
demás, mientras que los valores extremos (muy altos
o muy bajos) son muy raros. A ese valor central es al
que denominamos media aritmética (x). Su cálculo
«El auge de la estadística en el Siglo XX, como el de la geometría en el siglo III antes de Cristo, parece marcar
una de las grandes eras o periodos críticos en el desarrollo
del conocimiento humano»
Sir Ronald A. Fisher
166 22. Estadística descriptiva e inferencial
es sencillo: basta con sumar todos los valores medi-
dos y dividir la suma entre el total de observaciones
(n).
La media aritmética se usa como índice de cen-
tralización en muestras grandes y variables que si-
guen una distribución normal y es con mucho la más
utilizada, pero no la única. Para muestras pequeñas,
asimétricas, y que no siguen la curva de Gauss, exis-
ten otras medidas de centralización: La mediana: es
el valor que divide a la muestra en dos partes iguales,
una vez ordenadas todas las medidas de menos a ma-
yor. Es equivalente del percentil 50 (P50) o del segun-
do cuartil (Q2). Si el tamaño muestral es impar, es el
valor que queda en el medio. Si el tamaño muestral
es par, es la media aritmética (o semisuma) de los dos
valores centrales. La moda es el valor más repetido
de la distribución. Una distribución normal es uni-
modal (esto es, hay una única moda, que coincide
con la media y la mediana), pero puede haber distri-
buciones bimodales (con dos modas) o con más de
dos modas. Otras medidas de centralización, menos
usadas en investigación clínica, son la media geomé-
trica y la media armónica.
Medidas de posición. La interpretación de estos
índices es similar al de la mediana. Se trata de índices
que dividen a la muestra en X partes iguales.
– Cuartiles: son los 3 valores que dividen la
muestra en 4 partes de igual tamaño.
– deciles: son los 9 valores que dividen la mues-
tra en 10 partes de igual tamaño.
– percentiles: son los 99 valores que dividen la
muestra en 100 partes de igual tamaño.
Medidas de dispersión. La forma más sencilla de
explicar la dispersión de nuestros datos consiste en
calcular la extensión del intervalo entre el menor va-
lor observado y el mayor. Este índice es el rango o
recorrido. Sin embargo, el rango se ve muy afectado
por los valores extremos y es útil para describir la
dispersión de muestras pequeñas, asimétricas, o que
no siguen una distribución normal.
Para variables normales y muestras grandes, las
medidas de dispersión más usadas son la varianza, y
la desviación típica (o estándar).
Una primera iaproximación para definir la dis-
persión de las observaciones es calcular la diferen-
cia entre la media aritmética y cada observación. El
problema que tendremos aquí es que la mitad de las
diferencias tendrán un resultado negativo y la mitad
un resultado positivo. Por tanto, si calculamos direc-
tamente la media de estas diferencias, el resultado
siempre será 0. Para solucionar esto, podríamos cal-
cular la media de los valores absolutos de cada una
de las diferencias. El resultado de esto es la desvia-
ción media:
Sin embargo, este índice es poco útil. Otra forma
que tenemos de deshacernos de los signos negativos
es elevar al cuadrado, por lo que el resultado de este
índice estará medido con las unidades originales ele-
vadas al cuadrado. Promediando este sumatorio de
los cuadrados de las diferencias, el índice que obte-
nemos es la varianza (V):
Por ejemplo, si estamos calculando la varianza de
una longitud axial, medida en mm, el resultado de la
varianza estará dado en mm2. Si queremos que el va-
lor del índice de dispersión venga dado en las mismas
unidades que la media aritmética, la solución consis-
te en hallar su raíz cuadrada. Al resultado de esto es
a lo que llamamos desviación típica, o estándar (SD):
b) Consideraciones estadísticas de la agudeza
vidual
El cálculo de la media y la desviación estándar de
la agudeza visual no es difícil, pero se hace de una
manera incorrecta en múltiples estudios de investiga-
ción. El problema reside en que los optotipos actua-
les siguen una progresión geométrica, no aritmética
(el tamaño del optotipo correspondiente a una AV de
0,1 no es el doble que la que corresponde a 0,2, sino
que cada paso de nivel supone un cambio de 0,1 uni-
dades logarítmicas). Por ello debe utilizarse la media
geométrica, no la aritmética. La forma más sencilla
de calcular la medida de un grupo de agudezas vi-
suales es utilizar no los optotipos de Snellen, sino
los optotipos de LogMAR (que significa logaritmo del
ángulo mínimo de resolución) y calcular entonces la
media aritmética de los valores obtenidos. Si no dis-
ponemos de éstos, debemos convertir cada valor al
LogMAR equivalente y seguidamente hacer la media,
16722. Estadística descriptiva e inferencial
volviendo a hacer la conversión a la escala decimal
del resultado. También vale con hacer una transfor-
mación logarítmica de los valores decimales, con lo
que consigue normalizar la distribución. La tabla I da
una equivalencia de ambos parámetros y existen cal-
culadoras on-line parael mismo propósito (www.in-
fodoctor.org/gipi/f/calculos_optotipos.xls). Lo mismo
que ocurre para el cálculo de la media, sucede para
otros cálculos estadísticos, tales como t de Student,
ANOVA, correlaciones. Siempre deben utilizarse los
valores del LogMar.
Otro problema se plantea con las agudezas visua-
les computadas como «contar dedos» «movimiento
de manos», «percepción de luz» y «no percepción
de luz». Holliday da las siguientes recomendaciones
de equivalencia:
– «Contar dedos»: se puede asumir que, en pies
se puede hacer un equivalente con un cociente entre
el número de pies a los que se ha contado dedos y
200 de denominador A 10 pies la AV sería de 10/200
y a 2 pies 2/200. Si lo tomamos en metros, es lo mis-
mo con un denominador de 60. Por ejemplo, si se
cuenta dedos a 3 metros 3/60= 0,03 en escala deci-
mal y a 1 metro 1/60=0,016.
– Si no cuenta dedos y solo ve movimiento de
mano, los denominadores son, respectivamene 2000
y 600. Es decir, que movimiento de manos a un me-
tro es 1/600= 0,0016 en escala decimal.
– La agudeza visual reducida a la percepción de
luz y no percepción de luz, según Holliday no son
medidas reales de la agudeza visual y por lo tanto
estos casos deberían ser excluídas del estudios y se-
ñaladas como criterio de exclusión en el material y
métodos. Ese punto es muy discutible, ya que da lu-
gar a un sesgo evidente.
Otro caso muy frecuente se da en pacientes que
no leen todos los optotipos de una línea. Una so-
lución, probablemente la más utilizada, es tomar la
línea con mayor agudeza visual en la cual el pacien-
te ha sido capaz de ver la mayoría de los optotipos
(por ejemplo, 3 de 5). Un método más exacto es in-
terpolar entre los valores vistos completamente y los
parcialmetne con el cociente de letras vistas, siempre
sobre el LogMar.
Ejemplo 22.1
Un paciente ve todas las letras de la fila
de optotipos correspondientes a 20/50
(0,4), pero sólo tres de cinco de la fila de
20/40 (0,5). En escala LogMar ambas es-
calas corresponden a +0,4 y +0,3. Y 3 de
5 letras corresponden a 3/5 del intervalo
entre +0,4 y +0,3, que es +0,36, el valor
que debe ser tomado.
Ejemplo 22.2
Vamos a hallar la media de la AV de los 7
ojos que se detallan en la siguiente tabla:
datos de agudeza visual
Ojo av
(pies)
Equivalente
snellen
en pies
Equivalente
decimal
logMar
equivalente
1 20/10 20/10 2 -0,3
2 20/10(-2) 20/10(-2) 2 (-2) -0,25
3 20/40 20/40 0,5 0,3
4 20/40(+3) 20/40(+3) 0,5 (+3) 0,24
5 20/200 20/200 0,1 1
6 Cuenta
dedos a 2
pies (=60
cm)
2/200 0,01 2
7 Movimiento
de manos
a 2 pies
(=60 cm)
2/2000 0,001 3
Medias 20/142 0,141 0,85
Las agudezas visuales se han pasado to-
das a LogMar (última columna), respe-
tando la conversión de interpolación an-
teriormente citada de aquellos pacientes
que solo veían unos cuantos optotipos
tabla i . COrrEspOndEnCia EntrE agUdEzas
visUalEs
Equivalente
snellen (pies)
Equivalente deci-
mal (minutos)
Equivalente
logMar
20/16 1,25 -0,10
20/20 1 0
20/25 0,8 +0,10
20/32 0,63 +0,20
20/40 0,5 +0,30
20/50 0,40 +0,40
20/63 0,32 +0,50
20/100 0,2 +0,7
20/200 0,1 +1
20/400 0,05 +1,3
168 22. Estadística descriptiva e inferencial
de su última fila (paciente 2 y 4) y las
conversiones de contar dedos y movi-
miento de mano (paciente 5 y 6)
c) leyes teóricas que se ajustan a distribuciones
biológicas
Las variables de una población en muchas ocasiones
se ajustan a modelos matemáticos preestablecidos. Si
sabemos que la variable que estudiamos se asocia a un
modelo conocido, eso significa que tenemos un enor-
me poder sobre ella. Al tener la fórmula matemática que
siguen nuestros datos podemos, por ejemplo, dibujar
la curva que expresa ese modelo y aplicar test estadís-
ticos que están basados precisamente en que nuestras
variables siguen determinados modelos matemáticos y
no otros. Hay modelos a los que se ajustan una gran
cantidad de mediciones en la naturaleza y el modelo de
distribución normal o de Gauss es el más frecuente y co-
nocido. Saber si nuestras variables siguen una distribu-
ción normal es vital para utilizar más tarde las pruebas
estadísticas más frecuentes, llamadas paramétricas (ver
capítulo 21, contraste de hipótesis). Existen otras distri-
buciones que también se dan en la naturaleza, como la
distribución binomial o la de Poisson, pero su descrip-
ción queda fuera del ámbito de este trabajo.
distribución normal de gauss: La distribución
normal fue descrita inicialmente por A. Moivre y pos-
teriormente desarrollada por C.F. Gauss, por lo que
es también conocida comúnmente como «Curva de
Gauss» (fig. 1) La distribución de una variable normal
está determinada por su media (m) y desviación típi-
ca (s). Las propiedades de una distribución normal se
describen en la tabla II.
d) representaciones gráficas
Las representaciones gráficas son un medio muy
útil para entender los estudios estadísticos, debido a
que una imagen penetra más fácilmente en nuestro
entendimiento de los resultados que la observación
simple de series numéricas.
Utilidad de las representaciones gráficas (1, 2):
1. Permiten que nos demos cuenta del desarrollo
de cualquier fenómeno estadístico fácilmente
2. Facilitan la observación y detección de rela-
ciones entre series de datos, en las que aún no se ha
analizado matemáticamente su posible relación.
3. Nos ayudan a juzgar la exactitud de los resul-
tados obtenidos, tras el análisis matemático.
4. Facilitan la observación de la interdependen-
cia que pudiera existir entre dos variables.
Si bien las representaciones gráficas son muy úti-
les para observar de forma clara y resumida la infor-
mación recogida sobre la variable estudiada (es muy
cierto el aserto que una imagen vale más que mil pa-
labras), hemos de ser muy prudentes al confeccionar
o interpretar las mismas, puesto que una misma infor-
mación se puede representar de formas muy diversas,
y no todas ellas van a ser válidas.
Variables cualitativas y cuantitativas discretas
– diagrama de barras o columnas: Se realizan
sobre dos ejes de coordenadas, uno de abscisas (hori-
zontal) y otro de ordenadas (vertical). En el de absci-
sas se disponen los valores de la variable, y en el or-
denadas la escala de frecuencias a partir del valor 0.
La altura del valor de cada variable en las ordenadas
corresponderá a la frecuencia de cada variable. Es
importante en la elaboración de este gráfico tener en
cuenta que sea cual sea la frecuencia considerada, la
escala siempre debe iniciarse en cero y coincidir con
el cero de ordenadas. La representación puede reali-
zarse de forma horizontal, como en la figura 2 o bien
con el cero de frecuencias en vertical, además como
presentamos los distintos valores de frecuencias pue-
den dibujares uno junto a otro o bien separados entre
ellos.
– sectores circulares. Este gráfico se construye
repartiendo los 360º del círculo proporcionalmente
a la intensidad que registra el fenómeno considerado
y expresado generalmente en forma de porcentaje.
Cada sector que se forma debe ajustarse a la frecuen-
cia de aparición de los valores de la variable estudia-
da, para ello es preciso calcular los grados del ángu-
Fig. 1: Distribución normal y sus porcentajes respecto de la
desviación estándar.
16922. Estadística descriptiva e inferencial
lo de su sector circular, una vez repartidos los 360º
del círculo en los diferentes sectores, uno por cada
variable, se puede trazar la imagen. En el ejemplo
que presentamos en la figura 3, definimos dos secto-
res diferenciados que corresponden al porcentaje de
hombres y mujeres de la muestra de un estudio de
prevalencia de retinopatía diabética (3).
– pictogramas y cartogramas. Los pictogramas
son gráficos especiales, en que para hacer más llama-
tivo el mismo, se dibujan en lugar de barras, figuras
representativas de la variable estudiada, por ejemplo
el caso típico es la representación del crecimiento
de la población de un determinado País, de manera
que sevan representando imágenes progresivamente
más altas de un sujeto, que representan el aumento
de la población. Los cartogramas son mapas geográ-
ficos en los que la intensidad de la variable estudiada
en diferentes regiones, se representan por ejemplo,
mediante la intensidad del rayado o de la coloración
de cada una de ellas, son muy utilizados para señalar
datos demográficos como densidad de población o
prevalencia de una determinada enfermedad en las
distintas regiones de un país o del mundo.
– diagrama polar: Es una forma de gráfico similar
a los sectores circulares, por ejemplo si queremos re-
presentar la asistencia anual, de los pacientes diabéti-
cos a una unidad de cámara no midriática, para reali-
zarse las retinografías de control del fondo de ojo, en
este caso para reproducir la gráfica representaremos
el número de pacientes vistos en cada mes mediante
una línea con punto 0 y que se irán disponiendo en
forma circular una al lado de la otra separadas por el
ángulo polar, dando lugar a una circunferencia divi-
dida en los doce meses del año. Cada línea formará
un radio propio de longitud proporcional al número
de visitas realizadas cada mes en la unidad de cáma-
ra no midriática (4). En estos gráficos siempre se traza
un círculo con radio en la media aritmética, y así se
puede visualizar mejor las variaciones de asistencia
según los meses del año (fig. 4).
Variables cuantitativas continuas
– Histograma. Este tipo de gráfico es el más uti-
lizado para la representación de variables cuantita-
tabla ii. prOpiEdadEs dE Una distribUCiÓn nOrMal
– La curva normal es asintótica al eje de abscisas (se acerca cada vez más a ella por ambos extremos sin llegar nunca a
encontrarla), por lo que cualquier valor entre -∞ y +∞ es posible. El área total bajo la curva es 1
– La distancia entre la línea en la media y el punto de inflexión de la curva es igual a una desviación estándar. Cuanto
mayor sea σ, más aplanada será la curva
– Presenta sólo una moda, coincidiendo con la media y la mediana
– Es una distribución «simétrica» con relación a su media. Es por tanto igual de probable observar un dato menor que
mayor a la media (50%)
– Hay un 95% de probabilidades de que un valor cualquiera se encuentre entre el valor de la media ± dos desviaciones
estándar
– La forma de la campana de Gauss dependerá de la media y de la desviación estándar. La media nos va a indicar la po-
sición de la campana desplazándose a lo largo del eje horizontal mientras que la desviación estándar es la responsable
del grado de elevación de la curva. A mayor desviación estándar, mayor dispersión de los valores alrededor de la media
y por lo tanto la curva será más plana
Fig. 2: Gráfico en forma de columnas de la prevalencia de
pacientes con retinopatía diabética (3).
Fig. 3: Imagen en sector circular representa la distribución
según el sexo de los pacientes con diabetes mellitus tipo 2.
170 22. Estadística descriptiva e inferencial
tivas, tanto discretas como continuas. Recordemos
que una variable continua discreta se denomina a
aquella que su conjunto de valores posibles es finito
o se puede enumerar en una sucesión infinita (una
en la cual existe un primer número, un segundo nú-
mero y así sucesivamente, una variable discreta re-
sulta de contar sus valores así pueden estos ser 0, 1,
2, 3, 4 ,5…), asimismo una variable cuantitativa es
continua si sus valores posibles abarcan un intervalo
completo sobre la línea de números (1,2). De todas
maneras prácticamente todas las variables que vamos
a manejar en los estudios van a ser discretas, puesto
que los instrumentos de medida que disponemos, por
precisos que sean, no permiten apreciar datos infini-
tesimales. Para poder representar gráficamente estas
variables mediante un histograma hemos de seguir
una sistemática de tal manera que hemos de seguir
los siguientes pasos:
1. Los valores de la variable deben agruparse en
intervalos
2. Deberemos fijar los límites exactos de cada
uno de los intervalos de la variable en el eje de abs-
cisas
3. Sobre el eje de ordenadas construiremos una
escala de frecuencias que debe iniciarse en el valor
0 (requisito que no es necesario para iniciar el eje de
abscisas)
4. Sobre el eje de abscisas levantaremos tantos
rectángulos como intervalos existan.
Como vemos en el último punto es necesario de-
terminar la frecuencia de un suceso para poder plas-
mar en el gráfico los datos, debemos pues primero
detenernos a describir que se entiende por frecuen-
cia y los tipos de la misma que existen: frecuencia
absoluta y frecuencia relativa. Tal y como hemos
descrito anteriormente prácticamente utilizaremos
variables cuantitativas discretas, si consideramos los
datos compuestos de observaciones de una variable
discreta X, la frecuencia absoluta de cualquier valor x
particular es el número de veces que ocurre un valor
en el conjunto de datos, y la frecuencia relativa es la
fracción o proporción de veces que ocurre el valor, y
puede obtenerse mediante la fórmula:
Frecuencia relativa = Número de veces que ocu-
rre el valor / número de observaciones en el conjunto
de datos
Si se multiplica una frecuencia relativa por 100, se
obtiene un porcentaje, con lo que las frecuencias re-
lativas las podemos definir en forma de porcentajes,
que generalmente interesan más que las frecuencias
mismas, al convertir las frecuencias en porcentajes va
a tener lugar un suceso que es frecuente encontrar en
los estudios científicos publicados, y es que la suma
de los valores de todas las frecuencias relativas en
forma de porcentaje de una variable, aunque debe-
rían sumar 1, en la práctica podemos encontrarnos
valores que difieren de 1 (normalmente por debajo
de 1), debido al redondeo que se produce al presen-
tar un valor en forma de porcentaje.
Una vez descrito lo que significa frecuencia y fre-
cuencia relativa, podemos volver a la construcción
de la gráfica de frecuencias (fig. 5).
Fig. 4: Representación mediante un gráfico polar, de los pa-
cientes que acudieron a una Unidad de Cámara no Midriá-
tica (4), durante el periodo de un año dividido en meses,
para el cribado de la retinopatía diabética.
Fig. 5: Histograma y polígono de frecuencias que represen-
tan la distribución de los niveles de HbA1c de la muestra de
un estudio de retinopatía diabética y microalbuminuria (3).
17122. Estadística descriptiva e inferencial
Otros tipos de representaciones gráficas
Los tipos de representaciones gráficas hasta aho-
ra descritos, son los más habituales en los estudios
estadísticos, pero hay que hacer mención también
a otros a los que se puede recurrir en determinadas
circunstancias, como son el diagrama de puntos y las
gráficas en dos dimensiones.
– diagrama de puntos. Consiste en figuras
geométricas iguales, que pueden ser cuadrados o lí-
neas de abscisas, que contienen cada uno un número
de puntos proporcionales a la intensidad del fenó-
meno a representar. Cada punto puede representar
la unidad o bien un número equivalente a la misma.
Su principal ventaja es que puede representar una
cantidad grande de información y proporcionar un
impacto visual de conjunto sobre el fenómeno estu-
diado. Los gráficos de puntos pueden utilizarse cuan-
do el conjunto de datos es razonablemente pequeño
o existen pocos valores de datos distintos.
Gráficos lineales y semilogarítmicos
– gráfico lineal. Este tipo de gráfico se construye
sobre dos ejes (eje x = abscisas, eje y = ordenadas)
con un punto 0 de origen de ambos ejes. Estos gráfi-
cos se diferencian de los de barras y del histograma,
porque en estos últimos los valores de las variables
que se colocan sobre el eje de abscisas no tienen por
qué empezar en el valor 0, ni este coincidir con el
cero de ordenadas; además en ellos se utiliza el eje
de ordenadas (y) para colocar las frecuencias de la
aparición de los valores de la variable, mientras que
en el gráfico lineal esto no es así. Como ejemplo pre-
sentamos la incidenciade retinopatía diabética y de
insuficiencia renal diabética en un estudio de segui-
miento de una población de pacientes con diabetes
mellitus tipo 1 (fig. 6), a lo largo de 20 años, con
cortes realizados cada 5 años (3).
– gráfico semilogarítmico. La diferencia entre
un gráfico lineal y uno semilogarítmico, radica en
la escala utilizada en el eje de ordenadas (eje y), ya
que utilizaremos una escala logarítmica de los datos,
mientras que en el eje de abscisas (eje x) utilizaremos
una escala lineal de datos. Este tipo de gráfico se uti-
liza cuando la variable que vamos a colocar sobre
el eje de ordenadas es susceptible de transformación
logarítmica.
– gráfico de máximos y mínimos. En este tipo de
gráfico se representan en el eje de abscisas los valo-
res de la variable a estudiar, y en el de ordenadas se
distribuyen los valores máximos, mínimos y media
para cada uno de los valores de la variable estudiada,
con lo que podemos a su vez observar el grado de
dispersión para cada dato representado en el eje de
abscisas.
Este tipo de gráficos pueden servirnos para obser-
var de forma visual rápida la mayor o menor concen-
tración de sujetos de una muestra según la variable
tiempo, como podemos observar en la figura 7, en
la que presentamos los valores de HbA1c para cada
tipo de retinopatía diabética (RD), gráficamente ob-
servamos que los niveles medios de HbA1c son cada
vez mayores a medida que la RD se agrava, de forma
que la forma proliferativa es la que tiene niveles me-
dios mayores de HbA1c, a su vez podemos observar
que la mayor oscilación de valores de HbA1c se da
en el grupo de pacientes con RD de tipo moderado,
con niveles mínimos y máximos superiores a los de-
Fig. 6: En el gráfico representamos la incidencia de distintas
formas de afectación ocular y renal, de una muestra de po-
blación de pacientes con diabetes mellitus a lo largo de 20
años de seguimiento, con cortes realizados cada 5 años (3).
Fig. 7: En el eje de abscisas se representan los tipos de reti-
nopatía diabética que se han encontrado en un estudio de
incidencia (0 = no RD, 1 = RD leve, 2 = RD moderada, 3=
RD severa, y 4 = RD proliferativa).
172 22. Estadística descriptiva e inferencial
más tipos de retinopatía. Una variante actualmente
introducida es la de los gráficos de cajas, se utilizan
para describir las características más prominentes de
un conjunto de datos, que incluyen: la media, la dis-
persión, la mediana y los valores más extremos (infe-
rior y superior).
– gráfico de dispersión. Un gráfico de dispersión
es un tipo de gráfico que se utiliza para mostrar los
valores de dos variables para un conjunto de datos,
son útiles para mostrar la relación entre diferentes
puntos de datos, y utiliza valores numéricos para am-
bos ejes. Los datos se muestran como un conjunto de
puntos, cada uno con el valor de una variable en el
eje de abscisas y el valor de la otra variable situado
en el de ordenadas. La variable independiente habi-
tualmente se representa a lo largo del eje de absci-
sas y la dependiente usualmente se representa a lo
largo del eje de ordenadas. Si no existe una variable
dependiente, cualquier variable se puede represen-
tar en cada eje. El diagrama de dispersión mostrará
el grado de correlación entre las dos variables. Un
gráfico de dispersión puede sugerir varios tipos de
correlaciones entre las variables. Se puede dibujar
una línea de ajuste (llamada también “línea de ten-
dencia”) con el fin de estudiar la correlación entre las
variables. Uno de los aspectos más importantes de un
gráfico de dispersión, es su capacidad para mostrar
las relaciones no lineales entre las variables. Presen-
tamos como ejemplo, en la figura 8 un gráfico de
dispersión para la variable grosor macular en los ca-
sos de edema macular diabético de una serie clínica
(5), en este caso las variables de los dos ejes no están
correlacionadas (correlación nula), ya que el eje de
abscisas se limita a representar cada uno de los casos
registrados en el estudio.
3. prOgraMas EstadÍstiCOs, spss
Los programas estadísticos se crearon para poder
realizar cualquier estudio estadístico o epidemioló-
gico, a partir de datos almacenados en plantillas de
otros programas como Excel o Access. Actualmente
existen diferentes programas que se usan habitual-
mente en los estudios de biomedicina, los más fre-
cuentes son: STATA, SAS y SPSS. Y entre los gratuitos,
Epi-Info y Epidat. Existen también numerosas calcu-
ladoras «on line» que realizan el cálculo de numero-
sos test estadísticos y encontrarlos es sencillo desde
cualquier buscador. Por ejemplo, en un sitio como
http://statpages.org/#WhichAnalysis encontramos
múltiples aplicaciones estadísticas. En los apartados
correspondientes pondremos ejemplos de calculado-
ras on line de algunos test específicos.
El programa spss (Statistical package for the so-
cial sciences), está elaborado por IBM y está en uso
la versión 21.0. Es el más extendido actualmente en
oftalmología sobre todo en Europa, y especialmente
en España, posiblemente porque su interfaz gráfica de
usuario (GUI) sea más sencilla que el funcionamien-
to por comandos de los otros dos programas. Es muy
útil y completo, pero también muy caro (generalmente
solo los hospitales o unidades de investigación tienen
acceso a él) y lleva cierto tiempo conocer su manejo.
Si deseamos investigar de manera habitual emplear
un poco de tiempo en su aprendizaje nos será muy
provechoso. Aquí vamos a dar un vistazo general del
programa y en apartados posteriores pondremos algún
ejemplo de su uso con las pruebas más utilizadas .
La pantalla del SPSS se compone de dos tablas. La
tabla de datos (fig. 9) es donde colocaremos los datos,
bien de forma directa o bien importándolos desde una
tabla de Excel (mediante un sencillo paso de copiar y
pegar). Cada columna de la tabla de datos es una va-
riable, con su nombre en la cabecera y cada fila es un
caso. Desde esta tabla podemos realizar la conversión
de una variable en otra, o fundir dos variables distin-
tas de datos, o definir nuevas variables a partir de las
operaciones que queramos. Una tabla adjunta es la
tabla de variables (fig. 10), donde debemos definir las
características de cada una, si es numérica (cuantita-
tiva) o bien cualitativa. Las variables cualitativas de-
berían seguir siendo numéricas, y adjudicaremos un
número a cada valor (por ejemplo, 0=no; 1=sí). Con
las variables de tipo cadena no podremos operar. La
columna denominada «medida» define de nuevo la
variable como escala, ordinal o nominal.
El análisis estadístico lo hemos de realizar a partir
de la tabla de datos. En la barra superior aparece la
Fig. 8: Gráfico en el que representamos los valores del gro-
sor macular en pacientes con edema macular diabético,
procedentes de una muestra de un estudio de incidencia
a los 15 años (5).
17322. Estadística descriptiva e inferencial
Fig. 9: Tabla de definición de variables en el SPSS en un ejemplo de estudio propio del autor.
Fig. 10: Tabla de ejemplo de las variables de un estudio.
174 22. Estadística descriptiva e inferencial
pestaña análisis, que al abrirla nos permite realizar
el análisis estadístico que deseemos, empieza por el
estudio de estadísticas descriptivas (que hemos se-
ñalado en amarillo en la fig. 12), que nos permitira
analizar las frecuencias de las variables cualitativas y
el estudio descriptivo de las variables cuantitativas.
En los siguientes puntos de la pestaña (fig. 11), pode-
mos comparar medias mediante los distintos estadís-
ticos como la T de Student o el análisis de varianza
mediante ANOVA. Siguiendo veremos la posibilidad
de estudiar tablas de contingencia mediante los esta-
dísticos Chi Cuadrado o equivalentes. Siguiendo ten-
dremos la posibilidad de estudios mediante regresión
logística, o estudios de supervivencia o el estudio de
la curva de ROC.
En la misma barra superior en las versiones más
recientes, se puede realizar la construcción de gráfi-cas, abriendo la pestaña gráficos (fig. 12), al hacerlo
veremos que se abre la posibilidad de escoger la grá-
fica a construir (observar la barra inferior derecha de
la figura 12): barras, líneas, áreas, sectores/polar, etc.
4. EstiMaCiÓn dE parÁMEtrOs
Pasemos ahora de la mera descripción de los da-
tos de nuestra muestra a extraer datos que puedan
ser aplicados al conjunto de la población de la cual
procede nuestra muestra. Pasamos, por tanto, a la es-
tadística inferencial. Los datos obtenidos de nuestra
muestra tienen un interés limitado, ya que de los mis-
Fig. 11: Observamos la pestaña de análisis estadístico abierta, con todos los posibles análisis a realizar, en concreto hemos
abierto la pestaña frecuencias y observamos que se desplegan la posibilidad de realizar estudios de frecuencia, descriptivos
o tablas de contingencia (ver capítulo 23).
17522. Estadística descriptiva e inferencial
mos sólo se pueden obtener conclusiones atribuibles
a la propia muestra, y no a la población de la que
proviene. Para poder generalizar los resultados de
nuestra muestra al conjunto de la población, es ne-
cesario hacer una estimación o inferencia, y además,
poder cuantificar la probabilidad de equivocarnos al
hacer esa estimación. He aquí una de las grandes
aportaciones del método estadístico a la investiga-
ción: la posibilidad de extrapolar conclusiones pro-
venientes de experimentos limitados a poblaciones
enteras. Debemos saber cómo se hace y también a
cuantificar el error de nuestras estimaciones.
a) Estimación puntual y por intervalos
Si deseamos obtener conclusiones sobre la pobla-
ción a partir de una muestra debemos pagar dos tri-
butos: perder precisión, y admitir la probabilidad de
que podamos equivocarnos. La pérdida de precisión
nos dará un «temblor», un intervalo de incertidum-
bre dentro del cual suponemos que está el verdadero
valor de la variable poblacional estudiada: ese es el
intervalo de confianza. Si junto a nuestro resultado
incluimos el intervalo de confianza, y la probabilidad
de que el verdadero resultado poblacional se escape
de él, estaremos ya no nos referimos a nuestra mues-
tra, sino a la población. Es relativamente frecuente
que en artículos publicados se den estimaciones de
parámetros en forma de medias o porcentajes sin dar
su correspondiente intervalo de confianza. Como ya
comentamos (capítulo 7), esa es una información que
tiene muy poco o nulo valor, ya que el resultado real
podría estar muy diferente al propuesto si el interva-
lo de confianza desconocido resulta ser demasiado
amplio.
Ejemplo 22.3
En un viejo chiste de los libros de esta-
dística, se ve un anuncio que reza: «El
66% de los odontólogos encuestados
recomiendan nuestro dentífrico sin azú-
car». Y en letra diminuta se lee debajo.
«A Jones no pudimos convencerle». El
porcentaje expresado es correcto: en-
Fig. 12: Observamos la pestaña gráficos abierta, y una gráfica de columnas.
176 22. Estadística descriptiva e inferencial
trevistaron a tres odontólogos y dos se
mostraron partidarios de su producto,
exactamente el 66,66%, pero la infor-
mación que nos da sobre la opinión real
de todos los odontólogos es muy escasa.
El porcentaje real que opinan de esa for-
ma podría ser muy diferente.
Ejemplo 22.4
Los autores de un estudio afirman que
el porcentaje de pacientes con hiperten-
sión ocular inferidos para una población
mayor de 40 años es de un 4,8%, con
un intervalo de confianza del 95% cu-
yos límites son 3,9% y 5,8%. Eso signi-
fica que se tiene un 95% de confianza
de que el porcentaje real de hipertensos
está incluído en ese intervalo.
El cálculo del intervalo de confianza en la estima-
ción de una media es muy sencillo, basta con cono-
cer la media, la desviación estándar y el tamaño de
la muestra. Para el cálculo de los intervalos de con-
fianza, aparte de los programas habituales, tenemos
herramientas muy sencillas, por ejemplo:
http://www.mccallum-layton.co.uk/stats/Confi-
denceIntervalCalc.aspx
http://www.mccallum-layton.co.uk/stats/Confi-
denceIntervalCalcProportions.aspx
Ejemplo 22.5
Hemos realizado las medidas del as-
tigmatismo de 51 sujetos de pobla-
ción normal y deseamos calcular la
media y desviación estándar, así como
los intervalos de confianza al 95%.
En el SPSS, una vez introducidos los da-
tos y vamos al apartado Analizar g Es-
tadísticos descriptivos g Explorar y ajus-
tando en la pestaña «estadísticos« un
95% de intervalo de confianza, tenemos
el siguiente resultado: nuestra media es
de 0.81 D con un intervalo de confianza
de 0,67 a 0,94 D. Se muestran también
otros parámetros, como la mediana, el
rango o la desviación típica.
bibliOgrafÍa
1. Devore JL. Probabilidad y estadística para ingenieros y
ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.;
2008 pag 10-31.
2. Pardell H, Cobo E, Canela J. Manual de bioestadística. .
Editorial MASSON SA Barcelona 1986. pag: 11-14.
3. Pardell H, Cobo E, Canela J. Manual de bioestadística. Edi-
torial MASSON SA Barcelona 1986. pag: 38-52.
4. Devore JL. Probabilidad y estadística para ingenieros y
ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.;
2008 pag 10-31 3.
5. Romero Aroca, P; Del Castillo Dejarin, D. Estudio de pre-
valencia de la retinopatía diabética en la población del
Baix Camp (Tarragona). Arch Soc Esp Oftalmol 1996; 71
(3): 261-268.
6. Romero-Aroca P, Reyes Torres J, Sagarra-Alamo R, Basora
Gallisa J, Fernández-Balart J, Pareja Ríos A, Baget-Bernal-
diz M. Impacto de la implantación de la cámara no midriá-
tica sobre la población diabética. Salud & Ciencia 2012;
2(19): 158-62.
7. Romero P, Baget M, Mendez I, Fernández J, Salvat M, Mar-
tinez I. Diabetic macular edema and its relationship to re-
nal microangiopathy: a sample of Type I diabetes mellitus
patients in a 15-year follow-up study. J Diabetes Complica-
tions. 2007 May-Jun; 21(3): 172-80.
8. Bolstad, William M. (2004) Introduction to Bayesian Statis-
tics, John Wiley.
descriptivos
astigmatismo Estadístico Error
típ.
Media ,812 ,0659
Intervalo de confianza para la
media al 9
Límite inferior
Límite superior
,679
,944
Media recortada al 5% ,778
Mediana ,700
Varianza ,221
Desv. típ. ,4706
Mínimo ,2
Máximo 2,2
Rango 2,0
Amplitud intercuartil ,7
Asimetría ,911 ,333
Curtosis ,530 ,656