Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Capítulo 22 EstadÍstiCa dEsCriptiva E infErEnCial Pedro Romero Aroca, Carlos Lázaro García, Julio José González López 1. introducción 2. Estadística descriptiva a) definir una distribución de datos. Índices de centralización y dispersión b) Consideraciones estadísticas acerca de la agudeza vidual c) leyes teóricas que se ajustan a distribuciones biológicas d) representaciones gráficas 3. programas estadísticos. spss 4. Estimación de parámetros a) Estimación puntual y por intervalos b) inferencia bayesiana 1. intrOdUCCiÓn La estadística da sentido a la información acumu- lada en los trabajos de investigación. Muchos pro- fesionales se sienten intimidados ante ella porque creen que se trata de un campo complejo y extraño, ignorando que no es necesario ser un experto para utilizar e interpretar la inmensa mayoría de las he- rramientas estadísticas utilizadas en los estudios clí- nicos. Al igual que no es preciso saber programación para utilizar los programas de ordenador más habi- tuales, no se precisa tener una elevada base matemá- tica para utilizar correctamente la estadística. Solo tenemos que tener claro cuándo y cómo aplicar de manera apropiada los test estadísticos más frecuentes y comprender su verdadero significado. Si necesita- mos algo más complejo debemos hacer lo mismo que hacemos con toda naturalidad en nuestra profe- sión: consultar con un especialista. Los métodos estadísticos se clasifican en descrip- tivos e inferenciales. Los métodos descriptivos carac- terizan las variables y se utilizan en trabajos descripti- vos y para definir nuestra muestra como primer paso para realizar un análisis. La estadística inferencial, en cambio, infiere alguna propiedad de la población a partir de nuestra muestra y se divide en dos tipos principales de técnicas: estimación de parámetros y contraste de hipótesis (estadística analítica). En este capítulo abordaremos la estadística descriptiva y la estimación de parámetros, reservando el próximo ca- pítulo para el contraste de hipótesis. 2. EstadÍstiCa dEsCriptiva a) definir una distribución de datos. Índices de centralización y dispersión Vamos a aprender, antes que nada, a resumir todos los datos que hemos recopilado de nuestros pacientes en índices (por ejemplo, media o desvia- ción típica) que representan fielmente cada una de las variables registradas. Las mayoría de las pruebas estadísticas se sustentan en el uso de estos índices. Para poder resumir de manera eficaz una variable, debemos responder a tres preguntas: – ¿Cuántos individuos hay en nuestra muestra? tamaño muestral (n). – ¿Cuál es el valor central de la distribución? Me- didas de centralización. – ¿Los datos están muy próximos o muy disper- sos? Medidas de dispersión. Medidas de centralización. Cuando medimos una variable cuantitativa, observamos que hay valores muy frecuentes en torno a los cuales se agrupan lo demás, mientras que los valores extremos (muy altos o muy bajos) son muy raros. A ese valor central es al que denominamos media aritmética (x). Su cálculo «El auge de la estadística en el Siglo XX, como el de la geometría en el siglo III antes de Cristo, parece marcar una de las grandes eras o periodos críticos en el desarrollo del conocimiento humano» Sir Ronald A. Fisher 166 22. Estadística descriptiva e inferencial es sencillo: basta con sumar todos los valores medi- dos y dividir la suma entre el total de observaciones (n). La media aritmética se usa como índice de cen- tralización en muestras grandes y variables que si- guen una distribución normal y es con mucho la más utilizada, pero no la única. Para muestras pequeñas, asimétricas, y que no siguen la curva de Gauss, exis- ten otras medidas de centralización: La mediana: es el valor que divide a la muestra en dos partes iguales, una vez ordenadas todas las medidas de menos a ma- yor. Es equivalente del percentil 50 (P50) o del segun- do cuartil (Q2). Si el tamaño muestral es impar, es el valor que queda en el medio. Si el tamaño muestral es par, es la media aritmética (o semisuma) de los dos valores centrales. La moda es el valor más repetido de la distribución. Una distribución normal es uni- modal (esto es, hay una única moda, que coincide con la media y la mediana), pero puede haber distri- buciones bimodales (con dos modas) o con más de dos modas. Otras medidas de centralización, menos usadas en investigación clínica, son la media geomé- trica y la media armónica. Medidas de posición. La interpretación de estos índices es similar al de la mediana. Se trata de índices que dividen a la muestra en X partes iguales. – Cuartiles: son los 3 valores que dividen la muestra en 4 partes de igual tamaño. – deciles: son los 9 valores que dividen la mues- tra en 10 partes de igual tamaño. – percentiles: son los 99 valores que dividen la muestra en 100 partes de igual tamaño. Medidas de dispersión. La forma más sencilla de explicar la dispersión de nuestros datos consiste en calcular la extensión del intervalo entre el menor va- lor observado y el mayor. Este índice es el rango o recorrido. Sin embargo, el rango se ve muy afectado por los valores extremos y es útil para describir la dispersión de muestras pequeñas, asimétricas, o que no siguen una distribución normal. Para variables normales y muestras grandes, las medidas de dispersión más usadas son la varianza, y la desviación típica (o estándar). Una primera iaproximación para definir la dis- persión de las observaciones es calcular la diferen- cia entre la media aritmética y cada observación. El problema que tendremos aquí es que la mitad de las diferencias tendrán un resultado negativo y la mitad un resultado positivo. Por tanto, si calculamos direc- tamente la media de estas diferencias, el resultado siempre será 0. Para solucionar esto, podríamos cal- cular la media de los valores absolutos de cada una de las diferencias. El resultado de esto es la desvia- ción media: Sin embargo, este índice es poco útil. Otra forma que tenemos de deshacernos de los signos negativos es elevar al cuadrado, por lo que el resultado de este índice estará medido con las unidades originales ele- vadas al cuadrado. Promediando este sumatorio de los cuadrados de las diferencias, el índice que obte- nemos es la varianza (V): Por ejemplo, si estamos calculando la varianza de una longitud axial, medida en mm, el resultado de la varianza estará dado en mm2. Si queremos que el va- lor del índice de dispersión venga dado en las mismas unidades que la media aritmética, la solución consis- te en hallar su raíz cuadrada. Al resultado de esto es a lo que llamamos desviación típica, o estándar (SD): b) Consideraciones estadísticas de la agudeza vidual El cálculo de la media y la desviación estándar de la agudeza visual no es difícil, pero se hace de una manera incorrecta en múltiples estudios de investiga- ción. El problema reside en que los optotipos actua- les siguen una progresión geométrica, no aritmética (el tamaño del optotipo correspondiente a una AV de 0,1 no es el doble que la que corresponde a 0,2, sino que cada paso de nivel supone un cambio de 0,1 uni- dades logarítmicas). Por ello debe utilizarse la media geométrica, no la aritmética. La forma más sencilla de calcular la medida de un grupo de agudezas vi- suales es utilizar no los optotipos de Snellen, sino los optotipos de LogMAR (que significa logaritmo del ángulo mínimo de resolución) y calcular entonces la media aritmética de los valores obtenidos. Si no dis- ponemos de éstos, debemos convertir cada valor al LogMAR equivalente y seguidamente hacer la media, 16722. Estadística descriptiva e inferencial volviendo a hacer la conversión a la escala decimal del resultado. También vale con hacer una transfor- mación logarítmica de los valores decimales, con lo que consigue normalizar la distribución. La tabla I da una equivalencia de ambos parámetros y existen cal- culadoras on-line parael mismo propósito (www.in- fodoctor.org/gipi/f/calculos_optotipos.xls). Lo mismo que ocurre para el cálculo de la media, sucede para otros cálculos estadísticos, tales como t de Student, ANOVA, correlaciones. Siempre deben utilizarse los valores del LogMar. Otro problema se plantea con las agudezas visua- les computadas como «contar dedos» «movimiento de manos», «percepción de luz» y «no percepción de luz». Holliday da las siguientes recomendaciones de equivalencia: – «Contar dedos»: se puede asumir que, en pies se puede hacer un equivalente con un cociente entre el número de pies a los que se ha contado dedos y 200 de denominador A 10 pies la AV sería de 10/200 y a 2 pies 2/200. Si lo tomamos en metros, es lo mis- mo con un denominador de 60. Por ejemplo, si se cuenta dedos a 3 metros 3/60= 0,03 en escala deci- mal y a 1 metro 1/60=0,016. – Si no cuenta dedos y solo ve movimiento de mano, los denominadores son, respectivamene 2000 y 600. Es decir, que movimiento de manos a un me- tro es 1/600= 0,0016 en escala decimal. – La agudeza visual reducida a la percepción de luz y no percepción de luz, según Holliday no son medidas reales de la agudeza visual y por lo tanto estos casos deberían ser excluídas del estudios y se- ñaladas como criterio de exclusión en el material y métodos. Ese punto es muy discutible, ya que da lu- gar a un sesgo evidente. Otro caso muy frecuente se da en pacientes que no leen todos los optotipos de una línea. Una so- lución, probablemente la más utilizada, es tomar la línea con mayor agudeza visual en la cual el pacien- te ha sido capaz de ver la mayoría de los optotipos (por ejemplo, 3 de 5). Un método más exacto es in- terpolar entre los valores vistos completamente y los parcialmetne con el cociente de letras vistas, siempre sobre el LogMar. Ejemplo 22.1 Un paciente ve todas las letras de la fila de optotipos correspondientes a 20/50 (0,4), pero sólo tres de cinco de la fila de 20/40 (0,5). En escala LogMar ambas es- calas corresponden a +0,4 y +0,3. Y 3 de 5 letras corresponden a 3/5 del intervalo entre +0,4 y +0,3, que es +0,36, el valor que debe ser tomado. Ejemplo 22.2 Vamos a hallar la media de la AV de los 7 ojos que se detallan en la siguiente tabla: datos de agudeza visual Ojo av (pies) Equivalente snellen en pies Equivalente decimal logMar equivalente 1 20/10 20/10 2 -0,3 2 20/10(-2) 20/10(-2) 2 (-2) -0,25 3 20/40 20/40 0,5 0,3 4 20/40(+3) 20/40(+3) 0,5 (+3) 0,24 5 20/200 20/200 0,1 1 6 Cuenta dedos a 2 pies (=60 cm) 2/200 0,01 2 7 Movimiento de manos a 2 pies (=60 cm) 2/2000 0,001 3 Medias 20/142 0,141 0,85 Las agudezas visuales se han pasado to- das a LogMar (última columna), respe- tando la conversión de interpolación an- teriormente citada de aquellos pacientes que solo veían unos cuantos optotipos tabla i . COrrEspOndEnCia EntrE agUdEzas visUalEs Equivalente snellen (pies) Equivalente deci- mal (minutos) Equivalente logMar 20/16 1,25 -0,10 20/20 1 0 20/25 0,8 +0,10 20/32 0,63 +0,20 20/40 0,5 +0,30 20/50 0,40 +0,40 20/63 0,32 +0,50 20/100 0,2 +0,7 20/200 0,1 +1 20/400 0,05 +1,3 168 22. Estadística descriptiva e inferencial de su última fila (paciente 2 y 4) y las conversiones de contar dedos y movi- miento de mano (paciente 5 y 6) c) leyes teóricas que se ajustan a distribuciones biológicas Las variables de una población en muchas ocasiones se ajustan a modelos matemáticos preestablecidos. Si sabemos que la variable que estudiamos se asocia a un modelo conocido, eso significa que tenemos un enor- me poder sobre ella. Al tener la fórmula matemática que siguen nuestros datos podemos, por ejemplo, dibujar la curva que expresa ese modelo y aplicar test estadís- ticos que están basados precisamente en que nuestras variables siguen determinados modelos matemáticos y no otros. Hay modelos a los que se ajustan una gran cantidad de mediciones en la naturaleza y el modelo de distribución normal o de Gauss es el más frecuente y co- nocido. Saber si nuestras variables siguen una distribu- ción normal es vital para utilizar más tarde las pruebas estadísticas más frecuentes, llamadas paramétricas (ver capítulo 21, contraste de hipótesis). Existen otras distri- buciones que también se dan en la naturaleza, como la distribución binomial o la de Poisson, pero su descrip- ción queda fuera del ámbito de este trabajo. distribución normal de gauss: La distribución normal fue descrita inicialmente por A. Moivre y pos- teriormente desarrollada por C.F. Gauss, por lo que es también conocida comúnmente como «Curva de Gauss» (fig. 1) La distribución de una variable normal está determinada por su media (m) y desviación típi- ca (s). Las propiedades de una distribución normal se describen en la tabla II. d) representaciones gráficas Las representaciones gráficas son un medio muy útil para entender los estudios estadísticos, debido a que una imagen penetra más fácilmente en nuestro entendimiento de los resultados que la observación simple de series numéricas. Utilidad de las representaciones gráficas (1, 2): 1. Permiten que nos demos cuenta del desarrollo de cualquier fenómeno estadístico fácilmente 2. Facilitan la observación y detección de rela- ciones entre series de datos, en las que aún no se ha analizado matemáticamente su posible relación. 3. Nos ayudan a juzgar la exactitud de los resul- tados obtenidos, tras el análisis matemático. 4. Facilitan la observación de la interdependen- cia que pudiera existir entre dos variables. Si bien las representaciones gráficas son muy úti- les para observar de forma clara y resumida la infor- mación recogida sobre la variable estudiada (es muy cierto el aserto que una imagen vale más que mil pa- labras), hemos de ser muy prudentes al confeccionar o interpretar las mismas, puesto que una misma infor- mación se puede representar de formas muy diversas, y no todas ellas van a ser válidas. Variables cualitativas y cuantitativas discretas – diagrama de barras o columnas: Se realizan sobre dos ejes de coordenadas, uno de abscisas (hori- zontal) y otro de ordenadas (vertical). En el de absci- sas se disponen los valores de la variable, y en el or- denadas la escala de frecuencias a partir del valor 0. La altura del valor de cada variable en las ordenadas corresponderá a la frecuencia de cada variable. Es importante en la elaboración de este gráfico tener en cuenta que sea cual sea la frecuencia considerada, la escala siempre debe iniciarse en cero y coincidir con el cero de ordenadas. La representación puede reali- zarse de forma horizontal, como en la figura 2 o bien con el cero de frecuencias en vertical, además como presentamos los distintos valores de frecuencias pue- den dibujares uno junto a otro o bien separados entre ellos. – sectores circulares. Este gráfico se construye repartiendo los 360º del círculo proporcionalmente a la intensidad que registra el fenómeno considerado y expresado generalmente en forma de porcentaje. Cada sector que se forma debe ajustarse a la frecuen- cia de aparición de los valores de la variable estudia- da, para ello es preciso calcular los grados del ángu- Fig. 1: Distribución normal y sus porcentajes respecto de la desviación estándar. 16922. Estadística descriptiva e inferencial lo de su sector circular, una vez repartidos los 360º del círculo en los diferentes sectores, uno por cada variable, se puede trazar la imagen. En el ejemplo que presentamos en la figura 3, definimos dos secto- res diferenciados que corresponden al porcentaje de hombres y mujeres de la muestra de un estudio de prevalencia de retinopatía diabética (3). – pictogramas y cartogramas. Los pictogramas son gráficos especiales, en que para hacer más llama- tivo el mismo, se dibujan en lugar de barras, figuras representativas de la variable estudiada, por ejemplo el caso típico es la representación del crecimiento de la población de un determinado País, de manera que sevan representando imágenes progresivamente más altas de un sujeto, que representan el aumento de la población. Los cartogramas son mapas geográ- ficos en los que la intensidad de la variable estudiada en diferentes regiones, se representan por ejemplo, mediante la intensidad del rayado o de la coloración de cada una de ellas, son muy utilizados para señalar datos demográficos como densidad de población o prevalencia de una determinada enfermedad en las distintas regiones de un país o del mundo. – diagrama polar: Es una forma de gráfico similar a los sectores circulares, por ejemplo si queremos re- presentar la asistencia anual, de los pacientes diabéti- cos a una unidad de cámara no midriática, para reali- zarse las retinografías de control del fondo de ojo, en este caso para reproducir la gráfica representaremos el número de pacientes vistos en cada mes mediante una línea con punto 0 y que se irán disponiendo en forma circular una al lado de la otra separadas por el ángulo polar, dando lugar a una circunferencia divi- dida en los doce meses del año. Cada línea formará un radio propio de longitud proporcional al número de visitas realizadas cada mes en la unidad de cáma- ra no midriática (4). En estos gráficos siempre se traza un círculo con radio en la media aritmética, y así se puede visualizar mejor las variaciones de asistencia según los meses del año (fig. 4). Variables cuantitativas continuas – Histograma. Este tipo de gráfico es el más uti- lizado para la representación de variables cuantita- tabla ii. prOpiEdadEs dE Una distribUCiÓn nOrMal – La curva normal es asintótica al eje de abscisas (se acerca cada vez más a ella por ambos extremos sin llegar nunca a encontrarla), por lo que cualquier valor entre -∞ y +∞ es posible. El área total bajo la curva es 1 – La distancia entre la línea en la media y el punto de inflexión de la curva es igual a una desviación estándar. Cuanto mayor sea σ, más aplanada será la curva – Presenta sólo una moda, coincidiendo con la media y la mediana – Es una distribución «simétrica» con relación a su media. Es por tanto igual de probable observar un dato menor que mayor a la media (50%) – Hay un 95% de probabilidades de que un valor cualquiera se encuentre entre el valor de la media ± dos desviaciones estándar – La forma de la campana de Gauss dependerá de la media y de la desviación estándar. La media nos va a indicar la po- sición de la campana desplazándose a lo largo del eje horizontal mientras que la desviación estándar es la responsable del grado de elevación de la curva. A mayor desviación estándar, mayor dispersión de los valores alrededor de la media y por lo tanto la curva será más plana Fig. 2: Gráfico en forma de columnas de la prevalencia de pacientes con retinopatía diabética (3). Fig. 3: Imagen en sector circular representa la distribución según el sexo de los pacientes con diabetes mellitus tipo 2. 170 22. Estadística descriptiva e inferencial tivas, tanto discretas como continuas. Recordemos que una variable continua discreta se denomina a aquella que su conjunto de valores posibles es finito o se puede enumerar en una sucesión infinita (una en la cual existe un primer número, un segundo nú- mero y así sucesivamente, una variable discreta re- sulta de contar sus valores así pueden estos ser 0, 1, 2, 3, 4 ,5…), asimismo una variable cuantitativa es continua si sus valores posibles abarcan un intervalo completo sobre la línea de números (1,2). De todas maneras prácticamente todas las variables que vamos a manejar en los estudios van a ser discretas, puesto que los instrumentos de medida que disponemos, por precisos que sean, no permiten apreciar datos infini- tesimales. Para poder representar gráficamente estas variables mediante un histograma hemos de seguir una sistemática de tal manera que hemos de seguir los siguientes pasos: 1. Los valores de la variable deben agruparse en intervalos 2. Deberemos fijar los límites exactos de cada uno de los intervalos de la variable en el eje de abs- cisas 3. Sobre el eje de ordenadas construiremos una escala de frecuencias que debe iniciarse en el valor 0 (requisito que no es necesario para iniciar el eje de abscisas) 4. Sobre el eje de abscisas levantaremos tantos rectángulos como intervalos existan. Como vemos en el último punto es necesario de- terminar la frecuencia de un suceso para poder plas- mar en el gráfico los datos, debemos pues primero detenernos a describir que se entiende por frecuen- cia y los tipos de la misma que existen: frecuencia absoluta y frecuencia relativa. Tal y como hemos descrito anteriormente prácticamente utilizaremos variables cuantitativas discretas, si consideramos los datos compuestos de observaciones de una variable discreta X, la frecuencia absoluta de cualquier valor x particular es el número de veces que ocurre un valor en el conjunto de datos, y la frecuencia relativa es la fracción o proporción de veces que ocurre el valor, y puede obtenerse mediante la fórmula: Frecuencia relativa = Número de veces que ocu- rre el valor / número de observaciones en el conjunto de datos Si se multiplica una frecuencia relativa por 100, se obtiene un porcentaje, con lo que las frecuencias re- lativas las podemos definir en forma de porcentajes, que generalmente interesan más que las frecuencias mismas, al convertir las frecuencias en porcentajes va a tener lugar un suceso que es frecuente encontrar en los estudios científicos publicados, y es que la suma de los valores de todas las frecuencias relativas en forma de porcentaje de una variable, aunque debe- rían sumar 1, en la práctica podemos encontrarnos valores que difieren de 1 (normalmente por debajo de 1), debido al redondeo que se produce al presen- tar un valor en forma de porcentaje. Una vez descrito lo que significa frecuencia y fre- cuencia relativa, podemos volver a la construcción de la gráfica de frecuencias (fig. 5). Fig. 4: Representación mediante un gráfico polar, de los pa- cientes que acudieron a una Unidad de Cámara no Midriá- tica (4), durante el periodo de un año dividido en meses, para el cribado de la retinopatía diabética. Fig. 5: Histograma y polígono de frecuencias que represen- tan la distribución de los niveles de HbA1c de la muestra de un estudio de retinopatía diabética y microalbuminuria (3). 17122. Estadística descriptiva e inferencial Otros tipos de representaciones gráficas Los tipos de representaciones gráficas hasta aho- ra descritos, son los más habituales en los estudios estadísticos, pero hay que hacer mención también a otros a los que se puede recurrir en determinadas circunstancias, como son el diagrama de puntos y las gráficas en dos dimensiones. – diagrama de puntos. Consiste en figuras geométricas iguales, que pueden ser cuadrados o lí- neas de abscisas, que contienen cada uno un número de puntos proporcionales a la intensidad del fenó- meno a representar. Cada punto puede representar la unidad o bien un número equivalente a la misma. Su principal ventaja es que puede representar una cantidad grande de información y proporcionar un impacto visual de conjunto sobre el fenómeno estu- diado. Los gráficos de puntos pueden utilizarse cuan- do el conjunto de datos es razonablemente pequeño o existen pocos valores de datos distintos. Gráficos lineales y semilogarítmicos – gráfico lineal. Este tipo de gráfico se construye sobre dos ejes (eje x = abscisas, eje y = ordenadas) con un punto 0 de origen de ambos ejes. Estos gráfi- cos se diferencian de los de barras y del histograma, porque en estos últimos los valores de las variables que se colocan sobre el eje de abscisas no tienen por qué empezar en el valor 0, ni este coincidir con el cero de ordenadas; además en ellos se utiliza el eje de ordenadas (y) para colocar las frecuencias de la aparición de los valores de la variable, mientras que en el gráfico lineal esto no es así. Como ejemplo pre- sentamos la incidenciade retinopatía diabética y de insuficiencia renal diabética en un estudio de segui- miento de una población de pacientes con diabetes mellitus tipo 1 (fig. 6), a lo largo de 20 años, con cortes realizados cada 5 años (3). – gráfico semilogarítmico. La diferencia entre un gráfico lineal y uno semilogarítmico, radica en la escala utilizada en el eje de ordenadas (eje y), ya que utilizaremos una escala logarítmica de los datos, mientras que en el eje de abscisas (eje x) utilizaremos una escala lineal de datos. Este tipo de gráfico se uti- liza cuando la variable que vamos a colocar sobre el eje de ordenadas es susceptible de transformación logarítmica. – gráfico de máximos y mínimos. En este tipo de gráfico se representan en el eje de abscisas los valo- res de la variable a estudiar, y en el de ordenadas se distribuyen los valores máximos, mínimos y media para cada uno de los valores de la variable estudiada, con lo que podemos a su vez observar el grado de dispersión para cada dato representado en el eje de abscisas. Este tipo de gráficos pueden servirnos para obser- var de forma visual rápida la mayor o menor concen- tración de sujetos de una muestra según la variable tiempo, como podemos observar en la figura 7, en la que presentamos los valores de HbA1c para cada tipo de retinopatía diabética (RD), gráficamente ob- servamos que los niveles medios de HbA1c son cada vez mayores a medida que la RD se agrava, de forma que la forma proliferativa es la que tiene niveles me- dios mayores de HbA1c, a su vez podemos observar que la mayor oscilación de valores de HbA1c se da en el grupo de pacientes con RD de tipo moderado, con niveles mínimos y máximos superiores a los de- Fig. 6: En el gráfico representamos la incidencia de distintas formas de afectación ocular y renal, de una muestra de po- blación de pacientes con diabetes mellitus a lo largo de 20 años de seguimiento, con cortes realizados cada 5 años (3). Fig. 7: En el eje de abscisas se representan los tipos de reti- nopatía diabética que se han encontrado en un estudio de incidencia (0 = no RD, 1 = RD leve, 2 = RD moderada, 3= RD severa, y 4 = RD proliferativa). 172 22. Estadística descriptiva e inferencial más tipos de retinopatía. Una variante actualmente introducida es la de los gráficos de cajas, se utilizan para describir las características más prominentes de un conjunto de datos, que incluyen: la media, la dis- persión, la mediana y los valores más extremos (infe- rior y superior). – gráfico de dispersión. Un gráfico de dispersión es un tipo de gráfico que se utiliza para mostrar los valores de dos variables para un conjunto de datos, son útiles para mostrar la relación entre diferentes puntos de datos, y utiliza valores numéricos para am- bos ejes. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable en el eje de abscisas y el valor de la otra variable situado en el de ordenadas. La variable independiente habi- tualmente se representa a lo largo del eje de absci- sas y la dependiente usualmente se representa a lo largo del eje de ordenadas. Si no existe una variable dependiente, cualquier variable se puede represen- tar en cada eje. El diagrama de dispersión mostrará el grado de correlación entre las dos variables. Un gráfico de dispersión puede sugerir varios tipos de correlaciones entre las variables. Se puede dibujar una línea de ajuste (llamada también “línea de ten- dencia”) con el fin de estudiar la correlación entre las variables. Uno de los aspectos más importantes de un gráfico de dispersión, es su capacidad para mostrar las relaciones no lineales entre las variables. Presen- tamos como ejemplo, en la figura 8 un gráfico de dispersión para la variable grosor macular en los ca- sos de edema macular diabético de una serie clínica (5), en este caso las variables de los dos ejes no están correlacionadas (correlación nula), ya que el eje de abscisas se limita a representar cada uno de los casos registrados en el estudio. 3. prOgraMas EstadÍstiCOs, spss Los programas estadísticos se crearon para poder realizar cualquier estudio estadístico o epidemioló- gico, a partir de datos almacenados en plantillas de otros programas como Excel o Access. Actualmente existen diferentes programas que se usan habitual- mente en los estudios de biomedicina, los más fre- cuentes son: STATA, SAS y SPSS. Y entre los gratuitos, Epi-Info y Epidat. Existen también numerosas calcu- ladoras «on line» que realizan el cálculo de numero- sos test estadísticos y encontrarlos es sencillo desde cualquier buscador. Por ejemplo, en un sitio como http://statpages.org/#WhichAnalysis encontramos múltiples aplicaciones estadísticas. En los apartados correspondientes pondremos ejemplos de calculado- ras on line de algunos test específicos. El programa spss (Statistical package for the so- cial sciences), está elaborado por IBM y está en uso la versión 21.0. Es el más extendido actualmente en oftalmología sobre todo en Europa, y especialmente en España, posiblemente porque su interfaz gráfica de usuario (GUI) sea más sencilla que el funcionamien- to por comandos de los otros dos programas. Es muy útil y completo, pero también muy caro (generalmente solo los hospitales o unidades de investigación tienen acceso a él) y lleva cierto tiempo conocer su manejo. Si deseamos investigar de manera habitual emplear un poco de tiempo en su aprendizaje nos será muy provechoso. Aquí vamos a dar un vistazo general del programa y en apartados posteriores pondremos algún ejemplo de su uso con las pruebas más utilizadas . La pantalla del SPSS se compone de dos tablas. La tabla de datos (fig. 9) es donde colocaremos los datos, bien de forma directa o bien importándolos desde una tabla de Excel (mediante un sencillo paso de copiar y pegar). Cada columna de la tabla de datos es una va- riable, con su nombre en la cabecera y cada fila es un caso. Desde esta tabla podemos realizar la conversión de una variable en otra, o fundir dos variables distin- tas de datos, o definir nuevas variables a partir de las operaciones que queramos. Una tabla adjunta es la tabla de variables (fig. 10), donde debemos definir las características de cada una, si es numérica (cuantita- tiva) o bien cualitativa. Las variables cualitativas de- berían seguir siendo numéricas, y adjudicaremos un número a cada valor (por ejemplo, 0=no; 1=sí). Con las variables de tipo cadena no podremos operar. La columna denominada «medida» define de nuevo la variable como escala, ordinal o nominal. El análisis estadístico lo hemos de realizar a partir de la tabla de datos. En la barra superior aparece la Fig. 8: Gráfico en el que representamos los valores del gro- sor macular en pacientes con edema macular diabético, procedentes de una muestra de un estudio de incidencia a los 15 años (5). 17322. Estadística descriptiva e inferencial Fig. 9: Tabla de definición de variables en el SPSS en un ejemplo de estudio propio del autor. Fig. 10: Tabla de ejemplo de las variables de un estudio. 174 22. Estadística descriptiva e inferencial pestaña análisis, que al abrirla nos permite realizar el análisis estadístico que deseemos, empieza por el estudio de estadísticas descriptivas (que hemos se- ñalado en amarillo en la fig. 12), que nos permitira analizar las frecuencias de las variables cualitativas y el estudio descriptivo de las variables cuantitativas. En los siguientes puntos de la pestaña (fig. 11), pode- mos comparar medias mediante los distintos estadís- ticos como la T de Student o el análisis de varianza mediante ANOVA. Siguiendo veremos la posibilidad de estudiar tablas de contingencia mediante los esta- dísticos Chi Cuadrado o equivalentes. Siguiendo ten- dremos la posibilidad de estudios mediante regresión logística, o estudios de supervivencia o el estudio de la curva de ROC. En la misma barra superior en las versiones más recientes, se puede realizar la construcción de gráfi-cas, abriendo la pestaña gráficos (fig. 12), al hacerlo veremos que se abre la posibilidad de escoger la grá- fica a construir (observar la barra inferior derecha de la figura 12): barras, líneas, áreas, sectores/polar, etc. 4. EstiMaCiÓn dE parÁMEtrOs Pasemos ahora de la mera descripción de los da- tos de nuestra muestra a extraer datos que puedan ser aplicados al conjunto de la población de la cual procede nuestra muestra. Pasamos, por tanto, a la es- tadística inferencial. Los datos obtenidos de nuestra muestra tienen un interés limitado, ya que de los mis- Fig. 11: Observamos la pestaña de análisis estadístico abierta, con todos los posibles análisis a realizar, en concreto hemos abierto la pestaña frecuencias y observamos que se desplegan la posibilidad de realizar estudios de frecuencia, descriptivos o tablas de contingencia (ver capítulo 23). 17522. Estadística descriptiva e inferencial mos sólo se pueden obtener conclusiones atribuibles a la propia muestra, y no a la población de la que proviene. Para poder generalizar los resultados de nuestra muestra al conjunto de la población, es ne- cesario hacer una estimación o inferencia, y además, poder cuantificar la probabilidad de equivocarnos al hacer esa estimación. He aquí una de las grandes aportaciones del método estadístico a la investiga- ción: la posibilidad de extrapolar conclusiones pro- venientes de experimentos limitados a poblaciones enteras. Debemos saber cómo se hace y también a cuantificar el error de nuestras estimaciones. a) Estimación puntual y por intervalos Si deseamos obtener conclusiones sobre la pobla- ción a partir de una muestra debemos pagar dos tri- butos: perder precisión, y admitir la probabilidad de que podamos equivocarnos. La pérdida de precisión nos dará un «temblor», un intervalo de incertidum- bre dentro del cual suponemos que está el verdadero valor de la variable poblacional estudiada: ese es el intervalo de confianza. Si junto a nuestro resultado incluimos el intervalo de confianza, y la probabilidad de que el verdadero resultado poblacional se escape de él, estaremos ya no nos referimos a nuestra mues- tra, sino a la población. Es relativamente frecuente que en artículos publicados se den estimaciones de parámetros en forma de medias o porcentajes sin dar su correspondiente intervalo de confianza. Como ya comentamos (capítulo 7), esa es una información que tiene muy poco o nulo valor, ya que el resultado real podría estar muy diferente al propuesto si el interva- lo de confianza desconocido resulta ser demasiado amplio. Ejemplo 22.3 En un viejo chiste de los libros de esta- dística, se ve un anuncio que reza: «El 66% de los odontólogos encuestados recomiendan nuestro dentífrico sin azú- car». Y en letra diminuta se lee debajo. «A Jones no pudimos convencerle». El porcentaje expresado es correcto: en- Fig. 12: Observamos la pestaña gráficos abierta, y una gráfica de columnas. 176 22. Estadística descriptiva e inferencial trevistaron a tres odontólogos y dos se mostraron partidarios de su producto, exactamente el 66,66%, pero la infor- mación que nos da sobre la opinión real de todos los odontólogos es muy escasa. El porcentaje real que opinan de esa for- ma podría ser muy diferente. Ejemplo 22.4 Los autores de un estudio afirman que el porcentaje de pacientes con hiperten- sión ocular inferidos para una población mayor de 40 años es de un 4,8%, con un intervalo de confianza del 95% cu- yos límites son 3,9% y 5,8%. Eso signi- fica que se tiene un 95% de confianza de que el porcentaje real de hipertensos está incluído en ese intervalo. El cálculo del intervalo de confianza en la estima- ción de una media es muy sencillo, basta con cono- cer la media, la desviación estándar y el tamaño de la muestra. Para el cálculo de los intervalos de con- fianza, aparte de los programas habituales, tenemos herramientas muy sencillas, por ejemplo: http://www.mccallum-layton.co.uk/stats/Confi- denceIntervalCalc.aspx http://www.mccallum-layton.co.uk/stats/Confi- denceIntervalCalcProportions.aspx Ejemplo 22.5 Hemos realizado las medidas del as- tigmatismo de 51 sujetos de pobla- ción normal y deseamos calcular la media y desviación estándar, así como los intervalos de confianza al 95%. En el SPSS, una vez introducidos los da- tos y vamos al apartado Analizar g Es- tadísticos descriptivos g Explorar y ajus- tando en la pestaña «estadísticos« un 95% de intervalo de confianza, tenemos el siguiente resultado: nuestra media es de 0.81 D con un intervalo de confianza de 0,67 a 0,94 D. Se muestran también otros parámetros, como la mediana, el rango o la desviación típica. bibliOgrafÍa 1. Devore JL. Probabilidad y estadística para ingenieros y ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.; 2008 pag 10-31. 2. Pardell H, Cobo E, Canela J. Manual de bioestadística. . Editorial MASSON SA Barcelona 1986. pag: 11-14. 3. Pardell H, Cobo E, Canela J. Manual de bioestadística. Edi- torial MASSON SA Barcelona 1986. pag: 38-52. 4. Devore JL. Probabilidad y estadística para ingenieros y ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.; 2008 pag 10-31 3. 5. Romero Aroca, P; Del Castillo Dejarin, D. Estudio de pre- valencia de la retinopatía diabética en la población del Baix Camp (Tarragona). Arch Soc Esp Oftalmol 1996; 71 (3): 261-268. 6. Romero-Aroca P, Reyes Torres J, Sagarra-Alamo R, Basora Gallisa J, Fernández-Balart J, Pareja Ríos A, Baget-Bernal- diz M. Impacto de la implantación de la cámara no midriá- tica sobre la población diabética. Salud & Ciencia 2012; 2(19): 158-62. 7. Romero P, Baget M, Mendez I, Fernández J, Salvat M, Mar- tinez I. Diabetic macular edema and its relationship to re- nal microangiopathy: a sample of Type I diabetes mellitus patients in a 15-year follow-up study. J Diabetes Complica- tions. 2007 May-Jun; 21(3): 172-80. 8. Bolstad, William M. (2004) Introduction to Bayesian Statis- tics, John Wiley. descriptivos astigmatismo Estadístico Error típ. Media ,812 ,0659 Intervalo de confianza para la media al 9 Límite inferior Límite superior ,679 ,944 Media recortada al 5% ,778 Mediana ,700 Varianza ,221 Desv. típ. ,4706 Mínimo ,2 Máximo 2,2 Rango 2,0 Amplitud intercuartil ,7 Asimetría ,911 ,333 Curtosis ,530 ,656
Compartir