Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
CIE’2007 1 Resumen— Para obtener información de una imagen puede utilizarse una nueva representación basada en ciertos descriptores o conjunto de rasgos. Esta representación reducida de la imagen puede obtenerse utilizando las principales propiedades que describen una serie numérica de datos: las medidas de la tendencia central o de localización, las medidas de dispersión y las medidas de entropía, y puede aportar gran cantidad de información para la caracterización, clasificación o descripción de una imagen. Se presenta un paquete de estadística descriptiva implementado en Matlab 7.0 para la extracción de rasgos en imágenes que agrupa los principales indicadores de las medidas de localización: la media, la mediana, el centro de la amplitud, la media recortada, la media geométrica y la media armónica; los principales indicadores de las medidas de dispersión: la simetría, el rango, el rango intercuartil, la desviación absoluta respecto a la media, la desviación absoluta respecto a la mediana, la desviación estándar, la varianza y la Kurtosis; y algunos indicadores de entropía: la entropía de Shannon, la entropía de umbral, la entropía normalizada y la entropía SURE (Stein’s Unbiased Risk Estimate). Palabras Claves— Descripción de datos, medidas de la estadística descriptiva, análisis de segmentación. I. INTRODUCCIÓN Los datos estadísticos obtenidos de muestras, experimentos o de una colección de datos a menudo son tan numerosos que carecen de utilidad a menos que sean condensados o reducidos a una forma más adecuada. Algunas veces puede ser satisfactorio presentar los datos tal como se encuentran y obtener información de ellos, otras veces será necesario agruparlos y presentarlos en forma gráfica o tabulada. Sin embargo, la mayoría de la veces los datos deben ser resumidos aún más; la estadística descriptiva proporciona los indicadores adecuados para la descripción de datos experimentales, más específicamente para la recopilación, la organización y el análisis de los datos sobre alguna característica de ciertos individuos pertenecientes a la población o universo. Las imágenes digitales son colecciones de datos a las que pueden aplicarse las medidas descriptivas de forma tal que se reduzca el espacio de datos a una representación formada por las características más relevantes de la imagen. La selección apropiada del método o de los métodos que nos permiten obtener la mayor cantidad de información de una imagen es imprescindible para lograr una buena caracterización y clasificación de las imágenes, lo que encuentra importantes aplicaciones en el reconocimiento estadístico de patrones y en la minería de datos. Las medidas descriptivas pueden usarse además para caracterizar zonas locales, es decir en una misma imagen para propósitos de búsqueda de objetos o de clasificación local. La extracción de rasgos de las imágenes puede hacerse utilizando los indicadores de la estadística descriptiva para el manejo de datos y las medidas de entropía. II. MATERIALES Y MÉTODOS En el desarrollo del Paquete de Estadística Descriptiva para la Extracción de Rasgos en imágenes se utilizó la versión de Matlab 7.0. La razón por la cual se eligió Matlab es por que este es un lenguaje de alto desempeño que integra cálculo, visualización y programación en un ambiente muy cómodo donde los problemas y las soluciones se expresan en una notación matemática familiar. Además, este programa incorpora un extenso conjunto de paquetes, entre los que se encuentran uno para procesamiento estadístico y otro para procesamiento digital de imágenes. El Paquete de Estadística Descriptiva para la Extracción de Rasgos en Imágenes incluye indicadores para: Las medidas de la tendencia central. Las medidas de la dispersión. Las medidas de entropía. A. Medidas de la tendencia central El propósito de las medidas de la tendencia central es describir la localización de los datos en una distribución de probabilidad, cuando se trata con variables aleatorias. En el caso del manejo de datos, las medidas de la tendencia central son valores típicos o representativos de un conjunto de datos que pretenden resumir todos los datos en un único valor [1], [2]. Sean n , el tamaño del conjunto de datos; ix el i-ésimo valor en el conjunto de datos, se definen: 1) Media aritmética (Mean) La media aritmética es el centro geométrico o de gravedad de un conjunto de datos [1] y se define en [3] n x x n i i 1 . (1) 2) Mediana (Median) La mediana es el valor que se encuentra en el centro de un conjunto ordenado de datos y se define como [3] Paquete de Estadística Descriptiva para la Extracción de Rasgos en Imágenes Denis Hernández Pacheco, Alexander Falcón Ruiz & Alberto Taboada Crispí CIE’2007 2 2 1n xMe , (2) si el tamaño del conjunto de datos es un número impar y como [3] 2 2 2 2 n x n x Me (3) si el tamaño del conjunto de datos es un número par. 3) Centro de la amplitud (Amplitude Center) El centro de la amplitud es el valor que queda en el medio de los valores mínimo y máximo de un conjunto de datos. Se define en la ecuación [1] 2 minmax xx ce . (4) 4) Media recortada (Trimmed Mean) La media recortada al 5% es la media de una muestra formada con el con el intervalo de valores que van desde el 5% al 95% de los valores del conjunto de datos y se define como [1], [2] nn x x nn n i R 1.0 05.0 05.0 . (5) 5) Media geométrica (Geometric Mean) La media geométrica es la raíz n-ésima del producto de los valores de un conjunto de datos. Se define como [1], [2], [3] n nG xxxx ...21 . (6) 6) Media armónica (Harmonic Mean) La media armónica es el inverso de la media aritmética del inverso de los valores del conjunto de datos. Se define como [1], [2] n i i H x n x 1 1 . (7) B. Medidas de dispersión El propósito de las medidas de dispersión es determinar cuán dispersos están los valores de los datos en una distribución de probabilidad o en un conjunto de datos no agrupados en términos de las cantidades por las que se desvían de su promedio [3]. 1) Asimetría (Skewness) La asimetría As expresa cuan simétrica es la distribución de los datos en torno a su media. Esta se calcula como [3] 3 1 3 s n xx As n i i (8) Si As > 0, o sea, el sesgo es negativo, entonces la distribución es asimétrica a la derecha. Si As = 0, entonces la distribución es simétrica. Si As < 0, o sea, el sesgo es positivo, entonces la distribución es asimétrica a la izquierda. 2) Intervalo (Range) El intervalo R es la diferencia entre los valores mayor y menor de un conjunto de datos [1], [3] xxR minmax . (9) 3) Intercuartil (Interquartile) El intercuartil es la diferencia entre los percentiles 75 y 25 del conjunto de datos y se define como [3] nxnxI 25.075.0 . (10) 4) Desviación respecto a la media (Mean Absolute Deviation) La desviación respecto a la media es la suma de los valores absolutos de todas las desviaciones respecto a la media dividida entre el número de datos del conjunto. Se define como [1], [3] n xx MD n i i 1 . (11) 5) Desviación respecto a la mediana (Median Absolute Deviation) La desviación respecto a la mediana es la suma de los valores absolutos de todas las desviaciones respecto a la mediana dividida entre el número de datos del conjunto. Se define en [2] n Mex MeD n i i 1 .(12) 6) Desviación estándar (Standard Deviation) La desviación estándar es la raíz cuadrada de la varianza y se define como Se define [2], [3] como 1 1 2 n xx s n i i . (13) 7) Varianza (Variance) La varianza es la sumatoria de los cuadrados de la desviación estándar dividido por n−1, se define como [1], [2], [3] 1 1 2 2 n xx s n i i . (14) 8) Apuntamiento o curtosis (Kurtosis) El apuntamiento mide el grado de concentración de los valores en torno a su media. La referencia es una variable con distribución normal, de tal modo que para ella el coeficiente de curtosis es 0. Ap > 0: Leptocúrtica (valores muy concentrados en torno a su media, con pocos valores extremos) Ap = 0: Mesocúrtica (tan apuntada como la normal) Ap < 0: Platicúrtica (existen muchos valores extremos, con colas muy pesadas) CIE’2007 3 La curtosis [2] se define como 4 1 4 s n xx Ap n i i . (15) C. Medidas de entropía El concepto de entropía de Shannon es la base de la teoría de la información, es llamada también medida de incertidumbre. La entropía describe cuanta información existe en un mensaje, es una medida de la información promedio. Las imágenes también pueden ser consideradas como portadoras de información aunque en lugar de probabilidades de ocurrencia de caracteres en un mensaje, puede estudiarse por ejemplo la distribución de los valores de gris en la imagen [4]. 1) Entropía de Shannon (Shannon Entropy) La entropía de Shannon describe cuanta información existe en un evento y se define como la suma, sobre todos los posibles valores i-ésimos del evento x, del producto de la probabilidad i-ésima ip de ix por el logaritmo del inverso de la probabilidad ip . Sea x una variable aleatoria discreta que puede tomar un número finito de valores nxxx ,...,2,1 con probabilidades nppp ,...,2,1 respectivamente. La entropía de Shannon [5] se define como i n i in ppxH 2 1 log . (16) 2) Entropía de umbral (Threshold Entropy) El criterio de entropía de umbral determina la información contenida en un evento sumando todos los componentes que sobrepasan un umbral. La entropía de umbral [5] se define como n i iT ThresholdxabsH 1 . (17) 3) Entropía normalizada (Normalized Entropy) La entropía normalizada es la entropía de una serie en el tiempo dividido por una medida de la energía de la serie en el tiempo. Este criterio de entropía mide la capacidad de que un modelo mixto proporcione clusters “bien separados”. Para algunos sistemas abiertos la entropía no solo es dependiente de la estructura del sistema que genera la serie en el tiempo, sino que además depende de la energía del sistema. Si la energía media de la serie difiere mucho entre los valores del conjunto entonces una comparación directa de la entropía de Shannon es más difícil de interpretar. Por esta razón, se sugiere que se normalice la entropía de Shannon de una serie en el tiempo por su potencia. En la ecuación (18), se define la entropía normalizada [5]. 1 0 2 2 1 log n k i n i i H tkx pp N . (18) 4) Entropía SURE (Stein's Unbiased Risk Estimate Entropy) La paradoja de Stein es un efecto sorprendente observado en las teorías de la decisión y de estimación. El fenómeno demuestra que cuando tres o más parámetros se estiman de manera simultanea, su estimador combinado es más preciso que cualquier método que trate con los parámetros de forma separada. Lo sorprendente reside en el hecho de que los parámetros pueden ser independientes, es decir no estar relacionados. El estimador se define como [6] 2 2^ 2 1 y m . (19) Siendo m, la longitud del vector; y, observaciones del vector de parámetros y es el error medio cuadrático. III. RESULTADOS Y DISCUSIÓN El Paquete de Estadística Descriptiva para la Extracción de Rasgos en Imágenes agrupa las principales medidas de la tendencia central, de dispersión y de entropía usadas en la clasificación estadística; como resultado se obtiene una matriz formada por los principales rasgos de la imagen. Esta representación facilita el uso de las medidas de similitud para la caracterización y clasificación de objetos. En el análisis de segmentación (cluster analysis), la agrupación de objetos en clases bien definidas a partir de rasgos comunes posibilita la búsqueda de objetos con perfiles similares. La detección de rasgos es la base del reconocimiento estadístico de patrones y de la minería de datos. A. Medidas de la tendencia central. Características El promedio es el estimado de localización más simple y popular. Si la muestra de datos se describe por una distribución normal entonces la media del conjunto de datos es óptima. Desafortunadamente en casi todos los datos reales existen outliers, errores o glitches y la media es sensible a estos problemas. Un valor corrupto de un dato del conjunto de datos puede desplazar el promedio del centro de la distribución por una distancia arbitrariamente grande. La mediana y la media recortada son dos medidas que son robustas a los outliers. La mediana es el 50 percentil de la muestra, que pudiera modificarse ligeramente solo si agrega una perturbación fuerte a cualquier valor. La idea detrás del la media recortada es ignorar un pequeño porciento de los valores más altos y más bajos de una muestra cuando se busca el centro de la muestra. La media geométrica y la media armónica, al igual que la media, no son robustos a los outliers. Son útiles cuando la muestra esta distribuida de forma lognormal o esta fuertemente sesgada. CIE’2007 4 B. Medidas de dispersión. Características El rango, la diferencia entre los valores máximo y mínimo, es la medida de dispersión más simple. El rango no es robusto a los outliers en los datos, ya que este será el valor máximo o mínimo. La desviación estándar y la varianza son medidas de dispersión muy populares que son óptimas para muestras normalmente distribuidas. La desviación estándar es la raíz cuadrada de la varianza y tiene la propiedad deseable de estar en las mismas unidades que los datos. Ninguna de estas dos medidas es robusta a los outliers. Un valor de dato que esté separado del cuerpo de los datos puede incrementar el valor de estas medidas notablemente. La desviación absoluta respecto a la media, es también sensible a los outliers. Pero no se mueve tanto como la desviación estándar o la varianza en respuesta a datos corruptos. IV. CONCLUSIONES El uso de la estadística descriptiva y de las medidas de entropía para la caracterización y clasificación de imágenes o de áreas en una imagen, es una de las herramientas más eficientes que se utiliza en el análisis de segmentación o de taxonomía (cluster analysis) para agrupar objetos con perfiles similares. Obtener clases bien definidas que agrupen a los objetos, es decir lograr que los rasgos que caracterizan a una imagen o a un área dentro de una imagen formen una colección de datos similares, depende primero que todo de extraer los rasgos adecuados de la imagen y luego de utilizar las medidas de similitud correctas. El paquete de estadística descriptiva desarrollado pretende facilitar la caracterización de objetos, agrupando las principales medidas de la tendencia central y de dispersión, así como las medidas de entropía y simplificando su uso; como salida se obtiene una matriz formada por los principales rasgos de la imagen. Se proporciona además un fichero Content.mat que describe lasfunciones que se implementan en el paquete, así como indicaciones sobre el uso de las mismas. REFERENCIAS [1] I. C. Fernández, “Estadística descriptiva” Ph.D. disertación, Dept. Estadística e I. O., Universidad Publica de Navarra., Navarra, 2005. [2] Statistics Toolbox for use with Matlab, Chapt. 2 Descriptive Statistics, The MathWorks, 2006, pp. 2–8. [3] I. R. Miller, J. E. Freund. , R. Johnson, Probabilidad y estadística para ingenieros, México, 1992, pp. 5–37. [4] F. J. Bonsignore Caro, (2004, 03, 23). Aplicación de las Técnicas de la Teoría de la Información en el registro de imágenes Médicas [Formato Electrónico]. Disponible: http://www. nib.fmed.edu.uy [5] I. J. Tanajeda, (2001, 06, 21). Generalized Information Measures and Their Applications [Formato Electrónico]. Disponible: http://mtm.ufsc.br/%7Etaneja/book/book.html [6] C. Stein, “Inadmissibility of usual estimator for the mean of a multivariated distribution,” en Proc. Third Berkeley Symp. Math. Statics. Prob.1, 1956, pp. 197–206.
Compartir