Logo Studenta

PEDERI (1)

¡Estudia con miles de materiales!

Vista previa del material en texto

CIE’2007 1 
Resumen— Para obtener información de una imagen puede 
utilizarse una nueva representación basada en ciertos descriptores 
o conjunto de rasgos. Esta representación reducida de la imagen 
puede obtenerse utilizando las principales propiedades que 
describen una serie numérica de datos: las medidas de la 
tendencia central o de localización, las medidas de dispersión y las 
medidas de entropía, y puede aportar gran cantidad de 
información para la caracterización, clasificación o descripción 
de una imagen. 
Se presenta un paquete de estadística descriptiva implementado 
en Matlab 7.0 para la extracción de rasgos en imágenes que 
agrupa los principales indicadores de las medidas de localización: 
la media, la mediana, el centro de la amplitud, la media recortada, 
la media geométrica y la media armónica; los principales 
indicadores de las medidas de dispersión: la simetría, el rango, el 
rango intercuartil, la desviación absoluta respecto a la media, la 
desviación absoluta respecto a la mediana, la desviación estándar, 
la varianza y la Kurtosis; y algunos indicadores de entropía: la 
entropía de Shannon, la entropía de umbral, la entropía 
normalizada y la entropía SURE (Stein’s Unbiased Risk Estimate). 
 
Palabras Claves— Descripción de datos, medidas de la 
estadística descriptiva, análisis de segmentación. 
 
I. INTRODUCCIÓN 
 
Los datos estadísticos obtenidos de muestras, experimentos 
o de una colección de datos a menudo son tan numerosos que 
carecen de utilidad a menos que sean condensados o reducidos 
a una forma más adecuada. Algunas veces puede ser 
satisfactorio presentar los datos tal como se encuentran y 
obtener información de ellos, otras veces será necesario 
agruparlos y presentarlos en forma gráfica o tabulada. Sin 
embargo, la mayoría de la veces los datos deben ser resumidos 
aún más; la estadística descriptiva proporciona los indicadores 
adecuados para la descripción de datos experimentales, más 
específicamente para la recopilación, la organización y el 
análisis de los datos sobre alguna característica de ciertos 
individuos pertenecientes a la población o universo. 
Las imágenes digitales son colecciones de datos a las que 
pueden aplicarse las medidas descriptivas de forma tal que se 
reduzca el espacio de datos a una representación formada por 
las características más relevantes de la imagen. La selección 
apropiada del método o de los métodos que nos permiten 
obtener la mayor cantidad de información de una imagen es 
imprescindible para lograr una buena caracterización y 
clasificación de las imágenes, lo que encuentra importantes 
aplicaciones en el reconocimiento estadístico de patrones y en 
la minería de datos. Las medidas descriptivas pueden usarse 
además para caracterizar zonas locales, es decir en una misma 
imagen para propósitos de búsqueda de objetos o de 
clasificación local. 
La extracción de rasgos de las imágenes puede hacerse 
utilizando los indicadores de la estadística descriptiva para el 
manejo de datos y las medidas de entropía. 
 
II. MATERIALES Y MÉTODOS 
En el desarrollo del Paquete de Estadística Descriptiva para 
la Extracción de Rasgos en imágenes se utilizó la versión de 
Matlab 7.0. La razón por la cual se eligió Matlab es por que 
este es un lenguaje de alto desempeño que integra cálculo, 
visualización y programación en un ambiente muy cómodo 
donde los problemas y las soluciones se expresan en una 
notación matemática familiar. Además, este programa 
incorpora un extenso conjunto de paquetes, entre los que se 
encuentran uno para procesamiento estadístico y otro para 
procesamiento digital de imágenes. 
El Paquete de Estadística Descriptiva para la Extracción de 
Rasgos en Imágenes incluye indicadores para: 
 Las medidas de la tendencia central. 
 Las medidas de la dispersión. 
 Las medidas de entropía. 
 
A. Medidas de la tendencia central 
El propósito de las medidas de la tendencia central es 
describir la localización de los datos en una distribución de 
probabilidad, cuando se trata con variables aleatorias. En el 
caso del manejo de datos, las medidas de la tendencia central 
son valores típicos o representativos de un conjunto de datos 
que pretenden resumir todos los datos en un único valor [1], 
[2]. 
Sean n , el tamaño del conjunto de datos; ix el i-ésimo 
valor en el conjunto de datos, se definen: 
1) Media aritmética (Mean) 
La media aritmética es el centro geométrico o de gravedad 
de un conjunto de datos [1] y se define en [3] 
n
x
x
n
i
i
 1 . (1) 
2) Mediana (Median) 
La mediana es el valor que se encuentra en el centro de un 
conjunto ordenado de datos y se define como [3] 
Paquete de Estadística Descriptiva para la 
Extracción de Rasgos en Imágenes 
Denis Hernández Pacheco, Alexander Falcón Ruiz & Alberto Taboada Crispí 
 CIE’2007 2 
 




 

2
1n
xMe , (2) 
si el tamaño del conjunto de datos es un número impar y como 
[3] 
2
2
2
2





 







n
x
n
x
Me
 (3) 
si el tamaño del conjunto de datos es un número par. 
3) Centro de la amplitud (Amplitude Center) 
El centro de la amplitud es el valor que queda en el medio 
de los valores mínimo y máximo de un conjunto de datos. Se 
define en la ecuación [1] 
    
2
minmax xx
ce

 . (4) 
4) Media recortada (Trimmed Mean) 
La media recortada al 5% es la media de una muestra 
formada con el con el intervalo de valores que van desde el 
5% al 95% de los valores del conjunto de datos y se define 
como [1], [2] 
nn
x
x
nn
n
i
R





1.0
05.0
05.0 . (5) 
5) Media geométrica (Geometric Mean) 
La media geométrica es la raíz n-ésima del producto de los 
valores de un conjunto de datos. Se define como [1], [2], [3] 
n
nG xxxx  ...21 . (6) 
6) Media armónica (Harmonic Mean) 
La media armónica es el inverso de la media aritmética del 
inverso de los valores del conjunto de datos. Se define como 
[1], [2] 



n
i i
H
x
n
x
1
1
 . (7) 
B. Medidas de dispersión 
El propósito de las medidas de dispersión es determinar 
cuán dispersos están los valores de los datos en una 
distribución de probabilidad o en un conjunto de datos no 
agrupados en términos de las cantidades por las que se desvían 
de su promedio [3]. 
1) Asimetría (Skewness) 
La asimetría As expresa cuan simétrica es la distribución de 
los datos en torno a su media. Esta se calcula como [3] 
 
3
1
3
s
n
xx
As
n
i
i


 (8) 
 Si As > 0, o sea, el sesgo es negativo, entonces la 
distribución es asimétrica a la derecha. 
 Si As = 0, entonces la distribución es simétrica. 
 Si As < 0, o sea, el sesgo es positivo, entonces la 
distribución es asimétrica a la izquierda. 
2) Intervalo (Range) 
El intervalo R es la diferencia entre los valores mayor y 
menor de un conjunto de datos [1], [3] 
    xxR minmax  . (9) 
3) Intercuartil (Interquartile) 
El intercuartil es la diferencia entre los percentiles 75 y 25 
del conjunto de datos y se define como [3] 
   nxnxI  25.075.0 . (10) 
4) Desviación respecto a la media (Mean Absolute 
Deviation) 
La desviación respecto a la media es la suma de los valores 
absolutos de todas las desviaciones respecto a la media 
dividida entre el número de datos del conjunto. Se define 
como [1], [3] 
n
xx
MD
n
i
i


 1 . (11) 
5) Desviación respecto a la mediana (Median Absolute 
Deviation) 
La desviación respecto a la mediana es la suma de los 
valores absolutos de todas las desviaciones respecto a la 
mediana dividida entre el número de datos del conjunto. Se 
define en [2] 
 
n
Mex
MeD
n
i
i


 1
.(12) 
6) Desviación estándar (Standard Deviation) 
La desviación estándar es la raíz cuadrada de la varianza y 
se define como Se define [2], [3] como 
 
 
1
1
2





n
xx
s
n
i
i
. (13) 
7) Varianza (Variance) 
La varianza es la sumatoria de los cuadrados de la 
desviación estándar dividido por n−1, se define como [1], [2], 
[3] 
 
 
1
1
2
2





n
xx
s
n
i
i
. (14) 
8) Apuntamiento o curtosis (Kurtosis) 
El apuntamiento mide el grado de concentración de los 
valores en torno a su media. La referencia es una variable con 
distribución normal, de tal modo que para ella el coeficiente de 
curtosis es 0. 
 Ap > 0: Leptocúrtica (valores muy concentrados en 
torno a su media, con pocos valores extremos) 
 Ap = 0: Mesocúrtica (tan apuntada como la normal) 
 Ap < 0: Platicúrtica (existen muchos valores 
extremos, con colas muy pesadas) 
 CIE’2007 3 
La curtosis [2] se define como 
 
 
4
1
4
s
n
xx
Ap
n
i
i


 . (15) 
C. Medidas de entropía 
El concepto de entropía de Shannon es la base de la teoría 
de la información, es llamada también medida de 
incertidumbre. La entropía describe cuanta información existe 
en un mensaje, es una medida de la información promedio. 
Las imágenes también pueden ser consideradas como 
portadoras de información aunque en lugar de probabilidades 
de ocurrencia de caracteres en un mensaje, puede estudiarse 
por ejemplo la distribución de los valores de gris en la imagen 
[4]. 
 
1) Entropía de Shannon (Shannon Entropy) 
La entropía de Shannon describe cuanta información existe 
en un evento y se define como la suma, sobre todos los 
posibles valores i-ésimos del evento x, del producto de la 
probabilidad i-ésima 
ip de ix por el logaritmo del inverso de 
la probabilidad 
ip . Sea x una variable aleatoria discreta que 
puede tomar un número finito de valores 
nxxx ,...,2,1
 con 
probabilidades 
nppp ,...,2,1 respectivamente. 
La entropía de Shannon [5] se define como 
   i
n
i
in ppxH 2
1
log 

. (16) 
 
2) Entropía de umbral (Threshold Entropy) 
El criterio de entropía de umbral determina la información 
contenida en un evento sumando todos los componentes que 
sobrepasan un umbral. La entropía de umbral [5] se define 
como 
 
  


n
i
iT ThresholdxabsH
1
. (17) 
 
3) Entropía normalizada (Normalized Entropy) 
La entropía normalizada es la entropía de una serie en el 
tiempo dividido por una medida de la energía de la serie en el 
tiempo. Este criterio de entropía mide la capacidad de que un 
modelo mixto proporcione clusters “bien separados”. 
Para algunos sistemas abiertos la entropía no solo es 
dependiente de la estructura del sistema que genera la serie en 
el tiempo, sino que además depende de la energía del sistema. 
Si la energía media de la serie difiere mucho entre los valores 
del conjunto entonces una comparación directa de la entropía 
de Shannon es más difícil de interpretar. Por esta razón, se 
sugiere que se normalice la entropía de Shannon de una serie 
en el tiempo por su potencia. En la ecuación (18), se define la 
entropía normalizada [5]. 
 
 
 







1
0
2
2
1
log
n
k
i
n
i
i
H
tkx
pp
N
 . (18) 
4) Entropía SURE (Stein's Unbiased Risk Estimate Entropy) 
La paradoja de Stein es un efecto sorprendente observado 
en las teorías de la decisión y de estimación. El fenómeno 
demuestra que cuando tres o más parámetros se estiman de 
manera simultanea, su estimador combinado es más preciso 
que cualquier método que trate con los parámetros de forma 
separada. Lo sorprendente reside en el hecho de que los 
parámetros pueden ser independientes, es decir no estar 
relacionados. El estimador se define como [6] 
 







 

2
2^ 2
1
y
m 

. (19) 
Siendo m, la longitud del vector; y, observaciones del vector 
de parámetros y  es el error medio cuadrático. 
III. RESULTADOS Y DISCUSIÓN 
El Paquete de Estadística Descriptiva para la Extracción de 
Rasgos en Imágenes agrupa las principales medidas de la 
tendencia central, de dispersión y de entropía usadas en la 
clasificación estadística; como resultado se obtiene una matriz 
formada por los principales rasgos de la imagen. Esta 
representación facilita el uso de las medidas de similitud para 
la caracterización y clasificación de objetos. 
En el análisis de segmentación (cluster analysis), la 
agrupación de objetos en clases bien definidas a partir de 
rasgos comunes posibilita la búsqueda de objetos con perfiles 
similares. La detección de rasgos es la base del reconocimiento 
estadístico de patrones y de la minería de datos. 
A. Medidas de la tendencia central. Características 
El promedio es el estimado de localización más simple y 
popular. Si la muestra de datos se describe por una 
distribución normal entonces la media del conjunto de datos es 
óptima. 
Desafortunadamente en casi todos los datos reales existen 
outliers, errores o glitches y la media es sensible a estos 
problemas. Un valor corrupto de un dato del conjunto de datos 
puede desplazar el promedio del centro de la distribución por 
una distancia arbitrariamente grande. 
La mediana y la media recortada son dos medidas que son 
robustas a los outliers. La mediana es el 50 percentil de la 
muestra, que pudiera modificarse ligeramente solo si agrega 
una perturbación fuerte a cualquier valor. 
La idea detrás del la media recortada es ignorar un pequeño 
porciento de los valores más altos y más bajos de una muestra 
cuando se busca el centro de la muestra. 
La media geométrica y la media armónica, al igual que la 
media, no son robustos a los outliers. Son útiles cuando la 
muestra esta distribuida de forma lognormal o esta fuertemente 
sesgada. 
 CIE’2007 4 
B. Medidas de dispersión. Características 
El rango, la diferencia entre los valores máximo y mínimo, 
es la medida de dispersión más simple. El rango no es robusto 
a los outliers en los datos, ya que este será el valor máximo o 
mínimo. 
La desviación estándar y la varianza son medidas de 
dispersión muy populares que son óptimas para muestras 
normalmente distribuidas. La desviación estándar es la raíz 
cuadrada de la varianza y tiene la propiedad deseable de estar 
en las mismas unidades que los datos. Ninguna de estas dos 
medidas es robusta a los outliers. Un valor de dato que esté 
separado del cuerpo de los datos puede incrementar el valor de 
estas medidas notablemente. 
La desviación absoluta respecto a la media, es también 
sensible a los outliers. Pero no se mueve tanto como la 
desviación estándar o la varianza en respuesta a datos 
corruptos. 
IV. CONCLUSIONES 
El uso de la estadística descriptiva y de las medidas de 
entropía para la caracterización y clasificación de imágenes o 
de áreas en una imagen, es una de las herramientas más 
eficientes que se utiliza en el análisis de segmentación o de 
taxonomía (cluster analysis) para agrupar objetos con perfiles 
similares. Obtener clases bien definidas que agrupen a los 
objetos, es decir lograr que los rasgos que caracterizan a una 
imagen o a un área dentro de una imagen formen una 
colección de datos similares, depende primero que todo de 
extraer los rasgos adecuados de la imagen y luego de utilizar 
las medidas de similitud correctas. 
El paquete de estadística descriptiva desarrollado pretende 
facilitar la caracterización de objetos, agrupando las 
principales medidas de la tendencia central y de dispersión, así 
como las medidas de entropía y simplificando su uso; como 
salida se obtiene una matriz formada por los principales rasgos 
de la imagen. Se proporciona además un fichero Content.mat 
que describe lasfunciones que se implementan en el paquete, 
así como indicaciones sobre el uso de las mismas. 
REFERENCIAS 
[1] I. C. Fernández, “Estadística descriptiva” Ph.D. disertación, Dept. 
Estadística e I. O., Universidad Publica de Navarra., Navarra, 2005. 
 
[2] Statistics Toolbox for use with Matlab, Chapt. 2 Descriptive Statistics, 
The MathWorks, 2006, pp. 2–8. 
 
[3] I. R. Miller, J. E. Freund. , R. Johnson, Probabilidad y estadística para 
ingenieros, México, 1992, pp. 5–37. 
 
[4] F. J. Bonsignore Caro, (2004, 03, 23). Aplicación de las Técnicas de la 
Teoría de la Información en el registro de imágenes Médicas [Formato 
Electrónico]. Disponible: http://www. nib.fmed.edu.uy 
 
[5] I. J. Tanajeda, (2001, 06, 21). Generalized Information Measures and 
Their Applications [Formato Electrónico]. Disponible: 
http://mtm.ufsc.br/%7Etaneja/book/book.html 
 
[6] C. Stein, “Inadmissibility of usual estimator for the mean of a 
multivariated distribution,” en Proc. Third Berkeley Symp. Math. 
Statics. Prob.1, 1956, pp. 197–206.

Continuar navegando

Materiales relacionados

15 pag.
1_Estadistica descriptiva - Eliana Benavides

User badge image

Desafío COL y ARG Veintitrés

43 pag.
Bioestadística-Variables

SIN SIGLA

User badge image

Hernán Samper

301 pag.
bfa003805

UNM

User badge image

Materiales Muy Locos