Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO POSGRADO EN CIENCIA E INGENIERÍA DE LA COMPUTACIÓN MARCADO DE AGUA PERCEPTIVO PARA IMÁGENES EMPLEANDO LA TRANSFORMADA DE HERMITE T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN INGENIERÍA (COMPUTACIÓN) P R E S E N T A: OSCAR ROMERO HERNÁNDEZ DIRECTOR DE TESIS: DR. BORIS ESCALANTE RAMÍREZ MÉXICO, D.F. 2010. UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. i Dedicatoria A mis padres, Isidoro y Catalina, quienes han sido mi principal e incondicional apoyo durante toda mi vida. Ni mil páginas alcanzarían para escribir lo suficiente para agradecerles por todo lo que me han dado… Definitivamente, este logro también es suyo. A mi sobrino Leo, mi hermana Sara, y su esposo Oscar, por el apoyo y aliento brindados. A Alfonso y Ernesto, por la compañía, ayuda y consejos durante estos años en el laboratorio. A Adriana, por su gran amistad y comprensión. Como siempre, mi mejor amiga. A mi primo Melitón, por su magnífico ejemplo de superación profesional. A mis amigos, por alentarme y apoyarme siempre en esta etapa de mi vida. Especialmente a Elizabeth e Isaac, por las divertidas e interesantes charlas y consejos. A mis amigos de la maestría, por los gratos momentos que pasamos juntos durante nuestra estancia en el Posgrado. iii Agradecimientos Al Dr. Boris Escalante Ramírez por su enseñanza, el apoyo y los consejos que me ha dado desde la licenciatura, y ahora durante la maestría. Al Dr. Carlos J. Rivero Moreno, por su ayuda, consejos y valiosas asesorías. A la Dra. Lucía Medina Gómez por sus valiosos comentarios hechos para mejorar este trabajo y también por las magníficas clases durante la maestría. Al Dr. Francisco Javier García Ugalde, por los consejos y ayuda que me ha brindado desde la licenciatura y hasta ahora. Al Dr. Fernando Arámbula Cosío, por sus comentarios y observaciones realizados sobre este trabajo. A todos mis profesores de la maestría, por haberme transmitido sus conocimientos. Son un ejemplo a seguir. Al Posgrado de Ciencia e Ingeniería de la Computación, por todos los recursos que puso a mi disposición durante mis estudios. A la Universidad Nacional Autónoma de México y la Facultad de Ingeniería, magníficas instituciones que me brindaron mi formación académica y personal. Siempre les estaré agradecido. Al CONACYT, por el apoyo económico que me proporcionó durante mis estudios. A Amalia, Lulú y Diana, por toda la ayuda y orientación brindadas durante mi paso por el Posgrado. A todos, muchas gracias. v Resumen Los avances tecnológicos con los que contamos en la actualidad han fomentado el desarrollo de nuevas prácticas, algunas de las cuales no son del todo deseables. Una de las actividades se refiere al intercambio y/o copiado de material digital (el cual incluye video, audio y, desde luego, imágenes), la cual puede realizarse de una manera muy simple. Sin embargo, esta actividad podría estar comprometiendo y/o violando los derechos de autor, por mencionar sólo un caso. Esta es una de las causas que ha promovido el desarrollo de la técnica marcado de agua, la cual tiene, precisamente, el objetivo de proteger dicho material multimedia. En este trabajo se presenta un algoritmo de marcado de agua para imágenes empleando la transformada de Hermite. El hecho de usar esta herramienta matemática se debe a que emplea ciertas funciones que han sido propuestas para modelar los perfiles de los campos receptivos presentes en el sistema de visión, lo cual resulta muy atractivo debido a que, al final de todo, el resultado siempre es evaluado por un observador humano. En relación con la idea anterior, es importante también mencionar que, además de emplear la transformada de Hermite, el algoritmo de marcado considera un modelo perceptivo que toma en cuenta algunas características del sistema de visión humano, como por ejemplo, el efecto conocido como enmascaramiento. Aprovechar tal efecto permite incrustar la marca en regiones en las que el ojo muy difícilmente podría percibir alguna modificación. Adicionalmente, también se aprovecha la información de brillantez. La brillantez se refiere a la información que el ojo percibe, no precisamente a la información contenida en la escena que el ojo ve. Debido a esto, se emplea un modelo para generar, a partir de un esquema de luminancia, un esquema de brillantez y así poder integrarlo al esquema de marcado de agua. vii Índice Dedicatoria ..................................................................................................................................................i Agradecimientos...................................................................................................................................... iii Resumen .....................................................................................................................................................v Índice de figuras .......................................................................................................................................xi Lista de tablas...........................................................................................................................................xv 1. Introducción .......................................................................................................................................1 2. Sistema de visión humano...............................................................................................................5 2.1. Anatomía del ojo .........................................................................................................................5 2.2. Retina ............................................................................................................................................6 2.2.1. Organización de la retina ................................................................................................6 2.2.2. Células de la retina ...........................................................................................................7 2.3. La retina y los campos receptivos. ............................................................................................9 2.3.1. Modelos para los campos receptivos ...........................................................................11 2.4. Fenómenos del sistema de visión............................................................................................11 2.4.1. Sensibilidad .....................................................................................................................12 2.4.2. Enmascaramiento ...........................................................................................................13 2.4.3. Diferencia apenas notable (JND) y la ley de Weber...................................................14 2.5. Modelo visual de Watson.........................................................................................................16 3. Marcado de agua digital.................................................................................................................193.1. Marcado de agua y esteganografía. .......................................................................................19 3.2. Aplicaciones y propiedades.....................................................................................................20 3.2.1. Propiedades.....................................................................................................................21 3.3. Esquemas básicos de marcado de agua .................................................................................23 3.3.1. Esquema con incrustación informada .........................................................................25 3.4. Marcado de agua perceptivo ...................................................................................................26 3.4.1. Esquemas perceptivos en el dominio de la frecuencia. .............................................27 3.5. Ataques.......................................................................................................................................30 Índice viii 4. Transformada de Hermite..............................................................................................................33 4.1. Introducción...............................................................................................................................33 4.2. Transformada polinomial en una dimensión........................................................................34 4.3. Transformada de Hermite en una dimensión .......................................................................36 4.4. Transformada polinomial en dos dimensiones.....................................................................39 4.5. Transformada de Hermite en dos dimensiones....................................................................39 4.6. Transformada polinomial discreta..........................................................................................40 4.7. Transformada de Hermite discreta.........................................................................................41 5. Algoritmo de marcado de agua perceptivo.................................................................................43 5.1. Antecedentes..............................................................................................................................43 5.2. Incrustación de la marca...........................................................................................................43 5.3. Detección de la marca...............................................................................................................45 5.4. Construcción de la máscara perceptiva..................................................................................46 5.5. Discusión sobre el algoritmo ...................................................................................................48 5.6. Robustez a ataques geométricos .............................................................................................52 6. Resultados experimentales ............................................................................................................55 6.1. Medidas de evaluación.............................................................................................................55 6.2. Selección de parámetros...........................................................................................................57 6.2.1. Máscara perceptiva ........................................................................................................57 6.2.2. Submuestreo en la transformada de Hermite.............................................................61 6.2.3. Fuerza de incrustación...................................................................................................62 6.3. Esquema de brillantez ..............................................................................................................64 6.4. Pruebas de incrustación y detección.......................................................................................67 6.5. Evaluación de robustez ............................................................................................................71 6.5.1. Operaciones de procesamiento.....................................................................................72 6.5.2. Comparación con otros modelos..................................................................................82 6.5.3. Ataques geométricos......................................................................................................87 6.6. Comentarios adicionales sobre los resultados.......................................................................92 7. Conclusiones ....................................................................................................................................95 A. Mapeo Luminancia - Brillantez ....................................................................................................97 A.1. Luminancia y brillantez............................................................................................................97 Índice ix A.2. Mecanismos de compresión.....................................................................................................98 A.3. Generación del mapa luminancia-brillantez .......................................................................100 A.3.1. Descripción del algortimo ...........................................................................................101 A.3.2. Algoritmo discreto para imágenes .............................................................................104 A.3.3. Ejemplos de mapas de brillantez................................................................................106 B. Normalización de imágenes........................................................................................................111 B.1. Normalización .........................................................................................................................111 B.2. Momentos geométricos y transformaciones afines.............................................................111 B.3. Algoritmo de normalización..................................................................................................112 B.4. Ejemplos de imágenes normalizadas ...................................................................................114 Referencias.............................................................................................................................................115 xi Índice de figuras 2.1. Ojo derecho visto desde la parte superior.........................................................................6 2.2. Capas de la retina .................................................................................................................7 2.3. Distribución de conos y bastones sobre la retina .............................................................8 2.4. Sensibilidad de los conos y bastones en el ojo .................................................................8 2.5. Organización de tipo centro-periferia del campo receptivo de las células ganglionares de la retina.....................................................................................................10 2.6. Función de sensibilidad de contraste................................................................................12 2.7. Umbrales de visibilidad en función de la luminancia del fondo. .................................14 3.1. Modelo de un canal de comunicaciones con codificación de canal..............................23 3.2. Sistema de marcado de agua con un detector no ciego..................................................24 3.3. Sistema de marcado de agua con un detector ciego .......................................................253.4. Sistema de marcado de agua modificado con un detector ciego ..................................25 3.5. Incrustación lineal de la marca ..........................................................................................26 3.6. Incrustación no lineal de la marca.....................................................................................27 3.7. Esquema de marcado de agua empleando transformadas............................................28 4.1. Transformada polinomial...................................................................................................36 4.2. Funciones filtro para 1=σ ................................................................................................38 5.1. Esquema de marcado de agua perceptivo .......................................................................44 5.2. Descomposición de Hermite de orden 4 ..........................................................................49 6.1 Imagen “lena” ......................................................................................................................58 6.2. Valores de umbral y correlación obtenidos para 200 marcas diferentes en la imagen “lena” usando la primera combinación de parámetros ...................................58 6.3. Valores de PSNR obtenidos para 200 marcas diferentes en la imagen “lena” usando la primera combinación de parámetros..............................................................59 6.4. Valores de MSSIM obtenidos para 200 marcas diferentes en la imagen “lena” usando la primera combinación de parámetros..............................................................59 6.5. Valores de umbral y correlación obtenidos para 200 marcas diferentes en la imagen “lena” usando la segunda combinación de parámetros...................................60 6.6. Valores de PSNR obtenidos para 200 marcas diferentes en la imagen “lena” usando la segunda combinación de parámetros .............................................................60 6.7. Valores de MSSIM obtenidos para 200 marcas diferentes en la imagen “lena” usando la segunda combinación de parámetros .............................................................60 6.8. Gráficas de variación de correlación, PSNR y MSSIM calculados para la imagen “lena” variando la fuerza de incrustación........................................................................63 6.9. Gráficas de variación de correlación, PSNR y MSSIM calculados para la imagen “barbara” variando la fuerza de incrustación .................................................................63 6.10. Gráficas de variación de correlación, PSNR y MSSIM calculados para la imagen “baboon” variando la fuerza de incrustación..................................................................63 6.11. Imágenes que ejemplifican dos Ilusiones ópticas............................................................64 6.12. Textura usada para generar las nuevas imágenes...........................................................65 6.13. Imágenes generadas a partir de las ilusiones y la textura..............................................65 6.14 Imágenes “lena” original y marcada.................................................................................67 6.15. Máscara de incrustación para “lena” y diferencia entre imágenes original y marcada.................................................................................................................................68 Índice de figuras xii 6.16. Valores de umbral y correlación calculados para la imagen marcada “lena”.............68 6.17. Imágenes “barbara” original y marcada...........................................................................69 6.18. Máscara de incrustación para “barbara” y diferencia entre imágenes original y marcada.................................................................................................................................69 6.19. Valores de umbral y correlación calculados para la imagen marcada “barbara” ......70 6.20. Imágenes “baboon” original y marcada ...........................................................................70 6.21. Máscara de incrustación para “baboon” y diferencia entre imágenes original y marcada.................................................................................................................................71 6.22. Valores de umbral y correlación calculados para la imagen marcada “baboon”.......71 6.23. Imagen procesada con un filtro Gaussiano......................................................................72 6.24. Imagen procesada con un filtro de mediana....................................................................73 6.25. Imagen comprimida con JPEG...........................................................................................73 6.26. Imagen con ruido aditivo Gaussiano................................................................................73 6.27. Imagen con ruido “sal y pimienta” ...................................................................................74 6.28. Imagen con recorte (con sustitución) ................................................................................74 6.29. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “lena” con un filtro Gaussiano...........................................................................................75 6.30. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “lena” con un filtro de mediana ........................................................................................75 6.31. Valores de correlación y umbral obtenidos después de comprimir la imagen marcada “lena” usando compresión JPEG.......................................................................76 6.32. Valores de correlación y umbral obtenidos después de agregar ruido blanco Gaussiano a la imagen marcada “lena”............................................................................76 6.33. Valores de correlación y umbral obtenidos después de agregar ruido “sal y pirmienta” a la imagen marcada “lena” ...........................................................................77 6.34. Valores de correlación y umbral obtenidos después de recortar una región a la imagen marcada “lena” ......................................................................................................77 6.35. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “barbara” con un filtro Gaussiano.....................................................................................78 6.36. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “barbara” con un filtro de mediana ..................................................................................78 6.37. Valores de correlación y umbral obtenidos después de comprimir la imagen marcada “barbara” usando compresión JPEG.................................................................78 6.38. Valores de correlación y umbral obtenidos después de agregar ruido blanco Gaussiano a la imagen marcada “barbara”......................................................................79 6.39. Valores de correlación y umbral obtenidos después de agregar ruido “sal y pirmienta” a la imagen marcada “barbara”.....................................................................79 6.40. Valores de correlación y umbral obtenidos después de recortar una región a la imagen marcada “barbara” ................................................................................................79 6.41. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “baboon” con un filtro Gaussiano .....................................................................................80 6.42. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “baboon”con un filtro de mediana...................................................................................80 6.43. Valores de correlación y umbral obtenidos después de comprimir la imagen marcada “baboon” usando compresión JPEG.................................................................81 6.44. Valores de correlación y umbral obtenidos después de agregar ruido blanco Gaussiano a la imagen marcada “baboon” ......................................................................81 6.45. Valores de correlación y umbral obtenidos después de agregar ruido “sal y pirmienta” a la imagen marcada “baboon” .....................................................................81 Índice de figuras xiii 6.46. Valores de correlación y umbral obtenidos después de recortar una región a la imagen marcada “baboon”.................................................................................................82 6.47. Máscara de incrustación para “lena” usando [6] y diferencia entre imágenes original y marcada...............................................................................................................83 6.48. Valores de correlación normalizados después de aplicar distintos tipos de procesamiento a la imagen marcada “lena” (usando [6]) ..............................................83 6.49. Máscara de incrustación para “lena” usando [4] y diferencia entre imágenes original y marcada...............................................................................................................85 6.50. Valores de correlación normalizados después de aplicar distintos tipos de procesamiento a la imagen marcada “lena” (usando [4]) ..............................................85 6.51. Imagen rotada ......................................................................................................................88 6.52. Imágenes con shearing horizontal y vertical ...................................................................88 6.53. Valores de correlación y umbral obtenidos después de escalar la imagen marcada “lena” ....................................................................................................................89 6.54. Valores de correlación y umbral obtenidos después de rotar la imagen marcada “lena”.....................................................................................................................................89 6.55. Valores de correlación y umbral obtenidos después de aplicar la operación shearing horizontal a la imagen marcada “lena” ............................................................90 6.56. Valores de correlación y umbral obtenidos después de aplicar la operación shearing vertical a la imagen marcada “lena” .................................................................90 6.57. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “lena” con un filtro Gaussiano (con normalización).......................................................91 6.58. Valores de correlación y umbral obtenidos después de filtrar la imagen marcada “lena” con un filtro de mediana (con normalización) ....................................................91 6.59. Valores de correlación y umbral obtenidos después de comprimir la imagen marcada “lena” usando compresión JPEG (con normalización)...................................91 6.60. Valores de correlación y umbral obtenidos después de agregar ruido blanco Gaussiano a la imagen marcada “lena” (con normalización)........................................92 6.61. Valores de correlación y umbral obtenidos después de agregar ruido “sal y pimienta” a la imagen marcada “lena” (con normalización) ........................................92 A.1. Fenómeno de inducción a la brillantez.............................................................................98 A.2. Invarianza de la brillantez ..................................................................................................99 A.3. Escena de Ganzfeld con disco luminoso ..........................................................................99 A.4. Indentación de la brillantez...............................................................................................100 A.5. Ilusión óptica 1 ....................................................................................................................106 A.6. Perfiles de la imagen original y del mapa de brillantez para la ilusión 1 ...................106 A.7. Ilusión óptica 2 ....................................................................................................................107 A.8. Perfiles de la imagen original y del mapa de brillantez, para la sección superior de la ilusión 2.......................................................................................................................107 A.9. Perfiles de la imagen original y del mapa de brillantez, para la sección inferior de la ilusión 2.......................................................................................................................108 A.10. Ilusión óptica 3 ....................................................................................................................108 A.11. Perfiles de la imagen original y del mapa de brillantez para la ilusión 3 ...................109 B.1. Imágenes “lena” original y normalizada.........................................................................114 B.2. Imágenes “boats” original y normalizada.......................................................................114 xv Lista de tablas 6.1. Promedio de los valores obtenidos al insertar 200 marcas diferentes en la imagen “lena” usando la primera combinación de parámetros ...................................58 6.2. Promedios de los valores obtenidos al insertar 200 marcas diferentes en la imagen “lena” usando la segunda combinación de parámetros...................................59 6.3. Promedio de los valores obtenidos al insertar 200 marcas diferentes en la imagen “barbara” usando la primera combinación de parámetros .............................61 6.4. Promedios de los valores obtenidos al insertar 200 marcas diferentes en la imagen “barbara” usando la segunda combinación de parámetros.............................61 6.5. Promedio de los valores obtenidos al insertar 200 marcas diferentes en la imagen “baboon” usando la primera combinación de parámetros..............................61 6.6. Promedios de los valores obtenidos al insertar 200 marcas diferentes en la imagen “baboon” usando la segunda combinación de parámetros .............................61 6.7. Promedios de los valores obtenidos al insertar 200 marcas diferentes en la imagen “lena” usando la segunda combinación de parámetros y T=1 (sin submuestreo) ........................................................................................................................61 6.8. Promedios de los valores obtenidos al insertar 200 marcas diferentes en la imagen “barbara” usando la segunda combinación de parámetros y T=1 (sin submuestreo) ........................................................................................................................62 6.9. Promedios de los valores obtenidos al insertar 200 marcas diferentes en la imagen “baboon” usando la segunda combinación de parámetros y T=1 (sin submuestreo) ........................................................................................................................62 6.10. Resultados obtenidos al insertar una marca (130) a la primera imagen-ilusión usando el esquema de brillantez .......................................................................................65 6.11. Resultados obtenidos al insertar una marca (130) a la primera imagen-ilusión usando el esquema de luminancia ....................................................................................66 6.12. Resultados obtenidos al insertaruna marca (130) a la primera imagen-ilusión usando el esquema de luminancia y cambiando la fuerza de incrustación ................66 6.13. Resultados obtenidos al insertar una marca (130) a la segunda imagen-ilusión usando el esquema de brillantez .......................................................................................66 6.14. Resultados obtenidos al insertar una marca (130) a la segunda imagen-ilusión usando el esquema de luminancia ....................................................................................66 6.15. Resultados obtenidos al insertar una marca (130) a la segunda imagen-ilusión usando el esquema de luminancia y cambiando la fuerza de incrustación ................67 6.16. Resultados obtenidos al insertar una marca (130) a la imagen “lena” usando la segunda combinación de parámetros ...............................................................................67 6.17. Resultados obtenidos al insertar una marca (130) a la imagen ‘barbara’ usando la segunda combinación de parámetros ...............................................................................69 6.18. Resultados obtenidos al insertar una marca (130) a la imagen “baboon” usando la segunda combinación de parámetros ...........................................................................70 6.19. Resultados obtenidos al insertar una marca a la imagen “lena” usando el esquema propuesto en [6]...................................................................................................82 6.20. Resultados obtenidos al insertar una marca a la imagen “lena” usando el esquema propuesto en [5]...................................................................................................84 1 1. Introducción En la actualidad, la protección de los derechos de autor (y/o la propiedad intelectual) se ha convertido en uno de los problemas más importantes debido a la facilidad con la que es posible modificar y distribuir contenido digital a través de medios electrónicos, por ejemplo Internet. Esta situación ha generado la necesidad de que dichos contenidos puedan ser identificados por el dueño de los derechos a través de una técnica eficiente. El marcado de agua (en inglés, watermarking) puede ser considerado como una opción viable para solucionar tal problema. Esta técnica consiste, básicamente, en introducir cierta información en el material digital con el objetivo de demostrar la propiedad intelectual y, en ciertos casos, autenticarlo. Sin embargo, e independientemente de cómo hacerlo, existen factores que permiten calificar el desempeño de la técnica empleada dentro del contexto de imágenes digitales. Fundamentalmente se consideran dos factores que son considerados parámetros: la invisibilidad y la robustez. El término “invisibilidad” se refiere al hecho de que a simple vista, y bajo condiciones normales, el ojo humano no puede percibir cambio alguno con respecto a la imagen original (lo cual resulta evidente, pues son los observadores humanos los que deciden si la calidad de una imagen es buena o no, y sólo los errores que se perciben pueden considerarse como errores propiamente). Por otra parte, “robustez” indica que cualquier posible intento de remover la marca de agua debe ser muy complicado, ya sea mediante procesamientos comunes o manipulaciones geométricas. Distintos algoritmos y herramientas han sido propuestos (algunos de los cuales se detallan en el capítulo 3), y una gran parte de ellos ha optado por modelos que toman en cuenta las características del sistema de visión humano con el fin de lograr buenos resultados desde el punto de vista de robustez y, desde luego, invisibilidad. Como se verá posteriormente, las características que se buscan aprovechar del sistema de visión son la sensibilidad al contraste y el efecto conocido como enmascaramiento. La marca debe ser invisible y robusta, debe ser prioritario lograr insertarla de tal forma que un observador humano no la detecte y que permanezca presente después de realizar modificaciones o transformaciones a la imagen. Considerando el primer aspecto, es que se decide por usar un modelo que incorpore las características más importantes del sistema de visión humano. 1. Introducción 2 Desde un punto de vista matemático, una forma de incrustar la marca en una imagen es descomponer la imagen original mediante un modelo de representación específico, agregar la marca de agua en el nuevo espacio y reconstruir la imagen resultante. Entre las herramientas matemáticas más difundidas en el área están la transformada Wavelet, la transformada coseno y, recientemente, la transformada Contourlet, por mencionar algunos ejemplos (ver capítulo 3). Al respecto, en este trabajo se usa la transformada de Hermite pues es un modelo de representación que incorpora características del sistema de visión humano, como el análisis empleando funciones derivadas de Gaussiana. Estas funciones han sido usadas para modelar los campos receptivos presentes en el ojo humano y, además, se ha demostrado que las derivadas de Gaussianas modelan la respuesta de los campos receptivos con mayor exactitud que otras funciones. Por otra parte, es importante señalar que, de manera muy similar a una descomposición Wavelet, durante la etapa de análisis es posible separar la información visual contenida en la imagen: el coeficiente de orden cero representa un promedio (o versión paso-baja) de la imagen mientras que los coeficientes de orden superior representan los detalles, es decir la información referente a los bordes y texturas (más detalles al respecto se proporcionan en el capítulo 2). Para incrustar la marca en la imagen se hace uso de una máscara de incrustación generada a partir de los coeficientes de la transformada de Hermite y que considera ciertas características del sistema de visión humano previamente mencionadas, específicamente se adopta un modelo perceptivo diseñado para su uso en el área de compresión de imágenes que, debido a sus características, también ha sido usado como base en trabajos de marcado de agua digital. Con esto, se trata de “engañar al ojo humano y al mismo tiempo obtener una imagen cuya fidelidad sea alta en comparación con la imagen original. Otra de las características incluidas en la máscara que se pretende explotar es la relación existente entre la luminancia-brillantez, pues tal relación no es tan simple ni tan sencilla. Por otra parte, podría pensarse que el resultado de procesar una imagen es el mismo bajo diferentes condiciones. Por ejemplo, dada una imagen marcada con un cierto tamaño, posición y/o rotación se esperaría que la marca de agua pudiera mantenerse y detectarse. En la práctica esto no sucede siempre. Cualquier modificación, por pequeña que sea, puede afectar la sincronización geométrica y provocar que la marca de agua no pueda ser detectada. Sin importar la modificación que sufra la imagen, la marca debe permanecer en la imagen. Para eliminar los efectos de un ataque geométrico, se propone complementar el algoritmo principal con un algoritmo de normalización de imágenes, con el cual se espera generar una imagen con una rotación y escalamiento estandarizados. En capítulo 2 se abordan los elementos que conforman el sistema de visión humano, así como las relaciones y fenómenos que se presentan en el ojo y demás órganos que participan en el sistema. Por otra parte, también se detalla una de las propuestas que se han realizado para modelar el sistema de visión humano y que se utilizará en este trabajo. 1. Introducción 3 En el capítulo 3 se da una breve presentación del concepto de la técnica del marcado de agua, así como de las principales aplicaciones y propiedades. Del mismo modo, también se presentan algunos de los esquemas existentes y desde luego, el tipo de operaciones comunes de procesamiento y ataques a los que la imagen marcada puede ser sometiday que deben ser considerados al diseñar un algoritmo como el que aquí se propone. En el capítulo 4 se detalla la teoría referente a la transformada de Hermite. En primer lugar se explica el concepto de la transformada polinomial en una y dos dimensiones, y enseguida se detalla la transformada de Hermite, la cual es un caso particular de la primera. En esta sección se presentan las expresiones de los filtros de análisis y síntesis, así como las respectivas versiones discretas. El capítulo 5 incluye los algoritmos propuestos para generar la máscara perceptiva, así como el correspondiente para realizar la incrustación y detección de la marca. Además, se presenta el algoritmo adaptado para realizar la normalización de imágenes. Los resultados tomando como métricas el PSNR1 y el MSSIM2, este último más reciente y usado principalmente para evaluar la calidad visual son detallados en el capítulo 6. Desde luego, diferentes tipos de procesamiento y ataques son aplicados con el fin de evaluar la robustez. En el último capítulo se presentan las conclusiones finales referentes al trabajo desarrollado. Adicionalmente se incluyen dos apéndices en los que se detalla con mayor profundidad el mapeo luminancia-brillantez así como la normalización de imágenes empleando momentos geométricos 1 Del inglés Peak Signal-Noise Ratio (Relación señal a ruido). En el capítulo 6 se detallará más al respecto. 2 Del inglés Mean Structural Similarity Index (Índice de similitud estructural media). En el capítulo 6 se detallará más al respecto. 5 2. Sistema de visión humano Comprender la estructura y funcionamiento del sistema de visión humano (SVH), así como de los elementos que lo conforman y las relaciones que suceden internamente, son tareas de alta relevancia al diseñar un algoritmo perceptivo. La mayor parte de los procesos aplicados a material multimedia visual, por ejemplo imágenes y video, tiene como uno de sus objetivos finales obtener un producto que será utilizado o visualizado por un humano. Las cualidades y limitantes del SVH permiten diseñar y construir modelos más adecuados. Por lo que el análisis y aprovechamiento de tales características son tareas importantes para desarrollar un nuevo sistema. Antes de pasar al primer tema, quizá sea apropiado responder a la pregunta que podría surgir al comenzar el estudio del SVH: ¿qué es visión? Para responderla, se retoman las siguientes definiciones realizadas por Skeffington y por Marr. El primero [39] define visión como “un proceso multisensorial, perceptivo, cognoscitivo y cinestético”. Mientras que Marr [27] simplemente la define como una “tarea de procesamiento de información”. Bajo estas ideas se comienza con la descripción de los órganos que participan en el SVH, así como la función que llevan a cabo en este último. 2.1. Anatomía del ojo El ojo humano es un órgano con una tarea bien definida: procesar la luz y convertirla en impulsos eléctricos que el cerebro interpretará para formar una imagen. El ojo humano es una semiesfera (ver figura 2.1) que en promedio mide 24 mm. La pared está formada por tres capas concéntricas [7, 24]. El ojo también cuenta, entre otros, con el cristalino para enfocar la luz sobre la retina, el humor acuoso para separar la córnea de la lente del cristalino y el humor vítreo para mantener la forma del ojo. 2. Sistema de visión humano 6 Figura 2.1. Ojo derecho visto desde la parte superior [7] La capa más externa incluye la córnea y la esclerótica. La esclerótica, cuya forma es una semiesfera, es la estructura de mayor tamaño y tiene la función principal de proteger las demás estructuras. La córnea es transparente y dura, y se encarga de concentrar la luz de forma que pase por la apertura de la pupila. En la capa media se encuentran el iris y la coroides. La función principal del iris es limitar la cantidad de luz que llega a la retina [24]. Este resultado se debe a la alta pigmentación del iris, pues provoca que la luz sólo pueda pasar a través de la pupila. La capa interna contiene uno de los más importantes elementos involucrados en el proceso de visión: la retina. También está en esta capa la fóvea y un punto especial sobre la retina, llamado punto ciego. 2.2. Retina 2.2.1. Organización de la retina La retina contiene las células que se encargan de recibir los estímulos luminosos que serán convertidos en señales nerviosas que son enviadas al cerebro. La parte funcional de la retina cubre toda la porción posterior del ojo excepto el punto ciego, que es la papila del nervio óptico. La agudeza visual es máxima en la parte central de la retina, la mancha amarilla o mácula látea, sobre todo en la fóvea, que es una depresión con forma de fosa en el centro de la mácula donde se enfocan los objetos de mayor interés visual. 2.2. Retina 7 La organización de la retina (figura 2.2) considera varias capas: la pigmentada, la de los fotorreceptores, la nuclear externa, la plexiforme externa, la nuclear interna, la plexiforme interna, la de las células ganglionares, la de las fibras del nervio óptico y la que incluye la membrana limitante interna. Figura 2.2. Capas de la retina [22] Después de haber pasado el sistema de lentes del ojo, la luz pasa a través de tales capas comenzando por la de las células ganglionares y así sucesivamente hasta llegar a las células fotorreceptoras [22], quienes tienen la responsabilidad de capturarla. Existen dos tipos de receptores: los conos y los bastones. 2.2.2. Células de la retina Conos y bastones. Los conos están localizados en la fóvea (figuras 2.1 y 2.3) y son aproximadamente 6,400,000. Son responsables de la visión diurna y también son muy sensibles al color (figura 2.4), pero requieren una mayor intensidad de luz (cientos de fotones de luz). Existen conos sensibles a la luz roja, conos sensibles a la luz verde y conos sensibles a la luz azul [35]. La visión a través de los conos es conocida como visión fotópica. 2. Sistema de visión humano 8 Figura 2.3. Distribución de conos y bastones sobre la retina [19] Por otra parte, distribuidos sobre toda la retina hay alrededor de 110,000,000 a 125,000,000 bastones. Son muy sensibles y pueden reaccionar al estímulo de un solo fotón. La visión que se obtiene es escotópica, es decir permiten la visión nocturna, sin detalles ni color [39]. Figura 2.4. Sensibilidad de los conos y bastones en el ojo [23] Células horizontales. Transmiten señales horizontales en la capa plexiforme externa, de los conos y bastones a las células bipolares. El número y la longitud de las prolongaciones de las células horizontales aumentan desde la retina central hasta la retina periférica [39] Células bipolares. Estas células transmiten señales verticalmente desde los bastones, conos y células horizontales a la capa plexiforme interna, donde establecen sinapsis con células amacrinas o ganglionares [22]. 2.3. La retina y los campos receptivos 9 Células amacrinas. Envían señales en dos direcciones: 1) desde las células bipolares a las células ganglionares, o 2) horizontalmente, dentro de la capa plexiforme, desde los axones de las células bipolares a las dendritas de las células ganglionares o a otras células amacrinas [22]. Células ganglionares. La parte final de la comunicación con el cerebro es realizada por la estas células quienes transmiten las señales salientes de la retina a través del nervio óptico hacia el cerebro [22]. 2.3. La retina y los campos receptivos. Una definición para campo receptivo de un fotorreceptor podría ser: “área circular que coincide con el área de la retina ocupada por dicho fotorreceptor”. En otras palabras, un campo receptivo se refiere a la parte del campo visual al que una célula responde; a la relaciónentre los patrones de la imagen (presentes en el campo receptivo) y la actividad de la célula se le conoce como propiedades del campo receptivo de la célula. Los campos receptivos de las células bipolares y ganglionares de los mamíferos tienen una organización centro-periferia (concéntrica) opuesta. En otras palabras, las células son excitadas por un estímulo en el centro de su campo receptivo e inhibidas por otro estímulo en el área periférica [40]. Sin embargo, no sólo existe la configuración anterior, sino que también puede presentarse el caso complementario, es decir, excitadas por un estímulo en la periferia e inhibidas por un estímulo en el centro. De manera más formal, una célula de encendido central se despolariza cuando la luz incide en el centro de su campo receptivo y se hiperpolariza cuando lo hace en un anillo alrededor del centro de dicho campo. En este caso se dice que el centro del campo receptivo es excitatorio con una periferia inhibitoria (células de centro “ON”). La célula de apagado central se comporta de forma contraria y se dice que el centro es inhibitorio con una periferia excitatoria (células de centro “OFF”). Inhibición lateral Para entender este concepto considérese un campo receptivo centro-periferia, en el que en la periferia se generan señales inhibitorias y en el centro se producen señales excitatorias (imagen de la izquierda en la figura 2.5). La estimulación de los receptores del centro aumenta la respuesta en tanto que la estimulación de los receptores de la periferia la disminuye; en la imagen derecha de la figura 2.5 se muestra el caso en el que un impulso en la periferia provoca una excitación y uno en el centro genera señales inhibitorias. 2. Sistema de visión humano 10 Figura 2.5. Organización de tipo centro-periferia del campo receptivo de las células ganglionares de la retina. Lado izquierdo: célula de encendido central (ON). Lado derecho: célula de apagado central (OFF). Los signos (+) indican excitación y los (-) señalan inhibición [7]. Se pueden identificar dos mecanismos que producen este fenómeno [22]. El primero se debe a las células horizontales, las cuales están conectadas a los conos y bastones, así como a las células bipolares; las señales que salen de las células horizontales siempre son inhibitorias. La inhibición lateral generada con estas células permite la alta precisión visual cuando se transmiten las señales de bordes de la imagen, esto es, se mejora el contraste visual. El segundo mecanismo es proporcionado por las células bipolares. Estás células proveen señales inhibitoria y excitatoria, por lo que pueden polarizarse y despolarizarse. A diferencia del caso de las células horizontales, la inhibición lateral producida a través de las células bipolares permite diferenciar bordes aún cuando está entre dos fotorreceptores, esto quiere decir que opera en distancias menores al primer caso. Tipos de campos receptivos Las células ganglionares pueden clasificarse en tres tipos dependiendo del campo receptivo que poseen y de las funciones que realizan. Hay tres tipos de células ganglionares: W, X e Y [22]. Las células W son pequeñas y constituyen alrededor del 40% del total de células ganglionares. Su función es transmitir señales a las fibras del nervio óptico. Tienen amplios campos receptivos en la retina porque las dendritas de las células ganglionares están distribuidas ampliamente en la capa plexiforme interna. Este tipo es especialmente sensible para detectar movimiento direccional dentro del campo de visión. Las células de tipo X representan aproximadamente el 55%. Estas células tienen campos receptivos pequeños debido a que sus dendritas no están ampliamente esparcidas en la retina y, por lo tanto, a través de ellas es que se transmiten los detalles finos de la imagen percibida. Además, estas células deben ser responsables de toda la visión a color, pues cada una de ellas recibe señales de, al menos, un cono. El resto de células ganglionares, el 5%, son conocidas como células tipo Y. El campo receptivo asociado a estas células es amplio, por 2.3. La retina y los campos receptivos 11 lo que las señales que recibe provienen de áreas extensas de la retina. Responden a cambios rápidos en la imagen, ya sea de movimiento o de iluminación. 2.3.1. Modelos para los campos receptivos El primer paso de procesamiento en muchos métodos usados en visión computacional puede ser modelado como la proyección de la imagen sobre un conjunto de funciones base, y se cree que los sistemas de visión biológicos pueden ser modelados de la misma manera [32]. Rodieck [34] propuso las funciones diferencia de Gaussianas (DoG3). Este modelo consiste en una suma de dos funciones Gaussianas: una estrecha y positiva, y la otra amplia y negativa. La ecuación que representa este modelo es ( ) 212 2 2 2 1 1 22 22 2 1 22 , σσ πσπσ σσ <−= + − + − conegegyxf yxyx (2.1) En la ecuación anterior el primer término está relacionado a la región central del campo receptivo y 1σ es una medida del ancho; el segundo término esta relacionado a la región periférica y 2σ es el ancho respectivo. Por otra parte, otras funciones que han sido utilizadas para modelar los campos receptivos de las células de la retina son las funciones derivadas de Gaussianas, propuestas por Young. Aunque en un principio este modelo sólo incluía el caso 1D, en un trabajo posterior fue ampliado a 2D y 3D: Young demostró que este modelo podía llevarse del dominio espacial al temporal [44]. Otro modelo usado ampliamente en esta área es el modelo de Gabor, el cual consiste de una función Gaussiana modulada por una función exponencial compleja. En general, los modelos de derivadas de Gaussiana y de Gabor proporcionan buenas aproximaciones que minimizan el error residual entre los datos observados y los predichos. Sin embargo, el primero presenta una serie de ventajas, tales como la sencillez matemática, la necesidad de menos parámetros y la relativa facilidad de implementación [44]. 2.4. Fenómenos del sistema de visión Cox et. al. [13] menciona 3 fenómenos básicos del SVH: la sensibilidad, el enmascaramiento y el pooling. A continuación se presenta la descripción de los dos primeros. 3 Del inglés “Difference of Gaussians” 2. Sistema de visión humano 12 2.4.1. Sensibilidad Esta característica se refiere a la respuesta del ojo a un estímulo. Los experimentos se diseñan de modo que a los observadores se les presentan estímulos aislados y se prueba su percepción de dichos estímulos. Sensibilidad a la frecuencia La respuesta del SVH a una señal de entrada es dependiente de la frecuencia. Pueden diferenciarse tres tipos de respuestas: a frecuencias espaciales, a frecuencias espectrales y a frecuencias temporales. Las frecuencias espaciales se presentan en patrones y texturas. La respuesta a este tipo de frecuencia es descrita por la sensibilidad al contraste por luminancia como una función de la frecuencia espacial, la cual se conoce como función de sensibilidad de contraste (CSF4). Esta función puede verse como la sensibilidad del ojo humano a patrones de ondas senoidales a varias frecuencias. De acuerdo a la gráfica mostrada en la figura 2.6, el ojo humano es más sensible a la diferencia de luminancias en un rango intermedio de frecuencias y es menos sensible a altas frecuencias. Figura 2.6. Función de sensibilidad de contraste [13] La gráfica anterior también se conoce como función de transferencia de modulación (MTF5) [43]. En lo que respecta a las frecuencias espectrales, éstas son percibidas como colores. Además, como se vio previamente, el color se percibe mediante tres sistemas o canales. La respuesta a frecuencias bajas (canal azul) es significativamente menor que los otros canales4 Contrast Sensitivity Function, en inglés 5 Modulation Transfer Function, en inglés 2.4. Fenómenos del sistema de visión 13 (verde y rojo). Por otra parte, las frecuencias temporales son percibidas como movimiento o parpadeo. La sensibilidad disminuye muy rápido con frecuencias mayores a 30 [Hz]. Sensibilidad a la brillantez El ojo es menos sensible a cambios en una señal si ésta es muy brillante. Además la sensibilidad a la brillantez no es una función lineal por lo que ha sido modelada con logaritmos, raíces cúbicas, entre otros. En esencia, esta característica determina la detectabilidad de una señal, por ejemplo ruido, sobre un fondo uniforme con cierto nivel de brillantez. 2.4.2. Enmascaramiento Legge y Foley [25] definieron el término enmascaramiento como la interacción o interferencia destructiva entre estímulos muy cercanos en tiempo o espacio. En otras palabras, el enmascaramiento se refiere al hecho de que la presencia de una señal puede ocultar o “enmascarar” la presencia de otra. Este efecto es una prueba de que el contexto afecta la percepción [13]. Otra definición para el mismo efecto y haciendo referencia al caso de estímulos visuales es la que se encuentra en [16] y que dice: “cualquier interferencia entre dos o más señales o estímulos visuales que resultan en un incremento o, en la mayoría de casos, un decremento de su visibilidad”. Existen varios tipos de enmascaramiento: luminancia, contraste, frecuencia, textura, etc. Enmascaramiento por luminancia El enmascaramiento por luminancia quiere decir que una región puede ser modificada si el nivel medio promedio de luminancia es muy bajo (cercano a negro). En caso contrario, es decir con un nivel promedio alto (cercano a blanco), también sucede algo similar, pero en menor grado [10, 42]. La figura 2.7 muestra este efecto. Enmascaramiento por contraste El enmascaramiento por contraste se refiere a la reducción de la visibilidad de un cambio en una cierta frecuencia debido a la energía presente en otra frecuencia. [13]. Un ejemplo de este enmascaramiento se presenta cuando se tienen dos objetos uniformes con ciertos niveles de gris. Si la diferencia de los niveles de gris es muy grande, será sencillo para el ojo discernir entre ambos objetos; por el contrario, si la diferencia es mínima o nula, será muy difícil diferenciar ambos objetos. 2. Sistema de visión humano 14 Figura 2.7. Umbrales de visibilidad en función de la luminancia del fondo. Percibir el ruido en una imagen varía de acuerdo al nivel de luminancia presente, por ejemplo, es más complicado percibirlo si el nivel de luminancia es muy bajo, es decir, si el fondo se aproxima al negro [10]. Enmascaramiento por frecuencia En el caso de frecuencia, la presencia de una frecuencia enmascara la percepción de otra. Por ejemplo, el SVH es menos sensible al contenido de altas frecuencias. Enmascaramiento por textura También podría agregarse el enmascaramiento por textura. Esta característica (también conocida como dependencia al detalle, enmascaramiento espacial o enmascaramiento por actividad) establece que el umbral de discriminación aumenta si el detalle de la imagen también aumenta. Esto quiere decir que entre más fuerte sea la textura, más grande es el umbral de discriminación [37]. 2.4.3. Diferencia apenas notable (JND6) y la ley de Weber Los umbrales JND se estiman a partir de los modelos que representan a las características del SVH. En [13] se menciona que una JND se presenta cuando una distorsión es percibida en el 50% del total de experimentos en un estudio psicofísico. Básicamente, una JND se refiere, como el nombre lo indica, a una diferencia entre dos niveles de estímulo, la cual es apenas percibida por un observador. Los umbrales JND han sido usados con buenos resultados en algoritmos de cuantización y compresión [43]. 6 Del inglés Just Noticiable Difference Umbral de visibilidad Luminancia del fondo 2.4. Fenómenos del sistema de visión 15 Finalmente, la JND está muy relacionada a un concepto de gran importancia: la ley de Weber. Ley de Weber Ernst Weber propuso una regla después de identificar un fenómeno sensorial, el cual consistía en que la magnitud de la diferencia requerida para lograr un cambio perceptible entre dos estímulos estaba relacionada estrechamente a la magnitud del estímulo inicial [37]. En su honor, esta regla es conocida como Ley de Weber y está modelada por la siguiente expresión: k I I = Δ (2.2) donde I es la intensidad del primer estímulo, IΔ es la diferencia requerida para que se perciba un cambio entre ambos estímulos, es decir, es la JND; k es una constante. A partir de la ecuación anterior y haciendo un cambio de variable se puede plantear una nueva expresión que calcule el estímulo percibido [30]: I dIkdS = (2.3) donde S es el estímulo percibido. Integrando la ecuación anterior se obtiene CIkS += ln (2.4) Si no hay estímulo inicial, entonces 0ln IkC −= . Sustituyendo este valor en la ecuación anterior se tiene el estímulo percibido es 0 ln I IkS = (2.5) Debido a que Fechner desarrolló esta ecuación, también es conocida como Ley de Fechner [30]. Esta regla puede ser aplicada a la percepción de la brillantez, sonido, peso y distancia, por mencionar algunos ejemplos. Desde luego el valor de la constante es distinto para cada caso, pero en todas tiende a ser constante. Además, es importante resaltar el hecho de que la percepción de un estímulo es logarítmica. Resulta de mucha importancia señalar que la JND no es una cantidad ni una medida exacta, pues lo que es cierto para un observador puede no serlo para otro. Precisamente, por esta razón es que se considera el 50% del total de experimentos para afirmar que se trata de una JND. 2. Sistema de visión humano 16 A grandes rasgos, estos umbrales indican los cambios en el contenido frecuencial en una determinada banda del espectro. Por debajo de tales umbrales los cambios no son percibidos por un observador, es decir no son notables. 2.5. Modelo visual de Watson Si bien es cierto que el modelo desarrollado por Watson fue desarrollado inicialmente para el área de compresión de imágenes [42], ha servido como referencia para generar algunos esquemas perceptivos de marcado de agua. El objetivo de este modelo es diseñar una matriz de cuantización que se adapte a la imagen es particular, en otras palabras, que sea dependiente de ella. El modelo hace uso de la DCT para determinar una matriz de cuantización optimizada para una imagen particular. De acuerdo a Watson, su método maneja cada coeficiente de la transformada coseno discreta (DCT7) calculada como una aproximación de la respuesta local de un “canal” visual. En la primera parte del método, para una matriz de cuantización dada, los errores de cuantización son ajustados mediante la sensibilidad al contraste, la adaptación a la luz (enmascaramiento por luminancia8) y el enmascaramiento por contraste; los ajustes se efectúan por bloques (de la imagen) de acuerdo a una regla no lineal. Mediante una segunda regla no lineal aplicada sobre la matriz anterior se calcula el error perceptivo total. Para aprovechar la característica de sensibilidad, se define una tabla cuyas celdas indican qué tanto puede modificarse un coeficiente para que produzca una JND. De este modo, un valor pequeño indica que el ojo es más sensible a esa frecuencia. Para generar la tabla, se requieren varios parámetros, por ejemplo la resolución de la imagen y la distancia a la que se observa, entre otros (un ejemplo puede verse en [13]). El enmascaramiento por luminancia permite que un coeficiente DCT sea alterado antes sin ser notado si la intensidad promedio de brillantez del bloque de la imagen en cuestión esmás alta, es decir es más brillante. Matemáticamente, Watson lo logra ajustando los valores de la tabla de sensibilidad de acuerdo al coeficiente DCT de orden 0 (o de DC9) resultando la expresión siguiente 7 Del inglés, Discrete Cosine Transform 8 Según [42], el umbral de detección para un patrón luminoso depende del valor medio local de luminancia de dicha región de la imagen, es decir, entre más brillante sea el fondo, más alto será el umbral. Con la intención de enfatizar la similitud entre este efecto y el enmascaramiento por contraste, Watson lo llama “enmascaramiento por luminancia”. 9 Del inglés, Direct Current. Hace referencia al hecho de que este coeficiente contiene la información de patrones cuya frecuencia es cero, es decir, constante. 2.5. Modelo visual de Watson 17 Ta k ijijk c c tt ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = 00 00 (2.6) donde kc00 es el coeficiente de DC el bloque k de la imagen, 00c es el promedio de los coeficientes de DC de la imagen, Ta controla el nivel de enmascaramiento y ijkt define el umbral de enmascaramiento por luminancia. Entre más brillante sea el umbral mayor será la alteración sin que se note, tal como se mencionó anteriormente. El siguiente paso es calcular el umbral de enmascaramiento por contraste propuesto por Leege y Foley [25], el cual, a su vez, hace uso del umbral anterior. La expresión resultante es [ ]ijij wijkwijkijkijk tctm −⋅= 1,max (2.7) donde ijw es una constante entre 0 y 1, y puede ser distinto para cada coeficiente DCT; Watson fija este valor en 0.7. ijkc es el coeficiente en la posición ( )ji, del bloque k , ijkt es el umbral de enmascaramiento por luminancia correspondiente. Watson afirma que las matrices calculadas de este modo para un cierto número de imágenes muestran una mejoría evidente en comparación de las matrices que son calculadas sin considerar a la imagen. 19 3. Marcado de agua digital El actual desarrollo de las redes de comunicación ha facilitado el libre flujo de material digital y, específicamente, el contenido multimedia, es decir imágenes, video y audio. Sin embargo, con los avances tecnológicos también aparecen nuevos problemas, por ejemplo, la distribución no autorizada o la modificación indebida del material. Un aspecto de particular relevancia que debe resaltarse es el hecho de que un material digital, además de poder copiarse y distribuirse con relativa sencillez, puede ser duplicado de forma perfecta, es decir, sin ningún tipo de perdida ni disminución de calidad. Debido a esta nueva problemática, en los últimos años se ha comenzado a trabajar con el objetivo de brindar un esquema o herramienta que permita proteger la propiedad intelectual y/o autenticar este tipo de material. El marcado de agua digital o watermarking10 parece ser una opción. 3.1. Marcado de agua y esteganografía. Conviene citar algunas definiciones indispensables para este trabajo ya que la existencia de ciertas técnicas, tales como la criptografía y la esteganografía, pueden provocar confusión al diferenciar las características y objetivos de una y otra. La criptografía es una de las técnicas más comunes de protección de contenido digital. Básicamente, consiste en cifrar un material antes de enviarlo a los destinatarios, quienes deberán tener la llave de descifrado. A través de este mecanismo es posible evitar que el contenido sea accesible para personas no autorizadas. Sin embargo, una vez que el material ha llegado a las personas autorizadas, la criptografía ya no puede hacer nada en cuanto al manejo y distribución que se haga del material. En otras palabras, la criptografía sólo protege el material durante el envío o transmisión [13]. Debido a esta limitación de la criptografía es que surge la necesidad de contar con una tecnología que la complemente, es decir que pueda proteger un material después de ser 10 En este trabajo se usará preferentemente el término en español, marcado de agua. 3. Marcado de agua digital 20 descifrado. La tecnología del marcado de agua es una opción que puede satisfacer tal necesidad. La definición de marcado de agua según Cox [13] es la siguiente: “la práctica de alterar, de forma imperceptible, un trabajo para incrustar un mensaje relacionado a dicho trabajo” El término marcado de agua se debe a la práctica que se efectúa con documentos en papel, los cuales son marcados con un símbolo o logo con el mismo fin que en el caso digital. El marcado de agua es una posible solución a los ya mencionados problemas de distribución y modificación no autorizadas de contenido digital. Otro concepto que se debe mencionar que, por el proceso tan similar que tiene, se asemeja en gran medida al marcado de agua es la esteganografía. Esta tecnología se define como: “la práctica de alterar, de forma indetectable, un trabajo para incrustar un mensaje secreto” La esteganografía es una tecnología más reciente que la criptografía y tiene como finalidad proteger la privacidad y la seguridad. A diferencia de la criptografía, la esteganografía no cifra mensajes sino que intenta ocultarlos y evitar que su presencia sea revelada. Por otra parte, diferenciar marcado de agua de esteganografía resulta un poco más complicado pues las dos prácticas incrustan un mensaje en un contenido digital. La diferencia principal entre ambas es el componente de valor primario. En el caso de la esteganografía, el elemento que tiene mayor valor es el mensaje mismo y se considera al contenido o material simplemente como un medio de transporte o transmisión. En el otro caso, el del marcado de agua, el elemento de valor es el contenido y el mensaje sirve para proporcionar información acerca de él [13]. 3.2. Aplicaciones y propiedades El marcado de agua está relacionado a la propiedad intelectual pues cualquier contenido multimedia, como ya se mencionó, puede ser duplicado sin ningún tipo de pérdida y muchas veces sin costo para luego poder distribuirlo sin ninguna restricción. Enseguida se mencionan nuevamente las situaciones específicas en las que el marcado de agua puede representar una solución, en el caso de imágenes digitales. 3.2. Aplicaciones y propiedades 21 Protección de derechos de autor En este caso, una marca digital se incrusta en el contenido multimedia de interés, es decir la imagen, con el objetivo de poder identificar al creador del material, o bien al poseedor de los derechos si es que ha sido comprada. La marca puede ser información, texto o un logo que identifique al dueño de forma única, algo como una huella digital (fingerprinting). En relación a la marca que se incrusta, las marcas de agua pueden ser de dos tipos: visibles o invisibles. Las marcas visibles pueden ser percibidas por un observador humano y las invisibles no son detectadas a simple vista. Por otra parte, la marca debe resistir a procesamientos comunes como la compresión, la cual se realiza, por ejemplo, al guardar una imagen en un formato como JPEG. Lo anterior significa que la marca debe ser robusta. Autenticación de contenido Esta situación se presenta cuando se modifica un material a través de algún programa de software especializado, por lo que es de suma importancia detectar cualquier modificación, incluso las más pequeñas. Mediante el marcado de agua podría garantizarse la integridad del material. Esta restricción implica que la marca debe ser frágil, es decir, la marca debe modificarse ante cualquier procesamiento intencional que sufra la imagen. Otras dos aplicaciones relacionadas son el monitoreo de la distribución del material y el control de copiado. 3.2.1. Propiedades En la sección previa se mencionaron características de la marca, tales como ser invisible o no, robustay frágil. Una descripción más detallada se proporciona enseguida. Visibilidad Indica si una marca puede detectarse a simple vista, por ejemplo un logo. Como se verá más adelante, es deseable que la marca sea invisible o muy poco notoria, pues una de las metas es no degradar la calidad de la imagen que se está protegiendo [12]. 3. Marcado de agua digital 22 Robustez Se dice que una marca es robusta si soporta operaciones que involucran algún tipo de procesamiento común, por ejemplo operaciones de compresión, filtrado, recorte, cambio de dimensiones, etc. La robustez es una propiedad necesaria si se quiere que la marca sea segura. Esto es, si la marca puede ser removida por alguna de las operaciones mencionadas, no puede ser considerada como una marca segura. Remover una marca sin dañar la imagen y lograr que esta modificación no sea detectada debe ser bastante complicado, es decir que antes de eliminar la marca la imagen resulta degradada [12]. Para un observador humano la imagen siempre debe tener una calidad muy buena. Fragilidad Esta característica permite determinar si un contenido ha sido alterado. Si lo que interesa es la autenticidad de algún contenido, idealmente se debería usar una marca frágil, con lo que se podría detectar cualquier modificación del material. Debido a esto, es claro observar que el concepto de fragilidad está estrechamente relacionado con la robustez o, mejor dicho, ambas características se complementan: una marca que no es robusta es frágil. En otros casos, sin embargo, se quiere que el material soporte operaciones de procesamiento común como filtrado o compresión, pero que siga permitiendo detectar otras operaciones como sustitución y/o eliminación de porciones del material; a este tipo de marcas se le conoce como marcas semi-frágiles. Tipo de detección En los algoritmos de marcado de agua, la detección de una marca puede ser ciega o no ciega. La detección ciega no requiere del material original, sólo de la marca que se incrustó. En tanto que la no ciega requiere, además de la marca, la imagen original. Fidelidad De acuerdo a [13], la fidelidad se define como la similitud perceptiva entre el contenido marcado y el original en el momento en el que se presentan a un consumidor. Es decir, esta propiedad describe qué tan imperceptible es una marca. 3.3. Esquemas básicos de marcado de agua 23 Indicar que la fidelidad se debe medir cuando el material llega a un consumidor se debe a que el material marcado pudo haber pasado por un proceso de transmisión que lo haya degradado. Seguridad La seguridad se refiere a la capacidad para resistir ataques maliciosos, es decir, operaciones que específicamente tratan de impedir el propósito de la marca incrustada [13]. Cox [13] señala que la seguridad es una propiedad muy importante que debe tener la marca. Capacidad De acuerdo a Wolfgang [43], esta característica se refiere a la habilidad que tiene un esquema de marcado de agua para distinguir entre diferentes marcas con una baja probabilidad de error conforme el número de versiones marcadas de una imagen aumenta. 3.3. Esquemas básicos de marcado de agua El esquema básico de marcado de agua se basa, a su vez, en un esquema simple de un sistema de comunicaciones (figura 3.1). La justificación para hacer esta consideración es que la práctica de marcado de agua es una forma de comunicación, en el que el mensaje que se transmite es la marca digital [13]. Figura 3.1. Modelo de un canal de comunicaciones con codificación de canal [13] Dos adaptaciones de este modelo se muestran en las figura 3.2 y 3.3. En la primera, el tipo de detección es no ciega, pues no se cuenta con la imagen original al realizar la Codificador de canal + Decodificador de canal Mensaje Mensaje recibido Clave de codificación Clave de decodificación Ruido m x y mn n 3. Marcado de agua digital 24 detección. En tanto que la segunda figura muestra un sistema con una detección ciega, esto es, no se cuenta con la imagen original durante la etapa de detección. Figura 3.2. Sistema de marcado de agua con un detector no ciego [13]. Analizando la figura 3.2, se observa que a partir del mensaje m , y usando una clave, se genera la marca aw ; en el caso de imágenes, aw es un patrón de dos dimensiones del mismo tamaño que la imagen. Cox [13] refiere que la marca aw , por lo general, se obtiene a partir de uno o más patrones generados con la clave. En vista de que la imagen no se usa de ninguna manera en este paso de generación de la marca, el codificador de la marca (localizado en la etapa de incrustación) es ciego (o no informado). Enseguida, la marca aw se suma a la imagen original, con lo que se obtiene la imagen marcada wc . Bajo este esquema, se asume que la imagen marcada es objeto de algún tipo de procesamiento y el efecto es modelado como ruido. La siguiente etapa en este sistema es la detección. Si ésta es no ciega, entonces a la imagen original es restada de la imagen marcada recibida, wmc , para obtener una marca ruidosa, nw . Esta última es decodificada mediante una clave para la marca. Por otra parte, se tiene el caso de la detección ciega. En la figura 3.3 se muestra una versión similar al de la 3.2, pero existe la diferencia de que el material no está disponible en la etapa de detección. Al no contar con la imagen original no es posible obtener la marca calculando la diferencia entre imágenes, tal como se realiza en el caso anterior. Una alternativa para determinar si la marca se encuentra presente es calcular la correlación lineal entre la imagen marcada y la marca. Mensaje Ruido Codificador de la marca + Decodificador de la marca Mensaje recibido Clave para la marca Clave para la marca m wa mn n + - Material original cw cwn wn Incrustación de la marca Detección de la marca co co 3.3. Esquemas básicos de marcado de agua 25 Figura 3.3. Sistema de marcado de agua con un detector ciego [13]. 3.3.1. Esquema con incrustación informada Este modelo propone usar la imagen original para generar la marca que se insertará. Si la imagen original, oc , siempre está disponible, no hay motivo alguno para no usarla para construir una marca dependiente de la imagen. Considerar la imagen original antes de incrustar la imagen permite desarrollar algoritmos mejores y más eficientes. Realizando esta modificación al esquema de la figura 3.3 se obtiene el sistema de la figura 3.4 que se presenta a continuación. Figura 3.4. Sistema de marcado de agua modificado con un detector ciego [13]. Como se observa, la marca aw , efectivamente, se genera a partir del mensaje m , la clave para la marca y la imagen original, oc . Mensaje Ruido Codificador de la marca + Decodificador de la marca Mensaje recibido Clave para la marca Clave para la marca m wa mn n + Material original cw cwn Incrustación de la marca Detección de la marca co Mensaje Ruido Codificador de la marca + Decodificador de la marca Mensaje recibido Clave para la marca Clave para la marca m wa mn n + Material original cw cwn Incrustación de la marca Detección de la marca co 3. Marcado de agua digital 26 Este esquema es, precisamente, el que se toma como base para el algoritmo presentado en este trabajo. 3.4. Marcado de agua perceptivo El marcado de agua perceptivo es un esquema que considera las características del sistema de visión humano (SVH) para generar una marca que explote la información perceptiva. A estas marcas se les conoce como marcas perceptivas [43]. De acuerdo a Wolfgang [43], las marcas perceptivas pueden ser independientes o dependientes de la imagen; las primeras dependen sólo de la función de transferencia
Compartir