Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Anotación automática de textos diacrónicos del español 1 Cristina Sánchez Marco Universidad de Zaragoza crsanche@unizar.es Josep Maria Fontana Universitat Pompeu Fabra josepm.fontana@upf.edu Judith Domingo Barcelona Media Centre d'Innovació judith.domingo@barcelonamedia.org 1. Introducción En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático de un corpus de textos de español antiguo utilizando herramientas de Procesamiento de Lenguaje Natural (en adelante PLN) desarrolladas para el español moderno. Para poder realizar una investigación empírica sobre la evolución histórica de una lengua es fundamental tener un conjunto de textos en los que analizar el fenómeno que pretendemos estudiar. Frente a la tarea del lingüista o filólogo clásico, que consistía en leer cuidadosamente todos los textos y anotar y preparar fichas de cada caso que encontraba, ahora el lingüista puede aprovechar las herramientas de PLN para identificar y extraer los casos del fenómeno con mayor rapidez, así como para realizar análisis cuantitativos de los datos con gran facilidad. El uso de estas herramientas se está extendiendo a todos los ámbitos del estudio lingüístico y entre éstos uno de los que ha experimentado mayor desarrollo en fechas recientes es la constitución de corpus electrónicos para el estudio de la diacronía, véase por ejemplo los trabajos recogidos en Beal, Corrigan y Moisl (2007). Aunque para las grandes lenguas como el inglés, el francés o el español estándar, existen numerosos recursos de este tipo, para el estudio de lenguas minoritarias o de variantes dialectales no estándares de la mayoría de las lenguas no contamos en general con grandes corpus electrónicos y, cuando estos existen, a menudo no están enriquecidos con información morfológica o sintáctica. Un caso muy similar al de las variantes dialectales es el de las variantes diacrónicas. La dificultad fundamental para anotar automáticamente ediciones digitales de textos antiguos con información lingüística estriba sobre todo en adaptar las herramientas de PLN existentes a las particulares características de este tipo de textos. La mayoría de ediciones digitales de textos antiguos con las que trabajan los investigadores se distinguen esencialmente de los textos modernos por la gran variación que manifiestan las grafías de los distintos elementos léxicos y por la incorporación de símbolos especiales con información paleográfica. En este trabajo proponemos un método muy sencillo que consiste en el preprocesamiento de los textos para adaptar la ortografía antigua a la moderna. Con este método, los resultados alcanzan el 91% de precisión en el etiquetado morfológico y la asignación de lemas, lo que supone una mejora de 14 puntos frente a los resultados obtenidos si el etiquetado se hace directamente sobre el texto original. 2. Estado de la cuestión Los dos grandes corpus diacrónicos del español accesibles en la Web para la comunidad investigadora son el Corpus del español 2 , desarrollado por Mark Davies, y el CORDE 3 (Corpus Diacrónico del Español) de la Real Academia Española. El primero de ellos contiene información morfológica pero es muy incompleta en las secciones del corpus que no corresponden al español contemporáneo. Según su autor (comunicación personal), las etiquetas morfológicas introducidas en este corpus se obtuvieron sólo en aquellos casos en que el contexto sintáctico era suficiente para determinar con certeza la categoría de una palabra. Así, por ejemplo, cualquier palabra precedida de un artículo (‘el/la/los/las’) o seguida de ‘que’ es etiquetada como nombre. Utilizando técnicas similares se puede ir ampliando la lista de nombres y también crear listas similares para otras categorías y ahorrarse una gran cantidad de trabajo en comparación con el etiquetado de forma manual. Sin embargo, aunque este método ahorra tiempo con respecto a la anotación totalmente manual, no se ahorra tanto como sería posible si se utilizara una herramienta de anotación automática. Además, es un método no accesible ni reutilizable para la construcción de nuevos recursos y su cobertura en el etiquetado es bastante limitada. El otro gran corpus de textos diacrónicos del español del que disponemos en la actualidad, el CORDE, no está etiquetado. Además, la interfaz sólo permite realizar búsquedas con formas, lo que limita considerablemente al investigador en el tipo de búsquedas que puede realizar. Existen otros corpus diacrónicos del español pero o bien están en construcción o no son de libre acceso. En el caso de otras lenguas peninsulares nos encontramos ante una situación similar. Desde fechas recientes, existe un valioso recurso para el estudio del catalán desde la época medieval hasta el renacimiento: el CICA (Corpus Informatitzat del Català Antic). Al igual que en el caso del CORDE, sin embargo, este corpus no está etiquetado morfológicamente y por tanto su utilidad para los estudios lingüísticos se ve enormemente limitada. La situación es muy distinta para una lengua muy cercana al español y al catalán: el portugués. Los estudiosos de la evolución de esta lengua pueden contar con dos valiosas herramientas: el Corpus do Português 4 , desarrollado por Davies y Ferreira (2006-), con 45 millones de palabras (siglos XIII-XX), y el Tycho Brahe Parsed Corpus of Historical Portuguese, de Galves y Britto (2003). Ambos corpus están etiquetados morfológicamente y el Tycho Brahe está en proceso de ser etiquetado también sintácticamente. Lo que es más relevante desde el punto de vista de nuestro trabajo, sin embargo, es que estos dos corpus han sido etiquetados en su mayor parte de forma manual. Para su etiquetado morfológico se ha empleado una cantidad considerable de recursos económicos y humanos (el Corpus do Português contó con la financiación del National Endowment for the Humanities, NEH) y es el resultado de años de trabajo. Al igual que en el caso del portugués, los estudiosos del inglés antiguo cuentan también con corpus enriquecidos con anotaciones lingüísticas que proporcionan un interesante abanico de posibilidades para el estudio de esta lengua. En el caso del inglés, sin embargo, la anotación de estos corpus ha sido realizada en la mayoría de los casos de forma automática. Básicamente podemos distinguir entre dos estrategias fundamentalmente distintas para la anotación de corpus diacrónicos de esta lengua. Un primer grupo de autores propone un enfoque que se correspondería en grandes líneas con el adoptado en este trabajo. Para estos autores, la estrategia más eficiente consistiría en generar un corpus modernizado paralelo y establecer una relación (mapping) entre la variante antigua y moderna de cada palabra. De esta manera no sería necesario desarrollar ninguna nueva herramienta para el procesamiento de los textos antiguos ya que las etiquetas generadas para cada variante moderna por los etiquetadores morfológicos desarrollados para el inglés actual pueden ser asociadas de manera automática a la variante antigua correspondiente. Esta es la estrategia seguida, por ejemplo, por Susan Fitzmaurice en el Network of Eighteenth-Century English Texts (NEET) (Fitzmaurice 2007). En esta línea han surgido una serie de herramientas de preprocesamiento que facilitan esta tarea, como por ejemplo VARD 2 (ver Rayson, Archer, Baron y Smith 2007 y Baron y Rayson 2008). Aunque los resultados obtenidos con el uso de estas herramientas, basadas en los métodos y técnicas empleadas en los correctores ortográficos, son prometedores, todavía no se pueden aplicar a otras lenguas con unos resultados óptimos. El hecho de que el español sea una lengua más flexiva que el inglés, por ejemplo, hace que el algoritmo utilizado para crear las variantes del inglés deba ser modificado considerablemente para poder ser utilizado de maneraefectiva en el establecimiento de correspondencias en esta lengua. Véase por ejemplo en este sentido las alternativas propuestas para el alemán por Ernst-Gerlach y Fuhr (2007) y Pilz, Ernst-Gerlach, Kempken, Rayson y Archer (2008). En contraposición a esta línea, otros proyectos de desarrollo de corpus han seguido el camino abierto por los investigadores que desarrollaron el sistema de anotación automática para el Helsinki Corpus of English Texts, véase Kytö y Voutilainen (1995), Kytö (1996), y Kytö y Voutilainen (1998). En líneas generales, los partidarios de este segundo enfoque optaron por el uso de etiquetadores o analizadores probabilísticos seguidos de un proceso posterior de corrección manual. Esta es la estrategia seguida, por ejemplo, en la anotación del Penn-Helsinki Parsed Corpus of Middle English II (PPCME2), el Corpus of Early English Correspondence (CEEC), el York-Helsinki Parsed Corpus of Old English Poetry y del Penn-Helsinki Parsed Corpus of Early Modern English (Pintzuk y Taylor 1996; Taylor 1998). En el caso del York-Toronto-Helsinki Parsed Corpus of Old English Prose se utilizaron herramientas como el Brill tagger y el Collins parser. La estrategia que hemos adoptado en nuestro proyecto es una combinación de los métodos utilizados en estos dos enfoques. Por un lado, hemos creado una versión moderna del texto mediante el uso de scripts que efectúan las transformaciones ortográficas pertinentes y después hemos aplicado un etiquetador probabilístico (Freeling 5 ). 3. Corpus El corpus de textos diacrónicos con el que trabajamos está formado por un conjunto de ediciones electrónicas semipaleográficas realizadas por el Hispanic Seminary of Medieval Studies (Ltd. Madison, Wisconsin), con textos desde el siglo XII hasta el XVI que conjuntamente contienen más de 20 millones de palabras. 4. Método El método, como hemos esbozado más arriba, consiste en preprocesar el texto para generar una versión "modernizada" del mismo en la que una buena parte de las palabras han sido substituidas por las variantes ortográficas del español actual. De esta manera se facilita la anotación lingüística con la ayuda de un etiquetador para el español estándar y posteriormente se asocian las etiquetas obtenidas con las palabras en su forma original. La Figura 1 presenta la arquitectura desarrollada. A continuación mostramos el método de preprocesamiento. Figura 1. Arquitectura para el procesamiento del corpus diacrónico del español. 4.1. Preparación del texto En primer lugar se eliminan los símbolos paleográficos de la edición crítica original, ya que en la edición original, semipaleográfica, el texto está anotado con comentarios sobre las imágenes, titulares, rotos de los manuscritos, y con información sobre palabras contraídas, suprimidas, etc. (ver Figura 2) 6 . Figura 2. Aspecto original del texto. Fragmento de la General Estoria de Alfonso X el Sabio. 4.2. Transformaciones sistemáticas Una vez eliminados los símbolos paleográficos, se procede a transformar los bigramas y trigramas silábicos que no son propios del español en sus variantes modernas. La Tabla 1 muestra algunos ejemplos. Tabla 1. Ejemplos de transformaciones sistemáticas. Para definir estas transformaciones regulares nos hemos basado en el estudio de las reformas ortográficas que se realizaron para el castellano desde el siglo XIII durante el reinado de Alfonso X el Sabio y desde el siglo XVIII a partir de la fundación de la Real Academia Española, y en las grafías observadas en los textos medievales, véase Sánchez-Prieto Borja (2005). Hemos identificado 49 transformaciones ortográficas que se pueden realizar de manera ciega. Estas transformaciones son regulares, esto es, se aplican independientemente de la palabra. En general son también independientes del contexto morfofonológico, aunque el 18% de ellas están restringidas a inicio o final de palabra (ver por ejemplo últimas dos filas de la Tabla 1). 4.3. Transformaciones léxicas El tercer paso consiste en reemplazar directamente variantes antiguas por variantes modernas, para el caso en que las variaciones ortográficas no sean regulares. Por la ley de Zipf (Zipf 1935 y 1949), hay un número extremadamente reducido de palabras que aparecen con frecuencia alta. Por tanto, aunque es una tarea que implica un cierto coste, con un esfuerzo relativamente pequeño se solucionan un gran número de ocurrencias. A partir de un diccionario de frecuencias extraído del corpus formado por los textos originales, se han identificado manualmente las variantes antiguas y su correspondiente variante moderna para las 7.000 formas más frecuentes (el 1,9% de los tipos del corpus). Entre las transformaciones léxicas se distinguen (a) transformaciones de palabras en las que una o varias letras varían (p.ej. breue → breve, fuyeron → huyeron), (b) transformaciones de palabras sin el acento que les corresponde según las reglas ortográficas actuales (p.ej. consul → cónsul, perdon → perdón), (c) transformaciones de formas aglutinadas en castellano antiguo (p.ej. quelos → que los, conel → con el) y, por último, (d) transformaciones de palabras que no existen en español actual y para las que se ha buscado su equivalente moderno (p.ej. maguer → aunque, et → y). 5. Evaluación La evaluación del etiquetado del corpus, realizada sobre el corpus en el que las variantes ortográficas han sido normalizadas, se ha hecho sobre dos textos del corpus representativos de diferentes épocas, uno del siglo XIII y otro del XVI 7 . En la Tabla 2 se resumen los resultados obtenidos en términos de porcentaje de precisión. Lo primero que se puede observar es que los resultados sin preprocesar ya serían útiles para muchos propósitos, pues se obtiene un 77% de precisión en la etiqueta morfológica y un 76% en el lema. Tabla 2. Resultados de la evaluación. Como se puede ver en la tabla, con el sencillo método empleado se mejoran mucho los resultados: el porcentaje de precisión en la identificación de la categoría morfológica y del lema mejora hasta llegar al 91%. 6. Análisis de errores Para definir los siguientes pasos en el desarrollo de la anotación del corpus diacrónico, es necesario averiguar qué porcentaje de los errores se debe a diferencias ortográficas y léxicas no solucionadas, y qué parte se debe a errores del etiquetador. El análisis de errores realizado sobre el texto del siglo XIII revela que un 82% de los errores se dan en palabras que no están modernizadas (por ejemplo, palabras que aparecen sin acento gráfico en los manuscritos como segun, razon o podra o ciertas formas verbales como iugar, parescie o troxo). En estos errores se observaron regularidades que si se tratan de manera adecuada en el script permitirían mejorar el resultado en el etiquetado. Un caso más complejo lo presentan los posibles errores de acentuación (como en el caso del adverbio mas por más) para cuya resolución se precisa de información contextual, pues las dos formas existen en el español moderno (mas conjunción vs. más adverbio). 7. Interfaz de acceso al corpus (IAC) Para facilitar la explotación de nuestro Corpus Diacrónico hemos utilizado una interfaz de acceso a corpus desarrollada por Barcelona Media-Centre d’Innovació 8 . Esta interfaz fue creada para facilitar a los investigadores del departamento de Traducción y Ciencias del Lenguaje de la Universitat Pompeu Fabra la explotación de los corpus (monolingües y bilingües) con los que trabajan. IAC es una interfaz multilingüe (catalán, español e inglés) y dinámica, que se adapta a las necesidades de cada corpus. El propietario del corpus puede diseñar la interfaz de consulta de manera cómoda y sencilla mediante una herramienta propia de IAC y posteriormente IAC indexa el corpus y generaautomáticamente la interfaz de consulta para los usuarios. Todas las interfaces de IAC disponen de tres modos de búsqueda: 'búsqueda simple' para buscar una palabra de forma rápida, 'búsqueda avanzada' que permite realizar búsquedas complejas de combinaciones de palabras, y un modo adicional que permite obtener resultados estadísticos. Figura 3. Búsqueda avanzada: Verbo 'tener' + Verbo Participio. Figura 4. Búsqueda estadística: Verbo 'pensar' + Preposición. Como ejemplo de búsqueda avanzada, se puede observar la Figura 3. En esta consulta se ha buscado el verbo 'tener' seguido de un participio en los textos del corpus. En la Figura 4 se puede ver el análisis estadístico realizado sobre los resultados de una consulta sobre el régimen preposicional del verbo 'pensar'. El resultado es una tabla con las frecuencias con las que el lema 'pensar' aparece asociado a distintas preposiciones. También se pueden consultar los ejemplos asociados a cada una de estas frecuencias. 8. Trabajo futuro y conclusiones En este artículo hemos presentado un método para procesar un corpus diacrónico del español con herramientas de PLN estándar. La automatización de la anotación lingüística de los textos digitales es extremadamente útil para aproximaciones empíricas al estudio diacrónico de la lengua, ya que para corpus medianos como el nuestro, de más de 20 millones de palabras, la anotación manual sería demasiado costosa. La estrategia que hemos desarrollado es en cierta manera un híbrido de los métodos utilizados para la anotación de algunos de los corpus diacrónicos del inglés. Por un lado, conlleva realizar una versión moderna paralela del corpus antiguo (a partir de las transformaciones de las variantes antiguas en modernas). Por otro, hace uso de un procesador lingüístico de la lengua estándar. Con esta estrategia, el nivel de precisión obtenido es del 91% para las categorías morfológicas y los lemas. Para muchos de los estudios que pueden realizarse sobre corpus diacrónicos este nivel de precisión sería suficientemente satisfactorio. En todo caso, si se procediera en este punto a la revisión manual de los errores, esto implicaría ya un enorme ahorro de tiempo y esfuerzo en relación a un proceso que hubiera implicado la anotación lingüística de los textos de una manera totalmente manual. Creemos, sin embargo, que con la introducción de algunos cambios en la estrategia general adoptada, los resultados podrían acercarse mucho más al nivel de precisión de los etiquetadores desarrollados para la lengua estándar, que, en este momento, es aproximadamente de un 95%. En primer lugar, el análisis de errores ha revelado que las diferencias ortográficas y léxicas entre el español antiguo y el moderno son todavía responsables de la mayoría de los errores generados en la anotación automática de los textos evaluados. Estos errores se propagan a otros niveles de anotación (sintáctica, semántica), por lo que es importante reducirlos al máximo. Además, muchos de los errores presentan regularidades (acentuación, morfemas de creación de adverbios, etc.) que se podrían explotar para poder generalizar más adecuadamente a casos no cubiertos en las transformaciones léxicas. Otra línea de trabajo con la que esperamos obtener mejores resultados es a través de la modificación de los diccionarios y de otros módulos incluidos en la herramienta de PLN que hemos utilizado. La ampliación de los diccionarios y de las listas de sufijos utilizados con información morfológica específica del español antiguo así como la incorporación de nuevas reglas de desambiguación puede contribuir a una mejora sustancial en los procesos de lematización e identificación de las categorías morfosintácticas apropiadas. La ventaja de utilizar herramientas de código abierto como Freeling es que éstas pueden ser libremente modificadas y adaptadas a las necesidades específicas de los usuarios. Para mantener la información paleográfica en la anotación de los textos, vamos a utilizar un tipo de representación externa de las anotaciones. En esta representación el texto original no sufre ninguna modificación, y cada tipo de anotación (en nuestro corpus, la información paleográfica, las categorías morfológicas y los lemas) está almacenado de manera independiente, y unido al original por medio de los indicadores adecuados. La ventaja fundamental de este tipo de representación es que el texto original no es modificado. El desarrollo de herramientas de anotación adaptadas a las características de los textos antiguos del español y de modelos de representación adecuados permitirán a los investigadores crear nuevos corpus y recursos para el estudio de la diacronía del español con una inversión considerablemente menor de tiempo y recursos humanos y económicos. Estos corpus y recursos a su vez posibilitarán el estudio de la historia de la lengua española en condiciones similares a las que ahora es posible hacerlo para el estudio de lenguas como el inglés, abriendo así nuevas vías de investigación en áreas como la sintaxis o la semántica diacrónica en las que ahora resulta muy difícil o imposible trabajar con la profundidad y el rigor necesarios. Corpus bibliográfico Alfonso X, El Sabio, General Estoria I. Edición paleográfica de Llyod Kasten, John Nitti, y Wilhemina Jonxis-Henkemens, The Electronic Texts and Concordances of the Prose Works of Alfonso X, El Sabio, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997. Alfonso X, El Sabio, Libros de ajedrez, dados y tablas. Edición paleográfica de Llyod Kasten, John Nitti, y Wilhemina Jonxis-Henkemens, The Electronic Texts and Concordances of the Prose Works of Alfonso X, El Sabio, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997. La Celestina, edición paleográfica de Ivy A. Corfis y John O'Neill, Early Celestina Electronic Texts and Concordances, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997. Referencias bibliográficas (1) Baron, Alistair y Paul Rayson (2008): "VARD 2: A tool for dealing with spelling variation in historical corpora", en Proceedings of the Postgraduate Conference in Corpus Linguistics. Birmingham, UK: Aston University. (2) Beal, Joan C., Karen P. Corrigan y Hermann L. Moisl (2007): Creating and Digitizing Language Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan. (3) Davies, Mark (2002-): Corpus del Español (100 millones de palabras, 1200s-1900s). Disponible online en http://www.corpusdelespanol.org. (4) Davies, Mark y Michael Ferreira (2006-): Corpus do Português (45 millones de palabras, 1300s-1900s). Disponible online en http://www.corpusdoportugues.org. (5) Ensslin, Astrid, Martin Durrell y Paul Bennett (2006): "Towards a Methodology for constructing and Annotating Historical Corpora", en 4th Days of Swiss Linguistics Conference. Switzerland: University of Basel. (6) Ernst-Gerlach, Andrea y Norbert Fuhr (2007): "Retrieval in text collections with historic spelling using linguistic and spelling variants", en Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries (JCDL), Vancouver, BC, Canada. New York: ACM, pp. 333 - 341. (7) Fitzmaurice, Susan M. (2007): "Questions of Standardization and Representativeness in the Development of Social Networks Based Corpora: The Story of the Network of Eighteenth-Century English Texts", en J.C. Beal, K. P. Corrigan y H. L. Moisl (eds.): Creating and Digitizing Language Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan. (8) Galves, Charlotte y Britto, Helena (2003): "A Construção do Corpus Anotado do Português Histórico Tycho Brahe: o sistema de anotação morfológica". Disponible online en http://www.ime.usp.br/~tycho/participants/c_galves/galves_e_britto.htm. (9) Kytö, Merja y Atro Voutilainen(1995): "Applying the Constraint Grammar Parser of English to the Helsinki Corpus", ICAME Journal, 19, pp. 23-48. (10) Kytö, Merja (1996): Manual to the Diachronic Part of the Helsinki Corpus of English Texts: Coding Conventions and Lists of Source Texts. Helsinki: University of Helsinki, Department of English. (11) Kytö, Merja y Atro Voutilainen (1998): "Backdating the English Constraint Grammar Parser for the Analysis of English Historical Texts", Historical Linguistics 2, pp. 149–166. (12) Pilz, Thomas, Andrea Ernst-Gerlach, Sebastian Kempken, Paul Rayson y Dawn Archer (2008): "The identification of spelling variants in English and German historical texts: manual or automatic", Literary and Linguistic Computing 23(1), pp. 65-72. (13) Pintzuk, Susan y Ann Taylor (1996): "Annotating the Helsinki corpus: The Brooklyn-Geneva- Amsterdam-Helsinki Parsed Corpus of Old English and the Penn-Helsinki Parsed Corpus of Middle English", en R. Hickey, M. Kyto, y M. Rissanen (eds.): Tracing the Trail of Time. Proceedings from the Toronto Conference on Diachronic Corpora, May 1995. Amsterdam: Rodopi. (14) Rayson, Paul, Dawn Archer, Alistair Baron, y Nicholas Smith (2007): "Tagging historical corpora - the problem of spelling variation", en Proceedings of Digital Historical Corpora, Dagstuhl-Seminar 06491, International Conference and Research Center for Computer Science. Wadern: Schloss Dagstuhl. (15) Sánchez-Prieto Borja, Pedro (2005): "La normalización del castellano escrito en el siglo XIII. Los caracteres de la lengua: grafías y fonemas", en R. Cano (coord.): Historia de la lengua española. Barcelona: Ariel, pp. 423-448. (16) Taylor, Ann (2007): "The York-Toronto-Helsinki Parsed Corpus of Old English Prose", en Beal, J.C., K. Corrigan, and H. Moisl (eds.) Using unconventional digital language corpora, Vol.2. Basingstoke: Palgrave-Macmillan. (17) Zipf, George K. (1949): Human Behavior and the Principle of Least-Effort. Cambridge: Addison-Wesley Press. (18) Zipf, George K. (1935): The Psychobiology of Language. Boston: Houghton Mifflin. 1 Este trabajo ha sido realizado en parte gracias a una beca FPU (AP2006-03547) de la Secretaría de Estado de Universidades e Investigación del Ministerio de Ciencia e Innovación. Agradecemos a Valentin Oriol y especialmente a Gemma Boleda sus comentarios sobre el contenido del artículo y el método de preprocesamiento desarrollado. Los errores que pueda haber en el artículo quedan bajo nuestra responsabilidad, como autores del mismo. 2 http://www.corpusdelespanol.org 3 http://www.rae.es 4 http://www.corpusdoportugues.org 5 http://garraf.epsevg.upc.es/freeling 6 Esta información se recuperará posteriormente para que sea accesible en las búsquedas. Véase la referencia al método de anotación externa en el apartado 8 de este trabajo. 7 Texto del siglo XIII de Alfonso X el Sabio, Libros de ajedrez, dados y tablas, 1283. Texto del siglo XVI de La Celestina. 8 http://www.barcelonamedia.org/
Compartir