Logo Studenta

Anotacion_automatica_de_textos_diacronic

¡Este material tiene más páginas!

Vista previa del material en texto

Anotación automática de textos diacrónicos del español
1
 
Cristina Sánchez Marco 
Universidad de Zaragoza 
crsanche@unizar.es 
 
Josep Maria Fontana 
Universitat Pompeu Fabra 
josepm.fontana@upf.edu 
 
Judith Domingo 
Barcelona Media Centre d'Innovació 
judith.domingo@barcelonamedia.org 
 
1. Introducción 
En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático de un 
corpus de textos de español antiguo utilizando herramientas de Procesamiento de Lenguaje Natural 
(en adelante PLN) desarrolladas para el español moderno. 
Para poder realizar una investigación empírica sobre la evolución histórica de una lengua es 
fundamental tener un conjunto de textos en los que analizar el fenómeno que pretendemos estudiar. 
Frente a la tarea del lingüista o filólogo clásico, que consistía en leer cuidadosamente todos los 
textos y anotar y preparar fichas de cada caso que encontraba, ahora el lingüista puede aprovechar 
las herramientas de PLN para identificar y extraer los casos del fenómeno con mayor rapidez, así 
como para realizar análisis cuantitativos de los datos con gran facilidad. El uso de estas 
herramientas se está extendiendo a todos los ámbitos del estudio lingüístico y entre éstos uno de los 
que ha experimentado mayor desarrollo en fechas recientes es la constitución de corpus electrónicos 
para el estudio de la diacronía, véase por ejemplo los trabajos recogidos en Beal, Corrigan y Moisl 
(2007). 
Aunque para las grandes lenguas como el inglés, el francés o el español estándar, existen numerosos 
recursos de este tipo, para el estudio de lenguas minoritarias o de variantes dialectales no estándares 
de la mayoría de las lenguas no contamos en general con grandes corpus electrónicos y, cuando 
estos existen, a menudo no están enriquecidos con información morfológica o sintáctica. Un caso 
muy similar al de las variantes dialectales es el de las variantes diacrónicas. 
La dificultad fundamental para anotar automáticamente ediciones digitales de textos antiguos con 
información lingüística estriba sobre todo en adaptar las herramientas de PLN existentes a las 
particulares características de este tipo de textos. La mayoría de ediciones digitales de textos 
antiguos con las que trabajan los investigadores se distinguen esencialmente de los textos modernos 
por la gran variación que manifiestan las grafías de los distintos elementos léxicos y por la 
incorporación de símbolos especiales con información paleográfica. En este trabajo proponemos un 
método muy sencillo que consiste en el preprocesamiento de los textos para adaptar la ortografía 
antigua a la moderna. Con este método, los resultados alcanzan el 91% de precisión en el etiquetado 
morfológico y la asignación de lemas, lo que supone una mejora de 14 puntos frente a los resultados 
obtenidos si el etiquetado se hace directamente sobre el texto original. 
 
2. Estado de la cuestión 
Los dos grandes corpus diacrónicos del español accesibles en la Web para la comunidad 
investigadora son el Corpus del español
2
, desarrollado por Mark Davies, y el CORDE
3
 (Corpus 
Diacrónico del Español) de la Real Academia Española. El primero de ellos contiene información 
morfológica pero es muy incompleta en las secciones del corpus que no corresponden al español 
contemporáneo. Según su autor (comunicación personal), las etiquetas morfológicas introducidas en 
este corpus se obtuvieron sólo en aquellos casos en que el contexto sintáctico era suficiente para 
determinar con certeza la categoría de una palabra. Así, por ejemplo, cualquier palabra precedida de 
un artículo (‘el/la/los/las’) o seguida de ‘que’ es etiquetada como nombre. Utilizando técnicas 
similares se puede ir ampliando la lista de nombres y también crear listas similares para otras 
categorías y ahorrarse una gran cantidad de trabajo en comparación con el etiquetado de forma 
manual. Sin embargo, aunque este método ahorra tiempo con respecto a la anotación totalmente 
manual, no se ahorra tanto como sería posible si se utilizara una herramienta de anotación 
automática. Además, es un método no accesible ni reutilizable para la construcción de nuevos 
recursos y su cobertura en el etiquetado es bastante limitada. 
El otro gran corpus de textos diacrónicos del español del que disponemos en la actualidad, el 
CORDE, no está etiquetado. Además, la interfaz sólo permite realizar búsquedas con formas, lo que 
limita considerablemente al investigador en el tipo de búsquedas que puede realizar. Existen otros 
corpus diacrónicos del español pero o bien están en construcción o no son de libre acceso. 
En el caso de otras lenguas peninsulares nos encontramos ante una situación similar. Desde fechas 
recientes, existe un valioso recurso para el estudio del catalán desde la época medieval hasta el 
renacimiento: el CICA (Corpus Informatitzat del Català Antic). Al igual que en el caso del CORDE, 
sin embargo, este corpus no está etiquetado morfológicamente y por tanto su utilidad para los 
estudios lingüísticos se ve enormemente limitada. La situación es muy distinta para una lengua muy 
cercana al español y al catalán: el portugués. Los estudiosos de la evolución de esta lengua pueden 
contar con dos valiosas herramientas: el Corpus do Português
4
, desarrollado por Davies y Ferreira 
(2006-), con 45 millones de palabras (siglos XIII-XX), y el Tycho Brahe Parsed Corpus of 
Historical Portuguese, de Galves y Britto (2003). Ambos corpus están etiquetados 
morfológicamente y el Tycho Brahe está en proceso de ser etiquetado también sintácticamente. Lo 
que es más relevante desde el punto de vista de nuestro trabajo, sin embargo, es que estos dos 
corpus han sido etiquetados en su mayor parte de forma manual. Para su etiquetado morfológico se 
ha empleado una cantidad considerable de recursos económicos y humanos (el Corpus do 
Português contó con la financiación del National Endowment for the Humanities, NEH) y es el 
resultado de años de trabajo. 
Al igual que en el caso del portugués, los estudiosos del inglés antiguo cuentan también con corpus 
enriquecidos con anotaciones lingüísticas que proporcionan un interesante abanico de posibilidades 
para el estudio de esta lengua. En el caso del inglés, sin embargo, la anotación de estos corpus ha 
sido realizada en la mayoría de los casos de forma automática. Básicamente podemos distinguir 
entre dos estrategias fundamentalmente distintas para la anotación de corpus diacrónicos de esta 
lengua. Un primer grupo de autores propone un enfoque que se correspondería en grandes líneas 
con el adoptado en este trabajo. Para estos autores, la estrategia más eficiente consistiría en generar 
un corpus modernizado paralelo y establecer una relación (mapping) entre la variante antigua y 
moderna de cada palabra. De esta manera no sería necesario desarrollar ninguna nueva herramienta 
para el procesamiento de los textos antiguos ya que las etiquetas generadas para cada variante 
moderna por los etiquetadores morfológicos desarrollados para el inglés actual pueden ser asociadas 
de manera automática a la variante antigua correspondiente. Esta es la estrategia seguida, por 
ejemplo, por Susan Fitzmaurice en el Network of Eighteenth-Century English Texts (NEET) 
(Fitzmaurice 2007). 
En esta línea han surgido una serie de herramientas de preprocesamiento que facilitan esta tarea, 
como por ejemplo VARD 2 (ver Rayson, Archer, Baron y Smith 2007 y Baron y Rayson 2008). 
Aunque los resultados obtenidos con el uso de estas herramientas, basadas en los métodos y 
técnicas empleadas en los correctores ortográficos, son prometedores, todavía no se pueden aplicar 
a otras lenguas con unos resultados óptimos. El hecho de que el español sea una lengua más flexiva 
que el inglés, por ejemplo, hace que el algoritmo utilizado para crear las variantes del inglés deba 
ser modificado considerablemente para poder ser utilizado de maneraefectiva en el establecimiento 
de correspondencias en esta lengua. Véase por ejemplo en este sentido las alternativas propuestas 
para el alemán por Ernst-Gerlach y Fuhr (2007) y Pilz, Ernst-Gerlach, Kempken, Rayson y Archer 
(2008). 
En contraposición a esta línea, otros proyectos de desarrollo de corpus han seguido el camino 
abierto por los investigadores que desarrollaron el sistema de anotación automática para el Helsinki 
Corpus of English Texts, véase Kytö y Voutilainen (1995), Kytö (1996), y Kytö y Voutilainen 
(1998). En líneas generales, los partidarios de este segundo enfoque optaron por el uso de 
etiquetadores o analizadores probabilísticos seguidos de un proceso posterior de corrección 
manual. Esta es la estrategia seguida, por ejemplo, en la anotación del Penn-Helsinki Parsed 
Corpus of Middle English II (PPCME2), el Corpus of Early English Correspondence (CEEC), el 
York-Helsinki Parsed Corpus of Old English Poetry y del Penn-Helsinki Parsed Corpus of Early 
Modern English (Pintzuk y Taylor 1996; Taylor 1998). En el caso del York-Toronto-Helsinki 
Parsed Corpus of Old English Prose se utilizaron herramientas como el Brill tagger y el Collins 
parser. 
La estrategia que hemos adoptado en nuestro proyecto es una combinación de los métodos 
utilizados en estos dos enfoques. Por un lado, hemos creado una versión moderna del texto 
mediante el uso de scripts que efectúan las transformaciones ortográficas pertinentes y después 
hemos aplicado un etiquetador probabilístico (Freeling
5
). 
 
3. Corpus 
El corpus de textos diacrónicos con el que trabajamos está formado por un conjunto de ediciones 
electrónicas semipaleográficas realizadas por el Hispanic Seminary of Medieval Studies (Ltd. 
Madison, Wisconsin), con textos desde el siglo XII hasta el XVI que conjuntamente contienen más 
de 20 millones de palabras. 
 
4. Método 
El método, como hemos esbozado más arriba, consiste en preprocesar el texto para generar una 
versión "modernizada" del mismo en la que una buena parte de las palabras han sido substituidas 
por las variantes ortográficas del español actual. De esta manera se facilita la anotación lingüística 
con la ayuda de un etiquetador para el español estándar y posteriormente se asocian las etiquetas 
obtenidas con las palabras en su forma original. La Figura 1 presenta la arquitectura desarrollada. A 
continuación mostramos el método de preprocesamiento. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 1. Arquitectura para el procesamiento del corpus diacrónico del español. 
4.1. Preparación del texto 
En primer lugar se eliminan los símbolos paleográficos de la edición crítica original, ya que en la 
edición original, semipaleográfica, el texto está anotado con comentarios sobre las imágenes, 
titulares, rotos de los manuscritos, y con información sobre palabras contraídas, suprimidas, etc. 
(ver Figura 2)
6
. 
 
 
 
 
 
 
 
 
Figura 2. Aspecto original del texto. Fragmento de la General Estoria de Alfonso X el Sabio. 
4.2. Transformaciones sistemáticas 
 
 
Una vez eliminados los símbolos paleográficos, se procede a transformar los bigramas y trigramas 
silábicos que no son propios del español en sus variantes modernas. La Tabla 1 muestra algunos 
ejemplos. 
 
 
 
 
 
Tabla 1. Ejemplos de transformaciones sistemáticas. 
Para definir estas transformaciones regulares nos hemos basado en el estudio de las reformas 
ortográficas que se realizaron para el castellano desde el siglo XIII durante el reinado de Alfonso X 
el Sabio y desde el siglo XVIII a partir de la fundación de la Real Academia Española, y en las 
grafías observadas en los textos medievales, véase Sánchez-Prieto Borja (2005). 
Hemos identificado 49 transformaciones ortográficas que se pueden realizar de manera ciega. Estas 
transformaciones son regulares, esto es, se aplican independientemente de la palabra. En general 
son también independientes del contexto morfofonológico, aunque el 18% de ellas están 
restringidas a inicio o final de palabra (ver por ejemplo últimas dos filas de la Tabla 1). 
4.3. Transformaciones léxicas 
El tercer paso consiste en reemplazar directamente variantes antiguas por variantes modernas, para 
el caso en que las variaciones ortográficas no sean regulares. Por la ley de Zipf (Zipf 1935 y 1949), 
hay un número extremadamente reducido de palabras que aparecen con frecuencia alta. Por tanto, 
aunque es una tarea que implica un cierto coste, con un esfuerzo relativamente pequeño se 
solucionan un gran número de ocurrencias. 
A partir de un diccionario de frecuencias extraído del corpus formado por los textos originales, se 
han identificado manualmente las variantes antiguas y su correspondiente variante moderna para las 
7.000 formas más frecuentes (el 1,9% de los tipos del corpus). Entre las transformaciones léxicas se 
 
distinguen (a) transformaciones de palabras en las que una o varias letras varían (p.ej. breue → 
breve, fuyeron → huyeron), (b) transformaciones de palabras sin el acento que les corresponde 
según las reglas ortográficas actuales (p.ej. consul → cónsul, perdon → perdón), (c) 
transformaciones de formas aglutinadas en castellano antiguo (p.ej. quelos → que los, conel → con 
el) y, por último, (d) transformaciones de palabras que no existen en español actual y para las que se 
ha buscado su equivalente moderno (p.ej. maguer → aunque, et → y). 
5. Evaluación 
La evaluación del etiquetado del corpus, realizada sobre el corpus en el que las variantes 
ortográficas han sido normalizadas, se ha hecho sobre dos textos del corpus representativos de 
diferentes épocas, uno del siglo XIII y otro del XVI
7
. 
En la Tabla 2 se resumen los resultados obtenidos en términos de porcentaje de precisión. Lo 
primero que se puede observar es que los resultados sin preprocesar ya serían útiles para muchos 
propósitos, pues se obtiene un 77% de precisión en la etiqueta morfológica y un 76% en el lema. 
 
 
 
Tabla 2. Resultados de la evaluación. 
Como se puede ver en la tabla, con el sencillo método empleado se mejoran mucho los resultados: 
el porcentaje de precisión en la identificación de la categoría morfológica y del lema mejora hasta 
llegar al 91%. 
6. Análisis de errores 
Para definir los siguientes pasos en el desarrollo de la anotación del corpus diacrónico, es necesario 
averiguar qué porcentaje de los errores se debe a diferencias ortográficas y léxicas no solucionadas, 
y qué parte se debe a errores del etiquetador. El análisis de errores realizado sobre el texto del siglo 
XIII revela que un 82% de los errores se dan en palabras que no están modernizadas (por ejemplo, 
palabras que aparecen sin acento gráfico en los manuscritos como segun, razon o podra o ciertas 
 
formas verbales como iugar, parescie o troxo). En estos errores se observaron regularidades que si 
se tratan de manera adecuada en el script permitirían mejorar el resultado en el etiquetado. Un caso 
más complejo lo presentan los posibles errores de acentuación (como en el caso del adverbio mas 
por más) para cuya resolución se precisa de información contextual, pues las dos formas existen en 
el español moderno (mas conjunción vs. más adverbio). 
7. Interfaz de acceso al corpus (IAC) 
Para facilitar la explotación de nuestro Corpus Diacrónico hemos utilizado una interfaz de acceso a 
corpus desarrollada por Barcelona Media-Centre d’Innovació
8
. Esta interfaz fue creada para 
facilitar a los investigadores del departamento de Traducción y Ciencias del Lenguaje de la 
Universitat Pompeu Fabra la explotación de los corpus (monolingües y bilingües) con los que 
trabajan. 
IAC es una interfaz multilingüe (catalán, español e inglés) y dinámica, que se adapta a las 
necesidades de cada corpus. El propietario del corpus puede diseñar la interfaz de consulta de 
manera cómoda y sencilla mediante una herramienta propia de IAC y posteriormente IAC indexa el 
corpus y generaautomáticamente la interfaz de consulta para los usuarios. 
Todas las interfaces de IAC disponen de tres modos de búsqueda: 'búsqueda simple' para buscar una 
palabra de forma rápida, 'búsqueda avanzada' que permite realizar búsquedas complejas de 
combinaciones de palabras, y un modo adicional que permite obtener resultados estadísticos. 
 
 
 
 
Figura 3. Búsqueda avanzada: Verbo 'tener' + Verbo Participio. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 4. Búsqueda estadística: Verbo 'pensar' + Preposición. 
Como ejemplo de búsqueda avanzada, se puede observar la Figura 3. En esta consulta se ha 
buscado el verbo 'tener' seguido de un participio en los textos del corpus. En la Figura 4 se puede 
ver el análisis estadístico realizado sobre los resultados de una consulta sobre el régimen 
preposicional del verbo 'pensar'. El resultado es una tabla con las frecuencias con las que el lema 
'pensar' aparece asociado a distintas preposiciones. También se pueden consultar los ejemplos 
asociados a cada una de estas frecuencias. 
8. Trabajo futuro y conclusiones 
En este artículo hemos presentado un método para procesar un corpus diacrónico del español con 
herramientas de PLN estándar. La automatización de la anotación lingüística de los textos digitales 
es extremadamente útil para aproximaciones empíricas al estudio diacrónico de la lengua, ya que 
para corpus medianos como el nuestro, de más de 20 millones de palabras, la anotación manual 
sería demasiado costosa. 
La estrategia que hemos desarrollado es en cierta manera un híbrido de los métodos utilizados para 
la anotación de algunos de los corpus diacrónicos del inglés. Por un lado, conlleva realizar una 
versión moderna paralela del corpus antiguo (a partir de las transformaciones de las variantes 
antiguas en modernas). Por otro, hace uso de un procesador lingüístico de la lengua estándar. Con 
 
esta estrategia, el nivel de precisión obtenido es del 91% para las categorías morfológicas y los 
lemas. 
Para muchos de los estudios que pueden realizarse sobre corpus diacrónicos este nivel de precisión 
sería suficientemente satisfactorio. En todo caso, si se procediera en este punto a la revisión manual 
de los errores, esto implicaría ya un enorme ahorro de tiempo y esfuerzo en relación a un proceso 
que hubiera implicado la anotación lingüística de los textos de una manera totalmente manual. 
Creemos, sin embargo, que con la introducción de algunos cambios en la estrategia general 
adoptada, los resultados podrían acercarse mucho más al nivel de precisión de los etiquetadores 
desarrollados para la lengua estándar, que, en este momento, es aproximadamente de un 95%. 
En primer lugar, el análisis de errores ha revelado que las diferencias ortográficas y léxicas entre el 
español antiguo y el moderno son todavía responsables de la mayoría de los errores generados en la 
anotación automática de los textos evaluados. Estos errores se propagan a otros niveles de anotación 
(sintáctica, semántica), por lo que es importante reducirlos al máximo. Además, muchos de los 
errores presentan regularidades (acentuación, morfemas de creación de adverbios, etc.) que se 
podrían explotar para poder generalizar más adecuadamente a casos no cubiertos en las 
transformaciones léxicas. 
Otra línea de trabajo con la que esperamos obtener mejores resultados es a través de la modificación 
de los diccionarios y de otros módulos incluidos en la herramienta de PLN que hemos utilizado. La 
ampliación de los diccionarios y de las listas de sufijos utilizados con información morfológica 
específica del español antiguo así como la incorporación de nuevas reglas de desambiguación puede 
contribuir a una mejora sustancial en los procesos de lematización e identificación de las categorías 
morfosintácticas apropiadas. La ventaja de utilizar herramientas de código abierto como Freeling es 
que éstas pueden ser libremente modificadas y adaptadas a las necesidades específicas de los 
usuarios. 
Para mantener la información paleográfica en la anotación de los textos, vamos a utilizar un tipo de 
representación externa de las anotaciones. En esta representación el texto original no sufre ninguna 
modificación, y cada tipo de anotación (en nuestro corpus, la información paleográfica, las 
categorías morfológicas y los lemas) está almacenado de manera independiente, y unido al original 
por medio de los indicadores adecuados. La ventaja fundamental de este tipo de representación es 
que el texto original no es modificado. 
El desarrollo de herramientas de anotación adaptadas a las características de los textos antiguos del 
español y de modelos de representación adecuados permitirán a los investigadores crear nuevos 
corpus y recursos para el estudio de la diacronía del español con una inversión considerablemente 
menor de tiempo y recursos humanos y económicos. Estos corpus y recursos a su vez posibilitarán 
el estudio de la historia de la lengua española en condiciones similares a las que ahora es posible 
hacerlo para el estudio de lenguas como el inglés, abriendo así nuevas vías de investigación en áreas 
como la sintaxis o la semántica diacrónica en las que ahora resulta muy difícil o imposible trabajar 
con la profundidad y el rigor necesarios. 
 
Corpus bibliográfico 
Alfonso X, El Sabio, General Estoria I. Edición paleográfica de Llyod Kasten, John Nitti, y 
Wilhemina Jonxis-Henkemens, The Electronic Texts and Concordances of the Prose Works of 
Alfonso X, El Sabio, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997. 
Alfonso X, El Sabio, Libros de ajedrez, dados y tablas. Edición paleográfica de Llyod Kasten, John 
Nitti, y Wilhemina Jonxis-Henkemens, The Electronic Texts and Concordances of the Prose Works 
of Alfonso X, El Sabio, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997. 
La Celestina, edición paleográfica de Ivy A. Corfis y John O'Neill, Early Celestina Electronic Texts 
and Concordances, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997. 
 
Referencias bibliográficas 
(1) Baron, Alistair y Paul Rayson (2008): "VARD 2: A tool for dealing with spelling variation in 
historical corpora", en Proceedings of the Postgraduate Conference in Corpus Linguistics. 
Birmingham, UK: Aston University. 
(2) Beal, Joan C., Karen P. Corrigan y Hermann L. Moisl (2007): Creating and Digitizing 
Language Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan. 
(3) Davies, Mark (2002-): Corpus del Español (100 millones de palabras, 1200s-1900s). 
Disponible online en http://www.corpusdelespanol.org. 
(4) Davies, Mark y Michael Ferreira (2006-): Corpus do Português (45 millones de palabras, 
1300s-1900s). Disponible online en http://www.corpusdoportugues.org. 
(5) Ensslin, Astrid, Martin Durrell y Paul Bennett (2006): "Towards a Methodology for 
constructing and Annotating Historical Corpora", en 4th Days of Swiss Linguistics Conference. 
Switzerland: University of Basel. 
(6) Ernst-Gerlach, Andrea y Norbert Fuhr (2007): "Retrieval in text collections with historic 
spelling using linguistic and spelling variants", en Proceedings of the 7th ACM/IEEE-CS joint 
conference on Digital libraries (JCDL), Vancouver, BC, Canada. New York: ACM, pp. 333 - 341. 
(7) Fitzmaurice, Susan M. (2007): "Questions of Standardization and Representativeness in the 
Development of Social Networks Based Corpora: The Story of the Network of Eighteenth-Century 
English Texts", en J.C. Beal, K. P. Corrigan y H. L. Moisl (eds.): Creating and Digitizing Language 
Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan. 
(8) Galves, Charlotte y Britto, Helena (2003): "A Construção do Corpus Anotado do Português 
Histórico Tycho Brahe: o sistema de anotação morfológica". Disponible online en 
http://www.ime.usp.br/~tycho/participants/c_galves/galves_e_britto.htm. 
(9) Kytö, Merja y Atro Voutilainen(1995): "Applying the Constraint Grammar Parser of English to 
the Helsinki Corpus", ICAME Journal, 19, pp. 23-48. 
(10) Kytö, Merja (1996): Manual to the Diachronic Part of the Helsinki Corpus of English Texts: 
Coding Conventions and Lists of Source Texts. Helsinki: University of Helsinki, Department of 
English. 
(11) Kytö, Merja y Atro Voutilainen (1998): "Backdating the English Constraint Grammar Parser 
for the Analysis of English Historical Texts", Historical Linguistics 2, pp. 149–166. 
(12) Pilz, Thomas, Andrea Ernst-Gerlach, Sebastian Kempken, Paul Rayson y Dawn Archer (2008): 
"The identification of spelling variants in English and German historical texts: manual or 
automatic", Literary and Linguistic Computing 23(1), pp. 65-72. 
(13) Pintzuk, Susan y Ann Taylor (1996): "Annotating the Helsinki corpus: The Brooklyn-Geneva-
Amsterdam-Helsinki Parsed Corpus of Old English and the Penn-Helsinki Parsed Corpus of Middle 
English", en R. Hickey, M. Kyto, y M. Rissanen (eds.): Tracing the Trail of Time. Proceedings 
from the Toronto Conference on Diachronic Corpora, May 1995. Amsterdam: Rodopi. 
(14) Rayson, Paul, Dawn Archer, Alistair Baron, y Nicholas Smith (2007): "Tagging historical 
corpora - the problem of spelling variation", en Proceedings of Digital Historical Corpora, 
Dagstuhl-Seminar 06491, International Conference and Research Center for Computer Science. 
Wadern: Schloss Dagstuhl. 
(15) Sánchez-Prieto Borja, Pedro (2005): "La normalización del castellano escrito en el siglo XIII. 
Los caracteres de la lengua: grafías y fonemas", en R. Cano (coord.): Historia de la lengua 
española. Barcelona: Ariel, pp. 423-448. 
(16) Taylor, Ann (2007): "The York-Toronto-Helsinki Parsed Corpus of Old English Prose", en 
Beal, J.C., K. Corrigan, and H. Moisl (eds.) Using unconventional digital language corpora, Vol.2. 
Basingstoke: Palgrave-Macmillan. 
(17) Zipf, George K. (1949): Human Behavior and the Principle of Least-Effort. Cambridge: 
Addison-Wesley Press. 
(18) Zipf, George K. (1935): The Psychobiology of Language. Boston: Houghton Mifflin. 
 
1
 Este trabajo ha sido realizado en parte gracias a una beca FPU (AP2006-03547) de la Secretaría de Estado de 
Universidades e Investigación del Ministerio de Ciencia e Innovación. Agradecemos a Valentin Oriol y especialmente a 
 
Gemma Boleda sus comentarios sobre el contenido del artículo y el método de preprocesamiento desarrollado. Los 
errores que pueda haber en el artículo quedan bajo nuestra responsabilidad, como autores del mismo. 
2
 http://www.corpusdelespanol.org 
3
 http://www.rae.es 
4
 http://www.corpusdoportugues.org 
5
 http://garraf.epsevg.upc.es/freeling 
6
 Esta información se recuperará posteriormente para que sea accesible en las búsquedas. Véase la referencia al método 
de anotación externa en el apartado 8 de este trabajo. 
7
 Texto del siglo XIII de Alfonso X el Sabio, Libros de ajedrez, dados y tablas, 1283. Texto del siglo XVI de La 
Celestina. 
8
 http://www.barcelonamedia.org/

Continuar navegando

Otros materiales