Anotacion_automatica_de_textos_diacronic

Español

•

SIN SIGLA

0

Evelyn Salinas

9/9/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Español

26.260 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Anotación automática de textos diacrónicos del español
1

Cristina Sánchez Marco
Universidad de Zaragoza
crsanche@unizar.es

Josep Maria Fontana
Universitat Pompeu Fabra
josepm.fontana@upf.edu

Judith Domingo
Barcelona Media Centre d'Innovació
judith.domingo@barcelonamedia.org

1. Introducción
En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático de un
corpus de textos de español antiguo utilizando herramientas de Procesamiento de Lenguaje Natural
(en adelante PLN) desarrolladas para el español moderno.
Para poder realizar una investigación empírica sobre la evolución histórica de una lengua es
fundamental tener un conjunto de textos en los que analizar el fenómeno que pretendemos estudiar.
Frente a la tarea del lingüista o filólogo clásico, que consistía en leer cuidadosamente todos los
textos y anotar y preparar fichas de cada caso que encontraba, ahora el lingüista puede aprovechar
las herramientas de PLN para identificar y extraer los casos del fenómeno con mayor rapidez, así
como para realizar análisis cuantitativos de los datos con gran facilidad. El uso de estas
herramientas se está extendiendo a todos los ámbitos del estudio lingüístico y entre éstos uno de los
que ha experimentado mayor desarrollo en fechas recientes es la constitución de corpus electrónicos
para el estudio de la diacronía, véase por ejemplo los trabajos recogidos en Beal, Corrigan y Moisl
(2007).
Aunque para las grandes lenguas como el inglés, el francés o el español estándar, existen numerosos
recursos de este tipo, para el estudio de lenguas minoritarias o de variantes dialectales no estándares
de la mayoría de las lenguas no contamos en general con grandes corpus electrónicos y, cuando
estos existen, a menudo no están enriquecidos con información morfológica o sintáctica. Un caso
muy similar al de las variantes dialectales es el de las variantes diacrónicas.
La dificultad fundamental para anotar automáticamente ediciones digitales de textos antiguos con
información lingüística estriba sobre todo en adaptar las herramientas de PLN existentes a las
particulares características de este tipo de textos. La mayoría de ediciones digitales de textos
antiguos con las que trabajan los investigadores se distinguen esencialmente de los textos modernos
por la gran variación que manifiestan las grafías de los distintos elementos léxicos y por la
incorporación de símbolos especiales con información paleográfica. En este trabajo proponemos un
método muy sencillo que consiste en el preprocesamiento de los textos para adaptar la ortografía
antigua a la moderna. Con este método, los resultados alcanzan el 91% de precisión en el etiquetado
morfológico y la asignación de lemas, lo que supone una mejora de 14 puntos frente a los resultados
obtenidos si el etiquetado se hace directamente sobre el texto original.

2. Estado de la cuestión
Los dos grandes corpus diacrónicos del español accesibles en la Web para la comunidad
investigadora son el Corpus del español
2
, desarrollado por Mark Davies, y el CORDE
3
(Corpus
Diacrónico del Español) de la Real Academia Española. El primero de ellos contiene información
morfológica pero es muy incompleta en las secciones del corpus que no corresponden al español
contemporáneo. Según su autor (comunicación personal), las etiquetas morfológicas introducidas en
este corpus se obtuvieron sólo en aquellos casos en que el contexto sintáctico era suficiente para
determinar con certeza la categoría de una palabra. Así, por ejemplo, cualquier palabra precedida de
un artículo (‘el/la/los/las’) o seguida de ‘que’ es etiquetada como nombre. Utilizando técnicas
similares se puede ir ampliando la lista de nombres y también crear listas similares para otras
categorías y ahorrarse una gran cantidad de trabajo en comparación con el etiquetado de forma
manual. Sin embargo, aunque este método ahorra tiempo con respecto a la anotación totalmente
manual, no se ahorra tanto como sería posible si se utilizara una herramienta de anotación
automática. Además, es un método no accesible ni reutilizable para la construcción de nuevos
recursos y su cobertura en el etiquetado es bastante limitada.
El otro gran corpus de textos diacrónicos del español del que disponemos en la actualidad, el
CORDE, no está etiquetado. Además, la interfaz sólo permite realizar búsquedas con formas, lo que
limita considerablemente al investigador en el tipo de búsquedas que puede realizar. Existen otros
corpus diacrónicos del español pero o bien están en construcción o no son de libre acceso.
En el caso de otras lenguas peninsulares nos encontramos ante una situación similar. Desde fechas
recientes, existe un valioso recurso para el estudio del catalán desde la época medieval hasta el
renacimiento: el CICA (Corpus Informatitzat del Català Antic). Al igual que en el caso del CORDE,
sin embargo, este corpus no está etiquetado morfológicamente y por tanto su utilidad para los
estudios lingüísticos se ve enormemente limitada. La situación es muy distinta para una lengua muy
cercana al español y al catalán: el portugués. Los estudiosos de la evolución de esta lengua pueden
contar con dos valiosas herramientas: el Corpus do Português
4
, desarrollado por Davies y Ferreira
(2006-), con 45 millones de palabras (siglos XIII-XX), y el Tycho Brahe Parsed Corpus of
Historical Portuguese, de Galves y Britto (2003). Ambos corpus están etiquetados
morfológicamente y el Tycho Brahe está en proceso de ser etiquetado también sintácticamente. Lo
que es más relevante desde el punto de vista de nuestro trabajo, sin embargo, es que estos dos
corpus han sido etiquetados en su mayor parte de forma manual. Para su etiquetado morfológico se
ha empleado una cantidad considerable de recursos económicos y humanos (el Corpus do
Português contó con la financiación del National Endowment for the Humanities, NEH) y es el
resultado de años de trabajo.
Al igual que en el caso del portugués, los estudiosos del inglés antiguo cuentan también con corpus
enriquecidos con anotaciones lingüísticas que proporcionan un interesante abanico de posibilidades
para el estudio de esta lengua. En el caso del inglés, sin embargo, la anotación de estos corpus ha
sido realizada en la mayoría de los casos de forma automática. Básicamente podemos distinguir
entre dos estrategias fundamentalmente distintas para la anotación de corpus diacrónicos de esta
lengua. Un primer grupo de autores propone un enfoque que se correspondería en grandes líneas
con el adoptado en este trabajo. Para estos autores, la estrategia más eficiente consistiría en generar
un corpus modernizado paralelo y establecer una relación (mapping) entre la variante antigua y
moderna de cada palabra. De esta manera no sería necesario desarrollar ninguna nueva herramienta
para el procesamiento de los textos antiguos ya que las etiquetas generadas para cada variante
moderna por los etiquetadores morfológicos desarrollados para el inglés actual pueden ser asociadas
de manera automática a la variante antigua correspondiente. Esta es la estrategia seguida, por
ejemplo, por Susan Fitzmaurice en el Network of Eighteenth-Century English Texts (NEET)
(Fitzmaurice 2007).
En esta línea han surgido una serie de herramientas de preprocesamiento que facilitan esta tarea,
como por ejemplo VARD 2 (ver Rayson, Archer, Baron y Smith 2007 y Baron y Rayson 2008).
Aunque los resultados obtenidos con el uso de estas herramientas, basadas en los métodos y
técnicas empleadas en los correctores ortográficos, son prometedores, todavía no se pueden aplicar
a otras lenguas con unos resultados óptimos. El hecho de que el español sea una lengua más flexiva
que el inglés, por ejemplo, hace que el algoritmo utilizado para crear las variantes del inglés deba
ser modificado considerablemente para poder ser utilizado de maneraefectiva en el establecimiento
de correspondencias en esta lengua. Véase por ejemplo en este sentido las alternativas propuestas
para el alemán por Ernst-Gerlach y Fuhr (2007) y Pilz, Ernst-Gerlach, Kempken, Rayson y Archer
(2008).
En contraposición a esta línea, otros proyectos de desarrollo de corpus han seguido el camino
abierto por los investigadores que desarrollaron el sistema de anotación automática para el Helsinki
Corpus of English Texts, véase Kytö y Voutilainen (1995), Kytö (1996), y Kytö y Voutilainen
(1998). En líneas generales, los partidarios de este segundo enfoque optaron por el uso de
etiquetadores o analizadores probabilísticos seguidos de un proceso posterior de corrección
manual. Esta es la estrategia seguida, por ejemplo, en la anotación del Penn-Helsinki Parsed
Corpus of Middle English II (PPCME2), el Corpus of Early English Correspondence (CEEC), el
York-Helsinki Parsed Corpus of Old English Poetry y del Penn-Helsinki Parsed Corpus of Early
Modern English (Pintzuk y Taylor 1996; Taylor 1998). En el caso del York-Toronto-Helsinki
Parsed Corpus of Old English Prose se utilizaron herramientas como el Brill tagger y el Collins
parser.
La estrategia que hemos adoptado en nuestro proyecto es una combinación de los métodos
utilizados en estos dos enfoques. Por un lado, hemos creado una versión moderna del texto
mediante el uso de scripts que efectúan las transformaciones ortográficas pertinentes y después
hemos aplicado un etiquetador probabilístico (Freeling
5
).

3. Corpus
El corpus de textos diacrónicos con el que trabajamos está formado por un conjunto de ediciones
electrónicas semipaleográficas realizadas por el Hispanic Seminary of Medieval Studies (Ltd.
Madison, Wisconsin), con textos desde el siglo XII hasta el XVI que conjuntamente contienen más
de 20 millones de palabras.

4. Método
El método, como hemos esbozado más arriba, consiste en preprocesar el texto para generar una
versión "modernizada" del mismo en la que una buena parte de las palabras han sido substituidas
por las variantes ortográficas del español actual. De esta manera se facilita la anotación lingüística
con la ayuda de un etiquetador para el español estándar y posteriormente se asocian las etiquetas
obtenidas con las palabras en su forma original. La Figura 1 presenta la arquitectura desarrollada. A
continuación mostramos el método de preprocesamiento.

Figura 1. Arquitectura para el procesamiento del corpus diacrónico del español.
4.1. Preparación del texto
En primer lugar se eliminan los símbolos paleográficos de la edición crítica original, ya que en la
edición original, semipaleográfica, el texto está anotado con comentarios sobre las imágenes,
titulares, rotos de los manuscritos, y con información sobre palabras contraídas, suprimidas, etc.
(ver Figura 2)
6
.

Figura 2. Aspecto original del texto. Fragmento de la General Estoria de Alfonso X el Sabio.
4.2. Transformaciones sistemáticas

Una vez eliminados los símbolos paleográficos, se procede a transformar los bigramas y trigramas
silábicos que no son propios del español en sus variantes modernas. La Tabla 1 muestra algunos
ejemplos.

Tabla 1. Ejemplos de transformaciones sistemáticas.
Para definir estas transformaciones regulares nos hemos basado en el estudio de las reformas
ortográficas que se realizaron para el castellano desde el siglo XIII durante el reinado de Alfonso X
el Sabio y desde el siglo XVIII a partir de la fundación de la Real Academia Española, y en las
grafías observadas en los textos medievales, véase Sánchez-Prieto Borja (2005).
Hemos identificado 49 transformaciones ortográficas que se pueden realizar de manera ciega. Estas
transformaciones son regulares, esto es, se aplican independientemente de la palabra. En general
son también independientes del contexto morfofonológico, aunque el 18% de ellas están
restringidas a inicio o final de palabra (ver por ejemplo últimas dos filas de la Tabla 1).
4.3. Transformaciones léxicas
El tercer paso consiste en reemplazar directamente variantes antiguas por variantes modernas, para
el caso en que las variaciones ortográficas no sean regulares. Por la ley de Zipf (Zipf 1935 y 1949),
hay un número extremadamente reducido de palabras que aparecen con frecuencia alta. Por tanto,
aunque es una tarea que implica un cierto coste, con un esfuerzo relativamente pequeño se
solucionan un gran número de ocurrencias.
A partir de un diccionario de frecuencias extraído del corpus formado por los textos originales, se
han identificado manualmente las variantes antiguas y su correspondiente variante moderna para las
7.000 formas más frecuentes (el 1,9% de los tipos del corpus). Entre las transformaciones léxicas se

distinguen (a) transformaciones de palabras en las que una o varias letras varían (p.ej. breue →
breve, fuyeron → huyeron), (b) transformaciones de palabras sin el acento que les corresponde
según las reglas ortográficas actuales (p.ej. consul → cónsul, perdon → perdón), (c)
transformaciones de formas aglutinadas en castellano antiguo (p.ej. quelos → que los, conel → con
el) y, por último, (d) transformaciones de palabras que no existen en español actual y para las que se
ha buscado su equivalente moderno (p.ej. maguer → aunque, et → y).
5. Evaluación
La evaluación del etiquetado del corpus, realizada sobre el corpus en el que las variantes
ortográficas han sido normalizadas, se ha hecho sobre dos textos del corpus representativos de
diferentes épocas, uno del siglo XIII y otro del XVI
7
.
En la Tabla 2 se resumen los resultados obtenidos en términos de porcentaje de precisión. Lo
primero que se puede observar es que los resultados sin preprocesar ya serían útiles para muchos
propósitos, pues se obtiene un 77% de precisión en la etiqueta morfológica y un 76% en el lema.

Tabla 2. Resultados de la evaluación.
Como se puede ver en la tabla, con el sencillo método empleado se mejoran mucho los resultados:
el porcentaje de precisión en la identificación de la categoría morfológica y del lema mejora hasta
llegar al 91%.
6. Análisis de errores
Para definir los siguientes pasos en el desarrollo de la anotación del corpus diacrónico, es necesario
averiguar qué porcentaje de los errores se debe a diferencias ortográficas y léxicas no solucionadas,
y qué parte se debe a errores del etiquetador. El análisis de errores realizado sobre el texto del siglo
XIII revela que un 82% de los errores se dan en palabras que no están modernizadas (por ejemplo,
palabras que aparecen sin acento gráfico en los manuscritos como segun, razon o podra o ciertas

formas verbales como iugar, parescie o troxo). En estos errores se observaron regularidades que si
se tratan de manera adecuada en el script permitirían mejorar el resultado en el etiquetado. Un caso
más complejo lo presentan los posibles errores de acentuación (como en el caso del adverbio mas
por más) para cuya resolución se precisa de información contextual, pues las dos formas existen en
el español moderno (mas conjunción vs. más adverbio).
7. Interfaz de acceso al corpus (IAC)
Para facilitar la explotación de nuestro Corpus Diacrónico hemos utilizado una interfaz de acceso a
corpus desarrollada por Barcelona Media-Centre d’Innovació
8
. Esta interfaz fue creada para
facilitar a los investigadores del departamento de Traducción y Ciencias del Lenguaje de la
Universitat Pompeu Fabra la explotación de los corpus (monolingües y bilingües) con los que
trabajan.
IAC es una interfaz multilingüe (catalán, español e inglés) y dinámica, que se adapta a las
necesidades de cada corpus. El propietario del corpus puede diseñar la interfaz de consulta de
manera cómoda y sencilla mediante una herramienta propia de IAC y posteriormente IAC indexa el
corpus y generaautomáticamente la interfaz de consulta para los usuarios.
Todas las interfaces de IAC disponen de tres modos de búsqueda: 'búsqueda simple' para buscar una
palabra de forma rápida, 'búsqueda avanzada' que permite realizar búsquedas complejas de
combinaciones de palabras, y un modo adicional que permite obtener resultados estadísticos.

Figura 3. Búsqueda avanzada: Verbo 'tener' + Verbo Participio.

Figura 4. Búsqueda estadística: Verbo 'pensar' + Preposición.
Como ejemplo de búsqueda avanzada, se puede observar la Figura 3. En esta consulta se ha
buscado el verbo 'tener' seguido de un participio en los textos del corpus. En la Figura 4 se puede
ver el análisis estadístico realizado sobre los resultados de una consulta sobre el régimen
preposicional del verbo 'pensar'. El resultado es una tabla con las frecuencias con las que el lema
'pensar' aparece asociado a distintas preposiciones. También se pueden consultar los ejemplos
asociados a cada una de estas frecuencias.
8. Trabajo futuro y conclusiones
En este artículo hemos presentado un método para procesar un corpus diacrónico del español con
herramientas de PLN estándar. La automatización de la anotación lingüística de los textos digitales
es extremadamente útil para aproximaciones empíricas al estudio diacrónico de la lengua, ya que
para corpus medianos como el nuestro, de más de 20 millones de palabras, la anotación manual
sería demasiado costosa.
La estrategia que hemos desarrollado es en cierta manera un híbrido de los métodos utilizados para
la anotación de algunos de los corpus diacrónicos del inglés. Por un lado, conlleva realizar una
versión moderna paralela del corpus antiguo (a partir de las transformaciones de las variantes
antiguas en modernas). Por otro, hace uso de un procesador lingüístico de la lengua estándar. Con

esta estrategia, el nivel de precisión obtenido es del 91% para las categorías morfológicas y los
lemas.
Para muchos de los estudios que pueden realizarse sobre corpus diacrónicos este nivel de precisión
sería suficientemente satisfactorio. En todo caso, si se procediera en este punto a la revisión manual
de los errores, esto implicaría ya un enorme ahorro de tiempo y esfuerzo en relación a un proceso
que hubiera implicado la anotación lingüística de los textos de una manera totalmente manual.
Creemos, sin embargo, que con la introducción de algunos cambios en la estrategia general
adoptada, los resultados podrían acercarse mucho más al nivel de precisión de los etiquetadores
desarrollados para la lengua estándar, que, en este momento, es aproximadamente de un 95%.
En primer lugar, el análisis de errores ha revelado que las diferencias ortográficas y léxicas entre el
español antiguo y el moderno son todavía responsables de la mayoría de los errores generados en la
anotación automática de los textos evaluados. Estos errores se propagan a otros niveles de anotación
(sintáctica, semántica), por lo que es importante reducirlos al máximo. Además, muchos de los
errores presentan regularidades (acentuación, morfemas de creación de adverbios, etc.) que se
podrían explotar para poder generalizar más adecuadamente a casos no cubiertos en las
transformaciones léxicas.
Otra línea de trabajo con la que esperamos obtener mejores resultados es a través de la modificación
de los diccionarios y de otros módulos incluidos en la herramienta de PLN que hemos utilizado. La
ampliación de los diccionarios y de las listas de sufijos utilizados con información morfológica
específica del español antiguo así como la incorporación de nuevas reglas de desambiguación puede
contribuir a una mejora sustancial en los procesos de lematización e identificación de las categorías
morfosintácticas apropiadas. La ventaja de utilizar herramientas de código abierto como Freeling es
que éstas pueden ser libremente modificadas y adaptadas a las necesidades específicas de los
usuarios.
Para mantener la información paleográfica en la anotación de los textos, vamos a utilizar un tipo de
representación externa de las anotaciones. En esta representación el texto original no sufre ninguna
modificación, y cada tipo de anotación (en nuestro corpus, la información paleográfica, las
categorías morfológicas y los lemas) está almacenado de manera independiente, y unido al original
por medio de los indicadores adecuados. La ventaja fundamental de este tipo de representación es
que el texto original no es modificado.
El desarrollo de herramientas de anotación adaptadas a las características de los textos antiguos del
español y de modelos de representación adecuados permitirán a los investigadores crear nuevos
corpus y recursos para el estudio de la diacronía del español con una inversión considerablemente
menor de tiempo y recursos humanos y económicos. Estos corpus y recursos a su vez posibilitarán
el estudio de la historia de la lengua española en condiciones similares a las que ahora es posible
hacerlo para el estudio de lenguas como el inglés, abriendo así nuevas vías de investigación en áreas
como la sintaxis o la semántica diacrónica en las que ahora resulta muy difícil o imposible trabajar
con la profundidad y el rigor necesarios.

Corpus bibliográfico
Alfonso X, El Sabio, General Estoria I. Edición paleográfica de Llyod Kasten, John Nitti, y
Wilhemina Jonxis-Henkemens, The Electronic Texts and Concordances of the Prose Works of
Alfonso X, El Sabio, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997.
Alfonso X, El Sabio, Libros de ajedrez, dados y tablas. Edición paleográfica de Llyod Kasten, John
Nitti, y Wilhemina Jonxis-Henkemens, The Electronic Texts and Concordances of the Prose Works
of Alfonso X, El Sabio, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997.
La Celestina, edición paleográfica de Ivy A. Corfis y John O'Neill, Early Celestina Electronic Texts
and Concordances, Hispanic Seminary of Medieval Studies, Ltd. Madison, Wisconsin, 1997.

Referencias bibliográficas
(1) Baron, Alistair y Paul Rayson (2008): "VARD 2: A tool for dealing with spelling variation in
historical corpora", en Proceedings of the Postgraduate Conference in Corpus Linguistics.
Birmingham, UK: Aston University.
(2) Beal, Joan C., Karen P. Corrigan y Hermann L. Moisl (2007): Creating and Digitizing
Language Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan.
(3) Davies, Mark (2002-): Corpus del Español (100 millones de palabras, 1200s-1900s).
Disponible online en http://www.corpusdelespanol.org.
(4) Davies, Mark y Michael Ferreira (2006-): Corpus do Português (45 millones de palabras,
1300s-1900s). Disponible online en http://www.corpusdoportugues.org.
(5) Ensslin, Astrid, Martin Durrell y Paul Bennett (2006): "Towards a Methodology for
constructing and Annotating Historical Corpora", en 4th Days of Swiss Linguistics Conference.
Switzerland: University of Basel.
(6) Ernst-Gerlach, Andrea y Norbert Fuhr (2007): "Retrieval in text collections with historic
spelling using linguistic and spelling variants", en Proceedings of the 7th ACM/IEEE-CS joint
conference on Digital libraries (JCDL), Vancouver, BC, Canada. New York: ACM, pp. 333 - 341.
(7) Fitzmaurice, Susan M. (2007): "Questions of Standardization and Representativeness in the
Development of Social Networks Based Corpora: The Story of the Network of Eighteenth-Century
English Texts", en J.C. Beal, K. P. Corrigan y H. L. Moisl (eds.): Creating and Digitizing Language
Corpora. Volume 2: Diachronic Databases. Basingstoke: Palgrave Macmillan.
(8) Galves, Charlotte y Britto, Helena (2003): "A Construção do Corpus Anotado do Português
Histórico Tycho Brahe: o sistema de anotação morfológica". Disponible online en
http://www.ime.usp.br/~tycho/participants/c_galves/galves_e_britto.htm.
(9) Kytö, Merja y Atro Voutilainen(1995): "Applying the Constraint Grammar Parser of English to
the Helsinki Corpus", ICAME Journal, 19, pp. 23-48.
(10) Kytö, Merja (1996): Manual to the Diachronic Part of the Helsinki Corpus of English Texts:
Coding Conventions and Lists of Source Texts. Helsinki: University of Helsinki, Department of
English.
(11) Kytö, Merja y Atro Voutilainen (1998): "Backdating the English Constraint Grammar Parser
for the Analysis of English Historical Texts", Historical Linguistics 2, pp. 149–166.
(12) Pilz, Thomas, Andrea Ernst-Gerlach, Sebastian Kempken, Paul Rayson y Dawn Archer (2008):
"The identification of spelling variants in English and German historical texts: manual or
automatic", Literary and Linguistic Computing 23(1), pp. 65-72.
(13) Pintzuk, Susan y Ann Taylor (1996): "Annotating the Helsinki corpus: The Brooklyn-Geneva-
Amsterdam-Helsinki Parsed Corpus of Old English and the Penn-Helsinki Parsed Corpus of Middle
English", en R. Hickey, M. Kyto, y M. Rissanen (eds.): Tracing the Trail of Time. Proceedings
from the Toronto Conference on Diachronic Corpora, May 1995. Amsterdam: Rodopi.
(14) Rayson, Paul, Dawn Archer, Alistair Baron, y Nicholas Smith (2007): "Tagging historical
corpora - the problem of spelling variation", en Proceedings of Digital Historical Corpora,
Dagstuhl-Seminar 06491, International Conference and Research Center for Computer Science.
Wadern: Schloss Dagstuhl.
(15) Sánchez-Prieto Borja, Pedro (2005): "La normalización del castellano escrito en el siglo XIII.
Los caracteres de la lengua: grafías y fonemas", en R. Cano (coord.): Historia de la lengua
española. Barcelona: Ariel, pp. 423-448.
(16) Taylor, Ann (2007): "The York-Toronto-Helsinki Parsed Corpus of Old English Prose", en
Beal, J.C., K. Corrigan, and H. Moisl (eds.) Using unconventional digital language corpora, Vol.2.
Basingstoke: Palgrave-Macmillan.
(17) Zipf, George K. (1949): Human Behavior and the Principle of Least-Effort. Cambridge:
Addison-Wesley Press.
(18) Zipf, George K. (1935): The Psychobiology of Language. Boston: Houghton Mifflin.

1
Este trabajo ha sido realizado en parte gracias a una beca FPU (AP2006-03547) de la Secretaría de Estado de
Universidades e Investigación del Ministerio de Ciencia e Innovación. Agradecemos a Valentin Oriol y especialmente a

Gemma Boleda sus comentarios sobre el contenido del artículo y el método de preprocesamiento desarrollado. Los
errores que pueda haber en el artículo quedan bajo nuestra responsabilidad, como autores del mismo.
2
http://www.corpusdelespanol.org
3
http://www.rae.es
4
http://www.corpusdoportugues.org
5
http://garraf.epsevg.upc.es/freeling
6
Esta información se recuperará posteriormente para que sea accesible en las búsquedas. Véase la referencia al método
de anotación externa en el apartado 8 de este trabajo.
7
Texto del siglo XIII de Alfonso X el Sabio, Libros de ajedrez, dados y tablas, 1283. Texto del siglo XVI de La
Celestina.
8
http://www.barcelonamedia.org/