Logo Studenta

6

¡Este material tiene más páginas!

Vista previa del material en texto

1 
 
6 
 
Corpus textuales de nativos para investigar sobre la enseñanza/aprendizaje 
del español LE/L21 
Kris Buyse 
 
Resumen 
En este capítulo se ofrece a los investigadores noveles y otros especialistas en el campo del 
español LE/L2 un recorrido básico por los corpus de nativos existentes y por el camino que 
hay que emprender para crear un corpus propio. Para ello se abordan las características de la 
investigación basada en corpus y bases de datos, así como los métodos de toma de datos más 
adecuados para llevarla a cabo y las herramientas para procesar, describir y analizarlos. 
Después de presentar las necesidades, ventajas y limitaciones del trabajo con los 
corpus, se propone una criteriología nueva de clasificación de los corpus existentes, seguida 
por un recorrido por los corpus de nativos más importantes para la investigación actual en 
español LE/L2. Asimismo, se explican brevemente tanto la base teórica como unas 
herramientas prácticas (como de marcación de corpus) para elaborar corpus propios. El 
capítulo termina por una presentación de estudios gramaticales, léxicos y pragmáticos basados 
en los tipos de corpus presentados, tanto desde una perspectiva sincrónica como diacrónica, y 
con referencia a una o varias variantes del español. 
 
 
El objetivo de este capítulo es ofrecer a los investigadores noveles y otros especialistas en el 
campo del español LE/L2 un recorrido básico por los corpus de nativos existentes y por el 
camino que hay que emprender para crear un corpus propio. Para ello se abordarán las 
características de la investigación basada en corpus y bases de datos, así como los métodos de 
toma de datos más adecuados para llevarla a cabo y las herramientas para procesar, describir y 
analizarlos. 
Después de presentar las necesidades, ventajas y limitaciones del trabajo con los 
corpus, se propondrá una criteriología nueva de clasificación de los corpus existentes, seguida 
por un recorrido por los corpus de nativos más importantes para la investigación actual en 
español LE/L2. Asimismo, se explicarán brevemente tanto la base teórica como unas 
herramientas prácticas (como de marcación de corpus) para elaborar corpus propios. El 
capítulo terminará con una presentación de estudios gramaticales, léxicos y pragmáticos 
basados en los tipos de corpus presentados, tanto desde una perspectiva sincrónica como 
diacrónica, y con referencia a una o varias variantes del español. 
 
6.1. Necesidades 
Hoy día, una investigación en español LE/L2 idealmente recorre como mínimo las siguientes 
fases: primero viene una fase preparatoria de la investigación, en la que se describen los 
objetivos de investigación, el estado de la cuestión y las preguntas e hipótesis de 
investigación, acompañado o no de una reflexión propia sobre el tema y/o un estudio piloto; 
luego, después de la toma de datos —si la hay—, sigue la descripción —y, si presente, el 
análisis— del fenómeno bajo estudio; y finalmente se discuten los resultados (volviendo a las 
preguntas e hipótesis de investigación), que se traducen al aula de español LE/L2, sacando al 
mismo tiempo conclusiones y esbozando perspectivas para investigaciones ulteriores. 
En el trabajo con los textos de nativos, surgen durante estas fases las siguientes 
necesidades: (1) decidir qué se quiere observar en las muestras de lengua, (2) elegir las 
muestras de lengua más adecuadas de acuerdo con los objetivos de la investigación y (3) 
comparar con otras muestras de lengua. A continuación, entraremos más en detalle en cada 
una de estas necesidades. 
2 
 
 
 
6.1.1. Decidir qué se quiere observar en las muestras de lengua 
El investigador en español LE/L2 puede ir a la búsqueda de uno o varios de los siguientes 
tipos de fenómenos lingüísticos: el comportamiento de ciertas unidades léxicas, estructuras 
(léxicogramaticales o pragmáticas, u otros componentes de la lengua escrita, oral o no verbal, 
en un contexto limitado (grupo de palabras) o amplio (textual), por lo que importa conocer su 
frecuencia (absoluta y relativa), su densidad, sus patrones combinatorios, su variación (al lado 
de otras unidades parecidas en cuanto a forma y/o significado, en el tiempo, en el espacio), el 
ratio palabra/forma o tipo/caso (type/token), el contraste con otros registros / géneros / lenguas 
/ contextos, etc. 
 
6.1.2. Elegir las muestras de lengua más adecuadas de acuerdo con los objetivos de la 
investigación 
En el caso de solo disponer de datos aislados (digitales y/o en papel), el investigador no podrá 
llegar a formular respuestas fiables a las preguntas de investigación, a no ser que se trate de 
un fenómeno muy aislado y poco frecuente que no requiera el estudio de un número más 
representativo de ocurrencias. El investigador, aun siendo nativo, podrá basarse 
exclusivamente en su intuición y en ejemplos elaborados ad hoc, y no podrá seleccionar un 
input suficiente y de calidad para la enseñanza y la adquisición de cualquier tipo de contenido. 
Es en esta fase cuando se revela particularmente útil el trabajo con corpus: el 
investigador elegirá en primer lugar entre corpus de aprendices y de nativos, entre corpus 
sincrónico y/o diacrónico, oral y/o escrito, pero en la segunda sección de este capítulo 
veremos que se pueden tomar en cuenta muchos más parámetros para elegir más 
adecuadamente el o los corpus donde indagar, entre otras en base a los propios objetivos 
(meramente descriptivos o no) del estudio, puesto que la complejidad de la interfaz de los 
corpus depende en gran medida de cantidad y diversidad de los datos expuestos. Además, se 
podrá decidir realizar (también) experimentos con alumnos de español LE/L2, por lo que se 
insertará una fase de trabajo con poblaciones. Después de la elección y descripción de los 
participantes, tal como en el caso de los corpus, se pasará a un estudio de la población que 
puede ser meramente descriptivo o —como en la mayoría de los casos— incluir un análisis. 
 
6.1.3. Comparar con otras muestras de lengua 
Cada vez más estudios, además de describir (y analizar o no) un corpus y/o una población, 
procederán, para aumentar el grado de extrapolación, a una fase de comparación con otros 
corpus (más grandes, de referencia, de nativos) y/o con otros datos sacados de experimentos 
cualitativos con nativos. Para ello también este capítulo lista los criterios y los corpus para 
guiar la elección adecuada del corpus de referencia. 
 
 
6.2. Cómo ayudan las tecnologías 
 
6.2.1. Sobre el concepto de corpus 
Un corpus lingüístico es un conjunto de textos informatizados producidos en situaciones 
reales, que se han seleccionado siguiendo una serie de criterios lingüísticos explícitos que 
garantizan que dicho corpus pueda ser usado como muestra representativa de la lengua 
(Alonso Pérez-Ávila 2007, 19). Esta definición muestra explícitamente que (1) los textos 
deben ser naturales (no artificiales ni creados expresamente para su incorporación al corpus), 
(2) han de estar en formato electrónico porque esa es la única forma de que podamos 
recuperar la información que precisamos, (3) tienen que ser representativos de la variedad de 
3 
 
la que proceden y, por último, (4) deben permitir su estudio científico (no exclusivamente 
lingüístico), lo cual suele implicar la adición de información gramatical, léxica y pragmática a 
la simple secuencia de formas gráficas que constituyen el texto en el sentido más habitual de 
la palabra (Rojo 2016). 
Aparte del término de “corpus”, también se habla de “bases de datos textuales”: 
Hablaremos de corpus, simplemente, en el caso de aquellas compilaciones de muestras 
de habla o de escritura recogidas en su contexto natural de enunciación, y para los 
materiales extraídos de publicaciones (ensayos, novelas, periódicos, artículos 
científicos, etc.) y agrupados de acuerdo con criterios homogéneos reservaremos la 
categoría de “base de datos textual”. Aun siendo muestras naturales de lengua, llegan 
al usuario de corpus como productos creados originalmentecon otros fines (literarios, 
difusión de la ciencia, divulgación de información, etc.), y su acceso a ellos podría 
realizarse también por vías distintas a las del corpus. (Briz Gómez y Albelda Marco 
2009, 1) 
Globalmente, bajo el término de “recursos lingüísticos” en línea (o digitales) se suelen reunir 
un conjunto heterogéneo de fuentes de información en Internet que permiten solucionar 
problemas lingüísticos corrientes. Llisterri (2003, 2007) distingue las tecnologías (programas 
informáticos) de los recursos (bases de datos), y subdivide ambas categorías en base al tipo de 
datos, a saber: orales o escritos, a los que Cassany (2016, 10) añade la subcategoría de 
multimodal (es decir, que combinan distintos tipos de datos: textuales, auditivos, visuales...). 
 
6.2.2. Ventajas y limitaciones del trabajo con corpus textuales de nativos 
Por un lado, el uso de una serie de recursos electrónicos (on y off line), como los corpus y 
programas de tratamiento de los mismos (de extracción, anotación y análisis) conlleva 
grandes ventajas en términos de rapidez, volumen y precisión en el procesamiento de los 
datos: como veremos a continuación, esta revolución tecnológica permite elaborar con una 
facilidad cada vez más sorprendente instrumentos de análisis altamente fructíferos como listas 
de palabras de un texto, concordancias (es decir: líneas de texto donde en medio figura(n) 
la(s) palabra(s) buscada(s), o KWIC (Key Words in Context; en español PCEC: Palabras Clave 
En Contexto) para visualizar a la vez una gran cantidad de ejemplos de uso de una palabra (o 
un grupo de palabras), y patrones combinatorios gracias a valores como la MI (Mutual 
Information, en español IM: Información Mutua), que indica el grado de dependencia mutua 
entre dos palabras). Las palabras coocurrentes (o “colocaciones”, es decir: la coaparición de 
dos o más palabras en un segmento de texto en el que la distancia entre los elementos de la 
colocación no sobrepasa las cuatro o cinco palabras), presentan un alto interés de estudio, 
entre otros para la construcción de diccionarios, gramáticas y manuales (Parodi 2006, 113). 
Por lo tanto, estos recursos aportan una base sólida para detectar las estructuras 
lingüísticas más frecuentes en las producciones reales de los hablantes nativos de una lengua, 
y de esta manera encontrar respuestas a una tipología muy variada de dudas concretas por 
medio del acceso a amplios contextos reales. Para el investigador, el corpus permite, además 
de ello, basarse no exclusivamente en la intuición y en ejemplos elaborados ad hoc, sino en 
una fuente amplia y fiable de recursos lingüísticos, para luego seleccionar un input suficiente 
y de calidad al que enfrentar a sus alumnos de forma que tenga lugar el intake, es decir, la 
adquisición de cualquier tipo de contenido (Alonso Pérez-Ávila 2007, 11). 
Por otro lado, el término de “corpus” y los que se asocian con su uso —como 
concordancias, tagging, etc.— suelen inspirar miedo porque se asocian con expertos (Buyse 
2020 en prensa habla de los “8 expertos” a quienes un profesor de español LE/L2 tiene que 
enseñar a acudir a sus alumnos, a saber: los diccionarios, las gramáticas, los verificadores 
ortográficos, los corpus, los traductores automáticos, los profesores, los nativos, y la L1 junto 
con las otras lenguas extranjeras aprendidas anteriormente). No obstante, se podrá constatar 
en los apartados siguientes que existe toda una gama de corpus que son relativamente fáciles 
4 
 
de manejar. De ahí la necesidad de introducir en las formaciones unas breves explicaciones y 
prácticas guiadas para conocer la terminología y aprender a trabajar con corpus. 
 
6.2.3. Tipos de corpus: hacia una nueva criteriología 
Tal como se acaba de anunciar en la primera sección, el investigador deberá elegir las 
muestras de lengua más adecuadas para su estudio. Sin embargo, a excepción del primer 
esbozo elaborado ya en el siglo pasado por Llisterri y Torruella Casañas (1999), que tratan en 
detalle los tipos de corpus orales (véase el capítulo 8), las obras de referencia existentes 
suelen limitarse a unos pocos criterios: en la obra más reciente, a saber, Parodi y Burdiles 
(2018), los expertos se limitan a las dicotomías oral vs. escrito y a español como L1 vs. L2. 
Por ello, en lo que sigue, se hace un intento para listar y comentar de manera más elaborada 
los criterios de selección. Más adelante, en la sección tres, se presentarán casos concretos de 
investigación basados en corpus elegidos en base a estos parámetros. 
En las tipologías de corpus, bases de datos textuales y recursos digitales (a partir de 
aquí se hablará simplemente de “corpus”) algunas obras (como Contreras Seitz 2006, 114) 
diferencian los corpus según los siguientes parámetros (los términos no son nuestros): 
(1) la modalidad: 
• corpus escritos 
• corpus hablados (que pueden ser conversaciones libres o —en la mayoría de los 
casos— entrevistas semidirigidas) 
(2) la especificidad de los textos: 
• generales, que pretenden reflejar la lengua o variedad lingüística de la forma más 
equilibrada posible, vs. especializados, cuyos textos pueden aportar datos para la 
descripción de un tipo particular de lengua (un área temática) 
• genéricos o textos pertenecientes a un único género, cuyo objetivo es caracterizar 
dicho género (este término es ambiguo, puesto que también puede referirse a lo 
general) 
• canónicos: que representan la obra completa de un autor 
• cronológicos o textos de una época concreta 
• diacrónicos o históricos, vs. sincrónico 
• limitados a ciertos registros, dialectos, regiones, variantes socioculturales, etc. 
• de nativos vs. de aprendices (sobre learner corpus véase el capítulo 7) 
• escritos vs. orales (para los orales, véase el capítulo 8) 
(3) la extensión y distribución de los textos: 
• macrocorpus vs. microcorpus 
• grandes, es decir: que no tienen límites de palabras o es muy elevado, no siguen 
criterios de representatividad o equilibrio 
• equilibrados, es decir, cuentan con la misma proporción de diferentes tipos de textos 
• piramidales, con textos distribuidos en estratos o niveles, de manera que en cada nivel 
hay más variedad y menos textos 
• cerrados, o constituidos por un número predeterminado de palabras, vs. abiertos o en 
constante crecimiento 
(4) la representatividad del corpus: 
• textuales, esto es, formados por textos enteros 
• de referencia (término ambiguo, puesto que se emplea también para referirse a un 
corpus mucho más grande), formados por fragmentos, porque interesa más el nivel de 
lengua, el equilibrio y la representatividad que el texto en sí 
• léxicos (sample corpus), formados por fragmentos muy breves de textos, de una 
longitud constante 
5 
 
(5) el proceso al que se someta el corpus: 
• simples, no anotados, no codificados, es decir: sin formato alguno y sin añadir 
ninguna información adicional 
• verticales, el resultado de disponer en forma de columna las palabras de un texto 
ordenadas según criterios alfabéticos o frecuenciales 
• codificados o anotados, formados por textos a los que se han añadido, de forma 
manual o automática, determinadas informaciones referidas a la estructura de textos o 
aspectos puramente lingüísticos. 
Además de basarse en estos criterios, los corpus también se pueden clasificar según una serie 
de parámetros técnicos (véase Buyse 2020, en prensa): 
• la presencia de un motor electrónico de búsqueda 
• la posibilidad de extraer “concordancias” (véase el apartado 6.2.2 para una definición) 
• la posibilidad de volver a ordenar alfabéticamente las concordancias según la primera, 
segunda, tercera o cuarta palabra a la izquierda o a la derecha de la palabra buscada, lo 
que permite encontrar los verbos, adjetivos o sustantivos que se combinan con la 
palabra buscada 
• la posibilidad de usar “operadores” como AND (para buscar contextos donde 
aparezcan al mismo tiempo las palabras a la izquierda y a la derecha del operador), 
OR (parabuscar contextos donde aparezca una palabra u otra pero no las dos juntas) y 
NO (para excluir contextos donde aparezcan las palabras a la derecha del operador) 
• la posibilidad de usar los “comodines” universales ‘?’ (representa a un solo carácter) y 
‘*’ (representa a varios caracteres, hasta final de palabra) 
• la posibilidad de excluir stopwords (es decir, palabras muy frecuentes, como ‘de’, ‘el’, 
etc.) 
• la actualización del corpus (es decir, si se actualiza de vez en cuando o no, y la 
frecuencia con la que se hace) 
• ± lematizado (si no está lematizado, solo se podrá buscar por palabras o “formas”, de 
manera que la búsqueda de ‘trabajar’ solo devolverá ocurrencias de la misma palabra 
‘trabajar’; en cambio, cuando se pueda buscar por “lemas”, a partir del lema ‘trabajar’ 
se obtendrán todas las formas del verbo, como ‘trabajo’, ‘trabajé’, etc.) 
• ± POS Tagging (Parts Of Speech, es decir: categorías gramaticales: e.g., el sistema 
establece (o no) una diferencia entre la forma verbal y la forma sustantiva de ‘duda’) 
• ± etiquetado semántico (de modo que se puedan buscar sinónimos, antónimos, 
palabras afines) 
• la posibilidad de limitar (o no) la búsqueda a ciertas áreas temáticas (como 
‘medicina’), ciertos tipos de textos (como orales, académicos, etc.), y áreas 
geográficas (países) 
• la posibilidad de buscar combinaciones frecuentes y/o “significativas”, calculadas a 
partir de pruebas de coaparición como el ya mencionado valor MI), con o sin KWIC 
(véase 6.2.2), y con o sin POS Tagging (véase 6.2.3): en tal caso, las diferentes 
categorías gramaticales se indicarían con colores diferentes (véase el apartado 6.2.2 
para las definiciones de los términos) 
• la posibilidad de tomar en cuenta (o no) las mayúsculas, los acentos y/o la puntuación 
(‘está’ frente a ‘esta’) 
 
Finalmente, Buyse (2011-2017) distingue también entre los siguientes tipos de corpus (para 
ejemplos, véase la sección 3 de este capítulo): 
• corpus propios, caseros 
6 
 
• corpus que se pueden adquirir o buscadores con corpus que se pueden adquirir, como 
en los catálogos de ELRA y de LDC (véase el apartado 6.6 para las referencias) 
• corpus de acceso libre disponibles en internet: 
o la web en su conjunto, a través de un buscador o una aplicación en línea más 
potente y refinada 
o selecciones de textos realizadas por expertos, con motores relativamente 
simples o algo más complejos 
o corpus monolingües o multilingües, y entre estos: paralelos (de textos 
traducidos) o comparables (textos similares —pero no traducidos— en más de 
una lengua o variedad) 
o combinaciones de diccionarios y corpus 
 
Tomando en cuenta los criterios expuestos, proponemos en la Tabla 1 una criteriología 
actualizada para clasificar los corpus, con una aplicación concreta a tres corpus. 
 
Tabla 1. Criteriología nueva para la clasificación de los corpus. Elaboración propia. 
20 criterios y subcriterios 
 
 
W
eb
co
rp
 
C
or
pu
s 
de
l 
E
sp
añ
ol
 
L
in
gu
ee
 
1. corpus (o base de datos textual) (x) / combinación de diccionario y corpus (y) x x y 
2. presentación directa en formato textual (x) / en formato de motor electrónico 
de búsqueda (y) 
y y y 
3. casero (x) / adquirido (y) / de acceso libre (z) z z z 
4. extensión y actualización 
a. extensión: macrocorpus (x) vs. microcorpus (y) x x x 
b. ritmo de actualización del corpus: alto (x) / medio (y) / bajo (z) x z y 
5. modalidad: escrito (x) / hablado (y) / mixto (z) x z x 
a. (hablado: conversaciones libres (x) / semidirigidas (y) / mixto (z)) z 
6. sincrónico (x) / diacrónico (y) / mixto (z) x z x 
7. de nativos (x) / de aprendices (y) / mixto (z) z x x 
8. corpus de español general (x) o para fines específicos (y) x x x 
a. una (x) o varias (y) áreas temáticas y y y 
b. una (x) o varias (y) variedades geográficas del español y y y 
c. uno (x) o varios (y) registros y y y 
d. uno (x) o varios (y) niveles socioculturales y y y 
9. la posibilidad de limitar 
a. a ciertas áreas temáticas - + - 
b. a ciertos géneros - + - 
c. a ciertas variedades geográficas - + - 
d. a ciertos niveles socioculturales - - - 
10. la posibilidad de comparar varios subcorpus - + - 
11. textos de toda la web (x) / selección de textos realizada por expertos (y) x y x 
12. monolingüe (x) vs. multilingüe (y) x x y 
a. (multilingüe: paralelo (x) / comparable (y)) x 
13. ± etiquetado 
a. ± lematizado - + - 
b. ± POS Tagging - + - 
c. ± etiquetado semántico - + - 
d. ± palabras clave en contexto - + - 
14. ± concordancias + + +/- 
a. ± reordenación de las concordancias + + - 
15. ± posibilidad de usar lenguaje informático universal 
a. ± operadores + - - 
b. ± comodines universales - + - 
7 
 
16. ± exclusión de stopwords + + - 
17. ± búsqueda de combinaciones frecuentes + + +/- 
a. con información estadística básica (x) o avanzada (y) x y - 
b. con representación esquemática + + - 
18. se toma en cuenta la ortografía y/o la puntuación 
a. las mayúsculas + - - 
b. los acentos + + + 
c. la puntuación - + - 
19. facilidad de uso + +/- + 
20. acceso a los textos + + + 
 
6.3. Casos concretos 
En esta sección presentaremos de manera sucinta una selección de corpus que dan acceso a 
los (diferentes tipos de) textos escritos de nativos y que no son de pago (6.3.1), dado que la 
mayoría de los investigadores noveles en la actualidad no disponen del apoyo estructural 
necesario para adquirir corpus de pago, como los de ELRA y de LDC listados en 6.2.3. A esta 
presentación le seguirá un recorrido por las herramientas de extracción, anotación y análisis 
(6.3.2) y la descripción de unos casos concretos de investigación para ilustrar el uso de los 
corpus y las herramientas (6.3.3). 
Presentaciones más exhaustivas y detalladas de algunos de los corpus mencionados se 
encuentran entre otros en las siguientes listas (véase el apartado 6.6 para las referencias): 
• la excelente web Tagpacker de Mar Cruz Piñol, anotada con tags para, por ejemplo, 
‘lematizado’, ‘marcaje_cat_gramatical’, ‘concordancias’ 
• Cruz Piñol (2012/2017) 
• Enghels, Vanderschueren y Bouzouita (2015) 
• Briz y Albelda (2009) 
• Albelda (2011), para los corpus orales (y el capítulo 8 de esta monografía) 
• la web de Joaquim Llisterri, con los corpus más importantes para la enseñanza e 
investigación en español LE/L2 
• Alonso Ramos (2016), para los corpus de aprendices (y el capítulo 7 de esta 
monografía) 
 
6.3.1. Selección de corpus gratuitos con acceso a los diferentes (tipos de) textos 
A continuación se presentarán más en detalle ocho corpus gratuitos: cinco son de tipo general 
(con todo tipo de textos, escritos y orales, véase 6.3.1.1-5) y tres de tipo exclusivamente 
escrito (véase 6.3.1.6-8). En cada caso se listarán elementos a favor y en contra de su uso, 
junto con una ilustración del manejo en caso de que parezca útil. Para las referencias, véase la 
bibliografía. 
 
6.3.1.1. La Real Academia: del CREA y el CORDE al CORPES XXI 
Para paliar las deficiencias de sus corpus sincrónico CREA y diacrónico CORDE —que 
siguieron hasta hace poco sin disponer de lematización ni POS Tagging—, la Real Academia 
Española (RAE) lanzó el CORPES XXI, con las siguientes características: 
• +: macrocorpus, lematización (búsqueda por forma, lema o una combinación de los 
dos; consulta de expresiones que contengan hasta cinco palabras), POS Tagging, 
coapariciones de palabras; cuando esté listo, este corpus constará de textos de todos 
los tipos (véase la Figura 1), de todos los países, de diferentes áreas temáticas 
(ciencias y tecnología, ciencias sociales, creencias y pensamiento, política, economía, 
comercio y finanzas, artes, ocio, vida cotidiana, salud, novela, teatro, relatos y 
guiones) 
8 
 
• +: con acceso a los textos (véase la Figura 2), y en las últimas ediciones con 
transcripciones de textos orales, hasta con la posibilidad de la recuperación del sonido 
alineado con textos orales y la consulta por categoría gramatical, y en unaparte de 
ellos, el sonido alineado correspondiente a la transcripción; además, en bastantes casos 
es posible la descarga del archivo de audio o la visualización del vídeo del documento 
fuente; 
• -: en proceso de elaboración; el criterio tipología (tipo de texto) todavía no es 
operativo para muchos tipos de textos 
Entretanto se ha lanzado para el CREA una versión anotada, en la que está integrado el 
sistema de codificación y anotación desarrollado para CORPES, permitiendo así la consulta 
por lemas, formas y categorías gramaticales. Esta versión anotada convive en la página 
electrónica con las versiones sin anotar y no contienen aún los textos orales. Se ha establecido 
una frontera cronológica en el año 2000, fecha en la que limita con el CORPES, que contiene 
textos escritos o producidos desde el año 2001 en adelante. 
 El CORDE, por su parte, sigue sin lematizarse, pero los textos se han integrado en un 
corpus nuevo, a saber: el CDH (El corpus del Nuevo diccionario histórico del español), que 
consta de tres bloques fundamentales de consulta: el CDH_nuclear, que se complementa con 
otros dos corpus que constituyen ampliaciones de este primer conjunto, a saber, un grupo de 
textos diacrónicos, que van del siglo XII a 1974, procedentes del CORDE; y un segundo 
grupo de obras fechadas entre 1975 y 2000, con títulos procedentes del CREA. 
 
Figura 1. Los tipos de textos reunidos en el CORPES XXI. Fuente: CORPES (RAE). 
 
Por ejemplo, si un investigador en español LE/L2 quiere comparar de manera fidedigna (en 
vez de basarse únicamente en su intuición) el uso del sustantivo desahucio (muy frecuente en 
textos escritos sobre las consecuencias de las crisis financieras en el mundo hispanohablante) 
en textos escritos por aprendices (véase para ello el capítulo 7) con otros escritos por nativos, 
podrá recurrir al CORPES XXI para ver el uso de la forma o el lema o una combinación de 
9 
 
los dos y la coaparición de otras palabras en su contexto por medio de las concordancias 
(Figura 2), y también podrá encontrar patrones combinatorios gracias a valores como la MI. 
 
 
Figura 2. CORPES XXI: Resultado de la búsqueda a partir del lema ‘desahucio’ (pero con 
una posibilidad poco funcional de limitar a los tipos de textos), y abajo el texto de la primera 
concordancia. 
 
6.3.1.2. Corpus del Español 
• +: corpus lematizado y con POS Tagging desde hace mucho tiempo por Mark Davies 
y su equipo 
• +: altas posibilidades de búsqueda, entre las que destacamos las siguientes: buscar 
palabras exactas, frases, colocaciones, etiquetas semánticas, lemas, categorías 
gramaticales (POS), períodos, tipos textuales o cualquier combinación de estos, 
además de comparar varias formas, colocaciones, períodos 
• +: sincrónico + histórico 
• +: nueva interfaz desde finales del 2016 con que el autor responde a las críticas con 
respecto a la facilidad de uso y a la atención a las variantes del español (véase la 
Figura 3); contiene ahora varios subcorpus, entre otros el antiguo con textos y 
diferentes géneros desde el siglo XIII, y otro nuevo que contiene textos actuales 
divididos por área del mundo español y que permite también crear tus propios corpus 
virtuales. 
• +: con acceso a los textos (véase la Figura 3) 
• -: tamaño inferior al del CORPES XXI; obligatorio registrarse para hacer búsquedas 
más que ocasionales (pero con la posibilidad de guardar las búsquedas realizadas ya) 
Por ejemplo, si seguimos estudiando el tema de los desahucios como consecuencia de una 
crisis financiera (véase el apartado 6.3.1.1), y queremos descubrir cuáles son las palabras (y 
sus categorías gramaticales) coocurrentes del lema ‘desahucio’, introducimos este sustantivo 
(en mayúsculas, mientras que las formas en este corpus se introducen en minúsculas), 
seleccionamos PCEC (Palabras Clave en Contexto, o KWIC, Key Word in Context) y en la 
pantalla de resultados (véase la Figura 3) se observan inmediatamente cuáles son los 
sustantivos (en azul), adjetivos (en verde), verbos (en púrpura) y preposiciones (en gris) que 
coocurren a la izquierda y a la derecha de ‘desahucio’. En la columna 3 se listan los textos 
bajo forma de un enlace que lleva directamente a los mismos. 
10 
 
 
 
Figura 3. Corpus del español: Resultado de la búsqueda a partir del lema ‘desahucio’ con las 
palabras clave en contexto. 
 
Para saber cuáles son los adjetivos más frecuentes al lado de ‘desahucio’, hacemos clic 
en “colocados”, seleccionamos “adjetivos” y “primera posición a la derecha”, y los resultados 
aparecerán en orden decreciente de frecuencia (Figura 4). 
 
 
Figura 4. Búsqueda en Corpus del español: Resultado de la búsqueda a partir del lema 
‘desahucio’, con los adjetivos más frecuentes a la derecha del lema. 
11 
 
 
Este corpus, tal como algunos de los otros (cf. infra), permite también el uso de los 
comodines universales ‘?’ (que representa a un solo carácter) y ‘*’ (que representa a varios 
caracteres, hasta final de palabra). Así, al buscar ‘seguir*’, el sistema devuelve todas las 
formas encontradas en el corpus que comienzan por ‘seguir-’ (Figura 5). 
 
 
Figura 5. Corpus del español: Resultado de la búsqueda a partir del lema ‘seguir’ con el 
comodín ‘*’. 
 
6.3.1.3. Corpus del Español Actual (CEA) 
• +: proyecto acabado (C. Subirats y M. Ortega, Universidad Autónoma de Barcelona) 
• +: macrocorpus 
• +/-: diferentes tipos de textos (véase la Figura 6), pero el acceso es limitado: el archivo 
mencionado en la segunda columna de las concordancias (Figura 7) solo se abre 
gradualmente a raíz de varios clics consecutivos para pedir more context (“más 
contexto”); no se puede limitar por tipo de texto 
• -: oficialmente hace falta registrarse, pero se puede entrar con el nombre de usuario y 
la contraseña ‘guest’ (aunque cuesta descubrirlo). 
 
12 
 
 
Figura 6. Repartición de los tipos de textos en el CEA. 
 
Así, si retomamos el ejemplo del lema ‘desahucio’, la interfaz del CEA permite extraer 
concordancias como en la Figura 7. 
 
 
Figura 7. CEA: Resultado de la búsqueda a partir del lema ‘desahucio’. 
 
6.3.1.4. ARTHUS (Archivo de Textos Hispánicos de la Universidad de Santiago) 
 
• +: proyecto acabado (base para el proyecto ADESSE de la Universidade de Vigo: 
Base de datos de Verbos, Alternancias de Diátesis y Esquemas Sintáctico-Semánticos 
del Español, versión ampliada de la Base de Datos Sintácticos del Español Actual) 
• +: macrocorpus 
• +/-: solo permite buscar verbos, pero el nivel de anotación de los mismos es muy 
detallado, 
13 
 
• +/-: diferentes tipos de textos (véase la Figura 8), a saber: textos narrativos (37%), 
ensayos (18%), textos teatrales (15%), prensa (12%), y textos orales (19%), pero el 
acceso es limitado, porque el motor de búsqueda solo permite investigar esquemas 
sintácticos de los verbos 
• -: corpus ya algo anticuado (1980–1990) 
 
 
Figura 8. ARTHUS: ventana de búsqueda. 
 
6.3.1.5. Corpus SenSem Español (antes GRIAL) 
• +: proyecto acabado (Grupo GRIAL, Grup de Recerca Interuniversitari en 
Aplicacions Lingüístiques de la Universidad Autónoma de Barcelona); corpus 
manualmente anotados con finalidad de búsqueda semántico-sintáctica) 
• -: relativamente pequeño 
• +/-: solo permite buscar verbos, pero el nivel de anotación de los mismos es muy 
detallado, véase la figura 10 para la búsqueda del verbo ‘hacer’ 
• +/-: diferentes tipos de textos (véase la Figura 9), aunque limitado: textos de El 
Periódico y algunos textos literarios españoles); acceso directo, aunque algo 
restringido (véase la Figura 10) 
 
14 
 
 
Figura 9. SenSem: ventana de búsqueda. 
 
 
Figura 10. SenSem: Resultado de la búsqueda a partir del verbo ‘hacer’. 
 
6.3.1.6. Webcorp 
• +: actualización constante por el Research and Development Unit for English Studies 
(RDUES) de la School of English de la Birmingham City University 
• +: permite sacar concordancias (y reordenarlas) y listas de colocaciones 
• +: permite limitar a ciertos tipos de textos (‘Newspapers’/ ‘academic’), y da acceso 
directo a los textos a partir de las concordancias (Véanse las Figuras 11, 12 y 13) 
• -: fiabilidad (corpus = toda la web), flexibilidad (- lematización, - POS Tagging) 
 
Así, en esta aplicación podemos introducir en la interfaz de búsqueda (Figura 11) la palabra 
‘desahucio’, elegir uno de los motores de búsqueda (e.g. Bing —con los otros no aparece el 
15 
 
español entre las lenguas—), seleccionar el español y limitar los sitios web (site) a los que 
tengan la extensión .es. Como las concordancias que nos devuelve Webcorp vienen separadas 
por las URL y ordenadas por el orden en el que fueron rastreados por la aplicación, 
especificamos en la pantalla de las post search options (Figura 12) que se nos vuelvan a 
ordenar las concordancias en orden alfabético según la segunda palabra a la izquierda de 
‘desahucio’, y que ya no aparezcan las URL (esto también se puede pedir en la primera 
pantalla de búsqueda (véase la Figura 11). Este orden nos permite comprobar, por ejemplo, 
los verbos que se combinan con ‘desahucio’ (como ‘practicar’, ‘ejecutar’, ‘pedir’, ‘ordenar’, 
‘paralizar’, ‘parar’, véase la Figura 13), y contrastarlo con las combinaciones halladas en los 
corpus de aprendices (si es que ya figura la palabra ‘desahucio’, que es relativamente reciente, 
y por lo tanto constituye todo un desafío para el alumno y/o el investigador de español LE/L2 
encontrar datos sobre ella). 
 En este sentido, una búsqueda por medio de esta aplicación puede aportar 
informaciones sobre términos recientes que no se encuentran muy a menudo en los corpus 
compuestos de textos cuidadosamente seleccionados por expertos, como los comentados hasta 
ahora. 
 
 
Figura 11. Búsqueda con Webcorp: Resultado de la búsqueda a partir del lema ‘desahucio’. 
 
 
16 
 
 
Figura 12. “Post search options” de Webcorp. 
 
 
Figura 13. Concordancias reordenadas de Webcorp. 
 
 
6.3.1.7. Wortschatz 
• +: textos seleccionados (y actualizados, aunque no muy frecuentemente) por el equipo 
investigador Projekt Deutscher Wortschatz de la Universität Leipzig 
• +: frecuencia, unos ejemplos contextualizados, formas coocurrentes a la izquierda y a 
la derecha, ambas en orden de frecuencia decreciente, y una visualización gráfica 
(mapa semántico) (véanse las Figuras 14 y 15) 
• Spanish Newspapers & Mexican webpages: full text available 
• -: tamaño, flexibilidad (- lematización, - POS Tagging) 
 
17 
 
 
Figura 14. Corpus español de Wortschatz: Resultado de la búsqueda a partir de la palabra 
‘desahucio’. 
 
 
 
Figura 15. Mapa semántico de Wortschatz a partir de la palabra ‘desahucio’. 
 
6.3.1.8. Combinaciones de diccionarios y corpus multilingües 
• Ejemplos: Linguee, Glosbe, Reverso... (véase el apartado 6.6 para las referencias) 
• +: actualización rápida 
• +: permiten hasta obligan al usuario a ver la traducción en contexto, por lo que se 
vuelve menos probable la típica traducción literal de palabra por palabra 
• +: acceso directo a los textos (Figura 16) 
18 
 
 
Como ya afirmaba Alonso-Ramos (2009), el diccionario en este caso (y en los siguientes) es 
orientado por los datos (data-driven research, véanse los capítulos 1, 7 y 8 del presente 
volumen): actúa como interfaz que da acceso al corpus, ambos se funden en una nueva 
herramienta, que la propia investigadora propuso denominar “corpuscionario”. Aunque el 
término todavía no está realmente acuñado, expresa muy bien la naturaleza híbrida de este 
tipo de aplicaciones. Al investigador en español LE/L2 le permite tener acceso indirecto pero 
rápido y sencillo a las interferencias que la L1 y otras lenguas aprendidas ya por el alumno de 
español LE/L2 pueden provocar con respecto a ciertas (combinaciones de) palabras en 
español. Así, en la Figura 16 se ve el cambio de preposición fija entre ‘to count on X’ en 
inglés y ‘contar con X’ en español. 
 
 
Figura 16. Linguee: Resultado de la búsqueda a partir del inglés ‘count on’. 
 
19 
 
6.3.2. Herramientas de extracción, anotación y análisis 
En la mayoría de los casos, para una investigación basada en corpus de nativos, bastarán uno 
o varios de los corpus que se acaban de presentar. Sin embargo, si hace falta recurrir parcial o 
totalmente a corpus propios, será útil, en primer lugar, recurrir a herramientas de lematización 
y de POS Tagging (aunque no sea indispensable en todos los casos: véase, para una 
definición, el apartado 6.2.2). Dos aplicaciones de este tipo que se pueden descargar y usar 
para fines académicos, son TreeTagger & PetraTag. TreeTagger es una herramienta 
desarrollada en la universidad de Stuttgart y que, además de para otras lenguas, ya ha 
demostrado su utilidad para el estudio del español. PetraTAG, por su parte, ha sido 
desarrollado por el grupo de investigación PETRA (véase 6.3.3 para unos ejemplos y 6.6 para 
las referencias). 
En segundo lugar, puede que sea interesante añadir etiquetas a las ocurrencias del 
fenómeno estudiado o a ciertos fragmentos del corpus, lo que se puede hacer digitalmente con 
un programa de anotación. En muchos casos, estas herramientas incluirán al mismo tiempo 
ciertas funcionalidades de análisis, como las que se presentan al principio de este capítulo 
(véase 7.2.1), es decir: listas y recuentos de palabras (o de ocurrencias clasificadas según las 
etiquetas que uno puede haberles agregado), concordancias, palabras clave en contexto, la 
Información Mutua, las palabras coocurrentes. En el capítulo 8 se presentarán dos 
aplicaciones potentes y libres de pago, a saber: los UAM Corpus Tools y AntConc. Una 
alternativa, pero de pago, es Wordsmith Tools (véase 6.3.3 para unos ejemplos y 6.6 para las 
referencias). Además, para una explicación detallada sobre la elaboración de un corpus 
propio, véase Llisterri y Torruella Casañas (1999, 15-28). 
En el siguiente apartado ilustraremos el uso de estas herramientas a partir de unas 
investigaciones concretas. 
 
6.3.3. Seis casos concretos de investigación en español LE/L2 basados en corpus 
En Giménez García (2012), se describe el funcionamiento pragmático del marcador 
conversacional “¿me entiendes?”, un fenómeno difícil de describir y explicar a los alumnos de 
español LE/L2. Los corpus empleados son el CREA y el Corpus del Español. Como este está 
lematizado y aquel no, no se devuelven las mismas variantes en ambos casos: además de las 
ocurrencias de ‘¿tú entiendes?’, ‘¿me entiendes?’, ‘¿entiendes?’, ‘a ver si tú me entiendes’, 
‘no sé si me entiendes’, ‘¿entiendes tú?’, ‘¿lo entiendes?’, en el Corpus del Español también 
se encuentran con una sola búsqueda otras variantes como ‘¿me entendiste?’ y ‘¿me 
entendiste tú?’. Los dos corpus permiten buscar en todos los temas y países, y limitar al 
código oral y al español contemporáneo de los últimos 30 años. 
En Molés-Cases (2016) se describe la compilación y el análisis de un corpus paralelo 
para el estudio de un componente léxicogramatical en traducción. Las etiquetas del corpus 
han sido introducidas con TreeTagger (véase 6.3.2 para descripción y 6.6 para las 
referencias). Además, incluye una breve introducción a la exploración y el análisis de corpus 
con Corpus Query Processor, la principal herramienta del IMS Open Corpus Workbench, una 
colección de herramientas de fuente abierta para gestionar corpus anotados de gran tamaño 
(véase 6.6 para las referencias). Concretamente se describe cómo se traduce la expresión de la 
manera de desplazamiento del alemán al español. El corpus paralelo alemán-español se 
compone de textos de literatura infantil y juvenil escritos entre 1973 a 2011 y sus respectivas 
traducciones al español. En este sentido es un buen ejemplo para el investigador en español 
LE/L2 que quiera confeccionar un corpus para el estudio contrastivo entre el español LE y 
la(s) lengua(s) materna(s) de sus alumnos. 
Contreras Seitz (2006), por su parte, es un estudio léxico(gráfico) que presenta la 
constitución de un corpus diacrónico del español de Chile, anotado por medio delText 
Encoding Initiative (TEI, véase 6.6 para las referencias), que es un consorcio que desarrolla y 
20 
 
mantiene un estándar para la representación de los textos en forma digital, con amplia 
difusión y utilización en bibliotecas y colecciones de texto digitales y en la creación de 
corpora lingüísticos (empleado, por ejemplo, por la RAE para la anotación del CORDE). Se 
basa en el lenguaje XML, una versión simplificada del SGML. El trabajo de Contreras Seitz 
ha sido concebido en primer lugar para estudiar una variante del español en su vertiente 
diacrónica, pero la metodología empleada se explica de manera clara y detenida para el 
investigador en español LE/L2 que quiera transferirla a un estudio que requiera la confección 
de un corpus propio. 
En el caso de Celayeta Gil (2016) se trata de un corpus lingüístico especialmente 
creado para el análisis gramatical y pragmático de las perífrasis verbales en el español actual 
de manera contextualizada, a partir de las muestras extraídas de las secciones de opinión y 
deportes de seis periódicos, cuatro nacionales (El Mundo, El País, ABC y La Vanguardia) y 
dos internacionales (La Nación, de Argentina, y El Informador, de México), correspondientes 
al mes de enero de 2014. La finalidad de este corpus creado ad hoc para el análisis y la 
enseñanza-aprendizaje de las perífrasis verbales del español actual se puede concretar en tres 
objetivos: analizar su uso y frecuencia, detectar las perífrasis verbales más rentables y 
recopilar ejemplos de uso contextualizado que permitan una futura explotación didáctica. La 
herramienta de creación y análisis de corpus utilizada es Sketchengine (creado por Adam 
Kilgarriff y su empresa Lexical Computing, véase 6.6 para las referencias), porque permite 
realizar búsquedas más complejas y no es un simple motor de búsquedas. El corpus obtenido 
suma un total de 2.846.963 palabras y está organizado en subcorpus en función del país de 
procedencia de los textos y de las secciones. 
El objetivo principal del proyecto CorpusRedEs (Pano Alamán y Moya Muñoz 2015) 
es diseñar y construir un corpus de géneros textuales digitales en los medios sociales, un 
género muy difícil de tratar en la clase de español LE/L2. Entre los objetivos específicos se 
lee que el corpus sea representativo del tipo de interacciones que tienen lugar en los distintos 
modos sociotécnicos que van surgiendo en la Red y que contemple las principales variedades 
diatópicas del español, además de distintos dominios o temáticas. La última fase del proyecto 
comprende la puesta a disposición en línea del corpus anotado y de los modelos de base, para 
su consulta y mejora por parte de investigadores interesados en utilizar el corpus o colaborar 
en el proyecto. Los textos se publicarán en una plataforma web, que incluirá información de 
carácter bibliográfico sobre teoría, metodología y aplicaciones del análisis del discurso 
mediado por ordenador en lengua española. El etiquetado ha sido realizado con el editor XML 
Oxygen, frecuentemente utilizado en proyectos de Humanidades Digitales Hispánicas y que 
incluye las etiquetas y plantillas de TEI P5 (véase 6.6 para las referencias). 
Finalmente, en Buyse et al. (2011) se presenta un estudio léxicogramatical y 
pragmático en corpus específicos del ámbito de la medicina, que contienen diferentes 
variantes del español, diferentes registros (lenguaje médico científicos frente al popular) y 
provenientes de diferentes zonas del mundo hispanohablante. Los corpus propios se comparan 
también con otros de referencia (artículos en revistas y libros de medicina, tanto de tipo 
científico como de tipo popular). El corpus propio contiene protocolos anonimizados de 
hospitales neerlandófonos y francófonos, además de las versiones española, inglesa y francesa 
de Donde no hay doctor (Mbow 1992) y de varios manuales de medicina. Se añadieron 
protocolos españoles e ingleses recogidos de sitios web especializados, y materiales de RSS 
feeds (Really Simple Syndication o “sindicación realmente simple”, “sindicación” aplicándose 
en inglés a empresas de varios periódicos), un formato XML para distribuir contenido en la 
web y que se utiliza para difundir información actualizada frecuentemente a usuarios que se 
han suscrito a la fuente de contenidos. Para crear el corpus, se aprovecharon varias 
aplicaciones caseras, además de Unitex y WordSmith, dos herramientas potentes, 
ampliamente conocidas y frecuentemente utilizadas para lematizar y elaborar listas de 
21 
 
palabras, Palabras en Contexto y colocaciones (véase 6.6 para las referencias). El objetivo 
final es ofrecer a los estudiantes flamencos de medicina un compendio léxicogramatical para 
sus prácticas en varios países hispanohablantes (Buyse y Saver 2016). 
 
6.4. Conclusión 
En lo que precede el investigador en español LE/L2 habrá podido leer cuándo, por qué y para 
qué los corpus pueden tener un lugar en las distintas fases de la investigación (véase 6.1-
6.2.2), además de apreciar una primera tentativa de ofrecer una criteriología completa para 
distinguir entre los distintos corpus que tiene a su disposición para realizar investigaciones en 
español LE/L2 (véase 6.2.3), aplicada a ocho tipos de corpus gratuitos (cinco de tipo general, 
es decir: con textos escritos y orales, y tres de tipo exclusivamente escrito), cada uno de ellos 
acompañados por unos elementos a favor y en contra de su uso, junto con una ilustración del 
manejo del corpus (véase 6.3.1). Asimismo, se han listado las fases y herramientas que hacen 
falta para crear un corpus propio, en el caso de que los corpus anteriormente comentados no 
fueran suficientes para el estudio contemplado (véase 6.3.2). Finalmente, se ha ejemplificado 
en seis casos concretos cómo algunos de los corpus comentados y/o otros de creación propia 
son aprovechados en estudios gramaticales, léxicos y pragmáticos basados en estos corpus y/o 
herramientas, tanto desde una perspectiva sincrónica como diacrónica, y con referencia a una 
o varias variantes del español (véase 6.3.3). 
 
Notas 
1 Este texto contiene pasajes inspirados en Buyse (2006, 2007, 2010, 2011, 2014, 2016, 2017, 2019, 2020 en 
prensa). 
 
 
6.5. Bibliografía 
Aijmer, K., ed. 2009. Corpora and language teaching. Ámsterdam: John Benjamins. 
Albeldo Marco, M. 2011. “Rentabilidad de los corpus discursivos en la didáctica de lenguas 
extranjeras”. En Del texto a la lengua: La aplicación de los textos a la enseñanza-
aprendizaje del español L2-LE. Actas del XXI Congreso Internacional de ASELE, eds. 
J. de Santiago Guervós, H. Bongaerts, J. J. Sánchez Iglesias y M. Seseña Gómez, Vol. 
1, 83-96. Salamanca: ASELE. 
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/21/21_0083.pdf 
Alonso Pérez-Ávila, E. 2007. “El corpus lingüístico en la didáctica del léxico del español 
como LE”. Boletín de la Asociación para la Enseñanza del Español como Lengua 
Extranjera 37: 11-27. http://www.aselered.org/pdfs/boletin37.pdf 
Alonso Ramos, M. 2009. “Hacia un nuevo recurso léxico: ¿fusión entre corpus y 
diccionario?”. En A survey of corpus-based research, eds. P. Cantos Gómez y A. 
Sánchez Pérez, 1191-1207. 
http://www.dicesp.com/app/webroot/files/file/CILC%2009.pdf 
Alonso Ramos, M. 2016. Spanish Learner Corpus Research Current trends and future 
perspectives, Studies in Corpus Linguistics, 78. Amsterdam: Benjamins. 
Aston, G., S. Bernardini y D. Stewart. 2004. Corpora and language learners. 
Amsterdam/Philadelphia: Benjamins. 
Barton, D. y C. Lee. 2013. Language online. Investigating digital texts and practices. 
Londres: Routledge. 
Blommaert, J. y D. Jie. 2010. Ethnographic fieldwork. Bristol: Multilingual Matters. 
Briz Gómez, A. y M. Albelda Marco. 2009. “Estado actual de los corpus de lengua española 
hablada y escrita: I+D”. En El español en el mundo. Anuario del Instituto Cervantes 
2009. https://cvc.cervantes.es/lengua/anuario/anuario_09/briz_albeida/p01.htm 
22 
 
Buyse K. 2006. “Motivating writing teaching”. ITL:Review of Applied Linguistics 152: 111-
126. https://doi.org/10.2143/ITL.152.0.2017865 
Buyse, K. 2007. “Escritura eficaz y motivadora”. Foco. Amersfoort: Asociación de Profesores 
de Español de Holanda: 12-18. 
Buyse, K. 2010. “La expresión escrita en la clase de ELE: ingredientes esenciales, sazonados 
o no con TIC”. Mosaico 26: 4-13. 
https://sede.educacion.gob.es/publiventa/d/13949/19/0 
Buyse, K. 2011a. “¿Qué corpus en línea utilizar para qué fines en la clase de ELE? Del texto a 
la lengua: La aplicación de los textos a la enseñanza-aprendizaje del español L2-LE”. 
En Del texto a la lengua: La aplicación de los textos a la enseñanza-aprendizaje del 
español L2-LE. Actas del XXI Congreso Internacional de ASELE, eds. J. de Santiago 
Guervós, H. Bongaerts, J. J. Sánchez Iglesias y M. Seseña Gómez, Vol. 1, 277-289. 
Salamanca: ASELE. 
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/21/21_0277.pdf 
Buyse, K. 2011b. “Effective Writing Tasks and Feedback for the Internet Generation”. 
Language Learning in Higher Education 1 (2): 1-22. https://doi.org/10.1515/cercles-
2011-0028 
Buyse, K. 2014. “Una hoja de ruta para integrar las TIC en el desarrollo de la expresión 
escrita: Recursos y resultados”. Journal of Spanish Language Teaching 1(1): 101-115. 
https://doi.org/10.1080/23247797.2014.898516 
Buyse K. 2016. “La buena cocina de la expresión escrita: ¿cómo conseguir que los alumnos 
preparen buenos platos?”. En Enseñar español en la actualidad, ed. E. Gamazo y M. 
Aznar, 174-194. Coimbra: Universidade de Coimbra. 
http://hdl.handle.net/10316.2/41010 
Buyse K. 2017. “Corpus para todos en la enseñanza de ELE”. Cuadernos de Didáctica 3, 
121-140. Barcelona: Difusión. 
Buyse K. 2019. “Destrezas II: expresión y comprensión escritas”. En Manual de formación 
inicial para profesores de español, ed. F. Jiménez Calderón, Cap. 4, 121-142. 
Madrid: SGEL. 
Buyse K. 2020, en prensa “Qué tipo de corpus para qué tipo de texto: de la teoría a la 
práctica”. En Lingüística textual y enseñanza de español LE/L2, eds. J. de Santiago 
Guervós y L. Díaz. Londres: Routledge. 
Buyse, K. y E. González Melón. 2013. “El corpus de aprendices Aprescrilov y su utilidad 
para la didáctica de ELE en la Bélgica multilingüe”. En Plurilingüismo y enseñanza de 
ELE en contextos multiculturales. Actas del XXIII Congreso Internacional ASELE, 
eds. B. Blecua, S. Borrell, B. Crous, F. Sierra, 247-261. Gerona: ASELE. 
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/23/23_0025.pdf 
Buyse K., L. Fernández Pereda y K. Verveckken. 2016. “The Aprescrilov Corpus, or 
Broadening the Horizon of Spanish Language Learning in Flanders”. En Studies in 
Corpus Linguistics, 78, Spanish Learner Corpus Research Current trends and future 
perspectives, ed. M. Alonso Ramos, 143-168. 
http://lys.dc.fi.udc.es/slides_WSLCR2015/Buyse_WSLCR2015.pdf 
Buyse K. y E. Saver E. 2008. UrgentiAS: urgentielexicon voor de artsenstage Spaans. 
Leuven: Alta. 
Buyse K., Saver E., Laffut A., Vekemans H. 2011. “UrgentiAS, a lexical database for medical 
students in clinical placements: Architecture, use and evaluation”. En Researching 
Specialized Languages, eds. V. Bhatia, P. Sánchez Hernández y P. Pérez-Paredes, 
191-210. Amsterdam: John Benjamins. 
Buyse K. y S. Verlinde S. 2013. “Possible effects of free on line data driven lexicographic 
instruments on foreign language learning: The case of linguee and the interactive 
23 
 
language toolbox”. Procedia: Social and Behavioral Sciences 95, 507-512. 
https://doi.org/10.1016/j.sbspro.2013.10.675 
Cassany, D. 2016. “Recursos lingüísticos en línea: Contextos, prácticas y retos”. Revista 
Signos 49, 7-29. https://www.redalyc.org/pdf/1570/157048408002.pdf 
Celayeta Gil, N. 2016. “La creación de un Corpus ad hoc para el análisis y la enseñanza-
aprendizaje de las perífrasis verbales en español”. En La formación y competencias del 
profesorado de ELE. Actas del XXVI Congreso Internacional de ASELE, ed. O. Cruz 
Moya. Madrid: ASELE, 185-195. 
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/26/26_0185.pdf 
Contreras Seitz, M. 2006. “Hacia la constitución de un corpus diacrónico del español de 
Chile”. Revista de Lingüística Teórica y Aplicada, 47 (2), 111-134. 
http://doi.org/10.4067/S0718-48832009000200007 
Cruz Piñol, M. 2005. “Sobre el uso de Internet para trabajar la normativa”. Textos, 39, 77-88. 
Cruz Piñol, M. 2012. Lingüística de corpus y enseñanza del español como 2/L. Madrid: 
Arco/Libros, 2017. 
Cruz Piñol, M. 2016. Corpus de nativos en la clase de ELE. 
http://hdl.handle.net/2445/104166 
Cruz Piñol, M., K. Buyse, V. González Argüello y N. Tukahara. 2012. “¿Qué queremos de la 
red y para qué? Nuevas perspectivas en el uso de la red en la enseñanza del ELE”. En 
La red y sus aplicaciones en la enseñanza-aprendizaje del español LE. Actas del XXII 
Congreso Internacional de ASELE, eds. Hernández González C., A. Carrasco Santana 
y E. Álvarez Ramos, 31-59. Valladolid: Universidad de Valladolid. 
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/22/22_0005.pdf 
Enghels, R., C. Vanderschueren y M. Bouzouita. 2015. Manuel des anthologies, corpus et 
textes romans. Monográfico de Manuals of Romance Linguistics 7, 147-170. 
Fernández Martín, P. 2012. Filología y lingüística: métodos, corpus y nuevas tecnologías. 
Saarbrücken: Editorial Académica Española. 
Giménez García, J. M. 2012. “La presencia del marcador conversacional "¿me entiendes?" en 
los corpus lingüísticos CREA y Mark Davies como indicador de culturas de 
alejamiento o de acercamiento”. Revista de Letras, II, 11, 71-84. 
https://studylib.es/doc/671192/la-presencia-del-marcador-conversacional-
%E2%80%9C%C2%BFme-entiendes%3F%E2%80%9D 
Llisterri, J. 2003. “Lingüística y tecnologías del lenguaje”. Lynx 2, 9-71. 
http://www.iling.unam.mx/cursocorpus/TecnoLing_Lynx02.pdf 
Llisterri, J. 2007. “El español y las nuevas tecnologías”. En Lingüística aplicada del español, 
ed. M. Lacorte, 483-520. Madrid: Arco/Libros. 
http://liceu.uab.cat/~joaquim/publicacions/Llisterri_07_Tecnologias_Linguisticas_Esp
anol.pdf 
Llisterri, J. y J. Torruella Casañas. 1999. “Diseño de corpus textuales y orales”. Filología e 
informática: nuevas tecnologías en los estudios filológicos, 45-81. 
https://bit.ly/2zAPWFW 
Mbow, M.L. (ed.). 1992. Là où il n’y a pas de docteur. Dakar: Enda tiers-monde. 
http://oer2go.org/mods/fr-hesperian/werner-david-la-ou-il-n-y-a-pas-de-docteur.pdf 
McCullough, J. L. 2001. “Los usos de los córpora de textos en la enseñanza de lenguas”, 
Nuevas Tecnologías para el autoaprendizaje y la didáctica de lenguas, ed. M. Trenchs 
Parera, 125-140. Lleida: Milenio. 
Molés-Cases, T. 2016. “Compilación y análisis de un corpus paralelo para la investigación en 
traducción: Proyecto con Déjà Vu, TreeTagger e IMS Corpus WorkBench”. RLA. 
Revista de lingüística teórica y aplicada 54 (1), 149-174. 
http://doi.org/10.4067/S0718-48832016000100008 
24 
 
Pano Alamán, A. y P. Moya Muñoz. 2015. “CorpusRedEs. Proyecto de creación y anotación 
de un corpus de comunicación mediada por ordenador en español”. CHIMERA: 
Romance Corpora and Linguistic Studies 2015 (2), 117-129. 
https://revistas.uam.es/index.php/chimera/article/view/1042 
Parodi, G. 2006. “El Grial: interfaz computacional para anotacion e interrogacion de corpus 
en español”. Revista de Lingüística Teórica y Aplicada 44 (2), 91-115. 
http://doi.org/10.4067/S0718-48832006000200007 
Parodi, G. 2010. Lingüística del corpus: De la teoría a la empiria. Frankfurt: Editorial 
Iberoamericana-Veruert. 
Parodi, G. y G. Burdiles. 2018. “Corpus y base de datos”. En The Routledge Handbook of 
Spanish Language Teaching, eds. J. Muñoz-Basols, E. Gironzetti y M. Lacorte, 596-
613. Londres: Routledge. 
Pérez Hernández, C. y A. Moreno Ortiz. 2009. “Lingüística computacional y Lingüística de 
corpus. Potencialidades para la investigación textual”. En Teoría y literatura artística 
en la sociedad digital: construcción y aplicabilidadde colecciones textuales 
informatizadas, ed. N. Rodríguez Ortega, 67-96. Gijón: TREA. 
Pitkowski, E. F. y J. Vásquez Gamarra. 2009. “El uso de los corpus lingüísticos como 
herramienta pedagógica para la enseñanza y aprendizaje de ELE”. Tinkuy 11, 31-51. 
https://littlm.umontreal.ca/fileadmin/Documents/FAS/litterature_langue_moderne/Doc
uments/2-Recherche/Tinkuy11.pdf#page=31 
Reppen, R. 2010. Using Corpora in the Language Classroom. Nueva York: Cambridge 
Rojo, G. 2016. “Los corpus textuales del español”. En Enciclopedia lingüística hispánica, ed. 
J. Gutiérrez-Rexach, 285-296. Oxon: Routledge. 
Samper, J. A., C. E. Hernández Cabrera y M. Troya eds. 1998. Macrocorpus de la norma 
lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). 
Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la 
Universidad de las Palmas de Gran Canaria. 
Sinclair, J. M. 2004. How to use Corpora in Language Teaching. Amsterdam: John 
Benjamins. 
 
6.6. Recursos en línea 
• AntConc: http://www.laurenceanthony.net/software.html 
• ARTHUS (Archivo de Textos Hispánicos de la Universidad de Santiago): 
http://adesse.uvigo.es/data/ 
• Babla: http://es.bab.la/ 
• CDH (Corpus del Nuevo diccionario histórico): 
http://web.frl.es/CNDHE/view/inicioExterno.view 
• COLA (Corpus Oral de Lenguaje Adolescente): http://www.colam.org/om_prosj-
espannol.html 
• CORDE (Corpus Diacrónico del Español): http://www.rae.es/recursos/banco-de-
datos/corde 
• CORLEC (Corpus Oral de Referencia del Español Contemporáneo): 
http://www.lllf.uam.es/ESP/Corlec.html 
• CORPES XXI : http://www.rae.es/recursos/banco-de-datos/corpes-xxi 
• CEA (Corpus del Español Actual): http://spanishfn.org/tools/cea/spanish 
• Corpus del Español: http://www.corpusdelespanol.org 
• Corpus SenSem Español (antes GRIAL): http://grial.edu.es/sensem/corpus?idioma=ca 
• corpus SOL - Spanish Online: http://spraakbanken.gu.se/konk/rom2/ 
• COSER (Corpus Oral y Sonoro del Español Rural): http://www.uam.es/coser 
25 
 
• CREA (Corpus de Referencia del Español Actual): http://www.rae.es/recursos/banco-
de-datos/crea 
• Elda: http://www.elda.org/ 
• ELRA (European Language Resources Association): 
http://www.icp.grenet.fr/ELRA/catalog/index.html 
• Glosbe: https://es.glosbe.com/ 
• Google: www.google.es 
• The IMS Open Corpus Workbench (CWB): http://cwb.sourceforge.net/ 
• Joaquim Llisterri (página personal): 
http://liceu.uab.es/~joaquim/applied_linguistics/new_technologies/LengEsp_Materiale
s_WWW.html#recursos_linguisticos 
• LDC (Linguistic Data Consortium): http://www.ldc.upenn.edu/ldc/catalog/index.html 
• Linguee: http://www.linguee.com/ 
• Mar Cruz Piñol (Tagpacker): https://tagpacker.com/user/mar.cruz.pinol 
• PRESEEA (Proyecto para el Estudio Sociolingüístico del Español de España y de 
América: http://preseea.linguas.net 
• Reverso: http://www.reverso.net 
• Sketchengine: http://sketchengine.co.uk/ 
• Text Encoding Initiative (TEI): https://tei-c.org/ 
• TreeTagger: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 
• UAM corpus tools: http://www.wagsoft.com/CorpusTool/ 
• UNITEX: https://unitexgramlab.org/ 
• Val.Es.Co (Valencia.Español.Coloquial): http://www.valesco.es 
• Webcorp: http://www.webcorp.org.uk/ 
• Wortschatz: http://wortschatz.uni-leipzig.de 
• WordSmith Tools: https://www.lexically.net/wordsmith/ 
 
26