6

Sistema de Educación y Legislación Educacional

•

Gimn Comercial Los Andes

estren22

23/9/2023

¡Este material tiene más páginas!

Vista previa del material en texto

Corpus textuales de nativos para investigar sobre la enseñanza/aprendizaje
del español LE/L21
Kris Buyse

Resumen
En este capítulo se ofrece a los investigadores noveles y otros especialistas en el campo del
español LE/L2 un recorrido básico por los corpus de nativos existentes y por el camino que
hay que emprender para crear un corpus propio. Para ello se abordan las características de la
investigación basada en corpus y bases de datos, así como los métodos de toma de datos más
adecuados para llevarla a cabo y las herramientas para procesar, describir y analizarlos.
Después de presentar las necesidades, ventajas y limitaciones del trabajo con los
corpus, se propone una criteriología nueva de clasificación de los corpus existentes, seguida
por un recorrido por los corpus de nativos más importantes para la investigación actual en
español LE/L2. Asimismo, se explican brevemente tanto la base teórica como unas
herramientas prácticas (como de marcación de corpus) para elaborar corpus propios. El
capítulo termina por una presentación de estudios gramaticales, léxicos y pragmáticos basados
en los tipos de corpus presentados, tanto desde una perspectiva sincrónica como diacrónica, y
con referencia a una o varias variantes del español.

El objetivo de este capítulo es ofrecer a los investigadores noveles y otros especialistas en el
campo del español LE/L2 un recorrido básico por los corpus de nativos existentes y por el
camino que hay que emprender para crear un corpus propio. Para ello se abordarán las
características de la investigación basada en corpus y bases de datos, así como los métodos de
toma de datos más adecuados para llevarla a cabo y las herramientas para procesar, describir y
analizarlos.
Después de presentar las necesidades, ventajas y limitaciones del trabajo con los
corpus, se propondrá una criteriología nueva de clasificación de los corpus existentes, seguida
por un recorrido por los corpus de nativos más importantes para la investigación actual en
español LE/L2. Asimismo, se explicarán brevemente tanto la base teórica como unas
herramientas prácticas (como de marcación de corpus) para elaborar corpus propios. El
capítulo terminará con una presentación de estudios gramaticales, léxicos y pragmáticos
basados en los tipos de corpus presentados, tanto desde una perspectiva sincrónica como
diacrónica, y con referencia a una o varias variantes del español.

6.1. Necesidades
Hoy día, una investigación en español LE/L2 idealmente recorre como mínimo las siguientes
fases: primero viene una fase preparatoria de la investigación, en la que se describen los
objetivos de investigación, el estado de la cuestión y las preguntas e hipótesis de
investigación, acompañado o no de una reflexión propia sobre el tema y/o un estudio piloto;
luego, después de la toma de datos —si la hay—, sigue la descripción —y, si presente, el
análisis— del fenómeno bajo estudio; y finalmente se discuten los resultados (volviendo a las
preguntas e hipótesis de investigación), que se traducen al aula de español LE/L2, sacando al
mismo tiempo conclusiones y esbozando perspectivas para investigaciones ulteriores.
En el trabajo con los textos de nativos, surgen durante estas fases las siguientes
necesidades: (1) decidir qué se quiere observar en las muestras de lengua, (2) elegir las
muestras de lengua más adecuadas de acuerdo con los objetivos de la investigación y (3)
comparar con otras muestras de lengua. A continuación, entraremos más en detalle en cada
una de estas necesidades.
2

6.1.1. Decidir qué se quiere observar en las muestras de lengua
El investigador en español LE/L2 puede ir a la búsqueda de uno o varios de los siguientes
tipos de fenómenos lingüísticos: el comportamiento de ciertas unidades léxicas, estructuras
(léxicogramaticales o pragmáticas, u otros componentes de la lengua escrita, oral o no verbal,
en un contexto limitado (grupo de palabras) o amplio (textual), por lo que importa conocer su
frecuencia (absoluta y relativa), su densidad, sus patrones combinatorios, su variación (al lado
de otras unidades parecidas en cuanto a forma y/o significado, en el tiempo, en el espacio), el
ratio palabra/forma o tipo/caso (type/token), el contraste con otros registros / géneros / lenguas
/ contextos, etc.

6.1.2. Elegir las muestras de lengua más adecuadas de acuerdo con los objetivos de la
investigación
En el caso de solo disponer de datos aislados (digitales y/o en papel), el investigador no podrá
llegar a formular respuestas fiables a las preguntas de investigación, a no ser que se trate de
un fenómeno muy aislado y poco frecuente que no requiera el estudio de un número más
representativo de ocurrencias. El investigador, aun siendo nativo, podrá basarse
exclusivamente en su intuición y en ejemplos elaborados ad hoc, y no podrá seleccionar un
input suficiente y de calidad para la enseñanza y la adquisición de cualquier tipo de contenido.
Es en esta fase cuando se revela particularmente útil el trabajo con corpus: el
investigador elegirá en primer lugar entre corpus de aprendices y de nativos, entre corpus
sincrónico y/o diacrónico, oral y/o escrito, pero en la segunda sección de este capítulo
veremos que se pueden tomar en cuenta muchos más parámetros para elegir más
adecuadamente el o los corpus donde indagar, entre otras en base a los propios objetivos
(meramente descriptivos o no) del estudio, puesto que la complejidad de la interfaz de los
corpus depende en gran medida de cantidad y diversidad de los datos expuestos. Además, se
podrá decidir realizar (también) experimentos con alumnos de español LE/L2, por lo que se
insertará una fase de trabajo con poblaciones. Después de la elección y descripción de los
participantes, tal como en el caso de los corpus, se pasará a un estudio de la población que
puede ser meramente descriptivo o —como en la mayoría de los casos— incluir un análisis.

6.1.3. Comparar con otras muestras de lengua
Cada vez más estudios, además de describir (y analizar o no) un corpus y/o una población,
procederán, para aumentar el grado de extrapolación, a una fase de comparación con otros
corpus (más grandes, de referencia, de nativos) y/o con otros datos sacados de experimentos
cualitativos con nativos. Para ello también este capítulo lista los criterios y los corpus para
guiar la elección adecuada del corpus de referencia.

6.2. Cómo ayudan las tecnologías

6.2.1. Sobre el concepto de corpus
Un corpus lingüístico es un conjunto de textos informatizados producidos en situaciones
reales, que se han seleccionado siguiendo una serie de criterios lingüísticos explícitos que
garantizan que dicho corpus pueda ser usado como muestra representativa de la lengua
(Alonso Pérez-Ávila 2007, 19). Esta definición muestra explícitamente que (1) los textos
deben ser naturales (no artificiales ni creados expresamente para su incorporación al corpus),
(2) han de estar en formato electrónico porque esa es la única forma de que podamos
recuperar la información que precisamos, (3) tienen que ser representativos de la variedad de
3

la que proceden y, por último, (4) deben permitir su estudio científico (no exclusivamente
lingüístico), lo cual suele implicar la adición de información gramatical, léxica y pragmática a
la simple secuencia de formas gráficas que constituyen el texto en el sentido más habitual de
la palabra (Rojo 2016).
Aparte del término de “corpus”, también se habla de “bases de datos textuales”:
Hablaremos de corpus, simplemente, en el caso de aquellas compilaciones de muestras
de habla o de escritura recogidas en su contexto natural de enunciación, y para los
materiales extraídos de publicaciones (ensayos, novelas, periódicos, artículos
científicos, etc.) y agrupados de acuerdo con criterios homogéneos reservaremos la
categoría de “base de datos textual”. Aun siendo muestras naturales de lengua, llegan
al usuario de corpus como productos creados originalmentecon otros fines (literarios,
difusión de la ciencia, divulgación de información, etc.), y su acceso a ellos podría
realizarse también por vías distintas a las del corpus. (Briz Gómez y Albelda Marco
2009, 1)
Globalmente, bajo el término de “recursos lingüísticos” en línea (o digitales) se suelen reunir
un conjunto heterogéneo de fuentes de información en Internet que permiten solucionar
problemas lingüísticos corrientes. Llisterri (2003, 2007) distingue las tecnologías (programas
informáticos) de los recursos (bases de datos), y subdivide ambas categorías en base al tipo de
datos, a saber: orales o escritos, a los que Cassany (2016, 10) añade la subcategoría de
multimodal (es decir, que combinan distintos tipos de datos: textuales, auditivos, visuales...).

6.2.2. Ventajas y limitaciones del trabajo con corpus textuales de nativos
Por un lado, el uso de una serie de recursos electrónicos (on y off line), como los corpus y
programas de tratamiento de los mismos (de extracción, anotación y análisis) conlleva
grandes ventajas en términos de rapidez, volumen y precisión en el procesamiento de los
datos: como veremos a continuación, esta revolución tecnológica permite elaborar con una
facilidad cada vez más sorprendente instrumentos de análisis altamente fructíferos como listas
de palabras de un texto, concordancias (es decir: líneas de texto donde en medio figura(n)
la(s) palabra(s) buscada(s), o KWIC (Key Words in Context; en español PCEC: Palabras Clave
En Contexto) para visualizar a la vez una gran cantidad de ejemplos de uso de una palabra (o
un grupo de palabras), y patrones combinatorios gracias a valores como la MI (Mutual
Information, en español IM: Información Mutua), que indica el grado de dependencia mutua
entre dos palabras). Las palabras coocurrentes (o “colocaciones”, es decir: la coaparición de
dos o más palabras en un segmento de texto en el que la distancia entre los elementos de la
colocación no sobrepasa las cuatro o cinco palabras), presentan un alto interés de estudio,
entre otros para la construcción de diccionarios, gramáticas y manuales (Parodi 2006, 113).
Por lo tanto, estos recursos aportan una base sólida para detectar las estructuras
lingüísticas más frecuentes en las producciones reales de los hablantes nativos de una lengua,
y de esta manera encontrar respuestas a una tipología muy variada de dudas concretas por
medio del acceso a amplios contextos reales. Para el investigador, el corpus permite, además
de ello, basarse no exclusivamente en la intuición y en ejemplos elaborados ad hoc, sino en
una fuente amplia y fiable de recursos lingüísticos, para luego seleccionar un input suficiente
y de calidad al que enfrentar a sus alumnos de forma que tenga lugar el intake, es decir, la
adquisición de cualquier tipo de contenido (Alonso Pérez-Ávila 2007, 11).
Por otro lado, el término de “corpus” y los que se asocian con su uso —como
concordancias, tagging, etc.— suelen inspirar miedo porque se asocian con expertos (Buyse
2020 en prensa habla de los “8 expertos” a quienes un profesor de español LE/L2 tiene que
enseñar a acudir a sus alumnos, a saber: los diccionarios, las gramáticas, los verificadores
ortográficos, los corpus, los traductores automáticos, los profesores, los nativos, y la L1 junto
con las otras lenguas extranjeras aprendidas anteriormente). No obstante, se podrá constatar
en los apartados siguientes que existe toda una gama de corpus que son relativamente fáciles
4

de manejar. De ahí la necesidad de introducir en las formaciones unas breves explicaciones y
prácticas guiadas para conocer la terminología y aprender a trabajar con corpus.

6.2.3. Tipos de corpus: hacia una nueva criteriología
Tal como se acaba de anunciar en la primera sección, el investigador deberá elegir las
muestras de lengua más adecuadas para su estudio. Sin embargo, a excepción del primer
esbozo elaborado ya en el siglo pasado por Llisterri y Torruella Casañas (1999), que tratan en
detalle los tipos de corpus orales (véase el capítulo 8), las obras de referencia existentes
suelen limitarse a unos pocos criterios: en la obra más reciente, a saber, Parodi y Burdiles
(2018), los expertos se limitan a las dicotomías oral vs. escrito y a español como L1 vs. L2.
Por ello, en lo que sigue, se hace un intento para listar y comentar de manera más elaborada
los criterios de selección. Más adelante, en la sección tres, se presentarán casos concretos de
investigación basados en corpus elegidos en base a estos parámetros.
En las tipologías de corpus, bases de datos textuales y recursos digitales (a partir de
aquí se hablará simplemente de “corpus”) algunas obras (como Contreras Seitz 2006, 114)
diferencian los corpus según los siguientes parámetros (los términos no son nuestros):
(1) la modalidad:
• corpus escritos
• corpus hablados (que pueden ser conversaciones libres o —en la mayoría de los
casos— entrevistas semidirigidas)
(2) la especificidad de los textos:
• generales, que pretenden reflejar la lengua o variedad lingüística de la forma más
equilibrada posible, vs. especializados, cuyos textos pueden aportar datos para la
descripción de un tipo particular de lengua (un área temática)
• genéricos o textos pertenecientes a un único género, cuyo objetivo es caracterizar
dicho género (este término es ambiguo, puesto que también puede referirse a lo
general)
• canónicos: que representan la obra completa de un autor
• cronológicos o textos de una época concreta
• diacrónicos o históricos, vs. sincrónico
• limitados a ciertos registros, dialectos, regiones, variantes socioculturales, etc.
• de nativos vs. de aprendices (sobre learner corpus véase el capítulo 7)
• escritos vs. orales (para los orales, véase el capítulo 8)
(3) la extensión y distribución de los textos:
• macrocorpus vs. microcorpus
• grandes, es decir: que no tienen límites de palabras o es muy elevado, no siguen
criterios de representatividad o equilibrio
• equilibrados, es decir, cuentan con la misma proporción de diferentes tipos de textos
• piramidales, con textos distribuidos en estratos o niveles, de manera que en cada nivel
hay más variedad y menos textos
• cerrados, o constituidos por un número predeterminado de palabras, vs. abiertos o en
constante crecimiento
(4) la representatividad del corpus:
• textuales, esto es, formados por textos enteros
• de referencia (término ambiguo, puesto que se emplea también para referirse a un
corpus mucho más grande), formados por fragmentos, porque interesa más el nivel de
lengua, el equilibrio y la representatividad que el texto en sí
• léxicos (sample corpus), formados por fragmentos muy breves de textos, de una
longitud constante
5

(5) el proceso al que se someta el corpus:
• simples, no anotados, no codificados, es decir: sin formato alguno y sin añadir
ninguna información adicional
• verticales, el resultado de disponer en forma de columna las palabras de un texto
ordenadas según criterios alfabéticos o frecuenciales
• codificados o anotados, formados por textos a los que se han añadido, de forma
manual o automática, determinadas informaciones referidas a la estructura de textos o
aspectos puramente lingüísticos.
Además de basarse en estos criterios, los corpus también se pueden clasificar según una serie
de parámetros técnicos (véase Buyse 2020, en prensa):
• la presencia de un motor electrónico de búsqueda
• la posibilidad de extraer “concordancias” (véase el apartado 6.2.2 para una definición)
• la posibilidad de volver a ordenar alfabéticamente las concordancias según la primera,
segunda, tercera o cuarta palabra a la izquierda o a la derecha de la palabra buscada, lo
que permite encontrar los verbos, adjetivos o sustantivos que se combinan con la
palabra buscada
• la posibilidad de usar “operadores” como AND (para buscar contextos donde
aparezcan al mismo tiempo las palabras a la izquierda y a la derecha del operador),
OR (parabuscar contextos donde aparezca una palabra u otra pero no las dos juntas) y
NO (para excluir contextos donde aparezcan las palabras a la derecha del operador)
• la posibilidad de usar los “comodines” universales ‘?’ (representa a un solo carácter) y
‘*’ (representa a varios caracteres, hasta final de palabra)
• la posibilidad de excluir stopwords (es decir, palabras muy frecuentes, como ‘de’, ‘el’,
etc.)
• la actualización del corpus (es decir, si se actualiza de vez en cuando o no, y la
frecuencia con la que se hace)
• ± lematizado (si no está lematizado, solo se podrá buscar por palabras o “formas”, de
manera que la búsqueda de ‘trabajar’ solo devolverá ocurrencias de la misma palabra
‘trabajar’; en cambio, cuando se pueda buscar por “lemas”, a partir del lema ‘trabajar’
se obtendrán todas las formas del verbo, como ‘trabajo’, ‘trabajé’, etc.)
• ± POS Tagging (Parts Of Speech, es decir: categorías gramaticales: e.g., el sistema
establece (o no) una diferencia entre la forma verbal y la forma sustantiva de ‘duda’)
• ± etiquetado semántico (de modo que se puedan buscar sinónimos, antónimos,
palabras afines)
• la posibilidad de limitar (o no) la búsqueda a ciertas áreas temáticas (como
‘medicina’), ciertos tipos de textos (como orales, académicos, etc.), y áreas
geográficas (países)
• la posibilidad de buscar combinaciones frecuentes y/o “significativas”, calculadas a
partir de pruebas de coaparición como el ya mencionado valor MI), con o sin KWIC
(véase 6.2.2), y con o sin POS Tagging (véase 6.2.3): en tal caso, las diferentes
categorías gramaticales se indicarían con colores diferentes (véase el apartado 6.2.2
para las definiciones de los términos)
• la posibilidad de tomar en cuenta (o no) las mayúsculas, los acentos y/o la puntuación
(‘está’ frente a ‘esta’)

Finalmente, Buyse (2011-2017) distingue también entre los siguientes tipos de corpus (para
ejemplos, véase la sección 3 de este capítulo):
• corpus propios, caseros
6

• corpus que se pueden adquirir o buscadores con corpus que se pueden adquirir, como
en los catálogos de ELRA y de LDC (véase el apartado 6.6 para las referencias)
• corpus de acceso libre disponibles en internet:
o la web en su conjunto, a través de un buscador o una aplicación en línea más
potente y refinada
o selecciones de textos realizadas por expertos, con motores relativamente
simples o algo más complejos
o corpus monolingües o multilingües, y entre estos: paralelos (de textos
traducidos) o comparables (textos similares —pero no traducidos— en más de
una lengua o variedad)
o combinaciones de diccionarios y corpus

Tomando en cuenta los criterios expuestos, proponemos en la Tabla 1 una criteriología
actualizada para clasificar los corpus, con una aplicación concreta a tres corpus.

Tabla 1. Criteriología nueva para la clasificación de los corpus. Elaboración propia.
20 criterios y subcriterios

W
eb
co
rp

C
or
pu
s
de
l
E
sp
añ
ol

L
in
gu
ee

1. corpus (o base de datos textual) (x) / combinación de diccionario y corpus (y) x x y
2. presentación directa en formato textual (x) / en formato de motor electrónico
de búsqueda (y)
y y y
3. casero (x) / adquirido (y) / de acceso libre (z) z z z
4. extensión y actualización
a. extensión: macrocorpus (x) vs. microcorpus (y) x x x
b. ritmo de actualización del corpus: alto (x) / medio (y) / bajo (z) x z y
5. modalidad: escrito (x) / hablado (y) / mixto (z) x z x
a. (hablado: conversaciones libres (x) / semidirigidas (y) / mixto (z)) z
6. sincrónico (x) / diacrónico (y) / mixto (z) x z x
7. de nativos (x) / de aprendices (y) / mixto (z) z x x
8. corpus de español general (x) o para fines específicos (y) x x x
a. una (x) o varias (y) áreas temáticas y y y
b. una (x) o varias (y) variedades geográficas del español y y y
c. uno (x) o varios (y) registros y y y
d. uno (x) o varios (y) niveles socioculturales y y y
9. la posibilidad de limitar
a. a ciertas áreas temáticas - + -
b. a ciertos géneros - + -
c. a ciertas variedades geográficas - + -
d. a ciertos niveles socioculturales - - -
10. la posibilidad de comparar varios subcorpus - + -
11. textos de toda la web (x) / selección de textos realizada por expertos (y) x y x
12. monolingüe (x) vs. multilingüe (y) x x y
a. (multilingüe: paralelo (x) / comparable (y)) x
13. ± etiquetado
a. ± lematizado - + -
b. ± POS Tagging - + -
c. ± etiquetado semántico - + -
d. ± palabras clave en contexto - + -
14. ± concordancias + + +/-
a. ± reordenación de las concordancias + + -
15. ± posibilidad de usar lenguaje informático universal
a. ± operadores + - -
b. ± comodines universales - + -
7

16. ± exclusión de stopwords + + -
17. ± búsqueda de combinaciones frecuentes + + +/-
a. con información estadística básica (x) o avanzada (y) x y -
b. con representación esquemática + + -
18. se toma en cuenta la ortografía y/o la puntuación
a. las mayúsculas + - -
b. los acentos + + +
c. la puntuación - + -
19. facilidad de uso + +/- +
20. acceso a los textos + + +

6.3. Casos concretos
En esta sección presentaremos de manera sucinta una selección de corpus que dan acceso a
los (diferentes tipos de) textos escritos de nativos y que no son de pago (6.3.1), dado que la
mayoría de los investigadores noveles en la actualidad no disponen del apoyo estructural
necesario para adquirir corpus de pago, como los de ELRA y de LDC listados en 6.2.3. A esta
presentación le seguirá un recorrido por las herramientas de extracción, anotación y análisis
(6.3.2) y la descripción de unos casos concretos de investigación para ilustrar el uso de los
corpus y las herramientas (6.3.3).
Presentaciones más exhaustivas y detalladas de algunos de los corpus mencionados se
encuentran entre otros en las siguientes listas (véase el apartado 6.6 para las referencias):
• la excelente web Tagpacker de Mar Cruz Piñol, anotada con tags para, por ejemplo,
‘lematizado’, ‘marcaje_cat_gramatical’, ‘concordancias’
• Cruz Piñol (2012/2017)
• Enghels, Vanderschueren y Bouzouita (2015)
• Briz y Albelda (2009)
• Albelda (2011), para los corpus orales (y el capítulo 8 de esta monografía)
• la web de Joaquim Llisterri, con los corpus más importantes para la enseñanza e
investigación en español LE/L2
• Alonso Ramos (2016), para los corpus de aprendices (y el capítulo 7 de esta
monografía)

6.3.1. Selección de corpus gratuitos con acceso a los diferentes (tipos de) textos
A continuación se presentarán más en detalle ocho corpus gratuitos: cinco son de tipo general
(con todo tipo de textos, escritos y orales, véase 6.3.1.1-5) y tres de tipo exclusivamente
escrito (véase 6.3.1.6-8). En cada caso se listarán elementos a favor y en contra de su uso,
junto con una ilustración del manejo en caso de que parezca útil. Para las referencias, véase la
bibliografía.

6.3.1.1. La Real Academia: del CREA y el CORDE al CORPES XXI
Para paliar las deficiencias de sus corpus sincrónico CREA y diacrónico CORDE —que
siguieron hasta hace poco sin disponer de lematización ni POS Tagging—, la Real Academia
Española (RAE) lanzó el CORPES XXI, con las siguientes características:
• +: macrocorpus, lematización (búsqueda por forma, lema o una combinación de los
dos; consulta de expresiones que contengan hasta cinco palabras), POS Tagging,
coapariciones de palabras; cuando esté listo, este corpus constará de textos de todos
los tipos (véase la Figura 1), de todos los países, de diferentes áreas temáticas
(ciencias y tecnología, ciencias sociales, creencias y pensamiento, política, economía,
comercio y finanzas, artes, ocio, vida cotidiana, salud, novela, teatro, relatos y
guiones)
8

• +: con acceso a los textos (véase la Figura 2), y en las últimas ediciones con
transcripciones de textos orales, hasta con la posibilidad de la recuperación del sonido
alineado con textos orales y la consulta por categoría gramatical, y en unaparte de
ellos, el sonido alineado correspondiente a la transcripción; además, en bastantes casos
es posible la descarga del archivo de audio o la visualización del vídeo del documento
fuente;
• -: en proceso de elaboración; el criterio tipología (tipo de texto) todavía no es
operativo para muchos tipos de textos
Entretanto se ha lanzado para el CREA una versión anotada, en la que está integrado el
sistema de codificación y anotación desarrollado para CORPES, permitiendo así la consulta
por lemas, formas y categorías gramaticales. Esta versión anotada convive en la página
electrónica con las versiones sin anotar y no contienen aún los textos orales. Se ha establecido
una frontera cronológica en el año 2000, fecha en la que limita con el CORPES, que contiene
textos escritos o producidos desde el año 2001 en adelante.
El CORDE, por su parte, sigue sin lematizarse, pero los textos se han integrado en un
corpus nuevo, a saber: el CDH (El corpus del Nuevo diccionario histórico del español), que
consta de tres bloques fundamentales de consulta: el CDH_nuclear, que se complementa con
otros dos corpus que constituyen ampliaciones de este primer conjunto, a saber, un grupo de
textos diacrónicos, que van del siglo XII a 1974, procedentes del CORDE; y un segundo
grupo de obras fechadas entre 1975 y 2000, con títulos procedentes del CREA.

Figura 1. Los tipos de textos reunidos en el CORPES XXI. Fuente: CORPES (RAE).

Por ejemplo, si un investigador en español LE/L2 quiere comparar de manera fidedigna (en
vez de basarse únicamente en su intuición) el uso del sustantivo desahucio (muy frecuente en
textos escritos sobre las consecuencias de las crisis financieras en el mundo hispanohablante)
en textos escritos por aprendices (véase para ello el capítulo 7) con otros escritos por nativos,
podrá recurrir al CORPES XXI para ver el uso de la forma o el lema o una combinación de
9

los dos y la coaparición de otras palabras en su contexto por medio de las concordancias
(Figura 2), y también podrá encontrar patrones combinatorios gracias a valores como la MI.

Figura 2. CORPES XXI: Resultado de la búsqueda a partir del lema ‘desahucio’ (pero con
una posibilidad poco funcional de limitar a los tipos de textos), y abajo el texto de la primera
concordancia.

6.3.1.2. Corpus del Español
• +: corpus lematizado y con POS Tagging desde hace mucho tiempo por Mark Davies
y su equipo
• +: altas posibilidades de búsqueda, entre las que destacamos las siguientes: buscar
palabras exactas, frases, colocaciones, etiquetas semánticas, lemas, categorías
gramaticales (POS), períodos, tipos textuales o cualquier combinación de estos,
además de comparar varias formas, colocaciones, períodos
• +: sincrónico + histórico
• +: nueva interfaz desde finales del 2016 con que el autor responde a las críticas con
respecto a la facilidad de uso y a la atención a las variantes del español (véase la
Figura 3); contiene ahora varios subcorpus, entre otros el antiguo con textos y
diferentes géneros desde el siglo XIII, y otro nuevo que contiene textos actuales
divididos por área del mundo español y que permite también crear tus propios corpus
virtuales.
• +: con acceso a los textos (véase la Figura 3)
• -: tamaño inferior al del CORPES XXI; obligatorio registrarse para hacer búsquedas
más que ocasionales (pero con la posibilidad de guardar las búsquedas realizadas ya)
Por ejemplo, si seguimos estudiando el tema de los desahucios como consecuencia de una
crisis financiera (véase el apartado 6.3.1.1), y queremos descubrir cuáles son las palabras (y
sus categorías gramaticales) coocurrentes del lema ‘desahucio’, introducimos este sustantivo
(en mayúsculas, mientras que las formas en este corpus se introducen en minúsculas),
seleccionamos PCEC (Palabras Clave en Contexto, o KWIC, Key Word in Context) y en la
pantalla de resultados (véase la Figura 3) se observan inmediatamente cuáles son los
sustantivos (en azul), adjetivos (en verde), verbos (en púrpura) y preposiciones (en gris) que
coocurren a la izquierda y a la derecha de ‘desahucio’. En la columna 3 se listan los textos
bajo forma de un enlace que lleva directamente a los mismos.
10

Figura 3. Corpus del español: Resultado de la búsqueda a partir del lema ‘desahucio’ con las
palabras clave en contexto.

Para saber cuáles son los adjetivos más frecuentes al lado de ‘desahucio’, hacemos clic
en “colocados”, seleccionamos “adjetivos” y “primera posición a la derecha”, y los resultados
aparecerán en orden decreciente de frecuencia (Figura 4).

Figura 4. Búsqueda en Corpus del español: Resultado de la búsqueda a partir del lema
‘desahucio’, con los adjetivos más frecuentes a la derecha del lema.
11

Este corpus, tal como algunos de los otros (cf. infra), permite también el uso de los
comodines universales ‘?’ (que representa a un solo carácter) y ‘*’ (que representa a varios
caracteres, hasta final de palabra). Así, al buscar ‘seguir*’, el sistema devuelve todas las
formas encontradas en el corpus que comienzan por ‘seguir-’ (Figura 5).

Figura 5. Corpus del español: Resultado de la búsqueda a partir del lema ‘seguir’ con el
comodín ‘*’.

6.3.1.3. Corpus del Español Actual (CEA)
• +: proyecto acabado (C. Subirats y M. Ortega, Universidad Autónoma de Barcelona)
• +: macrocorpus
• +/-: diferentes tipos de textos (véase la Figura 6), pero el acceso es limitado: el archivo
mencionado en la segunda columna de las concordancias (Figura 7) solo se abre
gradualmente a raíz de varios clics consecutivos para pedir more context (“más
contexto”); no se puede limitar por tipo de texto
• -: oficialmente hace falta registrarse, pero se puede entrar con el nombre de usuario y
la contraseña ‘guest’ (aunque cuesta descubrirlo).

Figura 6. Repartición de los tipos de textos en el CEA.

Así, si retomamos el ejemplo del lema ‘desahucio’, la interfaz del CEA permite extraer
concordancias como en la Figura 7.

Figura 7. CEA: Resultado de la búsqueda a partir del lema ‘desahucio’.

6.3.1.4. ARTHUS (Archivo de Textos Hispánicos de la Universidad de Santiago)

• +: proyecto acabado (base para el proyecto ADESSE de la Universidade de Vigo:
Base de datos de Verbos, Alternancias de Diátesis y Esquemas Sintáctico-Semánticos
del Español, versión ampliada de la Base de Datos Sintácticos del Español Actual)
• +: macrocorpus
• +/-: solo permite buscar verbos, pero el nivel de anotación de los mismos es muy
detallado,
13

• +/-: diferentes tipos de textos (véase la Figura 8), a saber: textos narrativos (37%),
ensayos (18%), textos teatrales (15%), prensa (12%), y textos orales (19%), pero el
acceso es limitado, porque el motor de búsqueda solo permite investigar esquemas
sintácticos de los verbos
• -: corpus ya algo anticuado (1980–1990)

Figura 8. ARTHUS: ventana de búsqueda.

6.3.1.5. Corpus SenSem Español (antes GRIAL)
• +: proyecto acabado (Grupo GRIAL, Grup de Recerca Interuniversitari en
Aplicacions Lingüístiques de la Universidad Autónoma de Barcelona); corpus
manualmente anotados con finalidad de búsqueda semántico-sintáctica)
• -: relativamente pequeño
• +/-: solo permite buscar verbos, pero el nivel de anotación de los mismos es muy
detallado, véase la figura 10 para la búsqueda del verbo ‘hacer’
• +/-: diferentes tipos de textos (véase la Figura 9), aunque limitado: textos de El
Periódico y algunos textos literarios españoles); acceso directo, aunque algo
restringido (véase la Figura 10)

Figura 9. SenSem: ventana de búsqueda.

Figura 10. SenSem: Resultado de la búsqueda a partir del verbo ‘hacer’.

6.3.1.6. Webcorp
• +: actualización constante por el Research and Development Unit for English Studies
(RDUES) de la School of English de la Birmingham City University
• +: permite sacar concordancias (y reordenarlas) y listas de colocaciones
• +: permite limitar a ciertos tipos de textos (‘Newspapers’/ ‘academic’), y da acceso
directo a los textos a partir de las concordancias (Véanse las Figuras 11, 12 y 13)
• -: fiabilidad (corpus = toda la web), flexibilidad (- lematización, - POS Tagging)

Así, en esta aplicación podemos introducir en la interfaz de búsqueda (Figura 11) la palabra
‘desahucio’, elegir uno de los motores de búsqueda (e.g. Bing —con los otros no aparece el
15

español entre las lenguas—), seleccionar el español y limitar los sitios web (site) a los que
tengan la extensión .es. Como las concordancias que nos devuelve Webcorp vienen separadas
por las URL y ordenadas por el orden en el que fueron rastreados por la aplicación,
especificamos en la pantalla de las post search options (Figura 12) que se nos vuelvan a
ordenar las concordancias en orden alfabético según la segunda palabra a la izquierda de
‘desahucio’, y que ya no aparezcan las URL (esto también se puede pedir en la primera
pantalla de búsqueda (véase la Figura 11). Este orden nos permite comprobar, por ejemplo,
los verbos que se combinan con ‘desahucio’ (como ‘practicar’, ‘ejecutar’, ‘pedir’, ‘ordenar’,
‘paralizar’, ‘parar’, véase la Figura 13), y contrastarlo con las combinaciones halladas en los
corpus de aprendices (si es que ya figura la palabra ‘desahucio’, que es relativamente reciente,
y por lo tanto constituye todo un desafío para el alumno y/o el investigador de español LE/L2
encontrar datos sobre ella).
En este sentido, una búsqueda por medio de esta aplicación puede aportar
informaciones sobre términos recientes que no se encuentran muy a menudo en los corpus
compuestos de textos cuidadosamente seleccionados por expertos, como los comentados hasta
ahora.

Figura 11. Búsqueda con Webcorp: Resultado de la búsqueda a partir del lema ‘desahucio’.

Figura 12. “Post search options” de Webcorp.

Figura 13. Concordancias reordenadas de Webcorp.

6.3.1.7. Wortschatz
• +: textos seleccionados (y actualizados, aunque no muy frecuentemente) por el equipo
investigador Projekt Deutscher Wortschatz de la Universität Leipzig
• +: frecuencia, unos ejemplos contextualizados, formas coocurrentes a la izquierda y a
la derecha, ambas en orden de frecuencia decreciente, y una visualización gráfica
(mapa semántico) (véanse las Figuras 14 y 15)
• Spanish Newspapers & Mexican webpages: full text available
• -: tamaño, flexibilidad (- lematización, - POS Tagging)

Figura 14. Corpus español de Wortschatz: Resultado de la búsqueda a partir de la palabra
‘desahucio’.

Figura 15. Mapa semántico de Wortschatz a partir de la palabra ‘desahucio’.

6.3.1.8. Combinaciones de diccionarios y corpus multilingües
• Ejemplos: Linguee, Glosbe, Reverso... (véase el apartado 6.6 para las referencias)
• +: actualización rápida
• +: permiten hasta obligan al usuario a ver la traducción en contexto, por lo que se
vuelve menos probable la típica traducción literal de palabra por palabra
• +: acceso directo a los textos (Figura 16)
18

Como ya afirmaba Alonso-Ramos (2009), el diccionario en este caso (y en los siguientes) es
orientado por los datos (data-driven research, véanse los capítulos 1, 7 y 8 del presente
volumen): actúa como interfaz que da acceso al corpus, ambos se funden en una nueva
herramienta, que la propia investigadora propuso denominar “corpuscionario”. Aunque el
término todavía no está realmente acuñado, expresa muy bien la naturaleza híbrida de este
tipo de aplicaciones. Al investigador en español LE/L2 le permite tener acceso indirecto pero
rápido y sencillo a las interferencias que la L1 y otras lenguas aprendidas ya por el alumno de
español LE/L2 pueden provocar con respecto a ciertas (combinaciones de) palabras en
español. Así, en la Figura 16 se ve el cambio de preposición fija entre ‘to count on X’ en
inglés y ‘contar con X’ en español.

Figura 16. Linguee: Resultado de la búsqueda a partir del inglés ‘count on’.

6.3.2. Herramientas de extracción, anotación y análisis
En la mayoría de los casos, para una investigación basada en corpus de nativos, bastarán uno
o varios de los corpus que se acaban de presentar. Sin embargo, si hace falta recurrir parcial o
totalmente a corpus propios, será útil, en primer lugar, recurrir a herramientas de lematización
y de POS Tagging (aunque no sea indispensable en todos los casos: véase, para una
definición, el apartado 6.2.2). Dos aplicaciones de este tipo que se pueden descargar y usar
para fines académicos, son TreeTagger & PetraTag. TreeTagger es una herramienta
desarrollada en la universidad de Stuttgart y que, además de para otras lenguas, ya ha
demostrado su utilidad para el estudio del español. PetraTAG, por su parte, ha sido
desarrollado por el grupo de investigación PETRA (véase 6.3.3 para unos ejemplos y 6.6 para
las referencias).
En segundo lugar, puede que sea interesante añadir etiquetas a las ocurrencias del
fenómeno estudiado o a ciertos fragmentos del corpus, lo que se puede hacer digitalmente con
un programa de anotación. En muchos casos, estas herramientas incluirán al mismo tiempo
ciertas funcionalidades de análisis, como las que se presentan al principio de este capítulo
(véase 7.2.1), es decir: listas y recuentos de palabras (o de ocurrencias clasificadas según las
etiquetas que uno puede haberles agregado), concordancias, palabras clave en contexto, la
Información Mutua, las palabras coocurrentes. En el capítulo 8 se presentarán dos
aplicaciones potentes y libres de pago, a saber: los UAM Corpus Tools y AntConc. Una
alternativa, pero de pago, es Wordsmith Tools (véase 6.3.3 para unos ejemplos y 6.6 para las
referencias). Además, para una explicación detallada sobre la elaboración de un corpus
propio, véase Llisterri y Torruella Casañas (1999, 15-28).
En el siguiente apartado ilustraremos el uso de estas herramientas a partir de unas
investigaciones concretas.

6.3.3. Seis casos concretos de investigación en español LE/L2 basados en corpus
En Giménez García (2012), se describe el funcionamiento pragmático del marcador
conversacional “¿me entiendes?”, un fenómeno difícil de describir y explicar a los alumnos de
español LE/L2. Los corpus empleados son el CREA y el Corpus del Español. Como este está
lematizado y aquel no, no se devuelven las mismas variantes en ambos casos: además de las
ocurrencias de ‘¿tú entiendes?’, ‘¿me entiendes?’, ‘¿entiendes?’, ‘a ver si tú me entiendes’,
‘no sé si me entiendes’, ‘¿entiendes tú?’, ‘¿lo entiendes?’, en el Corpus del Español también
se encuentran con una sola búsqueda otras variantes como ‘¿me entendiste?’ y ‘¿me
entendiste tú?’. Los dos corpus permiten buscar en todos los temas y países, y limitar al
código oral y al español contemporáneo de los últimos 30 años.
En Molés-Cases (2016) se describe la compilación y el análisis de un corpus paralelo
para el estudio de un componente léxicogramatical en traducción. Las etiquetas del corpus
han sido introducidas con TreeTagger (véase 6.3.2 para descripción y 6.6 para las
referencias). Además, incluye una breve introducción a la exploración y el análisis de corpus
con Corpus Query Processor, la principal herramienta del IMS Open Corpus Workbench, una
colección de herramientas de fuente abierta para gestionar corpus anotados de gran tamaño
(véase 6.6 para las referencias). Concretamente se describe cómo se traduce la expresión de la
manera de desplazamiento del alemán al español. El corpus paralelo alemán-español se
compone de textos de literatura infantil y juvenil escritos entre 1973 a 2011 y sus respectivas
traducciones al español. En este sentido es un buen ejemplo para el investigador en español
LE/L2 que quiera confeccionar un corpus para el estudio contrastivo entre el español LE y
la(s) lengua(s) materna(s) de sus alumnos.
Contreras Seitz (2006), por su parte, es un estudio léxico(gráfico) que presenta la
constitución de un corpus diacrónico del español de Chile, anotado por medio delText
Encoding Initiative (TEI, véase 6.6 para las referencias), que es un consorcio que desarrolla y
20

mantiene un estándar para la representación de los textos en forma digital, con amplia
difusión y utilización en bibliotecas y colecciones de texto digitales y en la creación de
corpora lingüísticos (empleado, por ejemplo, por la RAE para la anotación del CORDE). Se
basa en el lenguaje XML, una versión simplificada del SGML. El trabajo de Contreras Seitz
ha sido concebido en primer lugar para estudiar una variante del español en su vertiente
diacrónica, pero la metodología empleada se explica de manera clara y detenida para el
investigador en español LE/L2 que quiera transferirla a un estudio que requiera la confección
de un corpus propio.
En el caso de Celayeta Gil (2016) se trata de un corpus lingüístico especialmente
creado para el análisis gramatical y pragmático de las perífrasis verbales en el español actual
de manera contextualizada, a partir de las muestras extraídas de las secciones de opinión y
deportes de seis periódicos, cuatro nacionales (El Mundo, El País, ABC y La Vanguardia) y
dos internacionales (La Nación, de Argentina, y El Informador, de México), correspondientes
al mes de enero de 2014. La finalidad de este corpus creado ad hoc para el análisis y la
enseñanza-aprendizaje de las perífrasis verbales del español actual se puede concretar en tres
objetivos: analizar su uso y frecuencia, detectar las perífrasis verbales más rentables y
recopilar ejemplos de uso contextualizado que permitan una futura explotación didáctica. La
herramienta de creación y análisis de corpus utilizada es Sketchengine (creado por Adam
Kilgarriff y su empresa Lexical Computing, véase 6.6 para las referencias), porque permite
realizar búsquedas más complejas y no es un simple motor de búsquedas. El corpus obtenido
suma un total de 2.846.963 palabras y está organizado en subcorpus en función del país de
procedencia de los textos y de las secciones.
El objetivo principal del proyecto CorpusRedEs (Pano Alamán y Moya Muñoz 2015)
es diseñar y construir un corpus de géneros textuales digitales en los medios sociales, un
género muy difícil de tratar en la clase de español LE/L2. Entre los objetivos específicos se
lee que el corpus sea representativo del tipo de interacciones que tienen lugar en los distintos
modos sociotécnicos que van surgiendo en la Red y que contemple las principales variedades
diatópicas del español, además de distintos dominios o temáticas. La última fase del proyecto
comprende la puesta a disposición en línea del corpus anotado y de los modelos de base, para
su consulta y mejora por parte de investigadores interesados en utilizar el corpus o colaborar
en el proyecto. Los textos se publicarán en una plataforma web, que incluirá información de
carácter bibliográfico sobre teoría, metodología y aplicaciones del análisis del discurso
mediado por ordenador en lengua española. El etiquetado ha sido realizado con el editor XML
Oxygen, frecuentemente utilizado en proyectos de Humanidades Digitales Hispánicas y que
incluye las etiquetas y plantillas de TEI P5 (véase 6.6 para las referencias).
Finalmente, en Buyse et al. (2011) se presenta un estudio léxicogramatical y
pragmático en corpus específicos del ámbito de la medicina, que contienen diferentes
variantes del español, diferentes registros (lenguaje médico científicos frente al popular) y
provenientes de diferentes zonas del mundo hispanohablante. Los corpus propios se comparan
también con otros de referencia (artículos en revistas y libros de medicina, tanto de tipo
científico como de tipo popular). El corpus propio contiene protocolos anonimizados de
hospitales neerlandófonos y francófonos, además de las versiones española, inglesa y francesa
de Donde no hay doctor (Mbow 1992) y de varios manuales de medicina. Se añadieron
protocolos españoles e ingleses recogidos de sitios web especializados, y materiales de RSS
feeds (Really Simple Syndication o “sindicación realmente simple”, “sindicación” aplicándose
en inglés a empresas de varios periódicos), un formato XML para distribuir contenido en la
web y que se utiliza para difundir información actualizada frecuentemente a usuarios que se
han suscrito a la fuente de contenidos. Para crear el corpus, se aprovecharon varias
aplicaciones caseras, además de Unitex y WordSmith, dos herramientas potentes,
ampliamente conocidas y frecuentemente utilizadas para lematizar y elaborar listas de
21

palabras, Palabras en Contexto y colocaciones (véase 6.6 para las referencias). El objetivo
final es ofrecer a los estudiantes flamencos de medicina un compendio léxicogramatical para
sus prácticas en varios países hispanohablantes (Buyse y Saver 2016).

6.4. Conclusión
En lo que precede el investigador en español LE/L2 habrá podido leer cuándo, por qué y para
qué los corpus pueden tener un lugar en las distintas fases de la investigación (véase 6.1-
6.2.2), además de apreciar una primera tentativa de ofrecer una criteriología completa para
distinguir entre los distintos corpus que tiene a su disposición para realizar investigaciones en
español LE/L2 (véase 6.2.3), aplicada a ocho tipos de corpus gratuitos (cinco de tipo general,
es decir: con textos escritos y orales, y tres de tipo exclusivamente escrito), cada uno de ellos
acompañados por unos elementos a favor y en contra de su uso, junto con una ilustración del
manejo del corpus (véase 6.3.1). Asimismo, se han listado las fases y herramientas que hacen
falta para crear un corpus propio, en el caso de que los corpus anteriormente comentados no
fueran suficientes para el estudio contemplado (véase 6.3.2). Finalmente, se ha ejemplificado
en seis casos concretos cómo algunos de los corpus comentados y/o otros de creación propia
son aprovechados en estudios gramaticales, léxicos y pragmáticos basados en estos corpus y/o
herramientas, tanto desde una perspectiva sincrónica como diacrónica, y con referencia a una
o varias variantes del español (véase 6.3.3).

Notas
1 Este texto contiene pasajes inspirados en Buyse (2006, 2007, 2010, 2011, 2014, 2016, 2017, 2019, 2020 en
prensa).

6.5. Bibliografía
Aijmer, K., ed. 2009. Corpora and language teaching. Ámsterdam: John Benjamins.
Albeldo Marco, M. 2011. “Rentabilidad de los corpus discursivos en la didáctica de lenguas
extranjeras”. En Del texto a la lengua: La aplicación de los textos a la enseñanza-
aprendizaje del español L2-LE. Actas del XXI Congreso Internacional de ASELE, eds.
J. de Santiago Guervós, H. Bongaerts, J. J. Sánchez Iglesias y M. Seseña Gómez, Vol.
1, 83-96. Salamanca: ASELE.
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/21/21_0083.pdf
Alonso Pérez-Ávila, E. 2007. “El corpus lingüístico en la didáctica del léxico del español
como LE”. Boletín de la Asociación para la Enseñanza del Español como Lengua
Extranjera 37: 11-27. http://www.aselered.org/pdfs/boletin37.pdf
Alonso Ramos, M. 2009. “Hacia un nuevo recurso léxico: ¿fusión entre corpus y
diccionario?”. En A survey of corpus-based research, eds. P. Cantos Gómez y A.
Sánchez Pérez, 1191-1207.
http://www.dicesp.com/app/webroot/files/file/CILC%2009.pdf
Alonso Ramos, M. 2016. Spanish Learner Corpus Research Current trends and future
perspectives, Studies in Corpus Linguistics, 78. Amsterdam: Benjamins.
Aston, G., S. Bernardini y D. Stewart. 2004. Corpora and language learners.
Amsterdam/Philadelphia: Benjamins.
Barton, D. y C. Lee. 2013. Language online. Investigating digital texts and practices.
Londres: Routledge.
Blommaert, J. y D. Jie. 2010. Ethnographic fieldwork. Bristol: Multilingual Matters.
Briz Gómez, A. y M. Albelda Marco. 2009. “Estado actual de los corpus de lengua española
hablada y escrita: I+D”. En El español en el mundo. Anuario del Instituto Cervantes
2009. https://cvc.cervantes.es/lengua/anuario/anuario_09/briz_albeida/p01.htm
22

Buyse K. 2006. “Motivating writing teaching”. ITL:Review of Applied Linguistics 152: 111-
126. https://doi.org/10.2143/ITL.152.0.2017865
Buyse, K. 2007. “Escritura eficaz y motivadora”. Foco. Amersfoort: Asociación de Profesores
de Español de Holanda: 12-18.
Buyse, K. 2010. “La expresión escrita en la clase de ELE: ingredientes esenciales, sazonados
o no con TIC”. Mosaico 26: 4-13.
https://sede.educacion.gob.es/publiventa/d/13949/19/0
Buyse, K. 2011a. “¿Qué corpus en línea utilizar para qué fines en la clase de ELE? Del texto a
la lengua: La aplicación de los textos a la enseñanza-aprendizaje del español L2-LE”.
En Del texto a la lengua: La aplicación de los textos a la enseñanza-aprendizaje del
español L2-LE. Actas del XXI Congreso Internacional de ASELE, eds. J. de Santiago
Guervós, H. Bongaerts, J. J. Sánchez Iglesias y M. Seseña Gómez, Vol. 1, 277-289.
Salamanca: ASELE.
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/21/21_0277.pdf
Buyse, K. 2011b. “Effective Writing Tasks and Feedback for the Internet Generation”.
Language Learning in Higher Education 1 (2): 1-22. https://doi.org/10.1515/cercles-
2011-0028
Buyse, K. 2014. “Una hoja de ruta para integrar las TIC en el desarrollo de la expresión
escrita: Recursos y resultados”. Journal of Spanish Language Teaching 1(1): 101-115.
https://doi.org/10.1080/23247797.2014.898516
Buyse K. 2016. “La buena cocina de la expresión escrita: ¿cómo conseguir que los alumnos
preparen buenos platos?”. En Enseñar español en la actualidad, ed. E. Gamazo y M.
Aznar, 174-194. Coimbra: Universidade de Coimbra.
http://hdl.handle.net/10316.2/41010
Buyse K. 2017. “Corpus para todos en la enseñanza de ELE”. Cuadernos de Didáctica 3,
121-140. Barcelona: Difusión.
Buyse K. 2019. “Destrezas II: expresión y comprensión escritas”. En Manual de formación
inicial para profesores de español, ed. F. Jiménez Calderón, Cap. 4, 121-142.
Madrid: SGEL.
Buyse K. 2020, en prensa “Qué tipo de corpus para qué tipo de texto: de la teoría a la
práctica”. En Lingüística textual y enseñanza de español LE/L2, eds. J. de Santiago
Guervós y L. Díaz. Londres: Routledge.
Buyse, K. y E. González Melón. 2013. “El corpus de aprendices Aprescrilov y su utilidad
para la didáctica de ELE en la Bélgica multilingüe”. En Plurilingüismo y enseñanza de
ELE en contextos multiculturales. Actas del XXIII Congreso Internacional ASELE,
eds. B. Blecua, S. Borrell, B. Crous, F. Sierra, 247-261. Gerona: ASELE.
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/23/23_0025.pdf
Buyse K., L. Fernández Pereda y K. Verveckken. 2016. “The Aprescrilov Corpus, or
Broadening the Horizon of Spanish Language Learning in Flanders”. En Studies in
Corpus Linguistics, 78, Spanish Learner Corpus Research Current trends and future
perspectives, ed. M. Alonso Ramos, 143-168.
http://lys.dc.fi.udc.es/slides_WSLCR2015/Buyse_WSLCR2015.pdf
Buyse K. y E. Saver E. 2008. UrgentiAS: urgentielexicon voor de artsenstage Spaans.
Leuven: Alta.
Buyse K., Saver E., Laffut A., Vekemans H. 2011. “UrgentiAS, a lexical database for medical
students in clinical placements: Architecture, use and evaluation”. En Researching
Specialized Languages, eds. V. Bhatia, P. Sánchez Hernández y P. Pérez-Paredes,
191-210. Amsterdam: John Benjamins.
Buyse K. y S. Verlinde S. 2013. “Possible effects of free on line data driven lexicographic
instruments on foreign language learning: The case of linguee and the interactive
23

language toolbox”. Procedia: Social and Behavioral Sciences 95, 507-512.
https://doi.org/10.1016/j.sbspro.2013.10.675
Cassany, D. 2016. “Recursos lingüísticos en línea: Contextos, prácticas y retos”. Revista
Signos 49, 7-29. https://www.redalyc.org/pdf/1570/157048408002.pdf
Celayeta Gil, N. 2016. “La creación de un Corpus ad hoc para el análisis y la enseñanza-
aprendizaje de las perífrasis verbales en español”. En La formación y competencias del
profesorado de ELE. Actas del XXVI Congreso Internacional de ASELE, ed. O. Cruz
Moya. Madrid: ASELE, 185-195.
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/26/26_0185.pdf
Contreras Seitz, M. 2006. “Hacia la constitución de un corpus diacrónico del español de
Chile”. Revista de Lingüística Teórica y Aplicada, 47 (2), 111-134.
http://doi.org/10.4067/S0718-48832009000200007
Cruz Piñol, M. 2005. “Sobre el uso de Internet para trabajar la normativa”. Textos, 39, 77-88.
Cruz Piñol, M. 2012. Lingüística de corpus y enseñanza del español como 2/L. Madrid:
Arco/Libros, 2017.
Cruz Piñol, M. 2016. Corpus de nativos en la clase de ELE.
http://hdl.handle.net/2445/104166
Cruz Piñol, M., K. Buyse, V. González Argüello y N. Tukahara. 2012. “¿Qué queremos de la
red y para qué? Nuevas perspectivas en el uso de la red en la enseñanza del ELE”. En
La red y sus aplicaciones en la enseñanza-aprendizaje del español LE. Actas del XXII
Congreso Internacional de ASELE, eds. Hernández González C., A. Carrasco Santana
y E. Álvarez Ramos, 31-59. Valladolid: Universidad de Valladolid.
https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/22/22_0005.pdf
Enghels, R., C. Vanderschueren y M. Bouzouita. 2015. Manuel des anthologies, corpus et
textes romans. Monográfico de Manuals of Romance Linguistics 7, 147-170.
Fernández Martín, P. 2012. Filología y lingüística: métodos, corpus y nuevas tecnologías.
Saarbrücken: Editorial Académica Española.
Giménez García, J. M. 2012. “La presencia del marcador conversacional "¿me entiendes?" en
los corpus lingüísticos CREA y Mark Davies como indicador de culturas de
alejamiento o de acercamiento”. Revista de Letras, II, 11, 71-84.
https://studylib.es/doc/671192/la-presencia-del-marcador-conversacional-
%E2%80%9C%C2%BFme-entiendes%3F%E2%80%9D
Llisterri, J. 2003. “Lingüística y tecnologías del lenguaje”. Lynx 2, 9-71.
http://www.iling.unam.mx/cursocorpus/TecnoLing_Lynx02.pdf
Llisterri, J. 2007. “El español y las nuevas tecnologías”. En Lingüística aplicada del español,
ed. M. Lacorte, 483-520. Madrid: Arco/Libros.
http://liceu.uab.cat/~joaquim/publicacions/Llisterri_07_Tecnologias_Linguisticas_Esp
anol.pdf
Llisterri, J. y J. Torruella Casañas. 1999. “Diseño de corpus textuales y orales”. Filología e
informática: nuevas tecnologías en los estudios filológicos, 45-81.
https://bit.ly/2zAPWFW
Mbow, M.L. (ed.). 1992. Là où il n’y a pas de docteur. Dakar: Enda tiers-monde.
http://oer2go.org/mods/fr-hesperian/werner-david-la-ou-il-n-y-a-pas-de-docteur.pdf
McCullough, J. L. 2001. “Los usos de los córpora de textos en la enseñanza de lenguas”,
Nuevas Tecnologías para el autoaprendizaje y la didáctica de lenguas, ed. M. Trenchs
Parera, 125-140. Lleida: Milenio.
Molés-Cases, T. 2016. “Compilación y análisis de un corpus paralelo para la investigación en
traducción: Proyecto con Déjà Vu, TreeTagger e IMS Corpus WorkBench”. RLA.
Revista de lingüística teórica y aplicada 54 (1), 149-174.
http://doi.org/10.4067/S0718-48832016000100008
24

Pano Alamán, A. y P. Moya Muñoz. 2015. “CorpusRedEs. Proyecto de creación y anotación
de un corpus de comunicación mediada por ordenador en español”. CHIMERA:
Romance Corpora and Linguistic Studies 2015 (2), 117-129.
https://revistas.uam.es/index.php/chimera/article/view/1042
Parodi, G. 2006. “El Grial: interfaz computacional para anotacion e interrogacion de corpus
en español”. Revista de Lingüística Teórica y Aplicada 44 (2), 91-115.
http://doi.org/10.4067/S0718-48832006000200007
Parodi, G. 2010. Lingüística del corpus: De la teoría a la empiria. Frankfurt: Editorial
Iberoamericana-Veruert.
Parodi, G. y G. Burdiles. 2018. “Corpus y base de datos”. En The Routledge Handbook of
Spanish Language Teaching, eds. J. Muñoz-Basols, E. Gironzetti y M. Lacorte, 596-
613. Londres: Routledge.
Pérez Hernández, C. y A. Moreno Ortiz. 2009. “Lingüística computacional y Lingüística de
corpus. Potencialidades para la investigación textual”. En Teoría y literatura artística
en la sociedad digital: construcción y aplicabilidadde colecciones textuales
informatizadas, ed. N. Rodríguez Ortega, 67-96. Gijón: TREA.
Pitkowski, E. F. y J. Vásquez Gamarra. 2009. “El uso de los corpus lingüísticos como
herramienta pedagógica para la enseñanza y aprendizaje de ELE”. Tinkuy 11, 31-51.
https://littlm.umontreal.ca/fileadmin/Documents/FAS/litterature_langue_moderne/Doc
uments/2-Recherche/Tinkuy11.pdf#page=31
Reppen, R. 2010. Using Corpora in the Language Classroom. Nueva York: Cambridge
Rojo, G. 2016. “Los corpus textuales del español”. En Enciclopedia lingüística hispánica, ed.
J. Gutiérrez-Rexach, 285-296. Oxon: Routledge.
Samper, J. A., C. E. Hernández Cabrera y M. Troya eds. 1998. Macrocorpus de la norma
lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH).
Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la
Universidad de las Palmas de Gran Canaria.
Sinclair, J. M. 2004. How to use Corpora in Language Teaching. Amsterdam: John
Benjamins.

6.6. Recursos en línea
• AntConc: http://www.laurenceanthony.net/software.html
• ARTHUS (Archivo de Textos Hispánicos de la Universidad de Santiago):
http://adesse.uvigo.es/data/
• Babla: http://es.bab.la/
• CDH (Corpus del Nuevo diccionario histórico):
http://web.frl.es/CNDHE/view/inicioExterno.view
• COLA (Corpus Oral de Lenguaje Adolescente): http://www.colam.org/om_prosj-
espannol.html
• CORDE (Corpus Diacrónico del Español): http://www.rae.es/recursos/banco-de-
datos/corde
• CORLEC (Corpus Oral de Referencia del Español Contemporáneo):
http://www.lllf.uam.es/ESP/Corlec.html
• CORPES XXI : http://www.rae.es/recursos/banco-de-datos/corpes-xxi
• CEA (Corpus del Español Actual): http://spanishfn.org/tools/cea/spanish
• Corpus del Español: http://www.corpusdelespanol.org
• Corpus SenSem Español (antes GRIAL): http://grial.edu.es/sensem/corpus?idioma=ca
• corpus SOL - Spanish Online: http://spraakbanken.gu.se/konk/rom2/
• COSER (Corpus Oral y Sonoro del Español Rural): http://www.uam.es/coser
25

• CREA (Corpus de Referencia del Español Actual): http://www.rae.es/recursos/banco-
de-datos/crea
• Elda: http://www.elda.org/
• ELRA (European Language Resources Association):
http://www.icp.grenet.fr/ELRA/catalog/index.html
• Glosbe: https://es.glosbe.com/
• Google: www.google.es
• The IMS Open Corpus Workbench (CWB): http://cwb.sourceforge.net/
• Joaquim Llisterri (página personal):
http://liceu.uab.es/~joaquim/applied_linguistics/new_technologies/LengEsp_Materiale
s_WWW.html#recursos_linguisticos
• LDC (Linguistic Data Consortium): http://www.ldc.upenn.edu/ldc/catalog/index.html
• Linguee: http://www.linguee.com/
• Mar Cruz Piñol (Tagpacker): https://tagpacker.com/user/mar.cruz.pinol
• PRESEEA (Proyecto para el Estudio Sociolingüístico del Español de España y de
América: http://preseea.linguas.net
• Reverso: http://www.reverso.net
• Sketchengine: http://sketchengine.co.uk/
• Text Encoding Initiative (TEI): https://tei-c.org/
• TreeTagger: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
• UAM corpus tools: http://www.wagsoft.com/CorpusTool/
• UNITEX: https://unitexgramlab.org/
• Val.Es.Co (Valencia.Español.Coloquial): http://www.valesco.es
• Webcorp: http://www.webcorp.org.uk/
• Wortschatz: http://wortschatz.uni-leipzig.de
• WordSmith Tools: https://www.lexically.net/wordsmith/

Contenido elegido para ti

Indizacion-semiautomatica-para-almacenar-y-recuperar-informacion-del-lexico-del-espanol-usado-en-Mexico

118 pag.

6

Sistema de Educación y Legislación Educacional

Gimn Comercial Los Andes

Más contenidos de este tema

Contenido elegido para ti

Indizacion-semiautomatica-para-almacenar-y-recuperar-informacion-del-lexico-del-espanol-usado-en-Mexico

PACTE_2013 ES

Propuesta-de-optimizacion-de-la-arquitectura-de-corpus-electronicos-del-grupo-de-ingeniera-lingustica

GrajalesAndrA-s-2019-ProblemasResoluciAnAnAífora

10 Briz