Vista previa del material en texto
1 6 Corpus textuales de nativos para investigar sobre la enseñanza/aprendizaje del español LE/L21 Kris Buyse Resumen En este capítulo se ofrece a los investigadores noveles y otros especialistas en el campo del español LE/L2 un recorrido básico por los corpus de nativos existentes y por el camino que hay que emprender para crear un corpus propio. Para ello se abordan las características de la investigación basada en corpus y bases de datos, así como los métodos de toma de datos más adecuados para llevarla a cabo y las herramientas para procesar, describir y analizarlos. Después de presentar las necesidades, ventajas y limitaciones del trabajo con los corpus, se propone una criteriología nueva de clasificación de los corpus existentes, seguida por un recorrido por los corpus de nativos más importantes para la investigación actual en español LE/L2. Asimismo, se explican brevemente tanto la base teórica como unas herramientas prácticas (como de marcación de corpus) para elaborar corpus propios. El capítulo termina por una presentación de estudios gramaticales, léxicos y pragmáticos basados en los tipos de corpus presentados, tanto desde una perspectiva sincrónica como diacrónica, y con referencia a una o varias variantes del español. El objetivo de este capítulo es ofrecer a los investigadores noveles y otros especialistas en el campo del español LE/L2 un recorrido básico por los corpus de nativos existentes y por el camino que hay que emprender para crear un corpus propio. Para ello se abordarán las características de la investigación basada en corpus y bases de datos, así como los métodos de toma de datos más adecuados para llevarla a cabo y las herramientas para procesar, describir y analizarlos. Después de presentar las necesidades, ventajas y limitaciones del trabajo con los corpus, se propondrá una criteriología nueva de clasificación de los corpus existentes, seguida por un recorrido por los corpus de nativos más importantes para la investigación actual en español LE/L2. Asimismo, se explicarán brevemente tanto la base teórica como unas herramientas prácticas (como de marcación de corpus) para elaborar corpus propios. El capítulo terminará con una presentación de estudios gramaticales, léxicos y pragmáticos basados en los tipos de corpus presentados, tanto desde una perspectiva sincrónica como diacrónica, y con referencia a una o varias variantes del español. 6.1. Necesidades Hoy día, una investigación en español LE/L2 idealmente recorre como mínimo las siguientes fases: primero viene una fase preparatoria de la investigación, en la que se describen los objetivos de investigación, el estado de la cuestión y las preguntas e hipótesis de investigación, acompañado o no de una reflexión propia sobre el tema y/o un estudio piloto; luego, después de la toma de datos —si la hay—, sigue la descripción —y, si presente, el análisis— del fenómeno bajo estudio; y finalmente se discuten los resultados (volviendo a las preguntas e hipótesis de investigación), que se traducen al aula de español LE/L2, sacando al mismo tiempo conclusiones y esbozando perspectivas para investigaciones ulteriores. En el trabajo con los textos de nativos, surgen durante estas fases las siguientes necesidades: (1) decidir qué se quiere observar en las muestras de lengua, (2) elegir las muestras de lengua más adecuadas de acuerdo con los objetivos de la investigación y (3) comparar con otras muestras de lengua. A continuación, entraremos más en detalle en cada una de estas necesidades. 2 6.1.1. Decidir qué se quiere observar en las muestras de lengua El investigador en español LE/L2 puede ir a la búsqueda de uno o varios de los siguientes tipos de fenómenos lingüísticos: el comportamiento de ciertas unidades léxicas, estructuras (léxicogramaticales o pragmáticas, u otros componentes de la lengua escrita, oral o no verbal, en un contexto limitado (grupo de palabras) o amplio (textual), por lo que importa conocer su frecuencia (absoluta y relativa), su densidad, sus patrones combinatorios, su variación (al lado de otras unidades parecidas en cuanto a forma y/o significado, en el tiempo, en el espacio), el ratio palabra/forma o tipo/caso (type/token), el contraste con otros registros / géneros / lenguas / contextos, etc. 6.1.2. Elegir las muestras de lengua más adecuadas de acuerdo con los objetivos de la investigación En el caso de solo disponer de datos aislados (digitales y/o en papel), el investigador no podrá llegar a formular respuestas fiables a las preguntas de investigación, a no ser que se trate de un fenómeno muy aislado y poco frecuente que no requiera el estudio de un número más representativo de ocurrencias. El investigador, aun siendo nativo, podrá basarse exclusivamente en su intuición y en ejemplos elaborados ad hoc, y no podrá seleccionar un input suficiente y de calidad para la enseñanza y la adquisición de cualquier tipo de contenido. Es en esta fase cuando se revela particularmente útil el trabajo con corpus: el investigador elegirá en primer lugar entre corpus de aprendices y de nativos, entre corpus sincrónico y/o diacrónico, oral y/o escrito, pero en la segunda sección de este capítulo veremos que se pueden tomar en cuenta muchos más parámetros para elegir más adecuadamente el o los corpus donde indagar, entre otras en base a los propios objetivos (meramente descriptivos o no) del estudio, puesto que la complejidad de la interfaz de los corpus depende en gran medida de cantidad y diversidad de los datos expuestos. Además, se podrá decidir realizar (también) experimentos con alumnos de español LE/L2, por lo que se insertará una fase de trabajo con poblaciones. Después de la elección y descripción de los participantes, tal como en el caso de los corpus, se pasará a un estudio de la población que puede ser meramente descriptivo o —como en la mayoría de los casos— incluir un análisis. 6.1.3. Comparar con otras muestras de lengua Cada vez más estudios, además de describir (y analizar o no) un corpus y/o una población, procederán, para aumentar el grado de extrapolación, a una fase de comparación con otros corpus (más grandes, de referencia, de nativos) y/o con otros datos sacados de experimentos cualitativos con nativos. Para ello también este capítulo lista los criterios y los corpus para guiar la elección adecuada del corpus de referencia. 6.2. Cómo ayudan las tecnologías 6.2.1. Sobre el concepto de corpus Un corpus lingüístico es un conjunto de textos informatizados producidos en situaciones reales, que se han seleccionado siguiendo una serie de criterios lingüísticos explícitos que garantizan que dicho corpus pueda ser usado como muestra representativa de la lengua (Alonso Pérez-Ávila 2007, 19). Esta definición muestra explícitamente que (1) los textos deben ser naturales (no artificiales ni creados expresamente para su incorporación al corpus), (2) han de estar en formato electrónico porque esa es la única forma de que podamos recuperar la información que precisamos, (3) tienen que ser representativos de la variedad de 3 la que proceden y, por último, (4) deben permitir su estudio científico (no exclusivamente lingüístico), lo cual suele implicar la adición de información gramatical, léxica y pragmática a la simple secuencia de formas gráficas que constituyen el texto en el sentido más habitual de la palabra (Rojo 2016). Aparte del término de “corpus”, también se habla de “bases de datos textuales”: Hablaremos de corpus, simplemente, en el caso de aquellas compilaciones de muestras de habla o de escritura recogidas en su contexto natural de enunciación, y para los materiales extraídos de publicaciones (ensayos, novelas, periódicos, artículos científicos, etc.) y agrupados de acuerdo con criterios homogéneos reservaremos la categoría de “base de datos textual”. Aun siendo muestras naturales de lengua, llegan al usuario de corpus como productos creados originalmentecon otros fines (literarios, difusión de la ciencia, divulgación de información, etc.), y su acceso a ellos podría realizarse también por vías distintas a las del corpus. (Briz Gómez y Albelda Marco 2009, 1) Globalmente, bajo el término de “recursos lingüísticos” en línea (o digitales) se suelen reunir un conjunto heterogéneo de fuentes de información en Internet que permiten solucionar problemas lingüísticos corrientes. Llisterri (2003, 2007) distingue las tecnologías (programas informáticos) de los recursos (bases de datos), y subdivide ambas categorías en base al tipo de datos, a saber: orales o escritos, a los que Cassany (2016, 10) añade la subcategoría de multimodal (es decir, que combinan distintos tipos de datos: textuales, auditivos, visuales...). 6.2.2. Ventajas y limitaciones del trabajo con corpus textuales de nativos Por un lado, el uso de una serie de recursos electrónicos (on y off line), como los corpus y programas de tratamiento de los mismos (de extracción, anotación y análisis) conlleva grandes ventajas en términos de rapidez, volumen y precisión en el procesamiento de los datos: como veremos a continuación, esta revolución tecnológica permite elaborar con una facilidad cada vez más sorprendente instrumentos de análisis altamente fructíferos como listas de palabras de un texto, concordancias (es decir: líneas de texto donde en medio figura(n) la(s) palabra(s) buscada(s), o KWIC (Key Words in Context; en español PCEC: Palabras Clave En Contexto) para visualizar a la vez una gran cantidad de ejemplos de uso de una palabra (o un grupo de palabras), y patrones combinatorios gracias a valores como la MI (Mutual Information, en español IM: Información Mutua), que indica el grado de dependencia mutua entre dos palabras). Las palabras coocurrentes (o “colocaciones”, es decir: la coaparición de dos o más palabras en un segmento de texto en el que la distancia entre los elementos de la colocación no sobrepasa las cuatro o cinco palabras), presentan un alto interés de estudio, entre otros para la construcción de diccionarios, gramáticas y manuales (Parodi 2006, 113). Por lo tanto, estos recursos aportan una base sólida para detectar las estructuras lingüísticas más frecuentes en las producciones reales de los hablantes nativos de una lengua, y de esta manera encontrar respuestas a una tipología muy variada de dudas concretas por medio del acceso a amplios contextos reales. Para el investigador, el corpus permite, además de ello, basarse no exclusivamente en la intuición y en ejemplos elaborados ad hoc, sino en una fuente amplia y fiable de recursos lingüísticos, para luego seleccionar un input suficiente y de calidad al que enfrentar a sus alumnos de forma que tenga lugar el intake, es decir, la adquisición de cualquier tipo de contenido (Alonso Pérez-Ávila 2007, 11). Por otro lado, el término de “corpus” y los que se asocian con su uso —como concordancias, tagging, etc.— suelen inspirar miedo porque se asocian con expertos (Buyse 2020 en prensa habla de los “8 expertos” a quienes un profesor de español LE/L2 tiene que enseñar a acudir a sus alumnos, a saber: los diccionarios, las gramáticas, los verificadores ortográficos, los corpus, los traductores automáticos, los profesores, los nativos, y la L1 junto con las otras lenguas extranjeras aprendidas anteriormente). No obstante, se podrá constatar en los apartados siguientes que existe toda una gama de corpus que son relativamente fáciles 4 de manejar. De ahí la necesidad de introducir en las formaciones unas breves explicaciones y prácticas guiadas para conocer la terminología y aprender a trabajar con corpus. 6.2.3. Tipos de corpus: hacia una nueva criteriología Tal como se acaba de anunciar en la primera sección, el investigador deberá elegir las muestras de lengua más adecuadas para su estudio. Sin embargo, a excepción del primer esbozo elaborado ya en el siglo pasado por Llisterri y Torruella Casañas (1999), que tratan en detalle los tipos de corpus orales (véase el capítulo 8), las obras de referencia existentes suelen limitarse a unos pocos criterios: en la obra más reciente, a saber, Parodi y Burdiles (2018), los expertos se limitan a las dicotomías oral vs. escrito y a español como L1 vs. L2. Por ello, en lo que sigue, se hace un intento para listar y comentar de manera más elaborada los criterios de selección. Más adelante, en la sección tres, se presentarán casos concretos de investigación basados en corpus elegidos en base a estos parámetros. En las tipologías de corpus, bases de datos textuales y recursos digitales (a partir de aquí se hablará simplemente de “corpus”) algunas obras (como Contreras Seitz 2006, 114) diferencian los corpus según los siguientes parámetros (los términos no son nuestros): (1) la modalidad: • corpus escritos • corpus hablados (que pueden ser conversaciones libres o —en la mayoría de los casos— entrevistas semidirigidas) (2) la especificidad de los textos: • generales, que pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible, vs. especializados, cuyos textos pueden aportar datos para la descripción de un tipo particular de lengua (un área temática) • genéricos o textos pertenecientes a un único género, cuyo objetivo es caracterizar dicho género (este término es ambiguo, puesto que también puede referirse a lo general) • canónicos: que representan la obra completa de un autor • cronológicos o textos de una época concreta • diacrónicos o históricos, vs. sincrónico • limitados a ciertos registros, dialectos, regiones, variantes socioculturales, etc. • de nativos vs. de aprendices (sobre learner corpus véase el capítulo 7) • escritos vs. orales (para los orales, véase el capítulo 8) (3) la extensión y distribución de los textos: • macrocorpus vs. microcorpus • grandes, es decir: que no tienen límites de palabras o es muy elevado, no siguen criterios de representatividad o equilibrio • equilibrados, es decir, cuentan con la misma proporción de diferentes tipos de textos • piramidales, con textos distribuidos en estratos o niveles, de manera que en cada nivel hay más variedad y menos textos • cerrados, o constituidos por un número predeterminado de palabras, vs. abiertos o en constante crecimiento (4) la representatividad del corpus: • textuales, esto es, formados por textos enteros • de referencia (término ambiguo, puesto que se emplea también para referirse a un corpus mucho más grande), formados por fragmentos, porque interesa más el nivel de lengua, el equilibrio y la representatividad que el texto en sí • léxicos (sample corpus), formados por fragmentos muy breves de textos, de una longitud constante 5 (5) el proceso al que se someta el corpus: • simples, no anotados, no codificados, es decir: sin formato alguno y sin añadir ninguna información adicional • verticales, el resultado de disponer en forma de columna las palabras de un texto ordenadas según criterios alfabéticos o frecuenciales • codificados o anotados, formados por textos a los que se han añadido, de forma manual o automática, determinadas informaciones referidas a la estructura de textos o aspectos puramente lingüísticos. Además de basarse en estos criterios, los corpus también se pueden clasificar según una serie de parámetros técnicos (véase Buyse 2020, en prensa): • la presencia de un motor electrónico de búsqueda • la posibilidad de extraer “concordancias” (véase el apartado 6.2.2 para una definición) • la posibilidad de volver a ordenar alfabéticamente las concordancias según la primera, segunda, tercera o cuarta palabra a la izquierda o a la derecha de la palabra buscada, lo que permite encontrar los verbos, adjetivos o sustantivos que se combinan con la palabra buscada • la posibilidad de usar “operadores” como AND (para buscar contextos donde aparezcan al mismo tiempo las palabras a la izquierda y a la derecha del operador), OR (parabuscar contextos donde aparezca una palabra u otra pero no las dos juntas) y NO (para excluir contextos donde aparezcan las palabras a la derecha del operador) • la posibilidad de usar los “comodines” universales ‘?’ (representa a un solo carácter) y ‘*’ (representa a varios caracteres, hasta final de palabra) • la posibilidad de excluir stopwords (es decir, palabras muy frecuentes, como ‘de’, ‘el’, etc.) • la actualización del corpus (es decir, si se actualiza de vez en cuando o no, y la frecuencia con la que se hace) • ± lematizado (si no está lematizado, solo se podrá buscar por palabras o “formas”, de manera que la búsqueda de ‘trabajar’ solo devolverá ocurrencias de la misma palabra ‘trabajar’; en cambio, cuando se pueda buscar por “lemas”, a partir del lema ‘trabajar’ se obtendrán todas las formas del verbo, como ‘trabajo’, ‘trabajé’, etc.) • ± POS Tagging (Parts Of Speech, es decir: categorías gramaticales: e.g., el sistema establece (o no) una diferencia entre la forma verbal y la forma sustantiva de ‘duda’) • ± etiquetado semántico (de modo que se puedan buscar sinónimos, antónimos, palabras afines) • la posibilidad de limitar (o no) la búsqueda a ciertas áreas temáticas (como ‘medicina’), ciertos tipos de textos (como orales, académicos, etc.), y áreas geográficas (países) • la posibilidad de buscar combinaciones frecuentes y/o “significativas”, calculadas a partir de pruebas de coaparición como el ya mencionado valor MI), con o sin KWIC (véase 6.2.2), y con o sin POS Tagging (véase 6.2.3): en tal caso, las diferentes categorías gramaticales se indicarían con colores diferentes (véase el apartado 6.2.2 para las definiciones de los términos) • la posibilidad de tomar en cuenta (o no) las mayúsculas, los acentos y/o la puntuación (‘está’ frente a ‘esta’) Finalmente, Buyse (2011-2017) distingue también entre los siguientes tipos de corpus (para ejemplos, véase la sección 3 de este capítulo): • corpus propios, caseros 6 • corpus que se pueden adquirir o buscadores con corpus que se pueden adquirir, como en los catálogos de ELRA y de LDC (véase el apartado 6.6 para las referencias) • corpus de acceso libre disponibles en internet: o la web en su conjunto, a través de un buscador o una aplicación en línea más potente y refinada o selecciones de textos realizadas por expertos, con motores relativamente simples o algo más complejos o corpus monolingües o multilingües, y entre estos: paralelos (de textos traducidos) o comparables (textos similares —pero no traducidos— en más de una lengua o variedad) o combinaciones de diccionarios y corpus Tomando en cuenta los criterios expuestos, proponemos en la Tabla 1 una criteriología actualizada para clasificar los corpus, con una aplicación concreta a tres corpus. Tabla 1. Criteriología nueva para la clasificación de los corpus. Elaboración propia. 20 criterios y subcriterios W eb co rp C or pu s de l E sp añ ol L in gu ee 1. corpus (o base de datos textual) (x) / combinación de diccionario y corpus (y) x x y 2. presentación directa en formato textual (x) / en formato de motor electrónico de búsqueda (y) y y y 3. casero (x) / adquirido (y) / de acceso libre (z) z z z 4. extensión y actualización a. extensión: macrocorpus (x) vs. microcorpus (y) x x x b. ritmo de actualización del corpus: alto (x) / medio (y) / bajo (z) x z y 5. modalidad: escrito (x) / hablado (y) / mixto (z) x z x a. (hablado: conversaciones libres (x) / semidirigidas (y) / mixto (z)) z 6. sincrónico (x) / diacrónico (y) / mixto (z) x z x 7. de nativos (x) / de aprendices (y) / mixto (z) z x x 8. corpus de español general (x) o para fines específicos (y) x x x a. una (x) o varias (y) áreas temáticas y y y b. una (x) o varias (y) variedades geográficas del español y y y c. uno (x) o varios (y) registros y y y d. uno (x) o varios (y) niveles socioculturales y y y 9. la posibilidad de limitar a. a ciertas áreas temáticas - + - b. a ciertos géneros - + - c. a ciertas variedades geográficas - + - d. a ciertos niveles socioculturales - - - 10. la posibilidad de comparar varios subcorpus - + - 11. textos de toda la web (x) / selección de textos realizada por expertos (y) x y x 12. monolingüe (x) vs. multilingüe (y) x x y a. (multilingüe: paralelo (x) / comparable (y)) x 13. ± etiquetado a. ± lematizado - + - b. ± POS Tagging - + - c. ± etiquetado semántico - + - d. ± palabras clave en contexto - + - 14. ± concordancias + + +/- a. ± reordenación de las concordancias + + - 15. ± posibilidad de usar lenguaje informático universal a. ± operadores + - - b. ± comodines universales - + - 7 16. ± exclusión de stopwords + + - 17. ± búsqueda de combinaciones frecuentes + + +/- a. con información estadística básica (x) o avanzada (y) x y - b. con representación esquemática + + - 18. se toma en cuenta la ortografía y/o la puntuación a. las mayúsculas + - - b. los acentos + + + c. la puntuación - + - 19. facilidad de uso + +/- + 20. acceso a los textos + + + 6.3. Casos concretos En esta sección presentaremos de manera sucinta una selección de corpus que dan acceso a los (diferentes tipos de) textos escritos de nativos y que no son de pago (6.3.1), dado que la mayoría de los investigadores noveles en la actualidad no disponen del apoyo estructural necesario para adquirir corpus de pago, como los de ELRA y de LDC listados en 6.2.3. A esta presentación le seguirá un recorrido por las herramientas de extracción, anotación y análisis (6.3.2) y la descripción de unos casos concretos de investigación para ilustrar el uso de los corpus y las herramientas (6.3.3). Presentaciones más exhaustivas y detalladas de algunos de los corpus mencionados se encuentran entre otros en las siguientes listas (véase el apartado 6.6 para las referencias): • la excelente web Tagpacker de Mar Cruz Piñol, anotada con tags para, por ejemplo, ‘lematizado’, ‘marcaje_cat_gramatical’, ‘concordancias’ • Cruz Piñol (2012/2017) • Enghels, Vanderschueren y Bouzouita (2015) • Briz y Albelda (2009) • Albelda (2011), para los corpus orales (y el capítulo 8 de esta monografía) • la web de Joaquim Llisterri, con los corpus más importantes para la enseñanza e investigación en español LE/L2 • Alonso Ramos (2016), para los corpus de aprendices (y el capítulo 7 de esta monografía) 6.3.1. Selección de corpus gratuitos con acceso a los diferentes (tipos de) textos A continuación se presentarán más en detalle ocho corpus gratuitos: cinco son de tipo general (con todo tipo de textos, escritos y orales, véase 6.3.1.1-5) y tres de tipo exclusivamente escrito (véase 6.3.1.6-8). En cada caso se listarán elementos a favor y en contra de su uso, junto con una ilustración del manejo en caso de que parezca útil. Para las referencias, véase la bibliografía. 6.3.1.1. La Real Academia: del CREA y el CORDE al CORPES XXI Para paliar las deficiencias de sus corpus sincrónico CREA y diacrónico CORDE —que siguieron hasta hace poco sin disponer de lematización ni POS Tagging—, la Real Academia Española (RAE) lanzó el CORPES XXI, con las siguientes características: • +: macrocorpus, lematización (búsqueda por forma, lema o una combinación de los dos; consulta de expresiones que contengan hasta cinco palabras), POS Tagging, coapariciones de palabras; cuando esté listo, este corpus constará de textos de todos los tipos (véase la Figura 1), de todos los países, de diferentes áreas temáticas (ciencias y tecnología, ciencias sociales, creencias y pensamiento, política, economía, comercio y finanzas, artes, ocio, vida cotidiana, salud, novela, teatro, relatos y guiones) 8 • +: con acceso a los textos (véase la Figura 2), y en las últimas ediciones con transcripciones de textos orales, hasta con la posibilidad de la recuperación del sonido alineado con textos orales y la consulta por categoría gramatical, y en unaparte de ellos, el sonido alineado correspondiente a la transcripción; además, en bastantes casos es posible la descarga del archivo de audio o la visualización del vídeo del documento fuente; • -: en proceso de elaboración; el criterio tipología (tipo de texto) todavía no es operativo para muchos tipos de textos Entretanto se ha lanzado para el CREA una versión anotada, en la que está integrado el sistema de codificación y anotación desarrollado para CORPES, permitiendo así la consulta por lemas, formas y categorías gramaticales. Esta versión anotada convive en la página electrónica con las versiones sin anotar y no contienen aún los textos orales. Se ha establecido una frontera cronológica en el año 2000, fecha en la que limita con el CORPES, que contiene textos escritos o producidos desde el año 2001 en adelante. El CORDE, por su parte, sigue sin lematizarse, pero los textos se han integrado en un corpus nuevo, a saber: el CDH (El corpus del Nuevo diccionario histórico del español), que consta de tres bloques fundamentales de consulta: el CDH_nuclear, que se complementa con otros dos corpus que constituyen ampliaciones de este primer conjunto, a saber, un grupo de textos diacrónicos, que van del siglo XII a 1974, procedentes del CORDE; y un segundo grupo de obras fechadas entre 1975 y 2000, con títulos procedentes del CREA. Figura 1. Los tipos de textos reunidos en el CORPES XXI. Fuente: CORPES (RAE). Por ejemplo, si un investigador en español LE/L2 quiere comparar de manera fidedigna (en vez de basarse únicamente en su intuición) el uso del sustantivo desahucio (muy frecuente en textos escritos sobre las consecuencias de las crisis financieras en el mundo hispanohablante) en textos escritos por aprendices (véase para ello el capítulo 7) con otros escritos por nativos, podrá recurrir al CORPES XXI para ver el uso de la forma o el lema o una combinación de 9 los dos y la coaparición de otras palabras en su contexto por medio de las concordancias (Figura 2), y también podrá encontrar patrones combinatorios gracias a valores como la MI. Figura 2. CORPES XXI: Resultado de la búsqueda a partir del lema ‘desahucio’ (pero con una posibilidad poco funcional de limitar a los tipos de textos), y abajo el texto de la primera concordancia. 6.3.1.2. Corpus del Español • +: corpus lematizado y con POS Tagging desde hace mucho tiempo por Mark Davies y su equipo • +: altas posibilidades de búsqueda, entre las que destacamos las siguientes: buscar palabras exactas, frases, colocaciones, etiquetas semánticas, lemas, categorías gramaticales (POS), períodos, tipos textuales o cualquier combinación de estos, además de comparar varias formas, colocaciones, períodos • +: sincrónico + histórico • +: nueva interfaz desde finales del 2016 con que el autor responde a las críticas con respecto a la facilidad de uso y a la atención a las variantes del español (véase la Figura 3); contiene ahora varios subcorpus, entre otros el antiguo con textos y diferentes géneros desde el siglo XIII, y otro nuevo que contiene textos actuales divididos por área del mundo español y que permite también crear tus propios corpus virtuales. • +: con acceso a los textos (véase la Figura 3) • -: tamaño inferior al del CORPES XXI; obligatorio registrarse para hacer búsquedas más que ocasionales (pero con la posibilidad de guardar las búsquedas realizadas ya) Por ejemplo, si seguimos estudiando el tema de los desahucios como consecuencia de una crisis financiera (véase el apartado 6.3.1.1), y queremos descubrir cuáles son las palabras (y sus categorías gramaticales) coocurrentes del lema ‘desahucio’, introducimos este sustantivo (en mayúsculas, mientras que las formas en este corpus se introducen en minúsculas), seleccionamos PCEC (Palabras Clave en Contexto, o KWIC, Key Word in Context) y en la pantalla de resultados (véase la Figura 3) se observan inmediatamente cuáles son los sustantivos (en azul), adjetivos (en verde), verbos (en púrpura) y preposiciones (en gris) que coocurren a la izquierda y a la derecha de ‘desahucio’. En la columna 3 se listan los textos bajo forma de un enlace que lleva directamente a los mismos. 10 Figura 3. Corpus del español: Resultado de la búsqueda a partir del lema ‘desahucio’ con las palabras clave en contexto. Para saber cuáles son los adjetivos más frecuentes al lado de ‘desahucio’, hacemos clic en “colocados”, seleccionamos “adjetivos” y “primera posición a la derecha”, y los resultados aparecerán en orden decreciente de frecuencia (Figura 4). Figura 4. Búsqueda en Corpus del español: Resultado de la búsqueda a partir del lema ‘desahucio’, con los adjetivos más frecuentes a la derecha del lema. 11 Este corpus, tal como algunos de los otros (cf. infra), permite también el uso de los comodines universales ‘?’ (que representa a un solo carácter) y ‘*’ (que representa a varios caracteres, hasta final de palabra). Así, al buscar ‘seguir*’, el sistema devuelve todas las formas encontradas en el corpus que comienzan por ‘seguir-’ (Figura 5). Figura 5. Corpus del español: Resultado de la búsqueda a partir del lema ‘seguir’ con el comodín ‘*’. 6.3.1.3. Corpus del Español Actual (CEA) • +: proyecto acabado (C. Subirats y M. Ortega, Universidad Autónoma de Barcelona) • +: macrocorpus • +/-: diferentes tipos de textos (véase la Figura 6), pero el acceso es limitado: el archivo mencionado en la segunda columna de las concordancias (Figura 7) solo se abre gradualmente a raíz de varios clics consecutivos para pedir more context (“más contexto”); no se puede limitar por tipo de texto • -: oficialmente hace falta registrarse, pero se puede entrar con el nombre de usuario y la contraseña ‘guest’ (aunque cuesta descubrirlo). 12 Figura 6. Repartición de los tipos de textos en el CEA. Así, si retomamos el ejemplo del lema ‘desahucio’, la interfaz del CEA permite extraer concordancias como en la Figura 7. Figura 7. CEA: Resultado de la búsqueda a partir del lema ‘desahucio’. 6.3.1.4. ARTHUS (Archivo de Textos Hispánicos de la Universidad de Santiago) • +: proyecto acabado (base para el proyecto ADESSE de la Universidade de Vigo: Base de datos de Verbos, Alternancias de Diátesis y Esquemas Sintáctico-Semánticos del Español, versión ampliada de la Base de Datos Sintácticos del Español Actual) • +: macrocorpus • +/-: solo permite buscar verbos, pero el nivel de anotación de los mismos es muy detallado, 13 • +/-: diferentes tipos de textos (véase la Figura 8), a saber: textos narrativos (37%), ensayos (18%), textos teatrales (15%), prensa (12%), y textos orales (19%), pero el acceso es limitado, porque el motor de búsqueda solo permite investigar esquemas sintácticos de los verbos • -: corpus ya algo anticuado (1980–1990) Figura 8. ARTHUS: ventana de búsqueda. 6.3.1.5. Corpus SenSem Español (antes GRIAL) • +: proyecto acabado (Grupo GRIAL, Grup de Recerca Interuniversitari en Aplicacions Lingüístiques de la Universidad Autónoma de Barcelona); corpus manualmente anotados con finalidad de búsqueda semántico-sintáctica) • -: relativamente pequeño • +/-: solo permite buscar verbos, pero el nivel de anotación de los mismos es muy detallado, véase la figura 10 para la búsqueda del verbo ‘hacer’ • +/-: diferentes tipos de textos (véase la Figura 9), aunque limitado: textos de El Periódico y algunos textos literarios españoles); acceso directo, aunque algo restringido (véase la Figura 10) 14 Figura 9. SenSem: ventana de búsqueda. Figura 10. SenSem: Resultado de la búsqueda a partir del verbo ‘hacer’. 6.3.1.6. Webcorp • +: actualización constante por el Research and Development Unit for English Studies (RDUES) de la School of English de la Birmingham City University • +: permite sacar concordancias (y reordenarlas) y listas de colocaciones • +: permite limitar a ciertos tipos de textos (‘Newspapers’/ ‘academic’), y da acceso directo a los textos a partir de las concordancias (Véanse las Figuras 11, 12 y 13) • -: fiabilidad (corpus = toda la web), flexibilidad (- lematización, - POS Tagging) Así, en esta aplicación podemos introducir en la interfaz de búsqueda (Figura 11) la palabra ‘desahucio’, elegir uno de los motores de búsqueda (e.g. Bing —con los otros no aparece el 15 español entre las lenguas—), seleccionar el español y limitar los sitios web (site) a los que tengan la extensión .es. Como las concordancias que nos devuelve Webcorp vienen separadas por las URL y ordenadas por el orden en el que fueron rastreados por la aplicación, especificamos en la pantalla de las post search options (Figura 12) que se nos vuelvan a ordenar las concordancias en orden alfabético según la segunda palabra a la izquierda de ‘desahucio’, y que ya no aparezcan las URL (esto también se puede pedir en la primera pantalla de búsqueda (véase la Figura 11). Este orden nos permite comprobar, por ejemplo, los verbos que se combinan con ‘desahucio’ (como ‘practicar’, ‘ejecutar’, ‘pedir’, ‘ordenar’, ‘paralizar’, ‘parar’, véase la Figura 13), y contrastarlo con las combinaciones halladas en los corpus de aprendices (si es que ya figura la palabra ‘desahucio’, que es relativamente reciente, y por lo tanto constituye todo un desafío para el alumno y/o el investigador de español LE/L2 encontrar datos sobre ella). En este sentido, una búsqueda por medio de esta aplicación puede aportar informaciones sobre términos recientes que no se encuentran muy a menudo en los corpus compuestos de textos cuidadosamente seleccionados por expertos, como los comentados hasta ahora. Figura 11. Búsqueda con Webcorp: Resultado de la búsqueda a partir del lema ‘desahucio’. 16 Figura 12. “Post search options” de Webcorp. Figura 13. Concordancias reordenadas de Webcorp. 6.3.1.7. Wortschatz • +: textos seleccionados (y actualizados, aunque no muy frecuentemente) por el equipo investigador Projekt Deutscher Wortschatz de la Universität Leipzig • +: frecuencia, unos ejemplos contextualizados, formas coocurrentes a la izquierda y a la derecha, ambas en orden de frecuencia decreciente, y una visualización gráfica (mapa semántico) (véanse las Figuras 14 y 15) • Spanish Newspapers & Mexican webpages: full text available • -: tamaño, flexibilidad (- lematización, - POS Tagging) 17 Figura 14. Corpus español de Wortschatz: Resultado de la búsqueda a partir de la palabra ‘desahucio’. Figura 15. Mapa semántico de Wortschatz a partir de la palabra ‘desahucio’. 6.3.1.8. Combinaciones de diccionarios y corpus multilingües • Ejemplos: Linguee, Glosbe, Reverso... (véase el apartado 6.6 para las referencias) • +: actualización rápida • +: permiten hasta obligan al usuario a ver la traducción en contexto, por lo que se vuelve menos probable la típica traducción literal de palabra por palabra • +: acceso directo a los textos (Figura 16) 18 Como ya afirmaba Alonso-Ramos (2009), el diccionario en este caso (y en los siguientes) es orientado por los datos (data-driven research, véanse los capítulos 1, 7 y 8 del presente volumen): actúa como interfaz que da acceso al corpus, ambos se funden en una nueva herramienta, que la propia investigadora propuso denominar “corpuscionario”. Aunque el término todavía no está realmente acuñado, expresa muy bien la naturaleza híbrida de este tipo de aplicaciones. Al investigador en español LE/L2 le permite tener acceso indirecto pero rápido y sencillo a las interferencias que la L1 y otras lenguas aprendidas ya por el alumno de español LE/L2 pueden provocar con respecto a ciertas (combinaciones de) palabras en español. Así, en la Figura 16 se ve el cambio de preposición fija entre ‘to count on X’ en inglés y ‘contar con X’ en español. Figura 16. Linguee: Resultado de la búsqueda a partir del inglés ‘count on’. 19 6.3.2. Herramientas de extracción, anotación y análisis En la mayoría de los casos, para una investigación basada en corpus de nativos, bastarán uno o varios de los corpus que se acaban de presentar. Sin embargo, si hace falta recurrir parcial o totalmente a corpus propios, será útil, en primer lugar, recurrir a herramientas de lematización y de POS Tagging (aunque no sea indispensable en todos los casos: véase, para una definición, el apartado 6.2.2). Dos aplicaciones de este tipo que se pueden descargar y usar para fines académicos, son TreeTagger & PetraTag. TreeTagger es una herramienta desarrollada en la universidad de Stuttgart y que, además de para otras lenguas, ya ha demostrado su utilidad para el estudio del español. PetraTAG, por su parte, ha sido desarrollado por el grupo de investigación PETRA (véase 6.3.3 para unos ejemplos y 6.6 para las referencias). En segundo lugar, puede que sea interesante añadir etiquetas a las ocurrencias del fenómeno estudiado o a ciertos fragmentos del corpus, lo que se puede hacer digitalmente con un programa de anotación. En muchos casos, estas herramientas incluirán al mismo tiempo ciertas funcionalidades de análisis, como las que se presentan al principio de este capítulo (véase 7.2.1), es decir: listas y recuentos de palabras (o de ocurrencias clasificadas según las etiquetas que uno puede haberles agregado), concordancias, palabras clave en contexto, la Información Mutua, las palabras coocurrentes. En el capítulo 8 se presentarán dos aplicaciones potentes y libres de pago, a saber: los UAM Corpus Tools y AntConc. Una alternativa, pero de pago, es Wordsmith Tools (véase 6.3.3 para unos ejemplos y 6.6 para las referencias). Además, para una explicación detallada sobre la elaboración de un corpus propio, véase Llisterri y Torruella Casañas (1999, 15-28). En el siguiente apartado ilustraremos el uso de estas herramientas a partir de unas investigaciones concretas. 6.3.3. Seis casos concretos de investigación en español LE/L2 basados en corpus En Giménez García (2012), se describe el funcionamiento pragmático del marcador conversacional “¿me entiendes?”, un fenómeno difícil de describir y explicar a los alumnos de español LE/L2. Los corpus empleados son el CREA y el Corpus del Español. Como este está lematizado y aquel no, no se devuelven las mismas variantes en ambos casos: además de las ocurrencias de ‘¿tú entiendes?’, ‘¿me entiendes?’, ‘¿entiendes?’, ‘a ver si tú me entiendes’, ‘no sé si me entiendes’, ‘¿entiendes tú?’, ‘¿lo entiendes?’, en el Corpus del Español también se encuentran con una sola búsqueda otras variantes como ‘¿me entendiste?’ y ‘¿me entendiste tú?’. Los dos corpus permiten buscar en todos los temas y países, y limitar al código oral y al español contemporáneo de los últimos 30 años. En Molés-Cases (2016) se describe la compilación y el análisis de un corpus paralelo para el estudio de un componente léxicogramatical en traducción. Las etiquetas del corpus han sido introducidas con TreeTagger (véase 6.3.2 para descripción y 6.6 para las referencias). Además, incluye una breve introducción a la exploración y el análisis de corpus con Corpus Query Processor, la principal herramienta del IMS Open Corpus Workbench, una colección de herramientas de fuente abierta para gestionar corpus anotados de gran tamaño (véase 6.6 para las referencias). Concretamente se describe cómo se traduce la expresión de la manera de desplazamiento del alemán al español. El corpus paralelo alemán-español se compone de textos de literatura infantil y juvenil escritos entre 1973 a 2011 y sus respectivas traducciones al español. En este sentido es un buen ejemplo para el investigador en español LE/L2 que quiera confeccionar un corpus para el estudio contrastivo entre el español LE y la(s) lengua(s) materna(s) de sus alumnos. Contreras Seitz (2006), por su parte, es un estudio léxico(gráfico) que presenta la constitución de un corpus diacrónico del español de Chile, anotado por medio delText Encoding Initiative (TEI, véase 6.6 para las referencias), que es un consorcio que desarrolla y 20 mantiene un estándar para la representación de los textos en forma digital, con amplia difusión y utilización en bibliotecas y colecciones de texto digitales y en la creación de corpora lingüísticos (empleado, por ejemplo, por la RAE para la anotación del CORDE). Se basa en el lenguaje XML, una versión simplificada del SGML. El trabajo de Contreras Seitz ha sido concebido en primer lugar para estudiar una variante del español en su vertiente diacrónica, pero la metodología empleada se explica de manera clara y detenida para el investigador en español LE/L2 que quiera transferirla a un estudio que requiera la confección de un corpus propio. En el caso de Celayeta Gil (2016) se trata de un corpus lingüístico especialmente creado para el análisis gramatical y pragmático de las perífrasis verbales en el español actual de manera contextualizada, a partir de las muestras extraídas de las secciones de opinión y deportes de seis periódicos, cuatro nacionales (El Mundo, El País, ABC y La Vanguardia) y dos internacionales (La Nación, de Argentina, y El Informador, de México), correspondientes al mes de enero de 2014. La finalidad de este corpus creado ad hoc para el análisis y la enseñanza-aprendizaje de las perífrasis verbales del español actual se puede concretar en tres objetivos: analizar su uso y frecuencia, detectar las perífrasis verbales más rentables y recopilar ejemplos de uso contextualizado que permitan una futura explotación didáctica. La herramienta de creación y análisis de corpus utilizada es Sketchengine (creado por Adam Kilgarriff y su empresa Lexical Computing, véase 6.6 para las referencias), porque permite realizar búsquedas más complejas y no es un simple motor de búsquedas. El corpus obtenido suma un total de 2.846.963 palabras y está organizado en subcorpus en función del país de procedencia de los textos y de las secciones. El objetivo principal del proyecto CorpusRedEs (Pano Alamán y Moya Muñoz 2015) es diseñar y construir un corpus de géneros textuales digitales en los medios sociales, un género muy difícil de tratar en la clase de español LE/L2. Entre los objetivos específicos se lee que el corpus sea representativo del tipo de interacciones que tienen lugar en los distintos modos sociotécnicos que van surgiendo en la Red y que contemple las principales variedades diatópicas del español, además de distintos dominios o temáticas. La última fase del proyecto comprende la puesta a disposición en línea del corpus anotado y de los modelos de base, para su consulta y mejora por parte de investigadores interesados en utilizar el corpus o colaborar en el proyecto. Los textos se publicarán en una plataforma web, que incluirá información de carácter bibliográfico sobre teoría, metodología y aplicaciones del análisis del discurso mediado por ordenador en lengua española. El etiquetado ha sido realizado con el editor XML Oxygen, frecuentemente utilizado en proyectos de Humanidades Digitales Hispánicas y que incluye las etiquetas y plantillas de TEI P5 (véase 6.6 para las referencias). Finalmente, en Buyse et al. (2011) se presenta un estudio léxicogramatical y pragmático en corpus específicos del ámbito de la medicina, que contienen diferentes variantes del español, diferentes registros (lenguaje médico científicos frente al popular) y provenientes de diferentes zonas del mundo hispanohablante. Los corpus propios se comparan también con otros de referencia (artículos en revistas y libros de medicina, tanto de tipo científico como de tipo popular). El corpus propio contiene protocolos anonimizados de hospitales neerlandófonos y francófonos, además de las versiones española, inglesa y francesa de Donde no hay doctor (Mbow 1992) y de varios manuales de medicina. Se añadieron protocolos españoles e ingleses recogidos de sitios web especializados, y materiales de RSS feeds (Really Simple Syndication o “sindicación realmente simple”, “sindicación” aplicándose en inglés a empresas de varios periódicos), un formato XML para distribuir contenido en la web y que se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos. Para crear el corpus, se aprovecharon varias aplicaciones caseras, además de Unitex y WordSmith, dos herramientas potentes, ampliamente conocidas y frecuentemente utilizadas para lematizar y elaborar listas de 21 palabras, Palabras en Contexto y colocaciones (véase 6.6 para las referencias). El objetivo final es ofrecer a los estudiantes flamencos de medicina un compendio léxicogramatical para sus prácticas en varios países hispanohablantes (Buyse y Saver 2016). 6.4. Conclusión En lo que precede el investigador en español LE/L2 habrá podido leer cuándo, por qué y para qué los corpus pueden tener un lugar en las distintas fases de la investigación (véase 6.1- 6.2.2), además de apreciar una primera tentativa de ofrecer una criteriología completa para distinguir entre los distintos corpus que tiene a su disposición para realizar investigaciones en español LE/L2 (véase 6.2.3), aplicada a ocho tipos de corpus gratuitos (cinco de tipo general, es decir: con textos escritos y orales, y tres de tipo exclusivamente escrito), cada uno de ellos acompañados por unos elementos a favor y en contra de su uso, junto con una ilustración del manejo del corpus (véase 6.3.1). Asimismo, se han listado las fases y herramientas que hacen falta para crear un corpus propio, en el caso de que los corpus anteriormente comentados no fueran suficientes para el estudio contemplado (véase 6.3.2). Finalmente, se ha ejemplificado en seis casos concretos cómo algunos de los corpus comentados y/o otros de creación propia son aprovechados en estudios gramaticales, léxicos y pragmáticos basados en estos corpus y/o herramientas, tanto desde una perspectiva sincrónica como diacrónica, y con referencia a una o varias variantes del español (véase 6.3.3). Notas 1 Este texto contiene pasajes inspirados en Buyse (2006, 2007, 2010, 2011, 2014, 2016, 2017, 2019, 2020 en prensa). 6.5. Bibliografía Aijmer, K., ed. 2009. Corpora and language teaching. Ámsterdam: John Benjamins. Albeldo Marco, M. 2011. “Rentabilidad de los corpus discursivos en la didáctica de lenguas extranjeras”. En Del texto a la lengua: La aplicación de los textos a la enseñanza- aprendizaje del español L2-LE. Actas del XXI Congreso Internacional de ASELE, eds. J. de Santiago Guervós, H. Bongaerts, J. J. Sánchez Iglesias y M. Seseña Gómez, Vol. 1, 83-96. Salamanca: ASELE. https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/21/21_0083.pdf Alonso Pérez-Ávila, E. 2007. “El corpus lingüístico en la didáctica del léxico del español como LE”. Boletín de la Asociación para la Enseñanza del Español como Lengua Extranjera 37: 11-27. http://www.aselered.org/pdfs/boletin37.pdf Alonso Ramos, M. 2009. “Hacia un nuevo recurso léxico: ¿fusión entre corpus y diccionario?”. En A survey of corpus-based research, eds. P. Cantos Gómez y A. Sánchez Pérez, 1191-1207. http://www.dicesp.com/app/webroot/files/file/CILC%2009.pdf Alonso Ramos, M. 2016. Spanish Learner Corpus Research Current trends and future perspectives, Studies in Corpus Linguistics, 78. Amsterdam: Benjamins. Aston, G., S. Bernardini y D. Stewart. 2004. Corpora and language learners. Amsterdam/Philadelphia: Benjamins. Barton, D. y C. Lee. 2013. Language online. Investigating digital texts and practices. Londres: Routledge. Blommaert, J. y D. Jie. 2010. Ethnographic fieldwork. Bristol: Multilingual Matters. Briz Gómez, A. y M. Albelda Marco. 2009. “Estado actual de los corpus de lengua española hablada y escrita: I+D”. En El español en el mundo. Anuario del Instituto Cervantes 2009. https://cvc.cervantes.es/lengua/anuario/anuario_09/briz_albeida/p01.htm 22 Buyse K. 2006. “Motivating writing teaching”. ITL:Review of Applied Linguistics 152: 111- 126. https://doi.org/10.2143/ITL.152.0.2017865 Buyse, K. 2007. “Escritura eficaz y motivadora”. Foco. Amersfoort: Asociación de Profesores de Español de Holanda: 12-18. Buyse, K. 2010. “La expresión escrita en la clase de ELE: ingredientes esenciales, sazonados o no con TIC”. Mosaico 26: 4-13. https://sede.educacion.gob.es/publiventa/d/13949/19/0 Buyse, K. 2011a. “¿Qué corpus en línea utilizar para qué fines en la clase de ELE? Del texto a la lengua: La aplicación de los textos a la enseñanza-aprendizaje del español L2-LE”. En Del texto a la lengua: La aplicación de los textos a la enseñanza-aprendizaje del español L2-LE. Actas del XXI Congreso Internacional de ASELE, eds. J. de Santiago Guervós, H. Bongaerts, J. J. Sánchez Iglesias y M. Seseña Gómez, Vol. 1, 277-289. Salamanca: ASELE. https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/21/21_0277.pdf Buyse, K. 2011b. “Effective Writing Tasks and Feedback for the Internet Generation”. Language Learning in Higher Education 1 (2): 1-22. https://doi.org/10.1515/cercles- 2011-0028 Buyse, K. 2014. “Una hoja de ruta para integrar las TIC en el desarrollo de la expresión escrita: Recursos y resultados”. Journal of Spanish Language Teaching 1(1): 101-115. https://doi.org/10.1080/23247797.2014.898516 Buyse K. 2016. “La buena cocina de la expresión escrita: ¿cómo conseguir que los alumnos preparen buenos platos?”. En Enseñar español en la actualidad, ed. E. Gamazo y M. Aznar, 174-194. Coimbra: Universidade de Coimbra. http://hdl.handle.net/10316.2/41010 Buyse K. 2017. “Corpus para todos en la enseñanza de ELE”. Cuadernos de Didáctica 3, 121-140. Barcelona: Difusión. Buyse K. 2019. “Destrezas II: expresión y comprensión escritas”. En Manual de formación inicial para profesores de español, ed. F. Jiménez Calderón, Cap. 4, 121-142. Madrid: SGEL. Buyse K. 2020, en prensa “Qué tipo de corpus para qué tipo de texto: de la teoría a la práctica”. En Lingüística textual y enseñanza de español LE/L2, eds. J. de Santiago Guervós y L. Díaz. Londres: Routledge. Buyse, K. y E. González Melón. 2013. “El corpus de aprendices Aprescrilov y su utilidad para la didáctica de ELE en la Bélgica multilingüe”. En Plurilingüismo y enseñanza de ELE en contextos multiculturales. Actas del XXIII Congreso Internacional ASELE, eds. B. Blecua, S. Borrell, B. Crous, F. Sierra, 247-261. Gerona: ASELE. https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/23/23_0025.pdf Buyse K., L. Fernández Pereda y K. Verveckken. 2016. “The Aprescrilov Corpus, or Broadening the Horizon of Spanish Language Learning in Flanders”. En Studies in Corpus Linguistics, 78, Spanish Learner Corpus Research Current trends and future perspectives, ed. M. Alonso Ramos, 143-168. http://lys.dc.fi.udc.es/slides_WSLCR2015/Buyse_WSLCR2015.pdf Buyse K. y E. Saver E. 2008. UrgentiAS: urgentielexicon voor de artsenstage Spaans. Leuven: Alta. Buyse K., Saver E., Laffut A., Vekemans H. 2011. “UrgentiAS, a lexical database for medical students in clinical placements: Architecture, use and evaluation”. En Researching Specialized Languages, eds. V. Bhatia, P. Sánchez Hernández y P. Pérez-Paredes, 191-210. Amsterdam: John Benjamins. Buyse K. y S. Verlinde S. 2013. “Possible effects of free on line data driven lexicographic instruments on foreign language learning: The case of linguee and the interactive 23 language toolbox”. Procedia: Social and Behavioral Sciences 95, 507-512. https://doi.org/10.1016/j.sbspro.2013.10.675 Cassany, D. 2016. “Recursos lingüísticos en línea: Contextos, prácticas y retos”. Revista Signos 49, 7-29. https://www.redalyc.org/pdf/1570/157048408002.pdf Celayeta Gil, N. 2016. “La creación de un Corpus ad hoc para el análisis y la enseñanza- aprendizaje de las perífrasis verbales en español”. En La formación y competencias del profesorado de ELE. Actas del XXVI Congreso Internacional de ASELE, ed. O. Cruz Moya. Madrid: ASELE, 185-195. https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/26/26_0185.pdf Contreras Seitz, M. 2006. “Hacia la constitución de un corpus diacrónico del español de Chile”. Revista de Lingüística Teórica y Aplicada, 47 (2), 111-134. http://doi.org/10.4067/S0718-48832009000200007 Cruz Piñol, M. 2005. “Sobre el uso de Internet para trabajar la normativa”. Textos, 39, 77-88. Cruz Piñol, M. 2012. Lingüística de corpus y enseñanza del español como 2/L. Madrid: Arco/Libros, 2017. Cruz Piñol, M. 2016. Corpus de nativos en la clase de ELE. http://hdl.handle.net/2445/104166 Cruz Piñol, M., K. Buyse, V. González Argüello y N. Tukahara. 2012. “¿Qué queremos de la red y para qué? Nuevas perspectivas en el uso de la red en la enseñanza del ELE”. En La red y sus aplicaciones en la enseñanza-aprendizaje del español LE. Actas del XXII Congreso Internacional de ASELE, eds. Hernández González C., A. Carrasco Santana y E. Álvarez Ramos, 31-59. Valladolid: Universidad de Valladolid. https://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/22/22_0005.pdf Enghels, R., C. Vanderschueren y M. Bouzouita. 2015. Manuel des anthologies, corpus et textes romans. Monográfico de Manuals of Romance Linguistics 7, 147-170. Fernández Martín, P. 2012. Filología y lingüística: métodos, corpus y nuevas tecnologías. Saarbrücken: Editorial Académica Española. Giménez García, J. M. 2012. “La presencia del marcador conversacional "¿me entiendes?" en los corpus lingüísticos CREA y Mark Davies como indicador de culturas de alejamiento o de acercamiento”. Revista de Letras, II, 11, 71-84. https://studylib.es/doc/671192/la-presencia-del-marcador-conversacional- %E2%80%9C%C2%BFme-entiendes%3F%E2%80%9D Llisterri, J. 2003. “Lingüística y tecnologías del lenguaje”. Lynx 2, 9-71. http://www.iling.unam.mx/cursocorpus/TecnoLing_Lynx02.pdf Llisterri, J. 2007. “El español y las nuevas tecnologías”. En Lingüística aplicada del español, ed. M. Lacorte, 483-520. Madrid: Arco/Libros. http://liceu.uab.cat/~joaquim/publicacions/Llisterri_07_Tecnologias_Linguisticas_Esp anol.pdf Llisterri, J. y J. Torruella Casañas. 1999. “Diseño de corpus textuales y orales”. Filología e informática: nuevas tecnologías en los estudios filológicos, 45-81. https://bit.ly/2zAPWFW Mbow, M.L. (ed.). 1992. Là où il n’y a pas de docteur. Dakar: Enda tiers-monde. http://oer2go.org/mods/fr-hesperian/werner-david-la-ou-il-n-y-a-pas-de-docteur.pdf McCullough, J. L. 2001. “Los usos de los córpora de textos en la enseñanza de lenguas”, Nuevas Tecnologías para el autoaprendizaje y la didáctica de lenguas, ed. M. Trenchs Parera, 125-140. Lleida: Milenio. Molés-Cases, T. 2016. “Compilación y análisis de un corpus paralelo para la investigación en traducción: Proyecto con Déjà Vu, TreeTagger e IMS Corpus WorkBench”. RLA. Revista de lingüística teórica y aplicada 54 (1), 149-174. http://doi.org/10.4067/S0718-48832016000100008 24 Pano Alamán, A. y P. Moya Muñoz. 2015. “CorpusRedEs. Proyecto de creación y anotación de un corpus de comunicación mediada por ordenador en español”. CHIMERA: Romance Corpora and Linguistic Studies 2015 (2), 117-129. https://revistas.uam.es/index.php/chimera/article/view/1042 Parodi, G. 2006. “El Grial: interfaz computacional para anotacion e interrogacion de corpus en español”. Revista de Lingüística Teórica y Aplicada 44 (2), 91-115. http://doi.org/10.4067/S0718-48832006000200007 Parodi, G. 2010. Lingüística del corpus: De la teoría a la empiria. Frankfurt: Editorial Iberoamericana-Veruert. Parodi, G. y G. Burdiles. 2018. “Corpus y base de datos”. En The Routledge Handbook of Spanish Language Teaching, eds. J. Muñoz-Basols, E. Gironzetti y M. Lacorte, 596- 613. Londres: Routledge. Pérez Hernández, C. y A. Moreno Ortiz. 2009. “Lingüística computacional y Lingüística de corpus. Potencialidades para la investigación textual”. En Teoría y literatura artística en la sociedad digital: construcción y aplicabilidadde colecciones textuales informatizadas, ed. N. Rodríguez Ortega, 67-96. Gijón: TREA. Pitkowski, E. F. y J. Vásquez Gamarra. 2009. “El uso de los corpus lingüísticos como herramienta pedagógica para la enseñanza y aprendizaje de ELE”. Tinkuy 11, 31-51. https://littlm.umontreal.ca/fileadmin/Documents/FAS/litterature_langue_moderne/Doc uments/2-Recherche/Tinkuy11.pdf#page=31 Reppen, R. 2010. Using Corpora in the Language Classroom. Nueva York: Cambridge Rojo, G. 2016. “Los corpus textuales del español”. En Enciclopedia lingüística hispánica, ed. J. Gutiérrez-Rexach, 285-296. Oxon: Routledge. Samper, J. A., C. E. Hernández Cabrera y M. Troya eds. 1998. Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de las Palmas de Gran Canaria. Sinclair, J. M. 2004. How to use Corpora in Language Teaching. Amsterdam: John Benjamins. 6.6. Recursos en línea • AntConc: http://www.laurenceanthony.net/software.html • ARTHUS (Archivo de Textos Hispánicos de la Universidad de Santiago): http://adesse.uvigo.es/data/ • Babla: http://es.bab.la/ • CDH (Corpus del Nuevo diccionario histórico): http://web.frl.es/CNDHE/view/inicioExterno.view • COLA (Corpus Oral de Lenguaje Adolescente): http://www.colam.org/om_prosj- espannol.html • CORDE (Corpus Diacrónico del Español): http://www.rae.es/recursos/banco-de- datos/corde • CORLEC (Corpus Oral de Referencia del Español Contemporáneo): http://www.lllf.uam.es/ESP/Corlec.html • CORPES XXI : http://www.rae.es/recursos/banco-de-datos/corpes-xxi • CEA (Corpus del Español Actual): http://spanishfn.org/tools/cea/spanish • Corpus del Español: http://www.corpusdelespanol.org • Corpus SenSem Español (antes GRIAL): http://grial.edu.es/sensem/corpus?idioma=ca • corpus SOL - Spanish Online: http://spraakbanken.gu.se/konk/rom2/ • COSER (Corpus Oral y Sonoro del Español Rural): http://www.uam.es/coser 25 • CREA (Corpus de Referencia del Español Actual): http://www.rae.es/recursos/banco- de-datos/crea • Elda: http://www.elda.org/ • ELRA (European Language Resources Association): http://www.icp.grenet.fr/ELRA/catalog/index.html • Glosbe: https://es.glosbe.com/ • Google: www.google.es • The IMS Open Corpus Workbench (CWB): http://cwb.sourceforge.net/ • Joaquim Llisterri (página personal): http://liceu.uab.es/~joaquim/applied_linguistics/new_technologies/LengEsp_Materiale s_WWW.html#recursos_linguisticos • LDC (Linguistic Data Consortium): http://www.ldc.upenn.edu/ldc/catalog/index.html • Linguee: http://www.linguee.com/ • Mar Cruz Piñol (Tagpacker): https://tagpacker.com/user/mar.cruz.pinol • PRESEEA (Proyecto para el Estudio Sociolingüístico del Español de España y de América: http://preseea.linguas.net • Reverso: http://www.reverso.net • Sketchengine: http://sketchengine.co.uk/ • Text Encoding Initiative (TEI): https://tei-c.org/ • TreeTagger: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ • UAM corpus tools: http://www.wagsoft.com/CorpusTool/ • UNITEX: https://unitexgramlab.org/ • Val.Es.Co (Valencia.Español.Coloquial): http://www.valesco.es • Webcorp: http://www.webcorp.org.uk/ • Wortschatz: http://wortschatz.uni-leipzig.de • WordSmith Tools: https://www.lexically.net/wordsmith/ 26