Vista previa del material en texto
VIII Simposio - Cartagena de Indias (2002) Actas / Atas 1988-2002 Presentación / Apresentação I Simposio (1988) II Simpósio (1990) III Simposio (1992) IV Simposio (1994) V Simposio (1996) VI Simposio (1998) VII Simpósio (2000) VIII Simposio (2002) Índice Índice por autores Córpora comparables y paralelos para la detección de terminología bilingüe: su explotación y uso con herramientas informáticas Adelina Gómez González-Jover Adelina.Gomez@ua.es Chelo Vargas Sierra Chelo.Vargas@ua.es Universidad de Alicante Dpto. de Filología Inglesa Alicante España El avance experimentado por las nuevas tecnologías ha provocado un cambio en la metodología de trabajo e incluso en las líneas de investigación recientes de muchos ámbitos del conocimiento. Las aportaciones de la informática al campo de la terminología han influido de forma manifiesta en la metodología de trabajo, especialmente en la propia organización del mismo y en la compilación de terminología. Este salto cualitativo se ha apreciado fundamentalmente en dos aspectos: a) en la posibilidad de acceder a córpora representativos en formato electrónico y de digitalizar aquellos en formato impreso; y b ) en la utilización y explotación de los bancos de datos textuales, terminológicos y de conocimientos. Este trabajo surge y se inscribe dentro de un proyecto de investigación sobre terminología industrial, concretamente en el marco del análisis terminológico de textos técnicos y científicos en inglés y español para la posterior elaboración de una base de datos terminológica bilingüe de determinados ámbitos especializados. Nuestra propuesta se dirige hacia el tratamiento de aspectos de la vertiente aplicada de la terminología. Nos centraremos en el uso combinado de: a) córpora paralelos y comparables en formato legible por el ordenador; b) herramientas de análisis de corpus con el fin de detectar y extraer terminología y fraseología bilingüe de los lenguajes de especialidad objeto de http://www.riterm.net/actes/8simposio/gomez_vargas.htm (1 de 20)04/03/2007 11:14:33 http://www.riterm.net/actes/ritermbd/images/Logo-Riterm-PC-Pantone.gif http://www.riterm.net/actes/presentacion/present.htm http://www.riterm.net/actes/presentacion/present.htm http://www.riterm.net/actes/1simposio/caracas.htm http://www.riterm.net/actes/2simposio/brasilia.htm http://www.riterm.net/actes/3simposio/smillan.htm http://www.riterm.net/actes/4simposio/baires.htm http://www.riterm.net/actes/5simposio/mexico.htm http://www.riterm.net/actes/6simposio/lahabana.htm http://www.riterm.net/actes/8simposio/indice02.htm http://www.riterm.net/actes/autores/autores.htm mailto:Adelina.Gomez@ua.es mailto:Chelo.Vargas@ua.es VIII Simposio - Cartagena de Indias (2002) análisis; y c) una base de datos terminológica para la inclusión en la misma de los resultados obtenidos. En conclusión, pese a las dificultades que aún hoy se pueden presentar en el proceso de automatización del trabajo terminológico, veremos en qué modo la informática y las técnicas de cooperación entre métodos y recursos diferentes permiten la obtención de resultados muy prometedores y precisos en la elaboración de bases de datos bilingües especializadas. Palabras clave: programas de concordancias, bases de datos terminológicas, corpus, terminología, terminografía En la actualidad la compilación sistemática de terminología está basada en corpus; ya no se extrae de listas previas o de búsquedas aisladas, sino de un conjunto representativo de textos de un campo de especialidad dado. En efecto, la concepción moderna de la terminología aboga por el empleo de textos reales como fuente primaria de información, con la pretensión de extraer de ahí los términos simples, compuestos, combinaciones léxicas especializadas, y fragmentos contextuales. Además, si se pretende que los productos terminológicos sirvan para el traductor especializado éstos deberían basarse en textos reales, en varios idiomas, producidos por los propios especialistas del ámbito en cuestión que recojan el uso real de los términos. A continuación se detallan algunas particularidades de lo que implica utilizar esta herramienta. Nos referimos concretamente al conjunto de textos que conforman el corpus objeto de nuestro estudio y a los programas informáticos para la gestión y análisis de este conjunto. En los últimos años ha sido mucho el interés que han suscitado en los lingüistas los estudios relacionados con la construcción y el análisis de corpus, tanto en lo referente a la teoría como a sus diferentes aplicaciones prácticas. Concretamente, en disciplinas como la traducción y la terminología, el uso de córpora está experimentando una popularidad que va en aumento. La posibilidad de analizar un gran número de textos con herramientas informáticas destinadas a tal fin y desarrolladas por lo que se conoce como industrias de la lengua ha supuesto uno de los mayores avances en la investigación lingüística actual. Asimismo, las publicaciones electrónicas o en Internet han originado una gran oferta y disponibilidad inmediata de textos de diferentes contenidos, lo cual proporciona un cúmulo de posibilidades y recursos. Entre los tipos de herramientas que las mencionadas industrias de la lengua ponen a nuestra disposición se encuentran los programas de gestión y análisis de corpus, denominados programas de concordancias, que se pueden emplear con fines terminológicos. http://www.riterm.net/actes/8simposio/gomez_vargas.htm (2 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Tipos y diseño de córpora Antes de seguir, conviene definir, en primer lugar, qué es un corpus. El sentido más amplio de corpus es "una colección de textos del lenguaje natural, seleccionados para caracterizar el estado de una lengua o una variedad de la misma" (Sinclair, 1991:171). En el presente trabajo cuando hablamos de corpus nos referimos a un conjunto de textos recogidos según unos criterios determinados para ser utilizado con unos propósitos específicos, y en un formato legible por el ordenador. Los tipos de córpora que se pueden crear son tan variados como los propósitos para los cuales se compilan. De este modo, se pueden clasificar, entre otros, en los siguientes apartados [1] : a) número de lenguas (monolingüe / multilingüe); b) modo original de reproducción (oral / escrito); c) formato original de reproducción (impreso / electrónico); d) finalidad (traducción / terminología / lingüística / lexicografía, etc). Con respecto a las lenguas contenidas se puede hacer otra distinción que se aplica en los estudios de traducción. Me refiero a los córpora comparables y paralelos . El primer tipo está constituido por un conjunto de textos originales que pertenecen al mismo ámbito de especialidad, comparten la misma función comunicativa y son de contenido similar al texto sometido a traducción. En el marco de nuestro trabajo, utilizamos los córpora comparables cuando trabajamos por subcampos, como explicamos más adelante. El segundo, consiste en un conjunto de textos redactados en la lengua original junto con sus traducciones. Este último tipo presenta muchas ventajas para la extracción de terminología y fraseología especializada bilingüe. Con el propósito de que los textos sean de utilidad para los fines con los que se plantea la extracción terminológica, la selección de los mismos tiene que responder a unos criterios establecidos de antemano. Teniendo en cuenta que la finalidad del corpus es servir de material de base para los estudios sobre el comportamiento lingüístico real de un ámbito de especialidad determinado, resulta de especial importancia que el corpus sea representativo con respecto a los tipos de textos que se dan en el ámbito en cuestión. De este modo, existe una fase previa a la selección de textos y que es la elaboración del árbol de campo de los ámbitos de especialidadque se tratan, que en el marco de este trabajo son la piedra natural y el calzado. El árbol de campo no es otra cosa que la representación gráfica en forma de esquema o árbol de los subcampos que componen el conjunto de un determinado campo de actividad. Para ello se contó con la colaboración de especialistas de los sectores industriales aludidos. En esta fase previa también conviene determinar la tipología más representativa de textos que se da dentro del ámbito en cuestión. El Proyecto de Investigación "Creación de una base de datos terminológica de algunos sectores industriales de la Comunidad Valenciana", de donde surge el trabajo que presentamos, tiene como fin último la construcción de una base de datos terminológica http://www.riterm.net/actes/8simposio/gomez_vargas.htm (3 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) y un diccionario bilingües y, por tanto, el diseño y la compilación del corpus pretende servir a este fin. Con respecto a la tipología textual del aludido proyecto, se establecieron unos criterios generales de clasificación siguiendo a Bach et al (1997:5). Así, los textos se iban asignando al tipo de normativo y propio del área. Al normativo se le asignaron textos de carácter legislativo o regulador. En este grupo se incluyeron las normas que rigen los métodos de ensayo de los productos de los sectores aludidos. En la etiqueta «propios del área» se incluyeron los artículos científicos, textos de carácter divulgativo, manuales, folletos publicitarios, instrucciones de uso de maquinaria y otros tipos de texto que surgen en estos campos de actividad. También se cuenta con obras de referencia, como glosarios, vocabularios y diccionarios generales y especializados. Una vez que está en formato electrónico, el corpus puede adquirir dos formas: etiquetado y sin etiquetar. Un corpus etiquetado es aquél al que se le ha realizado un análisis lingüístico utilizando para ello herramientas informáticas. El resultado de este análisis es que cada una de las palabras contiene una etiqueta que indica su información gramatical. En la actualidad, existen programas que son capaces de etiquetar lingüísticamente de forma automática el conjunto de textos. Estos programas se conocen con el nombre de parsers. El otro tipo de corpus es aquél que está sin etiquetar, es decir, no contiene información lingüística, sino las palabras "en bruto". Este tipo sirve como material para encontrar las frecuencias de ocurrencia de una determinada palabra o combinación de palabras con un programa específico para ello. El corpus con el que se cuenta para esta investigación pertenece a este segundo tipo. En el siguiente dibujo puede verse de forma esquemática las fases por las que pasa el texto en el aludido proyecto antes de que se proceda a la extracción de terminología: http://www.riterm.net/actes/8simposio/gomez_vargas.htm (4 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Figura 1: Fases de la constitución del corpus Extracción terminológica La lengua que emplean los diferentes miembros de una comunidad científica queda patente a través de la expresión oral y escrita. Estas formas escritas son las que se guardan y almacenan en lo que se conoce como ficheros textuales. De este modo, la colección de textos se convierte en una fuente inestimable de información sobre la existencia de términos y su comportamiento en el discurso. El procesamiento de los textos empleando programas informáticos con el objeto de identificar cadenas de caracteres que son potencialmente términos se denomina extracción automática de terminología , o bien extracción terminológica a secas. Los mecanismos de extracción de términos que utilizan estas herramientas informáticas son de tres tipos (Estopà, 1999:39): estadísticos: utilizan información estadística y, en consecuencia, independiente de la lengua, esto es, hacen uso de criterios de frecuencia y miden el grado de asociación entre las palabras de un candidato a término; lingüísticos: utilizan información lingüística para determinar la probabilidad de que una palabra sea http://www.riterm.net/actes/8simposio/gomez_vargas.htm (5 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) candidata a término; híbridos: combinan información diversa, como estadística, morfológica, sintáctica, y semántica. La extracción terminológica produce un material en bruto para la base de datos en donde serán incluidos los términos. Este material necesita ser examinado, analizado y validado antes de su inclusión en la misma, dado que la extracción no se realiza de forma totalmente automática, ni siquiera cuando se emplean programas de detección automática de términos; será necesaria en última instancia la intervención humana para determinar si un candidato a término es considerado, finalmente, como un término. Las herramientas que se emplean para la extracción de términos o candidatos a término en el marco de este proyecto son de tipo estadístico. Los sistemas que emplean métodos estadísticos producen muchos datos no válidos o "ruido", por lo que requieren una mayor dedicación humana después de haber obtenido los listados de palabras. Por el contrario, aquellos sistemas que emplean métodos lingüísticos corren el riesgo de perder datos válidos o, dicho de otro modo, generan "silencio". La desventaja que se experimenta en la actualidad en la terminografía computacional es que no existe ningún producto específico en el mercado que aúne e integre en una única aplicación las diferentes herramientas informáticas con las que se realiza las tareas terminográficas. Entre éstas se encuentran la digitalización de un texto a través del escáner, la selección de los fragmentos para ser procesados por programas de reconocimiento óptico de caracteres (OCR), la corrección de textos, la identificación de los términos a través de la creación de listas monoléxicas y poliléxicas, la consulta de concordancias, recuperación de contextos, la introducción del término a la base de datos, etc. Sin lugar a dudas, aún queda mucho camino por recorrer en terminografía computacional, sobre todo en lo que respecta a la gestión de terminología multilingüe, si bien es un área de investigación que suscita mucho interés en ámbitos como la lingüística aplicada y la traducción. Así las cosas, la sistematización terminográfica se lleva a cabo utilizando de forma simultánea varias aplicaciones y buscando métodos de cooperación entre las mismas. Nosotras nos servimos de tres herramientas de gestión de corpus: TACT, WordSmith y Multiconcord. TACT [2] es un programa de análisis de textos que funciona en entorno MSDOS. Produce concordancias y proporciona un conjunto de datos lexicométricos en relación con el texto que procesa mediante procedimientos estadísticos. Con la utilidad Collgen (Figura 2) se confeccionan los listados de combinaciones de varias unidades léxicas en grupos de dos hasta diez. Este proceso permite encontrar de forma automática las posibles unidades terminológicas poliléxicas o combinaciones léxicas especializadas (CLE) de los textos analizados. http://www.riterm.net/actes/8simposio/gomez_vargas.htm (6 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Figura 2: Ventana de trabajo de Collgen La desventaja que presentan estas herramientas de tipo estadístico es que generan, como ya se ha comentado, el indeseado ruido. En los listados producidos por Collgen de TACT aparecen multitud de combinaciones de palabras sin ningún interés terminológico. Una utilidad que traen estos programas de concordancias es la posibilidad de introducir unos listados de palabras gramaticales. Estos listados se conocen por el nombre de stopword list [3]. Se trata de palabras sin contenido específico que salen con una elevada frecuencia en los textos y que, por tanto, generan ruido. Una decisión que se necesita tomar en terminologíaes qué términos y expresiones se han de recopilar para seguir siendo procesados. Los distintos autores que tratan el tema coinciden en que los términos propios de un ámbito dado aparecen con cierta frecuencia en el discurso. De este modo, el criterio de frecuencia también es considerado en nuestro trabajo. Por lo general, el número de ocurrencias necesario para extraer una determinada unidad o grupo de palabras puede variar dependiendo de la naturaleza del corpus, de su tamaño y del tipo de usuarios que utilizarán tanto los términos como la fraseología extraídos. Para el listado poliléxico, se obtiene una lista por cada idioma con una frecuencia mínima que se determina, según sea el caso, en dos o tres. WordSmith Tools es un conjunto de tres programas, Wordlist, Concord y KeyWords. Las tareas de análisis que un terminógrafo puede llevar a cabo con el programa WordSmith consisten, básicamente, en: a) crear un listado de palabras, bien por frecuencia, bien alfabético o ambos (Figura 3); b) producir líneas de concordancias, denominadas también Key Word In Context (KWIC), tanto para una secuencia o grupo de palabras ( clusters ), como para una palabra, parte de ésta, una frase, etc.; y c) obtener datos estadísticos (número de palabras o tokens de todo el corpus, por archivo, número de ocurrencias de una determinada palabra, etc.). http://www.riterm.net/actes/8simposio/gomez_vargas.htm (7 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Figura 3: Listados creados con WordList Una concordancia es sencillamente un listado de todas las ocurrencias de una palabra dada en un corpus acompañada de su contexto (Sinclair, 1991:170). Una lista KWIC (Figura 4) agrupa las ocurrencias de la palabra interrogada, que aparece destacada en el centro, lo cual permite analizar y detectar con rapidez sus colocadores o palabras que aparecen en su entorno. Esta opción posibilita el análisis de patrones lingüísticos que salen con una determinada frecuencia en el corpus, aspecto que refleja el comportamiento de la lengua de especialidad dada en un contexto. http://www.riterm.net/actes/8simposio/gomez_vargas.htm (8 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Figura 4: Concordancias de atmospheric Como vemos en la imagen anterior, las ocurrencias del elemento buscado (atmospheric) se destacan en el centro y se alinea de forma vertical. La porción de texto que precede y que sigue a una ocurrencia se sitúa, como vemos, a la derecha y a la izquierda, lo cual facilita la comparación de los diferentes contextos en los que aparece, en este caso, atmospheric. Esta porción de texto es también configurable; podemos indicarle al programa que destaque la palabra número dos a la izquierda del elemento buscado y la palabra número uno a la derecha, por ejemplo. Asimismo, para obtener una lectura más ampliada de los contextos, el fragmento de las líneas de concordancias se puede ampliar o disminuir de tamaño. La utilización de un programa de concordancias con el objeto de detectar combinaciones léxicas en un ámbito de especialidad determinado es doble. En primer lugar, se genera un listado global de palabras a partir del conjunto de textos que se ha cargado en el programa, lo cual permite la identificación de las unidades léxicas más significativas. En segundo lugar, el terminógrafo o traductor, según sea el caso, efectuará búsquedas puntuales sobre estos primeros términos detectados en el listado global, descubriendo así el hábitat natural en el que aparece el término base. En lo que atañe a la terminología y a la fraseología bilingüe, como es nuestro caso, éstas requieren un doble proceso de extracción; primero en un idioma y luego en el otro. Después, se debe buscar y emparejar cada unidad seleccionada en la lengua original (LO) junto con su equivalente en el otro idioma; aquellos que han trabajado o trabajan con terminología multilingüe no son ajenos a las complicaciones que conlleva —en numerosas ocasiones— encontrar el equivalente de una unidad determinada. Es por ello que durante el proceso de vaciado de los textos creamos listas por subcampos [4] y trabajamos con estos corpus comparables. Dicho de otro modo, si un determinado número de textos ha sido asignado al subcampo de la petrología en un idioma X intentamos encontrar el equivalente en el idioma Y cargando en el programa de concordancias los textos que han sido asignados al mismo subcampo. Si ilustramos lo anterior con un ejemplo, encontramos que para el subcampo de «seguridad» en el área de la piedra natural aparecen con una frecuencia alta unidades léxicas en inglés como machine, sound, noise, safety, hazards , entre otras. En el corpus comparable en español encontramos también estas mismas unidades (máquina, ruido, seguridad, riesgo, peligro), dentro, además, de un intervalo similar de frecuencia. La alineación de los córpora paralelos se lleva a cabo, en el marco de nuestro proyecto, empleando un paquete que contiene dos aplicaciones informáticas: Minimark y Multiconcord. Se entiende por alineación automática de textos paralelos al empleo de una aplicación capaz de alinear un texto original (TO) junto con su traducción a otra lengua o texto meta (TM). Los diferentes programas de alineación automática trabajan vinculando frases (alineación oracional), párrafos, e incluso hay algunos capaces de http://www.riterm.net/actes/8simposio/gomez_vargas.htm (9 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) realizar alineaciones léxicas ( c.f . Yzaguirre et al., 2001). Para conseguir un corpus alineado es necesario proveer al par de textos con unas marcas estructurales. Para ello nos servimos del programa Minimark . Esta aplicación realiza, básicamente, cuatro procesos: 1) recibe el texto que va a marcar (ha de estar en formato plano sin saltos de línea (.txt)); 2) lo guarda con un nuevo nombre seguido de la extensión por idioma. Cuando se van a alinear dos textos los ficheros han de tener el mismo nombre y diferenciarse por esta extensión, que es, en nuestro caso, .es para el español y .en para el inglés; 3) marca el principio y final del texto (<body>, </body>), los párrafos (<p>) y las frases (<s>); 4) al final de este proceso de marcado el programa detalla el número de párrafos que ha encontrado y confirma el directorio donde ha guardado el nuevo archivo. A este respecto, es indispensable para el proceso posterior con Multiconcord que los dos textos (TO y TM) contengan el mismo número de párrafos. Multiconcord, por su parte, es un programa de concordancias capaz de gestionar textos en dos lenguas de forma simultánea, sin perder por ello las potencialidades de un programa similar monolingüe. Después de cargar el programa con los textos de trabajo y de introducirle la palabra o grupos de palabras que debe buscar, éste muestra la frase original que contiene la palabra por la que se le ha interrogado junto con la frase equivalente, a lo cual denominamos concordancia paralela (Figura 5). Figura 5: Concordancias paralelas en Multiconcord de anisotropy Este proceso de alineación se produce cada vez que se introduce un nuevo elemento de búsqueda. Asimismo, los criterios que utiliza para realizarla son de tipo aritmético, es decir, no compara lingüísticamente los textos, sino que busca en el TO todas las ocurrencias que concuerdan con la palabra interrogada y luego ofrece el párrafo paralelo que coincide en el número con el primero. http://www.riterm.net/actes/8simposio/gomez_vargas.htm (10 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Es decir, si ha encontrado la palabra anisotropy en el párrafo 52 y 56, por ejemplo, mostrará los párrafos 52 y 56 del TM. Creación de un repositorio terminológico La creación de repositorios terminológicos, es decir, de bases de datos en las que sea posible almacenar conocimientos específicos de determinados dominios,constituye la misión fundamental de la terminografía. Como se ha apuntado anteriormente, la creación de repositorios terminográficos se resume en dos fases fundamentales: la extracción y recopilación de los datos terminológicos y su posterior representación. En este apartado nos centraremos en la fase de representación de la información, así como en las ventajas e inconvenientes que supone trabajar con una base de datos terminológica. Antes de seguir, conviene señalar qué se entiende por base de datos terminológica y cómo funciona esta herramienta. En un sentido amplio, una base de datos terminológica es un sistema informatizado de almacenamiento de elementos léxicos que se estructuran según determinados criterios (ordenamiento alfabético, jerarquía conceptual...), en función de los usuarios y de la finalidad de la compilación terminológica; ésta debe ser flexible, reflejar adecuadamente las relaciones entre jerarquías de información, permitir la carga de todos los datos pertinentes y también su rápida recuperación con distintas posibilidades de presentación. En el estado actual de los sistemas y programas, el orden de las palabras ya no es relevante. Como apunta Sager (1990: 140), en las colecciones electrónicas la información terminológica se puede recuperar independientemente de que la compilación haya sido semasiológica u onomasiológica. La tecnología actual nos permite una indexación múltiple, así como la representación de conceptos complejos o de sistemas de clasificación incluidos dentro de los mismos datos léxicos disponibles. Uno de los problemas a los que se enfrenta el terminógrafo a la hora de representar la información es que los sistemas gestores de bases de datos terminológicos (SGBD) actuales son, en su mayoría, reproducciones informatizadas de las fichas terminológicas impresas tradicionales, faltos de versatilidad y economía de almacenamiento, en los que no es posible representar determinados tipos de información y son muy restrictivos en la organización de la información. Otro problema concierne al formato en el que la información se representa, puesto que afecta directamente a la reutilización e intercambio de los recursos terminológicos creados. Para el proyecto «Creación de una base de datos terminológica de algunos sectores industriales de la Comunidad Valenciana» hemos utilizado la base de datos TermStar 3.0. TermStar es un sistema de gestión terminológica multilingüe orientado al concepto. Esto quiere http://www.riterm.net/actes/8simposio/gomez_vargas.htm (11 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) decir que se centra completamente en el significado, y no en los términos de cada lengua. Esta base de datos permite abrir un nuevo registro, es decir, una nueva ficha terminológica, para cada concepto, no para cada término; un concepto puede contener múltiples términos y variantes lingüísticas para un solo objeto, característica o acción. Por ejemplo, el término asset inglés responde al menos a dos conceptos (Figura 6 y 7): Figura 6: Entrada en TermStar 3.0 de assets Figura 7: Entrada en TermStar 3.0 de assets (2) http://www.riterm.net/actes/8simposio/gomez_vargas.htm (12 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Como se puede observar, con TermStar habrá dos registros distintos para estos dos conceptos. Sucede con relativa frecuencia que una única designación en una lengua remita a dos o más conceptos, y que en la otra cada uno de los conceptos tenga una designación distinta. Es el caso del ejemplo dado en las figuras 6 y 7. TermStar es una base de datos relacional que está estructurada según un estándar común de la Unión Europea y que facilita la compatibilidad con otros recursos existentes. Asimismo, la gestión que lleva a cabo el SGBD tiene como resultado que podamos acceder rápida y fácilmente a los datos, que los ordene según unos determinados criterios, que relacione estos datos entre sí, etc. Una de las ventajas de esta herramienta es que permite representar la información en un formato que asegura la consistencia y la integridad de los datos, así como la exportación-importación de su contenido a otros formatos gracias a su formato de interfaz estándar MARTIF, lo cual deja abierta la posibilidad de su posterior reutilización en otros proyectos y el intercambio fluido de información y de datos con organismos terminológicos, centros de investigación, empresas privadas, expertos, etc. Características técnicas de TermStar 3.0 Es bien sabido que el trabajo terminológico con bases de datos permite que un término concreto contenga información de muy diversa índole sobre el mismo. En las bases de datos se denomina registro al concepto tradicional de ficha terminológica, que viene a ser un material estructurado con toda la información relevante sobre cada término. Los registros o fichas se componen de diferentes apartados, a los que se les llama campos. La versión 3.0 de TermStar cuenta con más de 50 campos para cada registro, algunos asignados por defecto y otros de tipo terminológico que se pueden definir según los usuarios de la base y la finalidad de la misma, creando así un modelo de distribución de campos personalizado (layout). En este programa el concepto se divide en dos partes: la cabecera (header) y la entrada (entry). Los datos que se almacenan en la cabecera son de tipo administrativo (nombre del proyecto, número de concepto, fecha de creación...) y los comparten todas las lenguas de trabajo que se configuren y formen parte de la base de datos. Por otra parte, los datos que se almacenan en la entrada son de tipo lingüístico, y el número de lenguas de trabajo es ilimitado. Los datos que contienen cada uno de los campos en los que se divide la lengua son de naturaleza terminológica (definición, contexto, fuente de la definición, fuente del contexto, abreviatura, sinónimos, referencias cruzadas....). A continuación citamos algunas de las características técnicas de este sistema gestor de terminología: el número de bases de datos que se puede crear es ilimitado y, además, pueden abrirse todas en paralelo; http://www.riterm.net/actes/8simposio/gomez_vargas.htm (13 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) el número de registros por cada base de datos es ilimitado; la estructura de los registros es fija pero dinámica; el registro contiene más de 50 campos, algunos de ellos predeterminados, de información administrativa (como por ejemplo, número de concepto, gráficos o imágenes, fecha de entrada, etc.) y otros de tipo terminológico que se pueden repetir en la ficha por cada una de las lenguas de trabajo; cada uno de los campos antes mencionados admite un número máximo de caracteres que va de 3 a 16384, dependiendo del campo del que se trate; el número de lenguas de trabajo es ilimitado; se pueden realizar búsquedas de palabras truncadas con el carácter comodín o asterisco (*) y también especificar los campos a buscar (término, abreviatura, sinónimos, etc.); además de la función de búsqueda, el programa proporciona, a través de filtros, otro modo de recuperación de datos; se pueden crear, de forma manual o automática, referencias cruzadas en forma de hiperenlaces. Esta opción permite pasar instantáneamente de una ficha a otra; permite la inclusión de campos de tipo no lingüístico, como gráficos e imágenes que, aunque no tienen una correspondencia directa con el tipo de información que contienen las entradas léxicas de los diccionarios convencionales, responden a dos factores: a) por un lado, cuanta más y mejor información contenga el registro, más facilidad para entender el concepto individual y en relación con otros, además de una mejor comprensión de la estructuración de las disciplinas y campos que intervienen; b) por el otro, la posibilidad de difundir el contenido de la base de datos en formato electrónico(Internet, CD-ROM, etc.), facilita y agiliza el acceso a la información y a las consultas terminológicas. Representación de las informaciones extraídas La información procedente del material de la etapa de extracción y http://www.riterm.net/actes/8simposio/gomez_vargas.htm (14 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) vaciado se organiza en forma de registros de base de datos, cada uno de los cuales –como ya hemos visto– contiene toda la información relativa a cada término distribuida en diversos campos. Cada uno de los campos que componen el registro contiene un tipo de información, que se selecciona según un modelo de distribución (layout) establecido previamente. Dicho modelo responde a unos criterios definidos con anterioridad, teniendo en cuenta parámetros como los usuarios, las funciones lingüísticas o la delimitación temática de los ámbitos objeto de estudio. El registro terminológico diseñado para el proyecto en el que se inscribe nuestro trabajo comprende una gama de categorías de datos, todas independientes, que se indican a continuación: datos de mantenimiento/gestión (referencia/número de registro, nombre del terminólogo, fecha de la primera codificación, información sobre las actualizaciones...); datos conceptuales (materia, alcance, definición, conceptos relacionados, términos relacionados, tipo de relación); datos lingüísticos (entradas léxicas, su forma y características gramaticales); datos pragmáticos (restricciones de uso y marcas especiales, datos contextuales); datos de referencia bibliográfica. Una de las ventajas que presenta este sistema gestor de bases de datos en la representación de las informaciones es que, gracias a su formato interfaz estándar, permite importar el contenido de los córpora de referencia, es decir, de diccionarios, glosarios, vocabularios o archivos en diferentes formatos. Esto quiere decir que, además de los formatos propios de TermStar 3.0 y sus versiones anteriores (TermStar 2.6/7) y del formato MARTIF, la base de datos permite importar datos que no corresponden a ninguno de los formatos definidos. Por ejemplo, glosarios en Excel o en formato texto plano (.txt), o informaciones de Internet. Con esta aplicación de TermStar 3.0 el usuario/terminógrafo puede crear un formato personalizado (user-defined) para especificar precisamente cómo se estructuran los datos. Para ello se debe usar un diálogo de importación (import script) que contenga todos los detalles sobre la estructura y configuración del archivo que se va importar (lenguas, campos, orden de los campos, separadores entre las entradas, etc.). Estos diálogos pueden editarse y guardarse para su utilización posterior al importar archivos con una estructura similar o idéntica (Figura 8): http://www.riterm.net/actes/8simposio/gomez_vargas.htm (15 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Figura 8: Diálogo de importación de TermStar 3.0 Para editar un diálogo de importación, el asistente de TermStar 3.0 nos permite elegir entre cuatro posibilidades: un modelo de distribución (layout) con separación de campos única, es decir, si cada fila del archivo que se va a importar corresponde a un registro y si los campos están separados por un único separador (por ejemplo, tablas exportadas de Microsoft Excel); un modelo de distribución (layout) con posiciones de campo únicas (coordinadas), si cada fila del archivo que se va a importar corresponde a un registro, y si los campos están marcados únicamente por su posición (por ejemplo, números de columna, o una tabla exportada de dBase o FoxPro en formato SDF); información separada siempre por etiquetas (tags), si los campos del archivo que se va a importar están separados por una única etiqueta. Por ejemplo, archivos exportados de MultiTerm de Trados; por último, información determinada por etiquetas, separadores o por su posición, si los campos del archivo que se va a importar están definidos por una combinación de etiquetas, separadores y posiciones. Una vez seleccionado o editado el tipo de diálogo de importación, TermStar abre la ventana de codificación de archivo, que nos permite seleccionar la codificación del archivo que vamos a importar entre las siguientes codificaciones: ANSI: codificación estándar de Windows; ASCII: codificación estándar de DOS; http://www.riterm.net/actes/8simposio/gomez_vargas.htm (16 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Unicode, UTF8: la nueva codificación internacional de caracteres; SGML: las entidades empleadas para mostrar caracteres especiales en SGML, HTML y XML (incluyendo valores hexadecimales). Definida ya la codificación, el siguiente paso es seleccionar la base en la que queremos importar los datos y proceder a la importación. Durante el proceso, TermStar puede indicar de forma interactiva el número de registros problemáticos, o bien puede guardar éstos en un fichero de registro que se mostrará al final de la importación. La posibilidad de importar a la base de datos diccionarios, glosarios o vocabularios en cualquier formato resulta de gran utilidad, ya que el corpus lexicográfico o de referencia, junto con el corpus textual – que nos permite estudiar los términos in vivo– constituye un elemento esencial para lograr una correcta adecuación de los términos de los sectores estudiados y para su utilización en investigaciones terminológicas y/o traductológicas. En resumen, toda base de datos terminológica, si está almacenada de una manera lo suficientemente estructurada y formal, debe ser capaz de proporcionar al usuario respuestas adecuadas a sus necesidades, reduciendo al mínimo el ruido. No hay que olvidar que las bases de datos terminológicas sobre ámbitos de especialidad sirven como instrumento a varios tipos de usuarios con perfiles bien distintos: especialistas en la materia, que necesitan la referencia ocasional para verificar el significado desconocido de términos en su propia lengua o en una extranjera, o para comprobar la ortografía de un término; los mediadores profesionales de la comunicación, esto es, los traductores, escritores técnicos, agentes de información, periodistas, etc., que recurren a este tipo de herramientas de referencia condicionados principalmente por la necesidad de producir textos especializados; los usuarios del lenguaje, como profesores de lengua, investigadores, lingüistas..., cuyas necesidades de información son muy diversas; los lexicógrafos y terminólogos especializados, que recopilan y registran citaciones de términos en contexto, definiciones alternativas y variantes; los usuarios generales; etc. Por todo ello, y puesto que las necesidades de los diversos usuarios coinciden o se superponen, es necesario un modelo de base de datos que contenga el máximo de información fidedigna posible y con un grado de flexibilidad que permita su adecuación a las necesidades de cada tipo de usuario. Conclusión A lo largo de esta exposición hemos pretendido mostrar cómo explotamos los diferentes materiales y recursos informáticos con el http://www.riterm.net/actes/8simposio/gomez_vargas.htm (17 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) fin de elaborar una base de datos. A pesar de todas las dificultades que entraña la automatización y sistematización del proceso terminográfico en la actualidad, sobre todo por la falta de una aplicación específica y única para realizar dicho proceso, hemos sido capaces de integrar de forma combinada en nuestra estación de trabajo diferentes herramientas informáticas que posibilitan la obtención de los datos terminológicos de forma semiautomática. La confección, por una parte, de listas por subcampos, nos permite detectar en los corpus comparables los términos más significativos junto con sus equivalentes. Por la otra, el tratamiento de los córpora paralelos hace posibleque de forma automática se detecten los equivalentes y sus contextos, tanto de los términos simples como de las combinaciones léxicas especializadas. En última instancia, una base de datos donde recopilar toda la información extraída de textos reales flexible y versátil supone una mejora cualitativa y cuantitativa en lo que concierne a la representación y recuperación de los datos por los diferentes tipos de usuarios. Bibliografía Alcaraz Varó, E.: "Translation and Pragmatics", en Álvarez, R y Vidal M.C.A (eds.): Topics in Translation, n.8, 1996, pp.99-115. Alcaraz Varó, E.: El inglés profesional y académico, Madrid: Alianza Editorial, 2000. Auger, P. y Rousseau, L.J. (1987): Metodologia de la recerca terminològica, Barcelona: Generalitat de Catalunya, Departament de Cultura [Traducción y adaptación de Mª Teresa Cabré]. Bach, C, Saurí, R., Vivaldi, J. y Cabré, M.T. (1997): "El corpus de l'IULA: descripció", Papers de l'IULA, Sèrie Informes, 17, Barcelona: Universitat Pomepu Fabra. Institut Universitari de Lingüística Aplicada. Baker, M. (1995): "Corpora in Translation Studies: An Overview and Some Suggestions for the Future Research", Target 7(2), 223- 43. Bowker, Lynne (1996): "Towards a Corpus-Based Approach to Terminography", Terminology, 3(1), 27-52. Budin, Gerhard (1990): "Terminological Analysis of LSP Phraseology", Terminology Science & Research: Journal of International Institute for Terminology Research, vol. 1, n 12, 64- 69. http://www.riterm.net/actes/8simposio/gomez_vargas.htm (18 de 20)04/03/2007 11:14:33 VIII Simposio - Cartagena de Indias (2002) Cabré, M.T. (1993): La terminología. Teoría, metodología, aplicaciones, Barcelona: Editorial Antártida/Empúries. Cabré, M.T. (dir.) (1996) Terminologia: selecció de textos d'E. Wüster. Barcelona: Servei de Llengua Catalana, Universitat de Barcelona. Cabré, M.T., (1999): La terminología: representación y comunicación, Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra. Cabré, M.T., (2001): La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES PB96-0293), Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra. Estopà, Rosa (1999): Extracció de terminologia : elements per a la construcció d'un SEACUSE (Sistema d'Extracció Automática de Candidats a Unitats de Significació Especialitzada). [Tesis doctoral] Barcelona: Universitat Pompeu Fabra, Institut Universitari de Lingüística Aplicada. Sinclair, John (1991): Corpus, Concordance, Collocation, Oxford, Oxford University Press. Hoffmann, L. (1998): Llenguatges d'especialitat, Barcelona: IULA, Universidad Pompeu Fabra. Maniez, François (2001): «Extraction d'une phraséologie bilingue en langue de spécialité: corpus parallèles et corpus comparables», [en línea] Meta, XLVI, 3 (2001), 552-563, http://www.erudit.org/erudit/ meta/v46n03/index.htm [Fecha de consulta: 29 de marzo de 2002]. Pearson, J. (1998): Terms in Context, Amsterdam: John Benjamins. Sager, J.C., (1993): Curso práctico sobre el procesamiento de la terminología , Madrid: Fundación Germán Sánchez Ruipérez. Teubert, W. (1996): "Comparable or Parallel Corpora?", International Journal of Lexicography , 9-3, 238-264. Yzaguirre, L., Ribas, M., Vivaldi, J. y Cabré, M.T. (2001): "Alineación automática de traducciones: descripción y usos en los ámbitos de la profesión, de la docencia y de la investigación traductológica", Valero Garcés, Carmen & Isabel de la Cruz Cabanillas (eds.), Traducción y Nuevas Tecnologías. Herramientas Auxiliares del Traductor, Universidad de Alcalá de Henares. http://www.riterm.net/actes/8simposio/gomez_vargas.htm (19 de 20)04/03/2007 11:14:33 http://www.erudit.org/erudit/meta/v43n04/ http://www.erudit.org/erudit/meta/v43n04/ VIII Simposio - Cartagena de Indias (2002) [1] Para un mayor detalle de las diferentes clasificaciones de un corpus puede consultarse Atkins, S. y Clear, J. "Corpus Design Criteria", en Literary and Linguistic Computing, Vol.7, No. 1, 1992 [2] TACT es la sigla para Text Analysis Computing Tools. Es de libre distribución y fue desarrollado por la Universidad de Toronto [3] Pueden conseguirse listados ya confeccionados en varios idiomas en http:// www.unine.ch/info/clef/ [fecha de consulta 27 de septiembre de 2002] [4] A modo de ejemplo, en el sector del calzado algunos de los subcampos son: materiales, piel, componentes y piezas, maquinaria, etc. Editado con el apoyo de Editado com o apoio da: http://www.riterm.net/actes/8simposio/gomez_vargas.htm (20 de 20)04/03/2007 11:14:33 http://www.unine.ch/info/clef/ http://www.unine.ch/info/clef/ riterm.net VIII Simposio - Cartagena de Indias (2002)