Logo Studenta

riterm-2002-colombia

¡Este material tiene más páginas!

Vista previa del material en texto

VIII Simposio - Cartagena de Indias (2002)
 
 
 
 
Actas / Atas 
1988-2002
Presentación / 
Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simposio (2002)
 Índice
Índice por autores
 
 
Córpora comparables y paralelos para la detección de 
terminología bilingüe: su explotación y uso con herramientas 
informáticas 
Adelina Gómez González-Jover 
Adelina.Gomez@ua.es 
Chelo Vargas Sierra 
Chelo.Vargas@ua.es 
Universidad de Alicante 
Dpto. de Filología Inglesa 
Alicante 
España 
 
El avance experimentado por las nuevas tecnologías ha 
provocado un cambio en la metodología de trabajo e 
incluso en las líneas de investigación recientes de 
muchos ámbitos del conocimiento. Las aportaciones de 
la informática al campo de la terminología han influido 
de forma manifiesta en la metodología de trabajo, 
especialmente en la propia organización del mismo y en 
la compilación de terminología. Este salto cualitativo se 
ha apreciado fundamentalmente en dos aspectos: a) en 
la posibilidad de acceder a córpora representativos en 
formato electrónico y de digitalizar aquellos en formato 
impreso; y b ) en la utilización y explotación de los 
bancos de datos textuales, terminológicos y de 
conocimientos. 
Este trabajo surge y se inscribe dentro de un proyecto 
de investigación sobre terminología industrial, 
concretamente en el marco del análisis terminológico 
de textos técnicos y científicos en inglés y español para 
la posterior elaboración de una base de datos 
terminológica bilingüe de determinados ámbitos 
especializados. 
Nuestra propuesta se dirige hacia el tratamiento de 
aspectos de la vertiente aplicada de la terminología. 
Nos centraremos en el uso combinado de: a) córpora 
paralelos y comparables en formato legible por el 
ordenador; b) herramientas de análisis de corpus con el 
fin de detectar y extraer terminología y fraseología 
bilingüe de los lenguajes de especialidad objeto de 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (1 de 20)04/03/2007 11:14:33
http://www.riterm.net/actes/ritermbd/images/Logo-Riterm-PC-Pantone.gif
http://www.riterm.net/actes/presentacion/present.htm
http://www.riterm.net/actes/presentacion/present.htm
http://www.riterm.net/actes/1simposio/caracas.htm
http://www.riterm.net/actes/2simposio/brasilia.htm
http://www.riterm.net/actes/3simposio/smillan.htm
http://www.riterm.net/actes/4simposio/baires.htm
http://www.riterm.net/actes/5simposio/mexico.htm
http://www.riterm.net/actes/6simposio/lahabana.htm
http://www.riterm.net/actes/8simposio/indice02.htm
http://www.riterm.net/actes/autores/autores.htm
mailto:Adelina.Gomez@ua.es
mailto:Chelo.Vargas@ua.es
VIII Simposio - Cartagena de Indias (2002)
análisis; y c) una base de datos terminológica para la 
inclusión en la misma de los resultados obtenidos. 
En conclusión, pese a las dificultades que aún hoy se 
pueden presentar en el proceso de automatización del 
trabajo terminológico, veremos en qué modo la 
informática y las técnicas de cooperación entre 
métodos y recursos diferentes permiten la obtención de 
resultados muy prometedores y precisos en la 
elaboración de bases de datos bilingües especializadas. 
Palabras clave: programas de concordancias, bases 
de datos terminológicas, corpus, terminología, 
terminografía 
 
 
En la actualidad la compilación sistemática de terminología está 
basada en corpus; ya no se extrae de listas previas o de búsquedas 
aisladas, sino de un conjunto representativo de textos de un campo 
de especialidad dado. En efecto, la concepción moderna de la 
terminología aboga por el empleo de textos reales como fuente 
primaria de información, con la pretensión de extraer de ahí los 
términos simples, compuestos, combinaciones léxicas 
especializadas, y fragmentos contextuales. Además, si se pretende 
que los productos terminológicos sirvan para el traductor 
especializado éstos deberían basarse en textos reales, en varios 
idiomas, producidos por los propios especialistas del ámbito en 
cuestión que recojan el uso real de los términos. A continuación se 
detallan algunas particularidades de lo que implica utilizar esta 
herramienta. Nos referimos concretamente al conjunto de textos 
que conforman el corpus objeto de nuestro estudio y a los 
programas informáticos para la gestión y análisis de este conjunto. 
En los últimos años ha sido mucho el interés que han suscitado en 
los lingüistas los estudios relacionados con la construcción y el 
análisis de corpus, tanto en lo referente a la teoría como a sus 
diferentes aplicaciones prácticas. Concretamente, en disciplinas 
como la traducción y la terminología, el uso de córpora está 
experimentando una popularidad que va en aumento. La posibilidad 
de analizar un gran número de textos con herramientas 
informáticas destinadas a tal fin y desarrolladas por lo que se 
conoce como industrias de la lengua ha supuesto uno de los 
mayores avances en la investigación lingüística actual. Asimismo, 
las publicaciones electrónicas o en Internet han originado una gran 
oferta y disponibilidad inmediata de textos de diferentes 
contenidos, lo cual proporciona un cúmulo de posibilidades y 
recursos. Entre los tipos de herramientas que las mencionadas 
industrias de la lengua ponen a nuestra disposición se encuentran 
los programas de gestión y análisis de corpus, denominados 
programas de concordancias, que se pueden emplear con fines 
terminológicos. 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (2 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
 
Tipos y diseño de córpora 
Antes de seguir, conviene definir, en primer lugar, qué es un 
corpus. El sentido más amplio de corpus es "una colección de textos 
del lenguaje natural, seleccionados para caracterizar el estado de 
una lengua o una variedad de la misma" (Sinclair, 1991:171). En el 
presente trabajo cuando hablamos de corpus nos referimos a un 
conjunto de textos recogidos según unos criterios determinados 
para ser utilizado con unos propósitos específicos, y en un formato 
legible por el ordenador. 
Los tipos de córpora que se pueden crear son tan variados como los 
propósitos para los cuales se compilan. De este modo, se pueden 
clasificar, entre otros, en los siguientes apartados [1] : a) número 
de lenguas (monolingüe / multilingüe); b) modo original de 
reproducción (oral / escrito); c) formato original de reproducción 
(impreso / electrónico); d) finalidad (traducción / terminología / 
lingüística / lexicografía, etc). Con respecto a las lenguas 
contenidas se puede hacer otra distinción que se aplica en los 
estudios de traducción. Me refiero a los córpora comparables y 
paralelos . El primer tipo está constituido por un conjunto de textos 
originales que pertenecen al mismo ámbito de especialidad, 
comparten la misma función comunicativa y son de contenido 
similar al texto sometido a traducción. En el marco de nuestro 
trabajo, utilizamos los córpora comparables cuando trabajamos por 
subcampos, como explicamos más adelante. El segundo, consiste 
en un conjunto de textos redactados en la lengua original junto con 
sus traducciones. Este último tipo presenta muchas ventajas para la 
extracción de terminología y fraseología especializada bilingüe. 
Con el propósito de que los textos sean de utilidad para los fines 
con los que se plantea la extracción terminológica, la selección de 
los mismos tiene que responder a unos criterios establecidos de 
antemano. Teniendo en cuenta que la finalidad del corpus es servir 
de material de base para los estudios sobre el comportamiento 
lingüístico real de un ámbito de especialidad determinado, resulta 
de especial importancia que el corpus sea representativo con 
respecto a los tipos de textos que se dan en el ámbito en cuestión. 
De este modo, existe una fase previa a la selección de textos y que 
es la elaboración del árbol de campo de los ámbitos de especialidadque se tratan, que en el marco de este trabajo son la piedra natural 
y el calzado. El árbol de campo no es otra cosa que la 
representación gráfica en forma de esquema o árbol de los 
subcampos que componen el conjunto de un determinado campo de 
actividad. Para ello se contó con la colaboración de especialistas de 
los sectores industriales aludidos. En esta fase previa también 
conviene determinar la tipología más representativa de textos que 
se da dentro del ámbito en cuestión. 
El Proyecto de Investigación "Creación de una base de datos 
terminológica de algunos sectores industriales de la Comunidad 
Valenciana", de donde surge el trabajo que presentamos, tiene 
como fin último la construcción de una base de datos terminológica 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (3 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
y un diccionario bilingües y, por tanto, el diseño y la compilación 
del corpus pretende servir a este fin. Con respecto a la tipología 
textual del aludido proyecto, se establecieron unos criterios 
generales de clasificación siguiendo a Bach et al (1997:5). Así, los 
textos se iban asignando al tipo de normativo y propio del área. Al 
normativo se le asignaron textos de carácter legislativo o regulador. 
En este grupo se incluyeron las normas que rigen los métodos de 
ensayo de los productos de los sectores aludidos. En la etiqueta 
«propios del área» se incluyeron los artículos científicos, textos de 
carácter divulgativo, manuales, folletos publicitarios, instrucciones 
de uso de maquinaria y otros tipos de texto que surgen en estos 
campos de actividad. También se cuenta con obras de referencia, 
como glosarios, vocabularios y diccionarios generales y 
especializados. 
Una vez que está en formato electrónico, el corpus puede adquirir 
dos formas: etiquetado y sin etiquetar. Un corpus etiquetado es 
aquél al que se le ha realizado un análisis lingüístico utilizando para 
ello herramientas informáticas. El resultado de este análisis es que 
cada una de las palabras contiene una etiqueta que indica su 
información gramatical. En la actualidad, existen programas que 
son capaces de etiquetar lingüísticamente de forma automática el 
conjunto de textos. Estos programas se conocen con el nombre de 
parsers. El otro tipo de corpus es aquél que está sin etiquetar, es 
decir, no contiene información lingüística, sino las palabras "en 
bruto". Este tipo sirve como material para encontrar las frecuencias 
de ocurrencia de una determinada palabra o combinación de 
palabras con un programa específico para ello. El corpus con el que 
se cuenta para esta investigación pertenece a este segundo tipo. 
En el siguiente dibujo puede verse de forma esquemática las fases 
por las que pasa el texto en el aludido proyecto antes de que se 
proceda a la extracción de terminología: 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (4 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Figura 1: Fases de la constitución del corpus
 
Extracción terminológica 
La lengua que emplean los diferentes miembros de una comunidad 
científica queda patente a través de la expresión oral y escrita. 
Estas formas escritas son las que se guardan y almacenan en lo 
que se conoce como ficheros textuales. De este modo, la colección 
de textos se convierte en una fuente inestimable de información 
sobre la existencia de términos y su comportamiento en el discurso. 
El procesamiento de los textos empleando programas informáticos 
con el objeto de identificar cadenas de caracteres que son 
potencialmente términos se denomina extracción automática de 
terminología , o bien extracción terminológica a secas. 
Los mecanismos de extracción de términos que utilizan estas 
herramientas informáticas son de tres tipos (Estopà, 1999:39): 
 estadísticos: utilizan información estadística y, en 
consecuencia, independiente de la lengua, esto es, 
hacen uso de criterios de frecuencia y miden el grado 
de asociación entre las palabras de un candidato a 
término; 
 lingüísticos: utilizan información lingüística para 
determinar la probabilidad de que una palabra sea 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (5 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
candidata a término; 
 híbridos: combinan información diversa, como 
estadística, morfológica, sintáctica, y semántica. 
La extracción terminológica produce un material en bruto para la 
base de datos en donde serán incluidos los términos. Este material 
necesita ser examinado, analizado y validado antes de su inclusión 
en la misma, dado que la extracción no se realiza de forma 
totalmente automática, ni siquiera cuando se emplean programas 
de detección automática de términos; será necesaria en última 
instancia la intervención humana para determinar si un candidato a 
término es considerado, finalmente, como un término. 
Las herramientas que se emplean para la extracción de términos o 
candidatos a término en el marco de este proyecto son de tipo 
estadístico. Los sistemas que emplean métodos estadísticos 
producen muchos datos no válidos o "ruido", por lo que requieren 
una mayor dedicación humana después de haber obtenido los 
listados de palabras. Por el contrario, aquellos sistemas que 
emplean métodos lingüísticos corren el riesgo de perder datos 
válidos o, dicho de otro modo, generan "silencio". 
La desventaja que se experimenta en la actualidad en la 
terminografía computacional es que no existe ningún producto 
específico en el mercado que aúne e integre en una única aplicación 
las diferentes herramientas informáticas con las que se realiza las 
tareas terminográficas. Entre éstas se encuentran la digitalización 
de un texto a través del escáner, la selección de los fragmentos 
para ser procesados por programas de reconocimiento óptico de 
caracteres (OCR), la corrección de textos, la identificación de los 
términos a través de la creación de listas monoléxicas y poliléxicas, 
la consulta de concordancias, recuperación de contextos, la 
introducción del término a la base de datos, etc. Sin lugar a dudas, 
aún queda mucho camino por recorrer en terminografía 
computacional, sobre todo en lo que respecta a la gestión de 
terminología multilingüe, si bien es un área de investigación que 
suscita mucho interés en ámbitos como la lingüística aplicada y la 
traducción. Así las cosas, la sistematización terminográfica se lleva 
a cabo utilizando de forma simultánea varias aplicaciones y 
buscando métodos de cooperación entre las mismas. Nosotras nos 
servimos de tres herramientas de gestión de corpus: TACT, 
WordSmith y Multiconcord. 
TACT [2] es un programa de análisis de textos que funciona en 
entorno MSDOS. Produce concordancias y proporciona un conjunto 
de datos lexicométricos en relación con el texto que procesa 
mediante procedimientos estadísticos. Con la utilidad Collgen 
(Figura 2) se confeccionan los listados de combinaciones de varias 
unidades léxicas en grupos de dos hasta diez. Este proceso permite 
encontrar de forma automática las posibles unidades terminológicas 
poliléxicas o combinaciones léxicas especializadas (CLE) de los 
textos analizados. 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (6 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Figura 2: Ventana de trabajo de Collgen
La desventaja que presentan estas herramientas de tipo estadístico 
es que generan, como ya se ha comentado, el indeseado ruido. En 
los listados producidos por Collgen de TACT aparecen multitud de 
combinaciones de palabras sin ningún interés terminológico. Una 
utilidad que traen estos programas de concordancias es la 
posibilidad de introducir unos listados de palabras gramaticales. 
Estos listados se conocen por el nombre de stopword list [3]. Se 
trata de palabras sin contenido específico que salen con una 
elevada frecuencia en los textos y que, por tanto, generan ruido. 
Una decisión que se necesita tomar en terminologíaes qué 
términos y expresiones se han de recopilar para seguir siendo 
procesados. Los distintos autores que tratan el tema coinciden en 
que los términos propios de un ámbito dado aparecen con cierta 
frecuencia en el discurso. De este modo, el criterio de frecuencia 
también es considerado en nuestro trabajo. Por lo general, el 
número de ocurrencias necesario para extraer una determinada 
unidad o grupo de palabras puede variar dependiendo de la 
naturaleza del corpus, de su tamaño y del tipo de usuarios que 
utilizarán tanto los términos como la fraseología extraídos. Para el 
listado poliléxico, se obtiene una lista por cada idioma con una 
frecuencia mínima que se determina, según sea el caso, en dos o 
tres. 
WordSmith Tools es un conjunto de tres programas, Wordlist, 
Concord y KeyWords. Las tareas de análisis que un terminógrafo 
puede llevar a cabo con el programa WordSmith consisten, 
básicamente, en: a) crear un listado de palabras, bien por 
frecuencia, bien alfabético o ambos (Figura 3); b) producir líneas de 
concordancias, denominadas también Key Word In Context (KWIC), 
tanto para una secuencia o grupo de palabras ( clusters ), como 
para una palabra, parte de ésta, una frase, etc.; y c) obtener datos 
estadísticos (número de palabras o tokens de todo el corpus, por 
archivo, número de ocurrencias de una determinada palabra, etc.). 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (7 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Figura 3: Listados creados con WordList 
Una concordancia es sencillamente un listado de todas las 
ocurrencias de una palabra dada en un corpus acompañada de su 
contexto (Sinclair, 1991:170). Una lista KWIC (Figura 4) agrupa las 
ocurrencias de la palabra interrogada, que aparece destacada en el 
centro, lo cual permite analizar y detectar con rapidez sus 
colocadores o palabras que aparecen en su entorno. Esta opción 
posibilita el análisis de patrones lingüísticos que salen con una 
determinada frecuencia en el corpus, aspecto que refleja el 
comportamiento de la lengua de especialidad dada en un contexto. 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (8 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Figura 4: Concordancias de atmospheric 
Como vemos en la imagen anterior, las ocurrencias del elemento 
buscado (atmospheric) se destacan en el centro y se alinea de 
forma vertical. La porción de texto que precede y que sigue a una 
ocurrencia se sitúa, como vemos, a la derecha y a la izquierda, lo 
cual facilita la comparación de los diferentes contextos en los que 
aparece, en este caso, atmospheric. Esta porción de texto es 
también configurable; podemos indicarle al programa que destaque 
la palabra número dos a la izquierda del elemento buscado y la 
palabra número uno a la derecha, por ejemplo. Asimismo, para 
obtener una lectura más ampliada de los contextos, el fragmento 
de las líneas de concordancias se puede ampliar o disminuir de 
tamaño. 
La utilización de un programa de concordancias con el objeto de 
detectar combinaciones léxicas en un ámbito de especialidad 
determinado es doble. En primer lugar, se genera un listado global 
de palabras a partir del conjunto de textos que se ha cargado en el 
programa, lo cual permite la identificación de las unidades léxicas 
más significativas. En segundo lugar, el terminógrafo o traductor, 
según sea el caso, efectuará búsquedas puntuales sobre estos 
primeros términos detectados en el listado global, descubriendo así 
el hábitat natural en el que aparece el término base. 
En lo que atañe a la terminología y a la fraseología bilingüe, como 
es nuestro caso, éstas requieren un doble proceso de extracción; 
primero en un idioma y luego en el otro. Después, se debe buscar y 
emparejar cada unidad seleccionada en la lengua original (LO) 
junto con su equivalente en el otro idioma; aquellos que han 
trabajado o trabajan con terminología multilingüe no son ajenos a 
las complicaciones que conlleva —en numerosas ocasiones—
encontrar el equivalente de una unidad determinada. Es por ello 
que durante el proceso de vaciado de los textos creamos listas por 
subcampos [4] y trabajamos con estos corpus comparables. Dicho 
de otro modo, si un determinado número de textos ha sido 
asignado al subcampo de la petrología en un idioma X intentamos 
encontrar el equivalente en el idioma Y cargando en el programa de 
concordancias los textos que han sido asignados al mismo 
subcampo. Si ilustramos lo anterior con un ejemplo, encontramos 
que para el subcampo de «seguridad» en el área de la piedra 
natural aparecen con una frecuencia alta unidades léxicas en inglés 
como machine, sound, noise, safety, hazards , entre otras. En el 
corpus comparable en español encontramos también estas mismas 
unidades (máquina, ruido, seguridad, riesgo, peligro), dentro, 
además, de un intervalo similar de frecuencia. 
La alineación de los córpora paralelos se lleva a cabo, en el marco 
de nuestro proyecto, empleando un paquete que contiene dos 
aplicaciones informáticas: Minimark y Multiconcord. Se entiende por 
alineación automática de textos paralelos al empleo de una 
aplicación capaz de alinear un texto original (TO) junto con su 
traducción a otra lengua o texto meta (TM). Los diferentes 
programas de alineación automática trabajan vinculando frases 
(alineación oracional), párrafos, e incluso hay algunos capaces de 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (9 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
realizar alineaciones léxicas ( c.f . Yzaguirre et al., 2001). Para 
conseguir un corpus alineado es necesario proveer al par de textos 
con unas marcas estructurales. Para ello nos servimos del 
programa Minimark . Esta aplicación realiza, básicamente, cuatro 
procesos: 1) recibe el texto que va a marcar (ha de estar en 
formato plano sin saltos de línea (.txt)); 2) lo guarda con un nuevo 
nombre seguido de la extensión por idioma. Cuando se van a 
alinear dos textos los ficheros han de tener el mismo nombre y 
diferenciarse por esta extensión, que es, en nuestro caso, .es para 
el español y .en para el inglés; 3) marca el principio y final del 
texto (<body>, </body>), los párrafos (<p>) y las frases (<s>); 
4) al final de este proceso de marcado el programa detalla el 
número de párrafos que ha encontrado y confirma el directorio 
donde ha guardado el nuevo archivo. A este respecto, es 
indispensable para el proceso posterior con Multiconcord que los 
dos textos (TO y TM) contengan el mismo número de párrafos. 
Multiconcord, por su parte, es un programa de concordancias capaz 
de gestionar textos en dos lenguas de forma simultánea, sin perder 
por ello las potencialidades de un programa similar monolingüe. 
Después de cargar el programa con los textos de trabajo y de 
introducirle la palabra o grupos de palabras que debe buscar, éste 
muestra la frase original que contiene la palabra por la que se le ha 
interrogado junto con la frase equivalente, a lo cual denominamos 
concordancia paralela (Figura 5). 
Figura 5: Concordancias paralelas en Multiconcord de anisotropy 
Este proceso de alineación se produce cada vez que se introduce un 
nuevo elemento de búsqueda. Asimismo, los criterios que utiliza 
para realizarla son de tipo aritmético, es decir, no compara 
lingüísticamente los textos, sino que busca en el TO todas las 
ocurrencias que concuerdan con la palabra interrogada y luego 
ofrece el párrafo paralelo que coincide en el número con el primero. 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (10 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Es decir, si ha encontrado la palabra anisotropy en el párrafo 52 y 
56, por ejemplo, mostrará los párrafos 52 y 56 del TM. 
 
Creación de un repositorio terminológico 
La creación de repositorios terminológicos, es decir, de bases de 
datos en las que sea posible almacenar conocimientos específicos 
de determinados dominios,constituye la misión fundamental de la 
terminografía. 
Como se ha apuntado anteriormente, la creación de repositorios 
terminográficos se resume en dos fases fundamentales: la 
extracción y recopilación de los datos terminológicos y su posterior 
representación. En este apartado nos centraremos en la fase de 
representación de la información, así como en las ventajas e 
inconvenientes que supone trabajar con una base de datos 
terminológica. 
Antes de seguir, conviene señalar qué se entiende por base de 
datos terminológica y cómo funciona esta herramienta. En un 
sentido amplio, una base de datos terminológica es un sistema 
informatizado de almacenamiento de elementos léxicos que se 
estructuran según determinados criterios (ordenamiento alfabético, 
jerarquía conceptual...), en función de los usuarios y de la finalidad 
de la compilación terminológica; ésta debe ser flexible, reflejar 
adecuadamente las relaciones entre jerarquías de información, 
permitir la carga de todos los datos pertinentes y también su rápida 
recuperación con distintas posibilidades de presentación. En el 
estado actual de los sistemas y programas, el orden de las palabras 
ya no es relevante. Como apunta Sager (1990: 140), en las 
colecciones electrónicas la información terminológica se puede 
recuperar independientemente de que la compilación haya sido 
semasiológica u onomasiológica. La tecnología actual nos permite 
una indexación múltiple, así como la representación de conceptos 
complejos o de sistemas de clasificación incluidos dentro de los 
mismos datos léxicos disponibles. 
Uno de los problemas a los que se enfrenta el terminógrafo a la 
hora de representar la información es que los sistemas gestores de 
bases de datos terminológicos (SGBD) actuales son, en su mayoría, 
reproducciones informatizadas de las fichas terminológicas 
impresas tradicionales, faltos de versatilidad y economía de 
almacenamiento, en los que no es posible representar 
determinados tipos de información y son muy restrictivos en la 
organización de la información. Otro problema concierne al formato 
en el que la información se representa, puesto que afecta 
directamente a la reutilización e intercambio de los recursos 
terminológicos creados. 
Para el proyecto «Creación de una base de datos terminológica de 
algunos sectores industriales de la Comunidad Valenciana» hemos 
utilizado la base de datos TermStar 3.0. TermStar es un sistema de 
gestión terminológica multilingüe orientado al concepto. Esto quiere 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (11 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
decir que se centra completamente en el significado, y no en los 
términos de cada lengua. Esta base de datos permite abrir un 
nuevo registro, es decir, una nueva ficha terminológica, para cada 
concepto, no para cada término; un concepto puede contener 
múltiples términos y variantes lingüísticas para un solo objeto, 
característica o acción. 
Por ejemplo, el término asset inglés responde al menos a dos 
conceptos (Figura 6 y 7): 
Figura 6: Entrada en TermStar 3.0 de assets
 
Figura 7: Entrada en TermStar 3.0 de assets (2)
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (12 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Como se puede observar, con TermStar habrá dos registros 
distintos para estos dos conceptos. Sucede con relativa frecuencia 
que una única designación en una lengua remita a dos o más 
conceptos, y que en la otra cada uno de los conceptos tenga una 
designación distinta. Es el caso del ejemplo dado en las figuras 6 y 
7. 
TermStar es una base de datos relacional que está estructurada 
según un estándar común de la Unión Europea y que facilita la 
compatibilidad con otros recursos existentes. Asimismo, la gestión 
que lleva a cabo el SGBD tiene como resultado que podamos 
acceder rápida y fácilmente a los datos, que los ordene según unos 
determinados criterios, que relacione estos datos entre sí, etc. Una 
de las ventajas de esta herramienta es que permite representar la 
información en un formato que asegura la consistencia y la 
integridad de los datos, así como la exportación-importación de su 
contenido a otros formatos gracias a su formato de interfaz 
estándar MARTIF, lo cual deja abierta la posibilidad de su posterior 
reutilización en otros proyectos y el intercambio fluido de 
información y de datos con organismos terminológicos, centros de 
investigación, empresas privadas, expertos, etc. 
 
Características técnicas de TermStar 3.0 
Es bien sabido que el trabajo terminológico con bases de datos 
permite que un término concreto contenga información de muy 
diversa índole sobre el mismo. En las bases de datos se denomina 
registro al concepto tradicional de ficha terminológica, que viene a 
ser un material estructurado con toda la información relevante 
sobre cada término. Los registros o fichas se componen de 
diferentes apartados, a los que se les llama campos. La versión 3.0 
de TermStar cuenta con más de 50 campos para cada registro, 
algunos asignados por defecto y otros de tipo terminológico que se 
pueden definir según los usuarios de la base y la finalidad de la 
misma, creando así un modelo de distribución de campos 
personalizado (layout). 
En este programa el concepto se divide en dos partes: la cabecera 
(header) y la entrada (entry). Los datos que se almacenan en la 
cabecera son de tipo administrativo (nombre del proyecto, número 
de concepto, fecha de creación...) y los comparten todas las 
lenguas de trabajo que se configuren y formen parte de la base de 
datos. Por otra parte, los datos que se almacenan en la entrada son 
de tipo lingüístico, y el número de lenguas de trabajo es ilimitado. 
Los datos que contienen cada uno de los campos en los que se 
divide la lengua son de naturaleza terminológica (definición, 
contexto, fuente de la definición, fuente del contexto, abreviatura, 
sinónimos, referencias cruzadas....). A continuación citamos 
algunas de las características técnicas de este sistema gestor de 
terminología: 
 el número de bases de datos que se puede crear es 
ilimitado y, además, pueden abrirse todas en paralelo; 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (13 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
 el número de registros por cada base de datos es 
ilimitado; 
 la estructura de los registros es fija pero dinámica; 
 el registro contiene más de 50 campos, algunos de 
ellos predeterminados, de información administrativa 
(como por ejemplo, número de concepto, gráficos o 
imágenes, fecha de entrada, etc.) y otros de tipo 
terminológico que se pueden repetir en la ficha por 
cada una de las lenguas de trabajo; 
 cada uno de los campos antes mencionados admite 
un número máximo de caracteres que va de 3 a 16384, 
dependiendo del campo del que se trate; 
 el número de lenguas de trabajo es ilimitado; 
 se pueden realizar búsquedas de palabras truncadas 
con el carácter comodín o asterisco (*) y también 
especificar los campos a buscar (término, abreviatura, 
sinónimos, etc.); 
 además de la función de búsqueda, el programa 
proporciona, a través de filtros, otro modo de 
recuperación de datos; 
 se pueden crear, de forma manual o automática, 
referencias cruzadas en forma de hiperenlaces. Esta 
opción permite pasar instantáneamente de una ficha a 
otra; 
 permite la inclusión de campos de tipo no lingüístico, 
como gráficos e imágenes que, aunque no tienen una 
correspondencia directa con el tipo de información que 
contienen las entradas léxicas de los diccionarios 
convencionales, responden a dos factores: a) por un 
lado, cuanta más y mejor información contenga el 
registro, más facilidad para entender el concepto 
individual y en relación con otros, además de una 
mejor comprensión de la estructuración de las 
disciplinas y campos que intervienen; b) por el otro, la 
posibilidad de difundir el contenido de la base de datos 
en formato electrónico(Internet, CD-ROM, etc.), facilita 
y agiliza el acceso a la información y a las consultas 
terminológicas. 
 
Representación de las informaciones extraídas 
La información procedente del material de la etapa de extracción y 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (14 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
vaciado se organiza en forma de registros de base de datos, cada 
uno de los cuales –como ya hemos visto– contiene toda la 
información relativa a cada término distribuida en diversos campos. 
Cada uno de los campos que componen el registro contiene un tipo 
de información, que se selecciona según un modelo de distribución 
(layout) establecido previamente. Dicho modelo responde a unos 
criterios definidos con anterioridad, teniendo en cuenta parámetros 
como los usuarios, las funciones lingüísticas o la delimitación 
temática de los ámbitos objeto de estudio. 
El registro terminológico diseñado para el proyecto en el que se 
inscribe nuestro trabajo comprende una gama de categorías de 
datos, todas independientes, que se indican a continuación: 
 datos de mantenimiento/gestión (referencia/número 
de registro, nombre del terminólogo, fecha de la 
primera codificación, información sobre las 
actualizaciones...); 
 datos conceptuales (materia, alcance, definición, 
conceptos relacionados, términos relacionados, tipo de 
relación); 
 datos lingüísticos (entradas léxicas, su forma y 
características gramaticales); 
 datos pragmáticos (restricciones de uso y marcas 
especiales, datos contextuales); 
 datos de referencia bibliográfica. 
Una de las ventajas que presenta este sistema gestor de bases de 
datos en la representación de las informaciones es que, gracias a su 
formato interfaz estándar, permite importar el contenido de los 
córpora de referencia, es decir, de diccionarios, glosarios, 
vocabularios o archivos en diferentes formatos. Esto quiere decir 
que, además de los formatos propios de TermStar 3.0 y sus 
versiones anteriores (TermStar 2.6/7) y del formato MARTIF, la 
base de datos permite importar datos que no corresponden a 
ninguno de los formatos definidos. Por ejemplo, glosarios en Excel o 
en formato texto plano (.txt), o informaciones de Internet. 
Con esta aplicación de TermStar 3.0 el usuario/terminógrafo puede 
crear un formato personalizado (user-defined) para especificar 
precisamente cómo se estructuran los datos. Para ello se debe usar 
un diálogo de importación (import script) que contenga todos los 
detalles sobre la estructura y configuración del archivo que se va 
importar (lenguas, campos, orden de los campos, separadores 
entre las entradas, etc.). Estos diálogos pueden editarse y 
guardarse para su utilización posterior al importar archivos con una 
estructura similar o idéntica (Figura 8): 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (15 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Figura 8: Diálogo de importación de TermStar 3.0 
Para editar un diálogo de importación, el asistente de TermStar 3.0 
nos permite elegir entre cuatro posibilidades: 
 un modelo de distribución (layout) con separación de 
campos única, es decir, si cada fila del archivo que se 
va a importar corresponde a un registro y si los campos 
están separados por un único separador (por ejemplo, 
tablas exportadas de Microsoft Excel); 
 un modelo de distribución (layout) con posiciones de 
campo únicas (coordinadas), si cada fila del archivo que 
se va a importar corresponde a un registro, y si los 
campos están marcados únicamente por su posición 
(por ejemplo, números de columna, o una tabla 
exportada de dBase o FoxPro en formato SDF); 
 información separada siempre por etiquetas (tags), 
si los campos del archivo que se va a importar están 
separados por una única etiqueta. Por ejemplo, 
archivos exportados de MultiTerm de Trados; 
 por último, información determinada por etiquetas, 
separadores o por su posición, si los campos del 
archivo que se va a importar están definidos por una 
combinación de etiquetas, separadores y posiciones. 
Una vez seleccionado o editado el tipo de diálogo de importación, 
TermStar abre la ventana de codificación de archivo, que nos 
permite seleccionar la codificación del archivo que vamos a 
importar entre las siguientes codificaciones: 
 ANSI: codificación estándar de Windows; 
 ASCII: codificación estándar de DOS; 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (16 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
 Unicode, UTF8: la nueva codificación internacional de 
caracteres;
 SGML: las entidades empleadas para mostrar 
caracteres especiales en SGML, HTML y XML 
(incluyendo valores hexadecimales). 
Definida ya la codificación, el siguiente paso es seleccionar la base 
en la que queremos importar los datos y proceder a la importación. 
Durante el proceso, TermStar puede indicar de forma interactiva el 
número de registros problemáticos, o bien puede guardar éstos en 
un fichero de registro que se mostrará al final de la importación. 
La posibilidad de importar a la base de datos diccionarios, glosarios 
o vocabularios en cualquier formato resulta de gran utilidad, ya que 
el corpus lexicográfico o de referencia, junto con el corpus textual –
que nos permite estudiar los términos in vivo– constituye un 
elemento esencial para lograr una correcta adecuación de los 
términos de los sectores estudiados y para su utilización en 
investigaciones terminológicas y/o traductológicas. 
En resumen, toda base de datos terminológica, si está almacenada 
de una manera lo suficientemente estructurada y formal, debe ser 
capaz de proporcionar al usuario respuestas adecuadas a sus 
necesidades, reduciendo al mínimo el ruido. No hay que olvidar que 
las bases de datos terminológicas sobre ámbitos de especialidad 
sirven como instrumento a varios tipos de usuarios con perfiles bien 
distintos: especialistas en la materia, que necesitan la referencia 
ocasional para verificar el significado desconocido de términos en su 
propia lengua o en una extranjera, o para comprobar la ortografía 
de un término; los mediadores profesionales de la comunicación, 
esto es, los traductores, escritores técnicos, agentes de 
información, periodistas, etc., que recurren a este tipo de 
herramientas de referencia condicionados principalmente por la 
necesidad de producir textos especializados; los usuarios del 
lenguaje, como profesores de lengua, investigadores, lingüistas..., 
cuyas necesidades de información son muy diversas; los 
lexicógrafos y terminólogos especializados, que recopilan y 
registran citaciones de términos en contexto, definiciones 
alternativas y variantes; los usuarios generales; etc. 
Por todo ello, y puesto que las necesidades de los diversos usuarios 
coinciden o se superponen, es necesario un modelo de base de 
datos que contenga el máximo de información fidedigna posible y 
con un grado de flexibilidad que permita su adecuación a las 
necesidades de cada tipo de usuario. 
 
Conclusión
A lo largo de esta exposición hemos pretendido mostrar cómo 
explotamos los diferentes materiales y recursos informáticos con el 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (17 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
fin de elaborar una base de datos. 
A pesar de todas las dificultades que entraña la automatización y 
sistematización del proceso terminográfico en la actualidad, sobre 
todo por la falta de una aplicación específica y única para realizar 
dicho proceso, hemos sido capaces de integrar de forma combinada 
en nuestra estación de trabajo diferentes herramientas informáticas 
que posibilitan la obtención de los datos terminológicos de forma 
semiautomática. La confección, por una parte, de listas por 
subcampos, nos permite detectar en los corpus comparables los 
términos más significativos junto con sus equivalentes. Por la otra, 
el tratamiento de los córpora paralelos hace posibleque de forma 
automática se detecten los equivalentes y sus contextos, tanto de 
los términos simples como de las combinaciones léxicas 
especializadas. 
En última instancia, una base de datos donde recopilar toda la 
información extraída de textos reales flexible y versátil supone una 
mejora cualitativa y cuantitativa en lo que concierne a la 
representación y recuperación de los datos por los diferentes tipos 
de usuarios. 
 
Bibliografía
Alcaraz Varó, E.: "Translation and Pragmatics", en Álvarez, R y 
Vidal M.C.A (eds.): Topics in Translation, n.8, 1996, pp.99-115. 
Alcaraz Varó, E.: El inglés profesional y académico, Madrid: Alianza 
Editorial, 2000. 
Auger, P. y Rousseau, L.J. (1987): Metodologia de la recerca 
terminològica, Barcelona: Generalitat de Catalunya, Departament 
de Cultura [Traducción y adaptación de Mª Teresa Cabré]. 
Bach, C, Saurí, R., Vivaldi, J. y Cabré, M.T. (1997): "El corpus de 
l'IULA: descripció", Papers de l'IULA, Sèrie Informes, 17, Barcelona: 
Universitat Pomepu Fabra. Institut Universitari de Lingüística 
Aplicada. 
Baker, M. (1995): "Corpora in Translation Studies: An Overview 
and Some Suggestions for the Future Research", Target 7(2), 223-
43. 
Bowker, Lynne (1996): "Towards a Corpus-Based Approach to 
Terminography", Terminology, 3(1), 27-52. 
Budin, Gerhard (1990): "Terminological Analysis of LSP 
Phraseology", Terminology Science & Research: Journal of 
International Institute for Terminology Research, vol. 1, n 12, 64-
69. 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (18 de 20)04/03/2007 11:14:33
VIII Simposio - Cartagena de Indias (2002)
Cabré, M.T. (1993): La terminología. Teoría, metodología, 
aplicaciones, Barcelona: Editorial Antártida/Empúries. 
Cabré, M.T. (dir.) (1996) Terminologia: selecció de textos d'E. 
Wüster. Barcelona: Servei de Llengua Catalana, Universitat de 
Barcelona. 
Cabré, M.T., (1999): La terminología: representación y 
comunicación, Barcelona: Institut Universitari de Lingüística 
Aplicada, Universitat Pompeu Fabra. 
Cabré, M.T., (2001): La terminología científico-técnica: 
reconocimiento, análisis y extracción de información formal y 
semántica (DGES PB96-0293), Barcelona: Institut Universitari de 
Lingüística Aplicada, Universitat Pompeu Fabra. 
Estopà, Rosa (1999): Extracció de terminologia : elements per a la 
construcció d'un SEACUSE (Sistema d'Extracció Automática de 
Candidats a Unitats de Significació Especialitzada). [Tesis doctoral] 
Barcelona: Universitat Pompeu Fabra, Institut Universitari de 
Lingüística Aplicada. 
Sinclair, John (1991): Corpus, Concordance, Collocation, Oxford, 
Oxford University Press. 
Hoffmann, L. (1998): Llenguatges d'especialitat, Barcelona: IULA, 
Universidad Pompeu Fabra. 
Maniez, François (2001): «Extraction d'une phraséologie bilingue en 
langue de spécialité: corpus parallèles et corpus comparables», [en 
línea] Meta, XLVI, 3 (2001), 552-563, http://www.erudit.org/erudit/
meta/v46n03/index.htm [Fecha de consulta: 29 de marzo de 
2002]. 
Pearson, J. (1998): Terms in Context, Amsterdam: John Benjamins. 
Sager, J.C., (1993): Curso práctico sobre el procesamiento de la 
terminología , Madrid: Fundación Germán Sánchez Ruipérez.
Teubert, W. (1996): "Comparable or Parallel Corpora?", 
International Journal of Lexicography , 9-3, 238-264.
Yzaguirre, L., Ribas, M., Vivaldi, J. y Cabré, M.T. (2001): 
"Alineación automática de traducciones: descripción y usos en los 
ámbitos de la profesión, de la docencia y de la investigación 
traductológica", Valero Garcés, Carmen & Isabel de la Cruz 
Cabanillas (eds.), Traducción y Nuevas Tecnologías. Herramientas 
Auxiliares del Traductor, Universidad de Alcalá de Henares.
 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (19 de 20)04/03/2007 11:14:33
http://www.erudit.org/erudit/meta/v43n04/
http://www.erudit.org/erudit/meta/v43n04/
VIII Simposio - Cartagena de Indias (2002)
[1] Para un mayor detalle de las diferentes clasificaciones de un corpus puede 
consultarse Atkins, S. y Clear, J. "Corpus Design Criteria", en Literary and 
Linguistic Computing, Vol.7, No. 1, 1992 
[2] TACT es la sigla para Text Analysis Computing Tools. Es de libre distribución 
y fue desarrollado por la Universidad de Toronto 
[3] Pueden conseguirse listados ya confeccionados en varios idiomas en http://
www.unine.ch/info/clef/ [fecha de consulta 27 de septiembre de 2002] 
[4] A modo de ejemplo, en el sector del calzado algunos de los subcampos son: 
materiales, piel, componentes y piezas, maquinaria, etc. 
 
Editado con el apoyo de 
Editado com o apoio da: 
 
 
http://www.riterm.net/actes/8simposio/gomez_vargas.htm (20 de 20)04/03/2007 11:14:33
http://www.unine.ch/info/clef/
http://www.unine.ch/info/clef/
	riterm.net
	VIII Simposio - Cartagena de Indias (2002)