Logo Studenta
¡Este material tiene más páginas!

Vista previa del material en texto

10/03/2011
1
Terminologia i Vikipèdia
Jordi Vivaldi
jorge.vivaldi@upf.edu
Seminari IULATerm
2 de març del 2011 
Guía de la sesión
• Extracción de términos usando información 
semántica: YATE, TRUCKS, METAMAP
• Wikipedia: introducción
• La Wikipedia como fuente de información 
semántica
• Perspectivas:
– Todos los términos de un dominio
– Todos los términos de un texto
2
Definición
• Término: unidad léxica utilizada en un ámbito 
temáticamente restringido para designar un 
concepto
3
Principales dificultades
• Palabras y términos comparten la misma 
estructura superficial
• Ambigüedad
• Variaciones morfológicas
• Nivel de especialización de los textos
• Fronteras difusas entre disciplinas
• Escaso acuerdo entre especialistas
Términos: generalidades
Esquema básico
Texto especializado
Lista 
de (candidatos a) término
<p><s>La estructuración del 
primer programa de prevención de 
enfermedades atópicas (asma 
bronquial, rinitis alérgica y 
dermatitis atópica) predispone 
hacia un cambio de actitud a 
través de la educación del grupo 
familiar de riesgo, ... </s></p>
asma bronquial 
dermatitis atópica
enfermedades atópicas
entidad clínico
fiebre hemorrágico
investigaciones previas
maloclusión dental
membrana respiratorio
rinitis alérgica
sociedad actual
tejido ectodérmico
1,00 asma bronquial 
1,00 rinitis alérgica
1,00 dermatitis atópica
0,88 maloclusión dental
0,87 fiebre hemorrágica
0,76 membrana respiratoria
0,76 enfermedades atópicas
0,53 tejido ectodérmico
0,23 entidad clínica
0,00 investigaciones previas
0,00 sociedad actual
ordenada
termhood: grado de pertenencia al dominio de interés
Sistemas de extracción de términos
Mecanismos de extracción
• (Mayoritariamente) lingüísticos
• (Mayoritariamente) estadísticos
• Híbridos
Sistemas de extracción de términos
10/03/2011
2
Sistemas híbridos
• Característica:
– Combinación de información diversa:
• Estadística
• Morfológica
• Sintáctica
• Semántica
Sistemas de extracción de términos
Caso especial: medicina/inglés
• UMLS
• METAMAP:
– Aronson et al. (2010). An overview of MetaMap: 
historical perspective and recent advances.
– http://jamia.bmj.com/content/17/3/229.full.pdf
• Citaciones de MEDLINE/PubMed
• Independencia de dominio
• Otros: BECA, MGREP, Saphire, Abner, etc.
Extracción de términos usando información semántica
METAMAP
• Segmentación, tagging y análisis sintáctico (frases 
nominales)
– … ocular complications and myasthenia gravis …
• Generación de variantes
– ocular � eye, eyes, optic, opthalmic, opthalmia, …
• Obtención de candidatos
– Todos los términos del Metathesaurus con al menos una 
de las variantes
• Evaluación de candidatos (MMTX score)
– Similitud ponderada entre los SN original y las variantes
Extracción de términos usando información semántica
Características principales
• Utilización de 
información semántica
• Combinación de 
métodos
• Arquitectura abierta 
Selección de candidatos
Lista ordenada de
candidatos a término
Procesamiento
lingüístico
Análisis de candidatos
(internos)
...
combinación
Análisis de
contexto Formantes
cultos
Información
semántica 
Métodos
asociativos
diccionarios 
EuroWordNet
Recursos
Corpus
Análisis de candidatos
(externos)
YATE
Información semántica
• Nombres: caso ideal
11
Frontera de 
dominio
estado
situación, condición
estado fisiológico
problema de salud
asma
disfunción física
enfermedad
enfermedad respiratoria
YATE
Información semántica
• Nombres: caso real
12 CD(‘sangre’) = 1/3 = 0,33
Tat
tNS
tNSt
tCD ∈∀=
)(
)(
)(
entidad
objecto,...
sangre
sustancia corporal
fluido corporal
sustancia
Frontera de 
dominio
YATE
temperamento
abstracción
atributo
naturaleza
sangre
rasgo
grupo, colectivo
gente
sangre
10/03/2011
3
Información semántica
• Adjetivos
– Relacionales: 
– Calificativos: pertinentes/no pertinentes 
13
YATE
Frontera de
dominio
entidad
parte, porción, trozo...
estructura 
anatómica
bronquio
estructura vasiforme
tubo cartilaginoso
bronquial
parte del cuerpo
CD(‘bronquial’) = CD(‘bronquio’)
Evaluación: nombre
14
YATE
0.4
0.5
0.6
0.7
0.8
0.9
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
votación
0.4
0.5
0.6
0.7
0.8
0.9
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
votación
boosting
0.4
0.5
0.6
0.7
0.8
0.9
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
votación
boosting
FCp
0.4
0.5
0.6
0.7
0.8
0.9
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
votación
boosting
FCp
CM
cobertura
pr
ec
is
ió
n
∆P’mv∆P’mb
∆P’mv = 43,8 %
∆P’mv = 54,3 %
∆Pmv = 54,7 %
∆Pmv = 51,5 %
∆Pmb
∆Pmv
Evaluación: nombre-adjetivo
15
YATE
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
votación
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
votación
boosting
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
votación
boosting
FCp
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
votación
boosting
FCp
CM
∆Pmb
∆Pmv
∆Pmv = 70,8 %
∆Pmv = 100 %
∆P’mb
∆P’mv
∆P’mv = 53,8 %
∆P’mv = 87,2 %
cobertura
pr
ec
is
ió
n
Evolución
• Adaptación a otros dominios
• Aplicar a otros idiomas
• Incorporación del Spanish WordNet 3.0
• Integración con otras ontologías
• Integrar otros mecanismos de combinación 
y/o análisis de candidatos
16
YATE
Cálculo de las fronteras de dominio
• Problema: automatizar la detección de las 
fronteras en EWN
• Aproximaciones:
– Magnini et al., 2000 
– Vivaldi, 2001 
– Missikoff et al., 2002 
– Vivaldi, Rodríguez, 2004
– Cui et al., 2008
• Problema: dificultad para encontrar buenos 
recursos públicos
17
YATE
Wikipedia
• WP is by far the largest encyclopaedia. Size: 
– 3,5M articles for English, 
– 700 K for Spanish,
– 300 K for Catalan
– 1 M for French
– ... (200 languages)
• Contributed by thousands of volunteers
• Accuracy: comparable to Britannica encyclopaedia
18
Perspectivas: wikipedia
British Journal “Nature” blind compared 50 
scientific articles with the following results (2005):
• Factual errors: 162 (WP) vs 123 (Br)
• Serius errors: 4 (WP) vs 4 (Br)
10/03/2011
4
Estructura de Wikipedia
19
Perspectivas: wikipedia
categorías páginas
A B
C D E
F
G
P1
P2
P3
Tabla de
Redirección
…
… …
…
… …
… …
Pág. desamb. 
Enlaces Interwiki
Enlaces externos
InfoBox
Ejemplos: asma, ñandú, punto
Perspectivas: wikipedia
Wikipedia: 
término 
no ambiguo
20
• Teorema de Pitágoras
Perspectivas: wikipedia
21
Wikipedia: 
término 
ambiguo
• Estadística
Wikipedia: cobertura (CA, ES, EN)
22
Perspectivas: wikipedia
Wikipedia: aplicaciones
• Extracting lexical and conceptual information: 
Ponzetto, Strube, 2008; Suchanek, 2008.
• To build/enrich ontologies: Milne et al., 2006
• Name entities: Toral et al., 2006; Kazama et al. 2007
• Multilingual question-answering: Ferrández et al. 2007
• Semantic tagging: Mihalcea, Csomai, 2007
• Topic indexing: Wu et al., 2007
• Surveys: Medelyan et al., 2009; Gabrilovich, 
Markovitch, 2009.
• 20 papers presented to the 2010 NAACL Conf. 23
Perspectivas: wikipedia
Wikipedia: utilización
• On-line: Web crawler and a HTML parser
• Off-line: database organised from WP dumps
– Waikato's WikipediaMiner toolkit
– U. Alicante's wiki db access
– JWPL (Java Wikipedia Library): Java-based API that 
allows to access all information contained in 
Wikipedia. (Zesch et al., 2008) 
• Experiments using a snapshot of the WP dated in May 2009
• DBpedia live extraction (Hellman et al., 2009).
24
Perspectivas: wikipedia
10/03/2011
5
Ideas básicas
• Hay dos perspectivas:
– Obtención de los términos de un dominio
– Extracción de los términos de un dominio en texto 
especializado
Perspectivas: wikipedia
Ideas básicas: top-down
26
Grafo de
categorías
Grafo de
páginas
D
Perspectivas: wikipedia
Ideas básicas: bottom-up
2727
Perspectivas: wikipedia
Grafo de
categorías
Grafo de
páginas
Selección de candidatos
P1
P2
P3
Procesamiento
lingüístico
D
Objetivo
• Encontrar todos los términos (páginas y 
categorías)de un dominio que están en la 
wikipedia.
• Vivaldi, Rodríguez (2010). “Finding domain terms 
using wikipedia”. LREC2010
http://www.lrec-conf.org/proceedings/lrec2010/pdf/748_Paper.pdf
28
Wikipedia: términos de un dominio
Metodología
29
dominio
Páginas
categorías superiores
categorías del dominio
páginas del dominio
Conjunto final de
términos del dominiofiltrado
filtrado
Categorías
bootstrapping
Etapas a seguir:
WP
Wikipedia: términos de un dominio
1) Encontrar en WP el nombre del dominio como categoría.2) Recoger todas las páginas/subcategorías relacionados con el dominio3) Extraer todos los descendientes del nombre del dominio (evitando bucles)4) Eliminar nombres propiosy clases auxiliares5) Filtro de categorías y páginas
Filtrado a nivel de categorías
30
Wikipedia: términos de un dominio
Grafo de 
categorías
Categorías ∉ CatDomSet
Categoría/s top
del dominio
categorías neutrales
C
10/03/2011
6
Ejemplo de filtrado:
“semantics” (informática)
31
Wikipedia: términos de un dominio
theoretical computer science �
Computing � semantics
software�
software engineering�
formal methods�
semantics {linguistics, philosophy of language, semiotics, 
theoretical computer science, philosophical Logic}
WPCD(‘semantics’) = 0.2
lexical semantics
weak pronoun
Filtrado a nivel de páginas
32
Wikipedia: términos de un dominio
Grafo de 
categorías
CatDomSet
Categorías ∉ CatDomSet
Pt
pág. entrada
pág. salida
PtScore
Categoría/s Top
del dominio
categorías neutrales
Filtrado a nivel de páginas
• Filtrado adicional de categorías
• Procedimiento:
– Se miran todas la categorías asociadas a una página
– Filtros adicionales:
• MicroStrict
• MicroLoose
• Macro
33
Wikipedia: términos de un dominio
Ejemplo de filtrado usando el score 
de páginas (química) 
34
# DTC
Micro
Strict
Micro
Loose
Macro
Vote Result
ok ko ok ko ok ko
1 electroquímica
(electrochemistry)
13 5 16 2 36 12 +3 Accept
2 quesos
(cheeses)
0 8 6 2 8 12 -1 Reject
3 óxidos de carbono
(carbon monoxide)
1 1 2 0 4 3 +2 Accept
Wikipedia: términos de un dominio
Evaluación
• Evaluación parcial : “chemistry” and “astronomy”:
– Referencia: Magnini et al., 2000 (WordNet 1.6)
– Característica: baja cobertura
• Evaluación completa. “Medicina”
– Referencias: SNOMED-CT Spanish Edition (2009)
– Característica: amplia cobertura en el dominio médico
35
Wikipedia: términos de un dominio
Evaluación parcial
36
Wikipedia: términos de un dominio
Dominio Chemistry Astronomy 
Idioma EN ES EN ES 
Categorías iniciales 188374 2070 188816 44631 
#Categorías (pruning) 1334 557 790 143 
 
Ite
ra
ci
ón
 #
1 Categorías 49 43 5 6 
Precisión 93,9 62,8 0 16,7 
Páginas 
Loose 833 1038 284 119 
Strict 580 700 284 81 
Prec. [%] Loose 61,3 52,6 34,8 31,9 
Strict 62,7 56,6 37.2 27,2 
 
 50
 55
 60
 65
 70
 1 2 3 4 5 6
p
re
ci
si
ó
n
Chemistry
EN-loose
 50
 55
 60
 65
 70
 1 2 3 4 5 6
p
re
ci
si
ó
n
Chemistry
EN-loose
EN-strict
 50
 55
 60
 65
 70
 1 2 3 4 5 6
p
re
ci
si
ó
n
Chemistry
EN-loose
EN-strict
ES-loose
 50
 55
 60
 65
 70
 1 2 3 4 5 6
p
re
ci
si
ó
n
Chemistry
EN-loose
EN-strict
ES-loose
ES-strict
 20
 25
 30
 35
 40
 45
 50
 1 2 3 4 5 6
p
re
c
is
ió
n
Astronomy
EN-loose
 20
 25
 30
 35
 40
 45
 50
 1 2 3 4 5 6
p
re
c
is
ió
n
Astronomy
EN-loose
EN-strict
 20
 25
 30
 35
 40
 45
 50
 1 2 3 4 5 6
p
re
c
is
ió
n
Astronomy
EN-loose
EN-strict
ES-loose
 20
 25
 30
 35
 40
 45
 50
 1 2 3 4 5 6
p
re
c
is
ió
n
Astronomy
EN-loose
EN-strict
ES-loose
ES-strict
Chemistry Astronomy
10/03/2011
7
Evaluación completa
37
Wikipedia: términos de un dominio
Evaluación usando WN SNOMED-CT 
Categorías iniciales 2431 
Categorías (pruning) 839 
 
Ite
ra
tio
n 
#1
 Categorías 174 394 
Precisión 27,6 54 
Pág. 
Loose 2091 4182 
Strict 1724 3492 
Prec. 
[%] 
Loose 21,0 58 
Strict 23,2 62 
 
 10
 20
 30
 40
 50
 60
 70
 1 2 3 4 5 6
p
re
ci
si
o
n
Medicina (Medicine)
ES-loose-WN
 10
 20
 30
 40
 50
 60
 70
 1 2 3 4 5 6
p
re
ci
si
o
n
Medicina (Medicine)
ES-loose-WN
ES-loose-WN
 10
 20
 30
 40
 50
 60
 70
 1 2 3 4 5 6
p
re
ci
si
o
n
Medicina (Medicine)
ES-loose-WN
ES-loose-WN
ES-loose-SNOMED
 10
 20
 30
 40
 50
 60
 70
 1 2 3 4 5 6
p
re
ci
si
o
n
Medicina (Medicine)
ES-loose-WN
ES-loose-WN
ES-loose-SNOMED
ES-strict-SNOMED
Problemas de validación
Acepta Rechaza
whisky
puro
ubre
fuego
cáncer oral 
cólico renal
foniatría
instrumentos quirúrgicos
Conclusiones y trabajo futuro
• Buen resultado cuando se utiliza un recurso 
especializado para la evaluación
• La lista de términos necesita mejorar el filtrado de 
nombres propios
• Mejorar el filtrado (usar enlaces entrada/salida y 
el texto de los artículos) de páginas y categorías
• Aplicar esta metodología otros idiomas/dominios
38
Wikipedia: términos de un dominio
Objetivo
• Encontrar los términos de un texto
• Experimento 1
– Dominio: medicina
– Nivel de especialidad: alto
• Experimento 2
– Dominio: matemáticas
– Nivel de especialidad: medio
39
Wikipedia: términos de un texto
Árbol de categorías para “sangre”
40
Wikipedia: términos de un texto
bloodblood
blood
circulatory
system
hematology body fluids
medical
specialties
medicinemedicine
health sciences
anatomy zoology
biology
sciences
page
category
path to Top
path to DC (domain Top)
top
Cálculo del coeficiente de dominio
41
Wikipedia: términos de un texto
 
CD en base al 
número de caminos
CD en base al 
número de saltos
CD en base a la 
longitud media del camino.
)(
)(
)(
tNP
tNP
tCDnc
total
dom=
)(
)(
)(
tNS
tNS
tCDlc
total
domain=
)(
)(
)(
tAVP
tALP
tCDlmc
total
domain=
NPdomain(t): número de caminos
a la categoría del dominio
NPtotal(t): ): número de caminos
al top
NSdomain(t): número de saltos
a la categoría del dominio
NStotal(t): ): número de caminos
al top
ALPdomain(t): longitud media
a la categoría del dominio
AVPtotal(t): longitud media de los
caminos al top
Dificultades
• Base de datos
• Redirección
• Ambigüedad (ej. carácter)
42
Wikipedia: términos de un texto
TDTD
11
22
44
5533
Criterio actual: distancia mínima al top del dominio 
Página de desambiguación
•… ---- ….. ---- … (1)
• … ---- ………….… (2)
• … ---- ….. ---- … (3)
• … ---- ….. ---- … (4)
• ………..….. ---- … (5)
10/03/2011
8
Experimento 1
– Dominio: medicina
– Vivaldi, Rodríguez (2010). “Using Wikipedia for 
term extraction in the biomedical domain: first 
experiences”. BioSEPLN 2010.
Wikipedia: términos de un texto
Metodología
44
Texto de entrada
Extracción CAT
Análisis con la 
Wikipedia
Wikipedia
Validación
especialistas
Evaluación
resultados
Análisis 
con EWN
YATE
Wikipedia: términos de un texto (1)
EWN
Evaluación
• Corpus de prueba: 100K palabras
• Evaluación manual por especialistas (N, NJ y 
NPN).
• Medidas de precisión y cobertura. 
• Dos etapas:
o Usando CDs
o Añadiendo información adicional de la WP
45
Wikipedia: términos de un texto (1)
Resultados (N)
46
Wikipedia: términos de un texto (1)
 30
 40
 50
 60
 70
 80
 90
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
 30
 40
 50
 60
 70
 80
 90
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
 30
 40
 50
 60
 70
 80
 90
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
 30
 40
 50
 60
 70
 80
 90
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
WP: nc
EWN funciona mejor. La diferencia varía entre 
10 % (CDnc) y 25 % (CDlmc).
Resultados (NJ)
47
Wikipedia: términos de un texto (1)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recallEWN
WP: lc
WP: lmc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
WP: nc
• EWN funciona mejor. El comportamiento de todos los CD es
similar (diference ~25 %). 
• Hay términos que se clasifican mejor que utilizando EWN: 
historia clínica, o signo clínico.
Resultados (NPN)
48
Wikipedia: términos de un texto (1)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
WP: nc
• Todos los CD basados en la WP son mejores. 
• Hay términos que se clasifican mejor: grupo de riesgo o 
índice de mortalidad.
10/03/2011
9
Resultados (todos)
49
Wikipedia: términos de un texto (1)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
pr
ec
is
io
n
recall
EWN
WP: lc
WP: lmc
WP: nc
Filtrado de categorías
50
Grafo de 
categorías
CatDomSet
Categorías ∉ CatDomSet
Pt
pág. entrada
pág. salida
PtScore
inPtScore
outPtScore
Categoría/s Top
del dominio
categorías neutrales
Wikipedia: términos de un texto (1)
Resultados usando árboles de decisión
51
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
4 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
4 rules
5 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
4 rules
5 rules
6 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
4 rules
5 rules
6 rules
7 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
4 rules
5 rules
6 rules
7 rules
10 rules
 0
 0.2
 0.4
 0.6
 0.8
 1
 0 0.2 0.4 0.6 0.8 1
pr
ec
is
io
n
recall
3 rules
2 rules
4 rules
5 rules
6 rules
7 rules
10 rules
18 rules
Wikipedia: términos de un texto (1)
Conclusiones
• La metodología propuesta abre la posibilidad de 
hacer extracción de términos en textos 
biomédicos mediante la Wikipedia.
• Aunque la Wikipedia no es unrecurso específico 
de un dominio los resultados pueden 
considerarse aceptables.
• Wikipedia y EWN pueden considerarse recursos 
complementarios.
• Los resultados dependen de la calidad y 
completitud de la Wikipedia en cada idioma.52
Wikipedia: términos de un texto (1)
Experimento 2
– Dominio: matemáticas
– Cabrera-Diego, Sierra, Vivaldi, Pozzi (2011). “Using 
Wikipedia to Validate Term Extraction for the 
Mexican Basic Scientific Vocabulary”. TALN2011 
(submitted)
Wikipedia: términos de un texto (1)
Metodología
Input text
TC extraction
TC analysis Wikipedia
specialist 
validation
Results 
evaluation
Wikipedia: términos de un texto (2)
10/03/2011
10
Evaluación
• Corpus de prueba: corpus COCIEM (textos de 
bachillerato de México)
• Evaluación manual por especialistas (lingüistas 
y estudiantes de ingeniería).
• Medidas de precisión y cobertura. 
• Uso de CDs basados en la WP
Wikipedia: términos de un texto (2)
Corpus COCIEM
56
Wikipedia: términos de un texto (2)
School level Subject # textbooks # words # types # of TC 
Elementary 
School 
Natural sciences 6 175,240 11,437 9,108 
Mathematics 9 125,723 9,377 7,300 
Total 15 300,963 20,814 16,408 
Junior High 
Biology 8 369,099 23,908 17,904 
Mathematics 25 734,374 55,797 47,627 
Physics 9 538,042 29,759 22,188 
Chemistry 7 382,697 23, 031 16,459 
Total 49 2,024,212 132,495 104,178 
High School 
Biology 3 133,262 8,307 5,460 
Mathematics 11 499,552 32,566 28,089 
Physics 3 219,795 14,251 11,140 
Chemistry 3 11,117 11,077 8,792 
Health education 3 139,369 9,421 7,067 
Ecology 2 124,799 7,731 5,190 
Total 25 1,273,865 83,353 65,738 
Grand total 89 3,599,040 450,293 186,324 
Resultados (N)
Wikipedia: términos de un texto (2)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
ci
si
o
n
recall
CDwp_nc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
ci
si
o
n
recall
CDwp_nc
CDwp_lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
ci
si
o
n
recall
CDwp_nc
CDwp_lc
CDwp_lmc
Resultados (N)
58
Wikipedia: términos de un texto (2)
Candidatos validados
- Coeficiente de dominio CDwp_nc
1.00 ADICIÓN (* -1.00)(pagedir)
1.00 ALGEBRA (* -1.00)(pagedir)
1.00 ANCHO (* -1.00)(page)
1.00 ANCHURA (* -1.00)(pagedir)
1.00 ANILLO (* -1.00)(page)
1.00 APLICACIÓN (* -1.00)(pagedir)
1.00 APOTEMA (* -1.00)(page)
1.00 ARCO (* -1.00)(page)
1.00 ARITMÉTICA (* -1.00)(pagedir)
1.00 ASÍNTOTA (* -1.00)(pagedir)
1.00 ASÍNTOTAS (* -1.00)(pagedir)
1.00 BILLONES (* -1.00)(pagedir)
1.00 BILLÓN (* -1.00)(pagedir)
1.00 BINOMIO (* -1.00)(page)
1.00 BISECTRIZ (* -1.00)(page)
1.00 BIUNÍVOCA (* -1.00)(pagedir)
1.00 BIYECTIVA (* -1.00)(page)
1.00 CARDINALIDAD (* -1.00)(pagedir)
1.00 CARDIOIDE (* -1.00)(page)
1.00 CATETO (* -1.00)(page)
1.00 CATORCE (* -1.00)(page)
1.00 CENTENA (* -1.00)(page)
1.00 CENTROIDE (* -1.00)(page)
1.00 CERO (* - 1.00)(page)
Candidatos problemáticos
1.00 VARIABLE (- -1.00)(page)
1.00 VEINTE (- -1.00)(page)
1.00 VOLUMEN (- -1.00)(page)
1.00 XL (- -1.00)(pagedir )
...
0.81 COLUMNA (- -1.00)(pagedes amb)
0.81 COLUMNAS (- -1.00)(pagedes amb)
0.81 COORDINACIÓN (- -1.00)(pagedes amb)
0.81 CRITERIO (- -1.00)(pagedes amb)
0.81 CÍCLICO (- -1.00)(pagedes amb)
0.81 OPERACIONES (- -1.00)(pagedes amb)
0.81 RAYA (- -1.00)(pagedes amb)
0.81 REPRESENTACIÓN (- -1.00)(pagedes amb)
0.81 SAN (- -1.00)(pagedes amb)
...
0.34 ENERO (- -1.00)(page)
0.34 FEBRERO (- -1.00)(page)
...
0.31 VIII (* -1.00)(page)
0.31 XII (* -1.00)(page)
Términos no validados
-1.00 BINARIAS (* -1.00)( nil
-1.00 BINOMIOS (* -1.00)( nil
-1.00 BISECTRICES (* -1.00)( nil
-1.00 BIYECTIVAS (* -1.00)( nil
-1.00 CARTESIANAS (* -1.00)( nil
-1.00 CARTESIANOS (* -1.00)( nil
-1.00 CIRCULAR (* -1.00)( nil
-1.00 CIRCULARES (* -1.00)( nil
-1.00 CIRCUNFERENCIAS (* -1.00)( nil
-1.00 CIRCUNSCRITA (* -1.00)( nil
-1.00 COCIENTES (* -1.00)( nil
-1.00 COEFICIENTES (* -1.00)( nil
-1.00 COFACTORES (* -1.00)( nil
...
Resultados (NJ)
Wikipedia: términos de un texto (2)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
c
is
io
n
recall
CDwp_nc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
c
is
io
n
recall
CDwp_nc
CDwp_lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
c
is
io
n
recall
CDwp_nc
CDwp_lc
CDwp_lmc
Resultados (NJ)
60
Candidatos validados
- Coeficiente de dominio CDwp_nc
1.00 ASÍNTOTA HORIZONTAL (* -1.00)(pagedir)
1.00 ASÍNTOTA OBLICUA (* -1.00)(pagedir)
1.00 ASÍNTOTA VERTICAL (* -1.00)(pagedir)
1.00 BASE DIEZ (* -1.00)(pagedir)
1.00 CONJUNTO UNIVERSAL (* -1.00)(page)
1.00 CONJUNTO UNIVERSO (* -1.00)(pagedir)
1.00 CORRESPONDENCIA BIUNÍVOCA (* -1.00)(pagedir)
1.00 CUADRADO PERFECTO (* -1.00)(pagedir)
1.00 CUERPOS GEOMÉTRICOS (* -1.00)(pagedir)
1.00 CÁLCULO DIFERENCIAL (* -1.00)(pagedir)
1.00 CÁLCULO INFINITESIMAL (* -1.00)(pagedir)
1.00CÁLCULO INTEGRAL (* -1.00)(pagedir)
1.00 CÍRCULO UNITARIO (* -1.00)(pagedir)
##-- NJ CDwp_nc partición: 0
1.00 DIAGONAL PRINCIPAL (* -1.00)(page)
1.00 DIAGRAMA SAGITAL (* -1.00)(pagedir)
1.00 DIEZ MIL (* -1.00)(page)
1.00 DIVISIONES SINTÉTICAS (* -1.00)(pagedir)
1.00 DIVISIÓN EUCLIDIANA (* -1.00)(pagedir)
1.00 ECUACIÓN ALGEBRAICA (* -1.00)(pagedir)
1.00 ECUACIÓN CUADRÁTICA (* -1.00)(pagedir)
1.00 ELEMENTO INVERSO (* -1.00)(pagedir)
1.00 ELEMENTO NEUTRO (* -1.00)(page)
1.00 ELEMENTO OPUESTO (* - 1.00)( pagedir )
Candidatos problemáticos
1.00 VARIABLE INDEPENDIENTE (- -1.00)(page)
1.00 VECTOR COLUMNA (- -1.00)(page)
...
0.88 VALOR ABSOLUTO (- -1.00)(page)
...
0.22 VARIABLE DEPENDIENTE (- -1.00)(page)
...
0.17 PAN DULCE (- -1.00)(pagedesamb)
...
0.13 ORDEN ALFABÉTICO (- -1.00)(pagedir)
...
0
Wikipedia: términos de un texto (2)
Términos no validados
0.00 CIFRA SIGNIFICATIVA (* -1.00)(page)
0.00 COMPLEJO CONJUGADO (* -1.00)(page)
0.00 CUERPO GEOMÉTRICO (* -1.00)( pagedir
0.00 METRO CÚBICO (* -1.00)( pagedir
0.00 METROS CUADRADOS (* -1.00)( pagedir
0.00 MODELO MATEMÁTICO (* -1.00)( pagedir
...
-1.00 ASÍNTOTAS VERTICALES (* -1.00)( nil)
-1.00 BINOMIOS CONJUGADOS (* -1.00)( nil)
-1.00 CARACTERIZACIÓN GEOMÉTRICA (* -1.00)( nil)
-1.00 CATETO ADYACENTE (* -1.00)( nil)
-1.00 CATETO OPUESTO (* -1.00)( nil)
-1.00 CILINDRO CIRCULAR (* -1.00)( nil)
-1.00 COCIENTE RESIDUO (* -1.00)( nil)
-1.00 COEFICIENTE DOMINANTE (* -1.00)( nil)
-1.00 COEFICIENTES ENTEROS (* -1.00)( nil)
-1.00 COEFICIENTES INDETERMINADOS (* -1.00)( nil)
...
10/03/2011
11
Resultados (NPN)
Wikipedia: términos de un texto (2)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
c
is
io
n
recall
CDwp_nc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
c
is
io
n
recall
CDwp_nc
CDwp_lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
c
is
io
n
recall
CDwp_nc
CDwp_lc
CDwp_lmc
Resultados (NPN)
62
Wikipedia: términos de un texto (2)
Candidatos validados
- Coeficiente de dominio CDwp_nc
1.00 BINOMIO AL CUADRADO (* -1.00)(pagedir)
1.00 BINOMIO DE NEWTON (* -1.00)(pagedir)
1.00 CAMBIO DE VARIABLE (* -1.00)(page)
1.00 DIVISIÓN DE FRACCIONES (* -1.00)(pagedir)
1.00 GRADO DEL POLINOMIO (* -1.00)(pagedir)
##-- NPN CDwp_nc partición: 0
1.00 GRÁFICAS DE FUNCIONES (* -1.00)(pagedir)
1.00 INTEGRACIÓN POR PARTES (* -1.00)(pagedir)
1.00 LEY DE COSENOS (* -1.00)(pagedir)
1.00 LEY DE SENOS (* -1.00)(pagedir)
1.00 LEY DE TRICOTOMÍA (* -1.00)(pagedir)
##-- NPN CDwp_nc partición: 1
1.00 MATRIZ DE COFACTORES (* -1.00)(page)
1.00 MULTIPLICACIÓN DE FRACCIONES (* -1.00)(pagedir)
1.00 MÁXIMO COMÚN DIVISOR (* -1.00)(pagedir)
1.00 MÍNIMO COMÚN DENOMINADOR (* -1.00)(pagedir)
1.00 MÍNIMO COMÚN MÚLTIPLO (* -1.00)(pagedir)
##-- NPN CDwp_nc partición: 2
1.00 OPERACIONES CON POLINOMIOS (* -1.00)(page)
1.00 PUNTO DE INFLEXIÓN (* -1.00)(pagedir)
1.00 REGLA DE SARRUS (* -1.00)(page)
1.00 REGLA DEL COCIENTE (* -1.00)(page)
1.00 REGLA Y COMPÁS (* -1.00)(pagedir)
Candidatos problemáticos
0.30 TALES DE MILETO (- -1.00)(page)
0.30 VECTOR COLUMNA (- -1.00)(page)
...
0.28 SUMAS Y RESTAS (- -1.00)(page)
...
0.10 PONTE A PRUEBA (- -1.00)(page)
...
0.03 LÁPICES DE COLORES (- -1.00)(pagedir)
0.03 TIPO DE DESCUENTO (- -1.00)(pagedir)
0
Términos no validados
0.00 INTEGRACIÓN POR SUSTITUCIÓN (* -1.00)(pagedir ) 
0.00 SISTEMA MÉTRICO DECIMAL (* -1.00)(pagedir )
0.00 UNIDAD DE MEDIDA (* -1.00)(page)
0.00 UNIDADES DE LONGITUD (* -1.00)(page)
0.00 UNIDADES DE MEDIDA (* -1.00)(pagedir )
...
-1.00 ARCO DE CURVA (* -1.00)( nil)
-1.00 BINOMIO AL CUBO (* -1.00)( nil)
-1.00 BINOMIOS AL CUADRADO (* -1.00)( nil)
-1.00 BINOMIOS AL CUBO (* -1.00)( nil)
-1.00 CARDINALIDAD DEL CONJUNTO (* -1.00)( nil)
-1.00 CENTENAS DE MILLAR (* -1.00)( nil)
-1.00 COORDENADAS DEL CENTRO (* -1.00)( nil)
-1.00 COORDENADAS DEL FOCO (* -1.00)( nil)
-1.00 COORDENADAS DEL PUNTO (* -1.00)( nil)
-1.00 COORDENADAS DEL VÉRTICE (* -1.00)( nil)
...
Resultados (todos)
Wikipedia: términos de un texto (2)
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
ci
si
o
n
recall
CDwp_nc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
ci
si
o
n
recall
CDwp_nc
CDwp_lc
 0
 20
 40
 60
 80
 100
 0 20 40 60 80 100
p
re
ci
si
o
n
recall
CDwp_nc
CDwp_lc
CDwp_lmc
Trabajo futuro
• Aplicar esta metodología a otros dominios e idiomas.
• Demo.
• Integración de la Wikipedia en YATE.
• Mejoras: 
– tratamiento de las páginas de desambiguación,
– análisis por componentes,
– tratamiento de términos en el texto de los artículos,
– exploración del árbol de categorías de la Wikipedia 
usando redes Bayesianas.
64
Wikipedia: términos de un texto
Uso de la Wikipedia como fuente de 
información semántica: Conclusiones
• Ventajas
– Independencia de lengua y dominio
• Inconvenientes
– Cobertura: puede ser reducida en textos muy 
especializados
– Actualización (Dbpedia live view) 
65
Wikipedia: términos de un texto
66
Jordi Vivaldi
jorge.vivaldi@upf.edu
Seminari IULATerm
2 de març del 2011 
Terminologia i Vikipèdia