Vista previa del material en texto
10/03/2011 1 Terminologia i Vikipèdia Jordi Vivaldi jorge.vivaldi@upf.edu Seminari IULATerm 2 de març del 2011 Guía de la sesión • Extracción de términos usando información semántica: YATE, TRUCKS, METAMAP • Wikipedia: introducción • La Wikipedia como fuente de información semántica • Perspectivas: – Todos los términos de un dominio – Todos los términos de un texto 2 Definición • Término: unidad léxica utilizada en un ámbito temáticamente restringido para designar un concepto 3 Principales dificultades • Palabras y términos comparten la misma estructura superficial • Ambigüedad • Variaciones morfológicas • Nivel de especialización de los textos • Fronteras difusas entre disciplinas • Escaso acuerdo entre especialistas Términos: generalidades Esquema básico Texto especializado Lista de (candidatos a) término <p><s>La estructuración del primer programa de prevención de enfermedades atópicas (asma bronquial, rinitis alérgica y dermatitis atópica) predispone hacia un cambio de actitud a través de la educación del grupo familiar de riesgo, ... </s></p> asma bronquial dermatitis atópica enfermedades atópicas entidad clínico fiebre hemorrágico investigaciones previas maloclusión dental membrana respiratorio rinitis alérgica sociedad actual tejido ectodérmico 1,00 asma bronquial 1,00 rinitis alérgica 1,00 dermatitis atópica 0,88 maloclusión dental 0,87 fiebre hemorrágica 0,76 membrana respiratoria 0,76 enfermedades atópicas 0,53 tejido ectodérmico 0,23 entidad clínica 0,00 investigaciones previas 0,00 sociedad actual ordenada termhood: grado de pertenencia al dominio de interés Sistemas de extracción de términos Mecanismos de extracción • (Mayoritariamente) lingüísticos • (Mayoritariamente) estadísticos • Híbridos Sistemas de extracción de términos 10/03/2011 2 Sistemas híbridos • Característica: – Combinación de información diversa: • Estadística • Morfológica • Sintáctica • Semántica Sistemas de extracción de términos Caso especial: medicina/inglés • UMLS • METAMAP: – Aronson et al. (2010). An overview of MetaMap: historical perspective and recent advances. – http://jamia.bmj.com/content/17/3/229.full.pdf • Citaciones de MEDLINE/PubMed • Independencia de dominio • Otros: BECA, MGREP, Saphire, Abner, etc. Extracción de términos usando información semántica METAMAP • Segmentación, tagging y análisis sintáctico (frases nominales) – … ocular complications and myasthenia gravis … • Generación de variantes – ocular � eye, eyes, optic, opthalmic, opthalmia, … • Obtención de candidatos – Todos los términos del Metathesaurus con al menos una de las variantes • Evaluación de candidatos (MMTX score) – Similitud ponderada entre los SN original y las variantes Extracción de términos usando información semántica Características principales • Utilización de información semántica • Combinación de métodos • Arquitectura abierta Selección de candidatos Lista ordenada de candidatos a término Procesamiento lingüístico Análisis de candidatos (internos) ... combinación Análisis de contexto Formantes cultos Información semántica Métodos asociativos diccionarios EuroWordNet Recursos Corpus Análisis de candidatos (externos) YATE Información semántica • Nombres: caso ideal 11 Frontera de dominio estado situación, condición estado fisiológico problema de salud asma disfunción física enfermedad enfermedad respiratoria YATE Información semántica • Nombres: caso real 12 CD(‘sangre’) = 1/3 = 0,33 Tat tNS tNSt tCD ∈∀= )( )( )( entidad objecto,... sangre sustancia corporal fluido corporal sustancia Frontera de dominio YATE temperamento abstracción atributo naturaleza sangre rasgo grupo, colectivo gente sangre 10/03/2011 3 Información semántica • Adjetivos – Relacionales: – Calificativos: pertinentes/no pertinentes 13 YATE Frontera de dominio entidad parte, porción, trozo... estructura anatómica bronquio estructura vasiforme tubo cartilaginoso bronquial parte del cuerpo CD(‘bronquial’) = CD(‘bronquio’) Evaluación: nombre 14 YATE 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 votación 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 votación boosting 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 votación boosting FCp 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 votación boosting FCp CM cobertura pr ec is ió n ∆P’mv∆P’mb ∆P’mv = 43,8 % ∆P’mv = 54,3 % ∆Pmv = 54,7 % ∆Pmv = 51,5 % ∆Pmb ∆Pmv Evaluación: nombre-adjetivo 15 YATE 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 votación 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 votación boosting 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 votación boosting FCp 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 votación boosting FCp CM ∆Pmb ∆Pmv ∆Pmv = 70,8 % ∆Pmv = 100 % ∆P’mb ∆P’mv ∆P’mv = 53,8 % ∆P’mv = 87,2 % cobertura pr ec is ió n Evolución • Adaptación a otros dominios • Aplicar a otros idiomas • Incorporación del Spanish WordNet 3.0 • Integración con otras ontologías • Integrar otros mecanismos de combinación y/o análisis de candidatos 16 YATE Cálculo de las fronteras de dominio • Problema: automatizar la detección de las fronteras en EWN • Aproximaciones: – Magnini et al., 2000 – Vivaldi, 2001 – Missikoff et al., 2002 – Vivaldi, Rodríguez, 2004 – Cui et al., 2008 • Problema: dificultad para encontrar buenos recursos públicos 17 YATE Wikipedia • WP is by far the largest encyclopaedia. Size: – 3,5M articles for English, – 700 K for Spanish, – 300 K for Catalan – 1 M for French – ... (200 languages) • Contributed by thousands of volunteers • Accuracy: comparable to Britannica encyclopaedia 18 Perspectivas: wikipedia British Journal “Nature” blind compared 50 scientific articles with the following results (2005): • Factual errors: 162 (WP) vs 123 (Br) • Serius errors: 4 (WP) vs 4 (Br) 10/03/2011 4 Estructura de Wikipedia 19 Perspectivas: wikipedia categorías páginas A B C D E F G P1 P2 P3 Tabla de Redirección … … … … … … … … Pág. desamb. Enlaces Interwiki Enlaces externos InfoBox Ejemplos: asma, ñandú, punto Perspectivas: wikipedia Wikipedia: término no ambiguo 20 • Teorema de Pitágoras Perspectivas: wikipedia 21 Wikipedia: término ambiguo • Estadística Wikipedia: cobertura (CA, ES, EN) 22 Perspectivas: wikipedia Wikipedia: aplicaciones • Extracting lexical and conceptual information: Ponzetto, Strube, 2008; Suchanek, 2008. • To build/enrich ontologies: Milne et al., 2006 • Name entities: Toral et al., 2006; Kazama et al. 2007 • Multilingual question-answering: Ferrández et al. 2007 • Semantic tagging: Mihalcea, Csomai, 2007 • Topic indexing: Wu et al., 2007 • Surveys: Medelyan et al., 2009; Gabrilovich, Markovitch, 2009. • 20 papers presented to the 2010 NAACL Conf. 23 Perspectivas: wikipedia Wikipedia: utilización • On-line: Web crawler and a HTML parser • Off-line: database organised from WP dumps – Waikato's WikipediaMiner toolkit – U. Alicante's wiki db access – JWPL (Java Wikipedia Library): Java-based API that allows to access all information contained in Wikipedia. (Zesch et al., 2008) • Experiments using a snapshot of the WP dated in May 2009 • DBpedia live extraction (Hellman et al., 2009). 24 Perspectivas: wikipedia 10/03/2011 5 Ideas básicas • Hay dos perspectivas: – Obtención de los términos de un dominio – Extracción de los términos de un dominio en texto especializado Perspectivas: wikipedia Ideas básicas: top-down 26 Grafo de categorías Grafo de páginas D Perspectivas: wikipedia Ideas básicas: bottom-up 2727 Perspectivas: wikipedia Grafo de categorías Grafo de páginas Selección de candidatos P1 P2 P3 Procesamiento lingüístico D Objetivo • Encontrar todos los términos (páginas y categorías)de un dominio que están en la wikipedia. • Vivaldi, Rodríguez (2010). “Finding domain terms using wikipedia”. LREC2010 http://www.lrec-conf.org/proceedings/lrec2010/pdf/748_Paper.pdf 28 Wikipedia: términos de un dominio Metodología 29 dominio Páginas categorías superiores categorías del dominio páginas del dominio Conjunto final de términos del dominiofiltrado filtrado Categorías bootstrapping Etapas a seguir: WP Wikipedia: términos de un dominio 1) Encontrar en WP el nombre del dominio como categoría.2) Recoger todas las páginas/subcategorías relacionados con el dominio3) Extraer todos los descendientes del nombre del dominio (evitando bucles)4) Eliminar nombres propiosy clases auxiliares5) Filtro de categorías y páginas Filtrado a nivel de categorías 30 Wikipedia: términos de un dominio Grafo de categorías Categorías ∉ CatDomSet Categoría/s top del dominio categorías neutrales C 10/03/2011 6 Ejemplo de filtrado: “semantics” (informática) 31 Wikipedia: términos de un dominio theoretical computer science � Computing � semantics software� software engineering� formal methods� semantics {linguistics, philosophy of language, semiotics, theoretical computer science, philosophical Logic} WPCD(‘semantics’) = 0.2 lexical semantics weak pronoun Filtrado a nivel de páginas 32 Wikipedia: términos de un dominio Grafo de categorías CatDomSet Categorías ∉ CatDomSet Pt pág. entrada pág. salida PtScore Categoría/s Top del dominio categorías neutrales Filtrado a nivel de páginas • Filtrado adicional de categorías • Procedimiento: – Se miran todas la categorías asociadas a una página – Filtros adicionales: • MicroStrict • MicroLoose • Macro 33 Wikipedia: términos de un dominio Ejemplo de filtrado usando el score de páginas (química) 34 # DTC Micro Strict Micro Loose Macro Vote Result ok ko ok ko ok ko 1 electroquímica (electrochemistry) 13 5 16 2 36 12 +3 Accept 2 quesos (cheeses) 0 8 6 2 8 12 -1 Reject 3 óxidos de carbono (carbon monoxide) 1 1 2 0 4 3 +2 Accept Wikipedia: términos de un dominio Evaluación • Evaluación parcial : “chemistry” and “astronomy”: – Referencia: Magnini et al., 2000 (WordNet 1.6) – Característica: baja cobertura • Evaluación completa. “Medicina” – Referencias: SNOMED-CT Spanish Edition (2009) – Característica: amplia cobertura en el dominio médico 35 Wikipedia: términos de un dominio Evaluación parcial 36 Wikipedia: términos de un dominio Dominio Chemistry Astronomy Idioma EN ES EN ES Categorías iniciales 188374 2070 188816 44631 #Categorías (pruning) 1334 557 790 143 Ite ra ci ón # 1 Categorías 49 43 5 6 Precisión 93,9 62,8 0 16,7 Páginas Loose 833 1038 284 119 Strict 580 700 284 81 Prec. [%] Loose 61,3 52,6 34,8 31,9 Strict 62,7 56,6 37.2 27,2 50 55 60 65 70 1 2 3 4 5 6 p re ci si ó n Chemistry EN-loose 50 55 60 65 70 1 2 3 4 5 6 p re ci si ó n Chemistry EN-loose EN-strict 50 55 60 65 70 1 2 3 4 5 6 p re ci si ó n Chemistry EN-loose EN-strict ES-loose 50 55 60 65 70 1 2 3 4 5 6 p re ci si ó n Chemistry EN-loose EN-strict ES-loose ES-strict 20 25 30 35 40 45 50 1 2 3 4 5 6 p re c is ió n Astronomy EN-loose 20 25 30 35 40 45 50 1 2 3 4 5 6 p re c is ió n Astronomy EN-loose EN-strict 20 25 30 35 40 45 50 1 2 3 4 5 6 p re c is ió n Astronomy EN-loose EN-strict ES-loose 20 25 30 35 40 45 50 1 2 3 4 5 6 p re c is ió n Astronomy EN-loose EN-strict ES-loose ES-strict Chemistry Astronomy 10/03/2011 7 Evaluación completa 37 Wikipedia: términos de un dominio Evaluación usando WN SNOMED-CT Categorías iniciales 2431 Categorías (pruning) 839 Ite ra tio n #1 Categorías 174 394 Precisión 27,6 54 Pág. Loose 2091 4182 Strict 1724 3492 Prec. [%] Loose 21,0 58 Strict 23,2 62 10 20 30 40 50 60 70 1 2 3 4 5 6 p re ci si o n Medicina (Medicine) ES-loose-WN 10 20 30 40 50 60 70 1 2 3 4 5 6 p re ci si o n Medicina (Medicine) ES-loose-WN ES-loose-WN 10 20 30 40 50 60 70 1 2 3 4 5 6 p re ci si o n Medicina (Medicine) ES-loose-WN ES-loose-WN ES-loose-SNOMED 10 20 30 40 50 60 70 1 2 3 4 5 6 p re ci si o n Medicina (Medicine) ES-loose-WN ES-loose-WN ES-loose-SNOMED ES-strict-SNOMED Problemas de validación Acepta Rechaza whisky puro ubre fuego cáncer oral cólico renal foniatría instrumentos quirúrgicos Conclusiones y trabajo futuro • Buen resultado cuando se utiliza un recurso especializado para la evaluación • La lista de términos necesita mejorar el filtrado de nombres propios • Mejorar el filtrado (usar enlaces entrada/salida y el texto de los artículos) de páginas y categorías • Aplicar esta metodología otros idiomas/dominios 38 Wikipedia: términos de un dominio Objetivo • Encontrar los términos de un texto • Experimento 1 – Dominio: medicina – Nivel de especialidad: alto • Experimento 2 – Dominio: matemáticas – Nivel de especialidad: medio 39 Wikipedia: términos de un texto Árbol de categorías para “sangre” 40 Wikipedia: términos de un texto bloodblood blood circulatory system hematology body fluids medical specialties medicinemedicine health sciences anatomy zoology biology sciences page category path to Top path to DC (domain Top) top Cálculo del coeficiente de dominio 41 Wikipedia: términos de un texto CD en base al número de caminos CD en base al número de saltos CD en base a la longitud media del camino. )( )( )( tNP tNP tCDnc total dom= )( )( )( tNS tNS tCDlc total domain= )( )( )( tAVP tALP tCDlmc total domain= NPdomain(t): número de caminos a la categoría del dominio NPtotal(t): ): número de caminos al top NSdomain(t): número de saltos a la categoría del dominio NStotal(t): ): número de caminos al top ALPdomain(t): longitud media a la categoría del dominio AVPtotal(t): longitud media de los caminos al top Dificultades • Base de datos • Redirección • Ambigüedad (ej. carácter) 42 Wikipedia: términos de un texto TDTD 11 22 44 5533 Criterio actual: distancia mínima al top del dominio Página de desambiguación •… ---- ….. ---- … (1) • … ---- ………….… (2) • … ---- ….. ---- … (3) • … ---- ….. ---- … (4) • ………..….. ---- … (5) 10/03/2011 8 Experimento 1 – Dominio: medicina – Vivaldi, Rodríguez (2010). “Using Wikipedia for term extraction in the biomedical domain: first experiences”. BioSEPLN 2010. Wikipedia: términos de un texto Metodología 44 Texto de entrada Extracción CAT Análisis con la Wikipedia Wikipedia Validación especialistas Evaluación resultados Análisis con EWN YATE Wikipedia: términos de un texto (1) EWN Evaluación • Corpus de prueba: 100K palabras • Evaluación manual por especialistas (N, NJ y NPN). • Medidas de precisión y cobertura. • Dos etapas: o Usando CDs o Añadiendo información adicional de la WP 45 Wikipedia: términos de un texto (1) Resultados (N) 46 Wikipedia: términos de un texto (1) 30 40 50 60 70 80 90 100 0 20 40 60 80 100 pr ec is io n recall EWN 30 40 50 60 70 80 90 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc 30 40 50 60 70 80 90 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc 30 40 50 60 70 80 90 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc WP: nc EWN funciona mejor. La diferencia varía entre 10 % (CDnc) y 25 % (CDlmc). Resultados (NJ) 47 Wikipedia: términos de un texto (1) 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recallEWN WP: lc WP: lmc 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc WP: nc • EWN funciona mejor. El comportamiento de todos los CD es similar (diference ~25 %). • Hay términos que se clasifican mejor que utilizando EWN: historia clínica, o signo clínico. Resultados (NPN) 48 Wikipedia: términos de un texto (1) 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc WP: nc • Todos los CD basados en la WP son mejores. • Hay términos que se clasifican mejor: grupo de riesgo o índice de mortalidad. 10/03/2011 9 Resultados (todos) 49 Wikipedia: términos de un texto (1) 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc 0 20 40 60 80 100 0 20 40 60 80 100 pr ec is io n recall EWN WP: lc WP: lmc WP: nc Filtrado de categorías 50 Grafo de categorías CatDomSet Categorías ∉ CatDomSet Pt pág. entrada pág. salida PtScore inPtScore outPtScore Categoría/s Top del dominio categorías neutrales Wikipedia: términos de un texto (1) Resultados usando árboles de decisión 51 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 4 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 4 rules 5 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 4 rules 5 rules 6 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 4 rules 5 rules 6 rules 7 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 4 rules 5 rules 6 rules 7 rules 10 rules 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 pr ec is io n recall 3 rules 2 rules 4 rules 5 rules 6 rules 7 rules 10 rules 18 rules Wikipedia: términos de un texto (1) Conclusiones • La metodología propuesta abre la posibilidad de hacer extracción de términos en textos biomédicos mediante la Wikipedia. • Aunque la Wikipedia no es unrecurso específico de un dominio los resultados pueden considerarse aceptables. • Wikipedia y EWN pueden considerarse recursos complementarios. • Los resultados dependen de la calidad y completitud de la Wikipedia en cada idioma.52 Wikipedia: términos de un texto (1) Experimento 2 – Dominio: matemáticas – Cabrera-Diego, Sierra, Vivaldi, Pozzi (2011). “Using Wikipedia to Validate Term Extraction for the Mexican Basic Scientific Vocabulary”. TALN2011 (submitted) Wikipedia: términos de un texto (1) Metodología Input text TC extraction TC analysis Wikipedia specialist validation Results evaluation Wikipedia: términos de un texto (2) 10/03/2011 10 Evaluación • Corpus de prueba: corpus COCIEM (textos de bachillerato de México) • Evaluación manual por especialistas (lingüistas y estudiantes de ingeniería). • Medidas de precisión y cobertura. • Uso de CDs basados en la WP Wikipedia: términos de un texto (2) Corpus COCIEM 56 Wikipedia: términos de un texto (2) School level Subject # textbooks # words # types # of TC Elementary School Natural sciences 6 175,240 11,437 9,108 Mathematics 9 125,723 9,377 7,300 Total 15 300,963 20,814 16,408 Junior High Biology 8 369,099 23,908 17,904 Mathematics 25 734,374 55,797 47,627 Physics 9 538,042 29,759 22,188 Chemistry 7 382,697 23, 031 16,459 Total 49 2,024,212 132,495 104,178 High School Biology 3 133,262 8,307 5,460 Mathematics 11 499,552 32,566 28,089 Physics 3 219,795 14,251 11,140 Chemistry 3 11,117 11,077 8,792 Health education 3 139,369 9,421 7,067 Ecology 2 124,799 7,731 5,190 Total 25 1,273,865 83,353 65,738 Grand total 89 3,599,040 450,293 186,324 Resultados (N) Wikipedia: términos de un texto (2) 0 20 40 60 80 100 0 20 40 60 80 100 p re ci si o n recall CDwp_nc 0 20 40 60 80 100 0 20 40 60 80 100 p re ci si o n recall CDwp_nc CDwp_lc 0 20 40 60 80 100 0 20 40 60 80 100 p re ci si o n recall CDwp_nc CDwp_lc CDwp_lmc Resultados (N) 58 Wikipedia: términos de un texto (2) Candidatos validados - Coeficiente de dominio CDwp_nc 1.00 ADICIÓN (* -1.00)(pagedir) 1.00 ALGEBRA (* -1.00)(pagedir) 1.00 ANCHO (* -1.00)(page) 1.00 ANCHURA (* -1.00)(pagedir) 1.00 ANILLO (* -1.00)(page) 1.00 APLICACIÓN (* -1.00)(pagedir) 1.00 APOTEMA (* -1.00)(page) 1.00 ARCO (* -1.00)(page) 1.00 ARITMÉTICA (* -1.00)(pagedir) 1.00 ASÍNTOTA (* -1.00)(pagedir) 1.00 ASÍNTOTAS (* -1.00)(pagedir) 1.00 BILLONES (* -1.00)(pagedir) 1.00 BILLÓN (* -1.00)(pagedir) 1.00 BINOMIO (* -1.00)(page) 1.00 BISECTRIZ (* -1.00)(page) 1.00 BIUNÍVOCA (* -1.00)(pagedir) 1.00 BIYECTIVA (* -1.00)(page) 1.00 CARDINALIDAD (* -1.00)(pagedir) 1.00 CARDIOIDE (* -1.00)(page) 1.00 CATETO (* -1.00)(page) 1.00 CATORCE (* -1.00)(page) 1.00 CENTENA (* -1.00)(page) 1.00 CENTROIDE (* -1.00)(page) 1.00 CERO (* - 1.00)(page) Candidatos problemáticos 1.00 VARIABLE (- -1.00)(page) 1.00 VEINTE (- -1.00)(page) 1.00 VOLUMEN (- -1.00)(page) 1.00 XL (- -1.00)(pagedir ) ... 0.81 COLUMNA (- -1.00)(pagedes amb) 0.81 COLUMNAS (- -1.00)(pagedes amb) 0.81 COORDINACIÓN (- -1.00)(pagedes amb) 0.81 CRITERIO (- -1.00)(pagedes amb) 0.81 CÍCLICO (- -1.00)(pagedes amb) 0.81 OPERACIONES (- -1.00)(pagedes amb) 0.81 RAYA (- -1.00)(pagedes amb) 0.81 REPRESENTACIÓN (- -1.00)(pagedes amb) 0.81 SAN (- -1.00)(pagedes amb) ... 0.34 ENERO (- -1.00)(page) 0.34 FEBRERO (- -1.00)(page) ... 0.31 VIII (* -1.00)(page) 0.31 XII (* -1.00)(page) Términos no validados -1.00 BINARIAS (* -1.00)( nil -1.00 BINOMIOS (* -1.00)( nil -1.00 BISECTRICES (* -1.00)( nil -1.00 BIYECTIVAS (* -1.00)( nil -1.00 CARTESIANAS (* -1.00)( nil -1.00 CARTESIANOS (* -1.00)( nil -1.00 CIRCULAR (* -1.00)( nil -1.00 CIRCULARES (* -1.00)( nil -1.00 CIRCUNFERENCIAS (* -1.00)( nil -1.00 CIRCUNSCRITA (* -1.00)( nil -1.00 COCIENTES (* -1.00)( nil -1.00 COEFICIENTES (* -1.00)( nil -1.00 COFACTORES (* -1.00)( nil ... Resultados (NJ) Wikipedia: términos de un texto (2) 0 20 40 60 80 100 0 20 40 60 80 100 p re c is io n recall CDwp_nc 0 20 40 60 80 100 0 20 40 60 80 100 p re c is io n recall CDwp_nc CDwp_lc 0 20 40 60 80 100 0 20 40 60 80 100 p re c is io n recall CDwp_nc CDwp_lc CDwp_lmc Resultados (NJ) 60 Candidatos validados - Coeficiente de dominio CDwp_nc 1.00 ASÍNTOTA HORIZONTAL (* -1.00)(pagedir) 1.00 ASÍNTOTA OBLICUA (* -1.00)(pagedir) 1.00 ASÍNTOTA VERTICAL (* -1.00)(pagedir) 1.00 BASE DIEZ (* -1.00)(pagedir) 1.00 CONJUNTO UNIVERSAL (* -1.00)(page) 1.00 CONJUNTO UNIVERSO (* -1.00)(pagedir) 1.00 CORRESPONDENCIA BIUNÍVOCA (* -1.00)(pagedir) 1.00 CUADRADO PERFECTO (* -1.00)(pagedir) 1.00 CUERPOS GEOMÉTRICOS (* -1.00)(pagedir) 1.00 CÁLCULO DIFERENCIAL (* -1.00)(pagedir) 1.00 CÁLCULO INFINITESIMAL (* -1.00)(pagedir) 1.00CÁLCULO INTEGRAL (* -1.00)(pagedir) 1.00 CÍRCULO UNITARIO (* -1.00)(pagedir) ##-- NJ CDwp_nc partición: 0 1.00 DIAGONAL PRINCIPAL (* -1.00)(page) 1.00 DIAGRAMA SAGITAL (* -1.00)(pagedir) 1.00 DIEZ MIL (* -1.00)(page) 1.00 DIVISIONES SINTÉTICAS (* -1.00)(pagedir) 1.00 DIVISIÓN EUCLIDIANA (* -1.00)(pagedir) 1.00 ECUACIÓN ALGEBRAICA (* -1.00)(pagedir) 1.00 ECUACIÓN CUADRÁTICA (* -1.00)(pagedir) 1.00 ELEMENTO INVERSO (* -1.00)(pagedir) 1.00 ELEMENTO NEUTRO (* -1.00)(page) 1.00 ELEMENTO OPUESTO (* - 1.00)( pagedir ) Candidatos problemáticos 1.00 VARIABLE INDEPENDIENTE (- -1.00)(page) 1.00 VECTOR COLUMNA (- -1.00)(page) ... 0.88 VALOR ABSOLUTO (- -1.00)(page) ... 0.22 VARIABLE DEPENDIENTE (- -1.00)(page) ... 0.17 PAN DULCE (- -1.00)(pagedesamb) ... 0.13 ORDEN ALFABÉTICO (- -1.00)(pagedir) ... 0 Wikipedia: términos de un texto (2) Términos no validados 0.00 CIFRA SIGNIFICATIVA (* -1.00)(page) 0.00 COMPLEJO CONJUGADO (* -1.00)(page) 0.00 CUERPO GEOMÉTRICO (* -1.00)( pagedir 0.00 METRO CÚBICO (* -1.00)( pagedir 0.00 METROS CUADRADOS (* -1.00)( pagedir 0.00 MODELO MATEMÁTICO (* -1.00)( pagedir ... -1.00 ASÍNTOTAS VERTICALES (* -1.00)( nil) -1.00 BINOMIOS CONJUGADOS (* -1.00)( nil) -1.00 CARACTERIZACIÓN GEOMÉTRICA (* -1.00)( nil) -1.00 CATETO ADYACENTE (* -1.00)( nil) -1.00 CATETO OPUESTO (* -1.00)( nil) -1.00 CILINDRO CIRCULAR (* -1.00)( nil) -1.00 COCIENTE RESIDUO (* -1.00)( nil) -1.00 COEFICIENTE DOMINANTE (* -1.00)( nil) -1.00 COEFICIENTES ENTEROS (* -1.00)( nil) -1.00 COEFICIENTES INDETERMINADOS (* -1.00)( nil) ... 10/03/2011 11 Resultados (NPN) Wikipedia: términos de un texto (2) 0 20 40 60 80 100 0 20 40 60 80 100 p re c is io n recall CDwp_nc 0 20 40 60 80 100 0 20 40 60 80 100 p re c is io n recall CDwp_nc CDwp_lc 0 20 40 60 80 100 0 20 40 60 80 100 p re c is io n recall CDwp_nc CDwp_lc CDwp_lmc Resultados (NPN) 62 Wikipedia: términos de un texto (2) Candidatos validados - Coeficiente de dominio CDwp_nc 1.00 BINOMIO AL CUADRADO (* -1.00)(pagedir) 1.00 BINOMIO DE NEWTON (* -1.00)(pagedir) 1.00 CAMBIO DE VARIABLE (* -1.00)(page) 1.00 DIVISIÓN DE FRACCIONES (* -1.00)(pagedir) 1.00 GRADO DEL POLINOMIO (* -1.00)(pagedir) ##-- NPN CDwp_nc partición: 0 1.00 GRÁFICAS DE FUNCIONES (* -1.00)(pagedir) 1.00 INTEGRACIÓN POR PARTES (* -1.00)(pagedir) 1.00 LEY DE COSENOS (* -1.00)(pagedir) 1.00 LEY DE SENOS (* -1.00)(pagedir) 1.00 LEY DE TRICOTOMÍA (* -1.00)(pagedir) ##-- NPN CDwp_nc partición: 1 1.00 MATRIZ DE COFACTORES (* -1.00)(page) 1.00 MULTIPLICACIÓN DE FRACCIONES (* -1.00)(pagedir) 1.00 MÁXIMO COMÚN DIVISOR (* -1.00)(pagedir) 1.00 MÍNIMO COMÚN DENOMINADOR (* -1.00)(pagedir) 1.00 MÍNIMO COMÚN MÚLTIPLO (* -1.00)(pagedir) ##-- NPN CDwp_nc partición: 2 1.00 OPERACIONES CON POLINOMIOS (* -1.00)(page) 1.00 PUNTO DE INFLEXIÓN (* -1.00)(pagedir) 1.00 REGLA DE SARRUS (* -1.00)(page) 1.00 REGLA DEL COCIENTE (* -1.00)(page) 1.00 REGLA Y COMPÁS (* -1.00)(pagedir) Candidatos problemáticos 0.30 TALES DE MILETO (- -1.00)(page) 0.30 VECTOR COLUMNA (- -1.00)(page) ... 0.28 SUMAS Y RESTAS (- -1.00)(page) ... 0.10 PONTE A PRUEBA (- -1.00)(page) ... 0.03 LÁPICES DE COLORES (- -1.00)(pagedir) 0.03 TIPO DE DESCUENTO (- -1.00)(pagedir) 0 Términos no validados 0.00 INTEGRACIÓN POR SUSTITUCIÓN (* -1.00)(pagedir ) 0.00 SISTEMA MÉTRICO DECIMAL (* -1.00)(pagedir ) 0.00 UNIDAD DE MEDIDA (* -1.00)(page) 0.00 UNIDADES DE LONGITUD (* -1.00)(page) 0.00 UNIDADES DE MEDIDA (* -1.00)(pagedir ) ... -1.00 ARCO DE CURVA (* -1.00)( nil) -1.00 BINOMIO AL CUBO (* -1.00)( nil) -1.00 BINOMIOS AL CUADRADO (* -1.00)( nil) -1.00 BINOMIOS AL CUBO (* -1.00)( nil) -1.00 CARDINALIDAD DEL CONJUNTO (* -1.00)( nil) -1.00 CENTENAS DE MILLAR (* -1.00)( nil) -1.00 COORDENADAS DEL CENTRO (* -1.00)( nil) -1.00 COORDENADAS DEL FOCO (* -1.00)( nil) -1.00 COORDENADAS DEL PUNTO (* -1.00)( nil) -1.00 COORDENADAS DEL VÉRTICE (* -1.00)( nil) ... Resultados (todos) Wikipedia: términos de un texto (2) 0 20 40 60 80 100 0 20 40 60 80 100 p re ci si o n recall CDwp_nc 0 20 40 60 80 100 0 20 40 60 80 100 p re ci si o n recall CDwp_nc CDwp_lc 0 20 40 60 80 100 0 20 40 60 80 100 p re ci si o n recall CDwp_nc CDwp_lc CDwp_lmc Trabajo futuro • Aplicar esta metodología a otros dominios e idiomas. • Demo. • Integración de la Wikipedia en YATE. • Mejoras: – tratamiento de las páginas de desambiguación, – análisis por componentes, – tratamiento de términos en el texto de los artículos, – exploración del árbol de categorías de la Wikipedia usando redes Bayesianas. 64 Wikipedia: términos de un texto Uso de la Wikipedia como fuente de información semántica: Conclusiones • Ventajas – Independencia de lengua y dominio • Inconvenientes – Cobertura: puede ser reducida en textos muy especializados – Actualización (Dbpedia live view) 65 Wikipedia: términos de un texto 66 Jordi Vivaldi jorge.vivaldi@upf.edu Seminari IULATerm 2 de març del 2011 Terminologia i Vikipèdia