Logo Studenta

Representación de documentos mediante TF-IDF

¡Estudia con miles de materiales!

Vista previa del material en texto

Representación de documentos mediante TF-IDF
Nombre del alumno: Antony Arturo García Pérez
Matrícula: 2020690020
Carrera: Licenciatura en Ciencia de Datos
Nombre de la materia: Procesamiento del lenguaje natural
Nombre del docente: Liliana Guadalupe Alonso Sánchez
Que es tf-idf?
Representación matemática de documentos
Term Frequency-Inverse Document Frequency
Tipo “Bolsa de palabras”
Medida estadística de cuan importante es una palabra para un documento en un corpus
Usado ampliamente en recuperación de información y minería de textos
Utilidad del TF-IDF
Ranking de enlaces en buscadeores web
Gerenacion de resúmenes de textos
Agrupación y clasificación de documentos
Autentificacion de autoría de un texto
Recomendación de documentos
calculo del TF
Un termino tj que aparece muchas veces en un documento di es mas importante que otro que aparece pocas
Donde nij es el numero de veces que aparece el termino tj en el documento di
calculo del TF
Ejemplo:
calculo del idf
Un termino tj que aparece en pocos documentos discriminan mejor que uno que aparece en muchos
Donde N es el numero total de documentos y nj es el numero de documentos que contienen el témino tj
Representación final del documento
Ejemplo:

Continuar navegando

Materiales relacionados

102 pag.
DC-German-Rios-Toledo-2019

User badge image

Los Mejores Materiales

106 pag.
Recuperação de Informação

Vicente Riva Palacio

User badge image

Bionny Torres

493 pag.
Course164

User badge image

kirhen20