Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Representación de documentos mediante TF-IDF Nombre del alumno: Antony Arturo García Pérez Matrícula: 2020690020 Carrera: Licenciatura en Ciencia de Datos Nombre de la materia: Procesamiento del lenguaje natural Nombre del docente: Liliana Guadalupe Alonso Sánchez Que es tf-idf? Representación matemática de documentos Term Frequency-Inverse Document Frequency Tipo “Bolsa de palabras” Medida estadística de cuan importante es una palabra para un documento en un corpus Usado ampliamente en recuperación de información y minería de textos Utilidad del TF-IDF Ranking de enlaces en buscadeores web Gerenacion de resúmenes de textos Agrupación y clasificación de documentos Autentificacion de autoría de un texto Recomendación de documentos calculo del TF Un termino tj que aparece muchas veces en un documento di es mas importante que otro que aparece pocas Donde nij es el numero de veces que aparece el termino tj en el documento di calculo del TF Ejemplo: calculo del idf Un termino tj que aparece en pocos documentos discriminan mejor que uno que aparece en muchos Donde N es el numero total de documentos y nj es el numero de documentos que contienen el témino tj Representación final del documento Ejemplo:
Compartir