Logo Studenta

SINTESIS - Daniel Cuellar

¡Estudia con miles de materiales!

Vista previa del material en texto

SINTESIS 
“The KDD Process for Extracting Useful Knowledge from Volumes of 
Data” 
 
 
MATERIA 
INTELIGENCIA ARTIFICIAL 
 
 
NOMBRE 
CUELLAR VALLES DANIEL VALDEMAR 
 
 
MATRÍCULAS 
160623 
 
 
 
Ciudad del Carmen, Campeche A 06 OCTUBRE de 2022 
El método tradicional de convertir datos en conocimiento se basa en el análisis y la 
interpretación manuales. Por ejemplo, en la industria de la salud, es común que los 
profesionales analicen las tendencias actuales y los cambios en la atención médica 
todos los meses. 
Encontrar patrones útiles en los datos se conoce con diferentes nombres en 
diferentes comunidades. El término "minería de datos" es utilizado principalmente 
por estadísticos, investigadores de bases de datos y, más recientemente, por 
círculos empresariales. 
Se utiliza el término "KDD" para referirse al proceso general de obtener información 
útil a partir de los datos. La minería de datos es un paso especial en este proceso: 
aplicar ciertos algoritmos para extraer patrones de los datos. El objetivo es 
proporcionar una visión general de la variedad de actividades en este campo 
multidisciplinario y cómo encajan entre sí. 
La minería de datos implica ajustar modelos o identificar patrones a partir de datos 
observados. Los modelos apropiados juegan el papel del conocimiento derivado. 
Determinar si los modelos reflejan conocimiento útil es parte del proceso interactivo 
general de KDD, que generalmente requiere un juicio humano subjetivo. 
 Algunas de las funciones de modelo más comunes en la práctica actual de minería 
de datos incluyen 
• Clasificación: asigna datos a una de varias clases categóricas predefinidas. 
• Regresión: asigna datos a una variable predictora con un valor real. 
Representaciones de modelos 
 Las representaciones de modelos comunes incluyen árboles de decisiones y 
reglas, modelos lineales, modelos no lineales, métodos basados en instancias, 
modelos de dependencia de gráficos probabilísticos y modelos de atributos 
relacionales. La visibilidad del modelo define tanto la flexibilidad del modelo para 
representar datos como la interpretabilidad del modelo en términos humanos. 
Se incluye entre actualmente el principal desafío de investigación y aplicación del 
“KDD”: 
Conjuntos de datos grandes y de alta dimensión. Las bases de datos de varios 
gigabytes con millones de registros y grandes cantidades de campos son comunes. 
Estos conjuntos de datos crean espacios de búsqueda altamente explosivos para la 
inducción de patrones y aumentan la probabilidad de que el algoritmo de minería de 
datos encuentre patrones falsos que generalmente no son válidos. Las posibles 
soluciones incluyen algoritmos altamente eficientes, muestreo, métodos de 
aproximación, procesamiento paralelo masivo, técnicas de reducción de 
dimensionalidad e incorporación de conocimientos previos.

Continuar navegando

Otros materiales