Logo Studenta

Resumo de Informática Básica (42)

¡Estudia con miles de materiales!

Vista previa del material en texto

Agrupación
•  Reconocimiento  de  patrones
•  compresión  de  datos
El  análisis  de  grupos  o  clusters  es  la  tarea  de  agrupar  objetos  por  similitud,  en  grupos  o  
conjuntos  de  manera  que  los  miembros  de  un  mismo  grupo  tengan  características  similares.
•  computación  grafica.
El  análisis  de  grupos  es  un  problema,  es  un  enfoque  general  y  existen  miles  de  algoritmos  
que  lo  resuelven,  cada  uno  con  sus  propias  características.  Muchos  algoritmos  difieren  
significativamente  en  su  idea  de  qué  constituye  un  grupo  y  cómo  encontrarlos  de  manera  
eficiente.
•  bioinformática
•  aprendizaje  automático
•  búsqueda  y  recuperación  de  información
Por  tanto,  el  clustering  puede  formularse  como  un  problema  de  optimización  multiobjetivo.  El  
algoritmo  apropiado  y  sus  parámetros  dependen  del  conjunto  de  datos  que  se  analiza  y  del  
uso  que  se  hará  de  los  resultados.
También  se  utiliza  en  diversos  campos  como
•  análisis  de  imagen
Es  la  tarea  principal  de  la  minería  de  datos  exploratoria  y  es  una  técnica  común  en  el  análisis  
de  datos  estadísticos.
Machine Translated by Google
Es  una  práctica  común  ejecutar  un  algoritmo  de  agrupamiento  (un  proceso  iterativo)  y,  en  función  
de  los  resultados,  ajustar  los  parámetros  y  repetir  la  operación  (lo  que  da  como  resultado  un  
proceso  iterativo).
Las  opciones  populares  se  conocen  como  agrupación  de  enlace  único  (mínimo
•  otros  en  los  que  los  grupos  constituyen  el  punto  de  partida  para  la  clasificación  de  nuevas  
muestras  de  datos,  desconocidos  en  el  momento  del  procesamiento  de  la  agrupación
La  agrupación  basada  en  conectividad  es  una  familia  completa  de  métodos  que  difieren  en  la  
forma  en  que  se  calculan  las  distancias.  Además  de  la  elección  habitual  de  funciones  de  distancia,  
el  usuario  también  debe  decidir  qué  criterios  de  conexión  (dado  que  un  grupo  consta  de  varios  
objetos,  existen  varios  candidatos  para  calcular  la  distancia)  utilizar.
La  agrupación  en  clústeres  como  tal  no  es  una  tarea  de  solución  sencilla,  sino  más  bien  un  
proceso  iterativo  o  interactivo  que  implica  prueba  y  error.  Este  proceso  de  prueba  y  error  es  
iterativo  porque  es  automático  e  interactivo  porque  requiere  intervención  humana.
•  este  es  el  caso  del  análisis  de  grupos,  la  minería  de  datos  y  el  análisis  de  imágenes.
Un  grupo  se  puede  describir,  en  gran  parte,  por  la  distancia  máxima  que  se  necesita  para  conectar  
todas  las  partes  del  grupo.  A  diferentes  distancias  se  formarán  diferentes  grupos,  que  se  pueden  
representar  mediante  un  dendrograma,  lo  que  explica  de  dónde  proviene  el  nombre  de  "agrupación  
jerárquica":  estos  algoritmos  no  sólo  proporcionan  una  partición  del  conjunto  de  datos,  sino  que  
proporcionan  una  amplia  jerarquía  de  grupos  que  forman ...  fusionarse  entre  sí  a  determinadas  
distancias.  En  un  dendrograma,  el  eje  "y"  marca  la  distancia  por  la  cual  se  fusionan  los  grupos,  
mientras  que  los  objetos  se  colocan  a  lo  largo  del  eje  "x"  para  que  los  grupos  se  fusionen.
Estos  métodos  no  producirán  una  única  partición  del  conjunto  de  datos,  sino  más  bien  una  
jerarquía  donde  el  usuario  puede  elegir  los  grupos  apropiados.  No  son  muy  resistentes  al  ruido  
ya  que  es  posible  que  no  aparezcan  como  grupos  adicionales;  incluso  pueden  provocar  que  otros  
grupos  se  fusionen.
•  aquellos  en  los  que  los  grupos  constituyen  el  resultado  deseado
La  agrupación  basada  en  conectividad,  también  conocida  como  agrupación  jerárquica,  se  basa  
en  la  idea  principal  de  que  los  objetos  que  están  más  cerca  están  más  relacionados  que  los  que  
están  lejos.  Estos  algoritmos  conectan  "objetos"  para  formar  "grupos"  según  su  distancia.
Las  aplicaciones  de  clustering  se  dividen  en  dos  tipos  principales
distancias  entre  objetos),  agrupación  de  enlaces  completos  o  UPGMA  ("Método  de  grupo  de  
pares  no  ponderados  con  media  aritmética",  también  conocido  como  agrupación  de  enlaces.  
promedio).  Además,  la  agrupación  jerárquica  puede  ser  aglomerativa  o  divisiva.
•  este  es  el  caso  de  la  clasificación  automática  en  el  mundo  del  aprendizaje  automático
Machine Translated by Google

Continuar navegando