Logo Studenta

Modulo II - 1ra Clase

¡Este material tiene más páginas!

Vista previa del material en texto

Introducción a la Ciencia de Datos
aplicada a los negocios con R.
Facultad de Ciencias Económicas, Jurídicas y Sociales
Universidad Nacional de Salta
Octubre - Noviembre 2023
Análisis Multivariante 
“En un sentido amplio, se refiere a todos los métodos
estadísticos que analizan simutáneamente medidas múltiples
de cada individuo u objeto sometido a investigación.” (Hair, et
all, 1.999)
Su razón de ser radica en un mejor entendimiento del objeto de estudio,
obteniendo información relevante para la toma de decisiones. 
Enzo
Resaltar
Enzo
Resaltar
Enzo
Llamada
VARIABLES
Enzo
Máquina de escribir
Como actuan de manera simultanea un conjunto de vbles
Técnicas o métodos Multivariantes 
Son aquellas que centran su atención en dos o más
características (variables) medidas en un conjunto de objetos e
interrelacionadas entre sí.
Difieren de las técnicas univariantes (media y varianza) y
bivariantes (correlación) en que se dirijen al análisis de una
matriz de correlaciones entre 3 o más variables.
Enzo
Resaltar
Enzo
Máquina de escribir
No son independientes, hay que preguntarse como se relacionan?
Análisis Multivariante
(Genero, status social, 
domicilio, Edad... etc...)
Ejemplo: 
Supongamos el lanzamiento de una nueva línea de negocio y
queremos investigar el mercado potencial.
Análisis Univariado
(Género)
Análisis Bivariado
(Genero + status social)
Segmentación de Mercado
Enzo
Llamada
Analisis conjunto de las vbles
Clasificación de Técnicas Multivariantes
Guía en función del problema:
¿Dependencia o
interdependencia
entre variables?
¿Escala Métrica o No
Métrica?
Si es un análisis de
dependencia, ¿Cuántas
variables
dependientes hay?
¿Cuántas relaciones?
Enzo
Máquina de escribir
Cuantitativas o cualitativas?
Buscan la existencia o ausencia de relaciones
entre 2 grupos de variables, si se puede
clasificarlos en dependientes e independientes
(por experimentación o base teórica).
El objetivo es verificar si las variables
independientes afectan al conjunto de
variables dependientes de manera conjunta o
individual.
Métodos de Dependencia
Métodos de 
Dependencia
Métodos de 
Dependencia
Una o varias Métrica /
No métrica
Una Métrica 
Regresión Lineal
Simple / Múltiple
Una o varias Métrica /
No métrica
Una No Métrica 
Regresión Logística
Análisis Discrim.
Una o varias Métrica /
No métrica
Varias Métrica /
No métrica
Correlación
Canónica
Varias Métricas
Una o varias Métrica /
No métrica
Análisis Multiv. de
Varianza
Cant. y Tipo Variables
Independientes
Cant. y Tipo Var.
Dependientes Técnica aplicable
Métodos de Dependencia
Clasificación de Técnicas Multivariantes
Técnicas
Multivariantes
Modelos Estructurales (Múltiples relaciones)
Métodos de 
Interdependencia
Métodos de 
Dependencia
Dependiente
Métrica
Dependiente
No Métrica
Datos 
Métricos
Datos 
No Métricos
Análisis de Regresión
Análisis de Supervivencia
Correlación Canónica
Análisis Multiv. de la Varianza
Análisis Discriminante
Regresión Logística
Componentes Principales
Análisis Factorial
Escalamiento Multidimensional
Análisis de Conglomerados
Análisis de Correspondencias
Análisis de Conglomerados
Clasificación de Técnicas Multivariantes
Técnicas
Multivariantes
Métodos de 
Clasificación
(Individuos)
Métodos de 
Ordenamiento
(Variables)
Conjunto de técnicas mediante las cuales se puede
adaptar un arreglo multivariado de puntos, de manera
que cuando se los proyecta en un plano, cualquier
patrón intrínseco que estos datos pudiesen tener se
haga aparente en una inspección visual.
Permiten identificar las dimensiones más importantes
en conjuntos de datos e ignorar el ruido presente en
ellos.
Componentes Principales
Coordenadas Principales
Análisis Factorial
Escalamiento Multidimensional
 Su objetivo es agrupar a un conjunto de individuos en
grupos homogéneos.
Análisis de Conglomerados (Clustering)
K-Means
Análisis Discriminante.
Enzo
Llamada
Se identifican patrones
Enzo
Resaltar
Enzo
Resaltar
Enzo
Llamada
Que individuos se parecen mas?
Los patrones son más importantes que su cuantía.
Si su distribución es aleatoria no dañan el análisis. (Missing Completely
at Random - MCAR)
 Diagnóstico de aleatoriedad:
 Comparación de medias (prueba t) de otra variable sin NAs. 
 Matriz de correlaciones entre variables con NAs.
 Tratamientos:
 Eliminación (Asume MCAR).
 Imputación.
Análisis Previo de los Datos
Valores Perdidos (NA - Not Available)
Procedimientos previos a la aplicación de cualquier técnica.
Enzo
Llamada
Prueba de hipotesis
Enzo
Máquina de escribir
Por ejemplo: En una poblacion las mujeres no quieren decir su edad y hay que ver que hacer con ls NA
Enzo
Llamada
Hay que tener cuidado ya que de esta manera, ya que estamos sacando objetos que solo le falta un valor, la muestra se hace mas pequeña
Enzo
Llamada
Completo datos a partir de promedios,regresion
Una, dos o múltiples variables toman valores extremos que los hacen
diferir del comportamiento del resto.
Causas: 
 Errores en los datos (Recolección o tabulación)
 Errores intencionados.
 Errores en el muestreo (representatividad, marco de datos) 
 Outliers legítimos debidos a la variabilidad inherente.
 Eliminación a los efectos de asegurar estimaciones válidas para la
 mayoría.
 Intento de suavización con transformaciones.
 Utilización de pruebas no paramétricas más “robustas”.
Análisis Previo de los Datos
Valores extemos (Outliers).
Enzo
Resaltar
Enzo
Máquina de escribir
Aplicacion de logaritmos
Análisis Univariado vs. Análisis Multivariado
Enzo
Llamada
Outlayer para el analisis bivariado
Enzo
Llamada
Centroide
Enzo
Máquina de escribir
Se calculan dif de los puntos con el centroide para sacar los outlayers
Enzo
Máquina de escribir
No es lo mismo trabajar de manera marginal que de manera multivariada, el outlayer marcado no seria outlayer para ninguna de las variables si la trabajaramos de forma marginal
Análisis Método Límites
Univariado
Box Plot
Q1-1,5 RIQ
Q3+1,5 RIQ
Z Scores Valores de Z > +-3
Bivariado Regresión 
Bandas de intervalos de
Predicción Individual
(95%)
Multivariado Distancia de
Mahalanobis
Barnett y Lewis
100<N<500 ----> D>20
N<100 ----> D>15
Detección de Outliers
Cada grupo sea homogéneo
respecto de las variables
utilizadas para caracterizarlo.
Los grupos sean distintos entre sí.
No exige propiedades estadísticas
a los datos.
Los grupos son desconocidos a
priori, aunque por alguna razón
pensamos que se pueden
agrupar.
Clasifica a individuos (observaciones)
en grupos, tal que:
Análisis de Conglomerados (Clustering)
Enzo
Resaltar
Enzo
Resaltar
Enzo
Llamada
Cuanto mas separados y mas similares sean los individuos de cada grupo, mejor
Análisis de Conglomerados (Clustering)
Se obtiene así una clasificación de los individuos a partir de
los datos multivariantes observados a los efectos de una
mejor comprensión de los mismos y de la población de la cual
proceden.
Secuencia Lógica
Enzo
Llamada
Partimos de matriz de datos
Enzo
Llamada
Calculamos matriz de similaridad entre individuos
Enzo
Llamada
Comparamos entre individuos
Enzo
Llamada
Caracterizamos cada uno de los grupos
Medidas de Similaridad o Distancia
Indican en qué medida dos individuos o elementos bajo
estudio se parecen entre sí.
Cercanía = Medida de “proximidad”, “similaridad” o “distancia”
Enzo
Rectángulo
Enzo
Rectángulo
Enzo
Rectángulo
Enzo
Rectángulo
Medidas de Similaridad (Distancia)
Similaridad Distancia
Un aumento de la
similaridad implica
mayor semejanza.
[0 ; 1] 
Un aumento de la
distancia implica
menor semejanza.
[0 ; Infinito] 
Medidas de Similaridad para Variable Numérica
Distancia Euclídea
Medidas de Similaridad para Variable Numérica
Distancia Euclídea
Medidas de Similaridad para Variable Numérica
Matriz de Distancias Euclídeas
Enzo
RectánguloMedidas de Similaridad para Variable Numérica
 Distancia de Manhattan (City Block)
Estandarización con rango
(acotada [0 , 1] ) 
Medidas de Similaridad para Variable Numérica
 Distancia de Mahalanobis
Se utiliza para determinar cuán lejos está un punto de datos de la media
de un conjunto de datos multivariados, teniendo en cuenta la
variabilidad y la correlación entre las variables.
Mejora el concepto de distancia euclídea al tener en cuenta - al
momento de estandarizar - las relaciones (Covarianzas) entre las
variables involucradas.
Enzo
Máquina de escribir
mejora la distancia euclidica, estandariza valores con la covarianza
Medidas de Similaridad para Variable Binaria
Cuando las variables surgen de un proceso de codificación
de atributos medidos en escalas nominales u ordinales.
Parten de una tabla de contingencia de 2x2 donde se
comparan dos individuos u observaciones respecto de
ciertas caracterísiticas binarias.
a: Coincidencias en 1
(presenta la caracteristica)
d: Coincidencias en 0 (no
presenta la caracteristica)
c y b: Discrepancias entre
individuos.
Enzo
Llamada
Tiene o no tiene algo
Medidas de Similaridad para Variable Binaria
Coef. de Similaridad de Emparejamiento Simple (Simple
Matching)
Son similares aquellos individuos que coinciden en 1 y en 0.
Enzo
Llamada
Coincidencias
Medidas de Similaridad para Variable Binaria
Indice de Jackard:
Son similares aquellos individuos que coinciden en 1.
Ej.: Nacionalidad Argentina: 1:SI - 0:No
Enzo
Llamada
Toma solo los que presentan la caracteristica
Enzo
Llamada
Los no argentinos pueden no ser similares al ser de nacionalidades distintas entre ellos
Medidas de Similaridad para Variable Binaria
Otros coeficientes:
Medidas de Similaridad Estandarización
Las medidas de similaridad son muy sensibles a las unidades
en que están medidas las variables consideradas.
Por Rango: Al valor de cada variable se le resta su valor mínimo y se
lo divide por su rango a los efectos de que quede acotado en [0 , 1].
Puntuaciones Z: Los datos se estandarizan restando a cada valor su
media y dividiendo por su desvío. Los valores quedan acotados en
términos probabilísticos dependiendo su distribución.
Formas usuales de estandarización:
Medidas de Similaridad Estandarización
Matriz de
distancias
euclídeas sin
estandarizar
Medidas de Similaridad Estandarización
Medidas de Similaridad Estandarización
Matriz de distancias estandarizados por Puntuaciones Z
Representación Gráfica de distancias: 
Dendograma o Arbol
Muestra cuán
parecidos son los
inidividuos entre
sí por medio de
un índice de
jerarquía.
Enzo
Máquina de escribir
Muestra como son las distancia y como se van agrupando los elementos
Formación de Grupos
Selección del algoritmo de agrupación.
Métodos
Jerárquicos
Métodos No
Jerárquicos
Aglomerativos: 
Al inicio se considera a cada individuo como un grupo en
sí mismo y luego se van agrupando de acuerdo a su
cercanía o similaridad hasta formar un solo grupo con
todos los individuos.
Desagregativos: 
Al inicio todos los individuos forman un grupo y se van
desagregando hasta formar n-1 grupos.
Se establece un número inicial de grupos a priori y
luego se clasifica a cada individuo en cada grupo.
Se tiene en cuenta la mayor homogeneidad dentro
de los grupos y la mayor variabilidad entre los
grupos.
La distancia entre un individuo y un grupo constituido, o entre 2
grupos, es la distancia entre sus puntos más próximos.
Método del Mínimo (Single Linkage): 
Formación de Grupos
Algoritmos de agrupamiento Jerárquicos: 
Definir distancia entre grupos.
La distancia entre un individuo y un grupo constituido, o entre 2
grupos, es la distancia entre sus puntos más alejados.
Método del Máximo (Complete Linkage): 
Formación de Grupos
Algoritmos de agrupamiento Jerárquicos: 
Definir distancia entre grupos.
La distancia entre un individuo y
un grupo constituido, o entre 2
grupos, es la distancia media entre
sus puntos.
Método de la Media (Average
Linkage - Sokal y Michener): 
Formación de Grupos
Algoritmos de agrupamiento Jerárquicos: 
Definir distancia entre grupos.
La distancia entre un individuo y
un grupo constituido, o entre 2
grupos, es la distancia mediana
entre sus puntos.
Método de la Mediana (Gower): 
Formación de Grupos
Algoritmos de agrupamiento Jerárquicos: 
Definir distancia entre grupos.
La distancia entre un individuo y un grupo constituido, o entre 2
grupos, es la distancia a partir de un punto CENTROIDE (Promedio).
Método del Centroide: 
Formación de Grupos
Algoritmos de agrupamiento Jerárquicos: 
Definir distancia entre grupos.
No parte de la matriz de distancias, sino de la matriz de datos
originales y a partir de allí comienza armando grupos teniendo como
premisa minimizar la variabilidad de los elementos de cada grupo
conformado, teniendo en cuenta las distancias euclídeas al
cuadrado.
Como se basa en minimizar la varianza intra cluster, da como
resultado grupos más compactos y homogéneos.
Método de Ward: 
Enzo
Resaltar
Enzo
Resaltar
Formación de Grupos
Enzo
Llamada
Generalmente se usa este
Formación de Grupos: Consideraciones
Crea clusters filamentosos, tendiendo a aproximar los objetos respecto de las
distancias originales.
Es más sensible a outliers.
Método del Mínimo (Single Linkage): 
Crea clusters esféricos y compactos, tendiendo a alejar los objetos respecto
de las distancias originales.
Identifica grupos muy homogéneos.
Método del Máximo (Complete Linkage): 
Crea clusters conservadores, no dilatan ni contraen las distancias originales.
Métodos Promedios: 
Formación de Grupos
Algoritmos de agrupamiento No Jerárquicos: 
Definir distancia entre grupos.
Se debe conocer A PRIORI el número de conglomerados que se
desea formar y los datos considerados como centroides. Luego, las
observaciones son asignadas a cada grupo maximizando su
homogeneidad. ( Ej.: Algoritmo K-means).
Raramente se conoce con certeza los centroides de estos k grupos,
por lo que sus resultados dependerán de su elección inicial.
Es habitual optar primero por hacer un análisis jerárquico para
definir la cantidad de clusters (excepto en los casos en que los
tamaños muestrales son muy grandes).
Enzo
Máquina de escribir
No calcula distancias, sino que son calculos interactivos de varianzas
Selección del número de conglomerados
Debe deternerse el proceso de fusión cuando los grupos están a una
distancia significativamente mayor de los que previamente se han
fusionado.
Existen ciertos índices, que analizados en conjunto dan una
orientación respecto del número de conglomerados.
La mejor validación del número de conglomerados es que estos
tengan sentido y puedan interpretarse en el contexto del estudio.
Enzo
Resaltar
Enzo
Resaltar
Enzo
Resaltar
Ejemplo de Aplicación:
Diseño de un plan de incentivos para vendedores
El director de ventas de una cadena de tiendas de electrodomésticos
desea implementar un plan de incentivos para sus vendedores.
Considera que los incentivos deben estar ajustados a las dificultades de
las distintas zonas de ventas, siendo necesario otorgar incentivos más
altos en aquellas zonas geográficas en que las condiciones de vida de sus
habitantes hacen más difíciles llegar a la venta.
En base a información respecto al equipamiento de los hogares en las
comunidades autónomas de España, se desea segmentar las mismas en
grupos homogéneos.

Continuar navegando