Logo Studenta

A6 1_Sandoval_Padilla_Fernando_Cesar - Fernando Cesar Sandoval Padilla

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD DE GUADALAJARA
CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS
DEPARTAMENTO DE CIENCIAS COMPUTACIONALES
INTEGRANTES:
SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409
SALDIVAR FONSECA FRANCISCO – INNI – 215408162
HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982
MINERÍA DE DATOS
PROFESOR: GODINEZ ROMAN ISRAEL
SECCIÓN D01 – CICLO ESCOLAR 2021 - B
ACTIVIDAD 6.1 Procesamiento de datos
Procesamiento de datos
i. Integración de los datos
1. Fusión de datos
N/A. Solo contamos con un conjunto de datos.
2. Adición de datos
N/A
ii. Selección de los datos
1. Creación de conjuntos específicos para cada tarea de descubrimiento de datos
Objetivo del conjunto de
datos
Recomendación de género cinematográfico para
cines: recomendaciones basadas en sus diferentes
ubicaciones, temporadas.
Restricciones de las
instancias N/A
Nombre del atributo Dominio Justificación de selección
film_code 1471-1589 Se eligió ya que este
atributo otorga los detalles
de cada película
cinema_code 32-637 Se eligió ya que este
atributo otorga todos los
detalles de cada cine
total_sales 20k-1.26b Se eligió ya que este
atributo otorga las ventas
totales de cada cine
show_time 1-60 Se eligió ya que este
atributo otorga el tiempo
de duración por película
quarter 1-4 Se eligió ya que este
atributo nos otorga la
temporada de proyección
de la película
Página | 2
Objetivo del conjunto de
datos
Recomendación de ubicación de próximos cines:
predicción de futuras locaciones que resulten exitosas
dentro de los lineamientos del negocio.
Restricciones de las
instancias
N/A
Nombre del atributo Dominio Justificación de selección
cinema_code 32 - 637 Se eligió ya que este
atributo otorga todos los
detalles de cada cine
total_sales 20k -1.26b Se eligió ya que este
atributo otorga las ventas
totales de cada cine
occu_perc 0 -147.5 Se eligió ya que este
atributo otorga el
porcentaje que fue
ocupado
tickets_sold 1 - 8499 Se eligió ya que este
atributo otorga las
entradas vendidas
tickets_out 0 - 311 Se eligió ya que este
atributo otorga las
entradas canceladas
2. Selección de subconjuntos de datos (Muestreo)
Dado nuestro conjunto de datos se optó por elegir la reducción de dimensionalidad
de forma manual, tomando los atributos antes mencionados en el punto anterior, con
ayuda de la herramienta “Select columns” de Orange, como se muestra a
continuación.
Página | 3
Página | 4
Este es el resultado de la selección realizada por Orange.
iii. Limpieza de datos
1. Eliminación de atributos con poca variabilidad
N/A: Dado los datos en nuestro dataset ya que todos los atributos son de tipo
numéricos y no contamos con atributos categóricos la variabilidad entre instancias no
aplica.
2. Identificación de valores erróneos (outliers y typos)
Outliers. como podemos observar contamos con 13083 instancias que son atípicas y
nos quedaremos solo con los inliers
Página | 5
Resultado
Onliners. Como podemos observar tenemos 129441 instancias ya eliminando los
valores atípicos.
Página | 6
Resultado
3. Detección de valores faltantes
Como podemos observar tenemos 125 instancias con valores faltantes.
Página | 7
Aquí podemos observar que las que tienen valores faltantes se indican con un signo
de interrogación.
Página | 8
Con el preprocesamiento de Orange reemplazamos los valores faltantes con la moda
o los más frecuentes.
Este es el resultado
Página | 9
4. Eliminación de falsos predictores
Obtenemos la correlación entre nuestros atributos, no tenemos ninguna arriba de 95,
por lo tanto no tenemos falsos predictores.
Es importante mencionar que si teníamos falsos predictores que nos daban un alto
porcentaje de correlación pero estos fueron eliminados en la segunda etapa de este
documento, es decir, en el muestreo, los podemos observar en la siguiente imagen.
Página | 10
5. Errores de dominio, tipo o formato.
Los errores de dominio, se encontraban como los valores faltantes, con un ? y fueron
reemplazados por la moda como se puede observar en el punto 3 que hicimos
anteriormente. Como se manejan solo valores numéricos no tenemos más errores de
dominio o escritura.
iv. Construcción de datos
1. Normalización de valores numéricos
Con el preprocesamiento de Orange normalizamos con base a la media y desviación
estándar.
Página | 11
Este es el resultado
2. Transformación de valores categóricos a numéricos
N/A. No tenemos valores categóricos en nuestro conjunto de datos
3. Transformación de valores numéricos a categóricos
Transformamos todos nuestros valores numéricos a categóricos y lo que obtuvimos
fueron categorías en base a ciertos rangos de valores, tal y como se puede observar
en la imagen.
Página | 12
Página | 13

Otros materiales