Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE GUADALAJARA CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS DEPARTAMENTO DE CIENCIAS COMPUTACIONALES INTEGRANTES: SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409 SALDIVAR FONSECA FRANCISCO – INNI – 215408162 HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982 MINERÍA DE DATOS PROFESOR: GODINEZ ROMAN ISRAEL SECCIÓN D01 – CICLO ESCOLAR 2021 - B ACTIVIDAD 6.1 Procesamiento de datos Procesamiento de datos i. Integración de los datos 1. Fusión de datos N/A. Solo contamos con un conjunto de datos. 2. Adición de datos N/A ii. Selección de los datos 1. Creación de conjuntos específicos para cada tarea de descubrimiento de datos Objetivo del conjunto de datos Recomendación de género cinematográfico para cines: recomendaciones basadas en sus diferentes ubicaciones, temporadas. Restricciones de las instancias N/A Nombre del atributo Dominio Justificación de selección film_code 1471-1589 Se eligió ya que este atributo otorga los detalles de cada película cinema_code 32-637 Se eligió ya que este atributo otorga todos los detalles de cada cine total_sales 20k-1.26b Se eligió ya que este atributo otorga las ventas totales de cada cine show_time 1-60 Se eligió ya que este atributo otorga el tiempo de duración por película quarter 1-4 Se eligió ya que este atributo nos otorga la temporada de proyección de la película Página | 2 Objetivo del conjunto de datos Recomendación de ubicación de próximos cines: predicción de futuras locaciones que resulten exitosas dentro de los lineamientos del negocio. Restricciones de las instancias N/A Nombre del atributo Dominio Justificación de selección cinema_code 32 - 637 Se eligió ya que este atributo otorga todos los detalles de cada cine total_sales 20k -1.26b Se eligió ya que este atributo otorga las ventas totales de cada cine occu_perc 0 -147.5 Se eligió ya que este atributo otorga el porcentaje que fue ocupado tickets_sold 1 - 8499 Se eligió ya que este atributo otorga las entradas vendidas tickets_out 0 - 311 Se eligió ya que este atributo otorga las entradas canceladas 2. Selección de subconjuntos de datos (Muestreo) Dado nuestro conjunto de datos se optó por elegir la reducción de dimensionalidad de forma manual, tomando los atributos antes mencionados en el punto anterior, con ayuda de la herramienta “Select columns” de Orange, como se muestra a continuación. Página | 3 Página | 4 Este es el resultado de la selección realizada por Orange. iii. Limpieza de datos 1. Eliminación de atributos con poca variabilidad N/A: Dado los datos en nuestro dataset ya que todos los atributos son de tipo numéricos y no contamos con atributos categóricos la variabilidad entre instancias no aplica. 2. Identificación de valores erróneos (outliers y typos) Outliers. como podemos observar contamos con 13083 instancias que son atípicas y nos quedaremos solo con los inliers Página | 5 Resultado Onliners. Como podemos observar tenemos 129441 instancias ya eliminando los valores atípicos. Página | 6 Resultado 3. Detección de valores faltantes Como podemos observar tenemos 125 instancias con valores faltantes. Página | 7 Aquí podemos observar que las que tienen valores faltantes se indican con un signo de interrogación. Página | 8 Con el preprocesamiento de Orange reemplazamos los valores faltantes con la moda o los más frecuentes. Este es el resultado Página | 9 4. Eliminación de falsos predictores Obtenemos la correlación entre nuestros atributos, no tenemos ninguna arriba de 95, por lo tanto no tenemos falsos predictores. Es importante mencionar que si teníamos falsos predictores que nos daban un alto porcentaje de correlación pero estos fueron eliminados en la segunda etapa de este documento, es decir, en el muestreo, los podemos observar en la siguiente imagen. Página | 10 5. Errores de dominio, tipo o formato. Los errores de dominio, se encontraban como los valores faltantes, con un ? y fueron reemplazados por la moda como se puede observar en el punto 3 que hicimos anteriormente. Como se manejan solo valores numéricos no tenemos más errores de dominio o escritura. iv. Construcción de datos 1. Normalización de valores numéricos Con el preprocesamiento de Orange normalizamos con base a la media y desviación estándar. Página | 11 Este es el resultado 2. Transformación de valores categóricos a numéricos N/A. No tenemos valores categóricos en nuestro conjunto de datos 3. Transformación de valores numéricos a categóricos Transformamos todos nuestros valores numéricos a categóricos y lo que obtuvimos fueron categorías en base a ciertos rangos de valores, tal y como se puede observar en la imagen. Página | 12 Página | 13
Compartir