Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE GUADALAJARA CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS DEPARTAMENTO DE CIENCIAS COMPUTACIONALES INTEGRANTES: SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409 SALDIVAR FONSECA FRANCISCO – INNI – 215408162 HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982 MINERÍA DE DATOS PROFESOR: GODINEZ ROMAN ISRAEL SECCIÓN D01 – CICLO ESCOLAR 2021 - B ACTIVIDAD 3.2 Entendimiento de los datos Dataset: https://www.kaggle.com/arashnic/cinema-ticket ● Recolección de datos iniciales: ○ Requerimientos de los datos: El origen de los datos para el proyecto se obtuvieron de la página “Kaggle” este dataset fue recuperado unos ocho meses de historial de ventas de diferentes cines con datos detallados de proyección, durante 2018 con localizaciones anonimizadas codificadas. Por lo cual la disponibilidad de los datos es reducida ya que solo se cuenta con estos datos y no hay posibilidad de conseguir o modificar los criterios de los datos. ○ Criterios de selección: Dado los objetivos del negocio, los atributos seleccionados son: ■ Unique movie id definido como film_code que representa el número único de identificación de la película en cuestión, el tipo de información que almacena, son datos de tipo discreto y nominales. ■ Unique cinema id definido como cinema_code que representa el número de identificación único del cine en cuestión, el tipo de información que almacena, son datos de tipo discreto y nominales. ■ total sale per screening time definido como total_sales que representa el total de ventas por tiempo de reproducción, es de tipo discreto y nominal. ■ number of tickets solds definido como tickets_sold que representa el número de tickets vendidos, es de tipo discreto y nominal. ■ quarter que representa la estación o temporada del año en que fue emitido el film, siendo estos los trimestres, es de tipo, discreto y nominal. Página | 2 ○ Inserción de datos: Los métodos de adquisición para cada uno de los atributos se realizaron, basados en las ventas, detalles de proyección y localizaciones anónimas de distintos cines durante 8 meses en 2018. ○ Orígenes de datos: El origen de los datos se obtienen de un archivo plano (csv) Excel, delimitado por comas. El número de instancias totales que tiene el archivo antes de la adquisición, es de 142,525, y el número de atributos es de 14. Después de que la selección se redujo a 5 atributos, el número de instancias no se vio afectado (por el momento). ● Descripción de los datos: ○ Análisis volumétrico de los datos: ■ Número de atributos 14 ■ Número de instancias 142,524 ■ No contamos con alguna clase. ○ Tipos de datos de los atributos y dominios: Diccionario de datos: https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/ed it?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=i nv_335061c9-a707-499f-9783-c11778b1f5d0 Página | 3 https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/edit?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=inv_335061c9-a707-499f-9783-c11778b1f5d0 https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/edit?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=inv_335061c9-a707-499f-9783-c11778b1f5d0 https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/edit?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=inv_335061c9-a707-499f-9783-c11778b1f5d0 ● Exploración de los datos: Análisis univariable (por atributo) 1. Resumen estadístico, en el caso de los numéricos un Box plot con la descripción de los datos. film_code Página | 4 cinema_code total_sales tickets_sold tickets_out Página | 5 show_time occu_perc ticket_price ticket_use Página | 6 capacity date month quarter Página | 7 day 2. Determinación de sesgo. film_code Página | 8 cinema_code total_sales Página | 9 tickets_sold Página | 10 tickets_out show_time Página | 11 occu_perc Página | 12 ticket_price Página | 13 ticket_use capacity Página | 14 date Página | 15 month quarter Página | 16 day Página | 17 3. Identificación de valores faltantes Página | 18 4. Identificación de valores fuera de dominio ● Los valores que están fuera de dominio, al igual que con los faltantes están representados con un signo de interrogación (?) Análisis bivariable 1. Resumen del análisis de las combinaciones en pares de todas las variables. Página | 19 Página | 20 Página | 21
Compartir