Logo Studenta

A3 2_Sandoval_Padilla_Fernando_Cesar - Fernando Cesar Sandoval Padilla

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD DE GUADALAJARA
CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS
DEPARTAMENTO DE CIENCIAS COMPUTACIONALES
INTEGRANTES:
SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409
SALDIVAR FONSECA FRANCISCO – INNI – 215408162
HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982
MINERÍA DE DATOS
PROFESOR: GODINEZ ROMAN ISRAEL
SECCIÓN D01 – CICLO ESCOLAR 2021 - B
ACTIVIDAD 3.2 Entendimiento de los datos
Dataset: https://www.kaggle.com/arashnic/cinema-ticket
● Recolección de datos iniciales:
○ Requerimientos de los datos: El origen de los datos para el proyecto se
obtuvieron de la página “Kaggle” este dataset fue recuperado unos
ocho meses de historial de ventas de diferentes cines con datos
detallados de proyección, durante 2018 con localizaciones
anonimizadas codificadas.
Por lo cual la disponibilidad de los datos es reducida ya que solo se
cuenta con estos datos y no hay posibilidad de conseguir o modificar
los criterios de los datos.
○ Criterios de selección: Dado los objetivos del negocio, los atributos
seleccionados son:
■ Unique movie id definido como film_code que representa el
número único de identificación de la película en cuestión, el tipo
de información que almacena, son datos de tipo discreto y
nominales.
■ Unique cinema id definido como cinema_code que representa el
número de identificación único del cine en cuestión, el tipo de
información que almacena, son datos de tipo discreto y
nominales.
■ total sale per screening time definido como total_sales que
representa el total de ventas por tiempo de reproducción, es de
tipo discreto y nominal.
■ number of tickets solds definido como tickets_sold que
representa el número de tickets vendidos, es de tipo discreto y
nominal.
■ quarter que representa la estación o temporada del año en que
fue emitido el film, siendo estos los trimestres, es de tipo,
discreto y nominal.
Página | 2
○ Inserción de datos: Los métodos de adquisición para cada uno de los
atributos se realizaron, basados en las ventas, detalles de proyección y
localizaciones anónimas de distintos cines durante 8 meses en 2018.
○ Orígenes de datos: El origen de los datos se obtienen de un archivo
plano (csv) Excel, delimitado por comas. El número de instancias
totales que tiene el archivo antes de la adquisición, es de 142,525, y el
número de atributos es de 14. Después de que la selección se redujo a
5 atributos, el número de instancias no se vio afectado (por el
momento).
● Descripción de los datos:
○ Análisis volumétrico de los datos:
■ Número de atributos 14
■ Número de instancias 142,524
■ No contamos con alguna clase.
○ Tipos de datos de los atributos y dominios:
Diccionario de datos:
https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/ed
it?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=i
nv_335061c9-a707-499f-9783-c11778b1f5d0
Página | 3
https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/edit?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=inv_335061c9-a707-499f-9783-c11778b1f5d0
https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/edit?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=inv_335061c9-a707-499f-9783-c11778b1f5d0
https://lucid.app/lucidchart/3ac90904-0983-46c7-ba44-41cf75108857/edit?viewport_loc=-420%2C-87%2C2889%2C1270%2C0_0&invitationId=inv_335061c9-a707-499f-9783-c11778b1f5d0
● Exploración de los datos:
Análisis univariable (por atributo)
1. Resumen estadístico, en el caso de los numéricos un Box plot con la descripción
de los datos.
film_code
Página | 4
cinema_code
total_sales
tickets_sold
tickets_out
Página | 5
show_time
occu_perc
ticket_price
ticket_use
Página | 6
capacity
date
month
quarter
Página | 7
day
2. Determinación de sesgo.
film_code
Página | 8
cinema_code
total_sales
Página | 9
tickets_sold
Página | 10
tickets_out
show_time
Página | 11
occu_perc
Página | 12
ticket_price
Página | 13
ticket_use
capacity
Página | 14
date
Página | 15
month
quarter
Página | 16
day
Página | 17
3. Identificación de valores faltantes
Página | 18
4. Identificación de valores fuera de dominio
● Los valores que están fuera de dominio, al igual que con los faltantes están
representados con un signo de interrogación (?)
Análisis bivariable
1. Resumen del análisis de las combinaciones en pares de todas las variables.
Página | 19
Página | 20
Página | 21

Otros materiales