Logo Studenta

A1 4_Sandoval_Padilla_Fernando_Cesar - Fernando Cesar Sandoval Padilla

¡Este material tiene más páginas!

Vista previa del material en texto

05/09/2021 
 
 
UNIVERSIDAD DE GUADALAJARA 
CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS 
DEPARTAMENTO DE CIENCIAS COMPUTACIONALES 
INTEGRANTES: 
SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409 
SALDIVAR FONSECA FRANCISCO – INNI – 215408162 
HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982 
 
 
 
 
 
 
 
MINERÍA DE DATOS 
PROFESOR: GODINEZ ROMAN ISRAEL 
SECCIÓN D01 – CICLO ESCOLAR 2021 - B 
ACTIVIDAD 1.4: FUENTES DE CONJUNTOS DE DATOS 
 
ACTIVIDADES: 
Página | 2 
 
1: Descripciones y ejemplificaciones: 
a) Sitio UCI Machine Learning Repository 
I: 
 
b) I: ¿Qué es el UCI Machine Learning Repository? 
 
II: ¿Qué universidad administra el repositorio? 
 
III: ¿Cuál es el objetivo del repositorio? 
 
IV: Lista las cinco bases de datos más populares: 
Página | 3 
 
 
V: Lista las cinco bases de datos más nuevas: 
 
c) Apartado “view all data set” 
 
I: ¿Qué partes la conforman? 
Página | 4 
 
 
II: Seleccionar y descargar un conjunto de datos por cada tarea que resuelve 
los algoritmos de aprendizajes automático: 
 
https://archive.ics.uci.edu/ml/datasets/Adult 
 
https://archive.ics.uci.edu/ml/datasets/Auto+MPG 
 
Página | 5 
 
 
https://archive.ics.uci.edu/ml/datasets/AAAI+2013+Accepted+Papers 
 
d) Descripción de cada conjunto 
 
I: Concepto: 
 
 
II: Tipo de problema: 
 
III: Autores (recursos): 
 
IV: Número de instancias: 
 
Página | 6 
 
V: Atributos de instancias y tipos de datos: 
 
 
I: Concepto: 
 
II: Tipo de problema: 
 
III: Autores: 
 
 
IV: Número de instancias: 
 
V: Atributos de instancias y tipos de datos: 
 
Página | 7 
 
 
 
I: Concepto: 
 
II: Tipo de problema: 
 
III: Autores: 
 
IV: Número de instancias: 
 
V: Atributos de instancias y tipos de datos: 
 
 
I: Concepto: 
 
 
II: Tipo de problema: 
Asociación 
 
III: Autores: 
Página | 8 
 
 
IV: Número de instancias: 
 
V: Atributos de instancias y tipos de datos: 
 
 
 
 
2. Busque dos sitios webs 
https://datos.gob.mx/ 
a. Para cada uno de estos sitios web indique: 
i. ¿Cuál es el tipo de información que gestiona? 
Información demográfica y pública 
ii. ¿Qué información se puede encontrar en el sitio? 
https://datos.gob.mx/
Página | 9 
 
Cultura y turismo, desarrollo, economía, educación, energía y medio ambiente, 
finanzas y contrataciones, geoespacial, gobiernos locales, infraestructuras, 
salud, seguridad y justicia. 
 
1. Objetivo 
Cumplir con el Decreto de Datos Abiertos. 
 
2. Tipos de usuarios objetivo 
Página | 10 
 
 
3. Cómo se accede a los conjuntos de datos (Scraper, API, descarga directa, 
entre otros) 
Descarga directa 
 
4. Formato (ej. Relación de base de datos, archivo de texto plano, entre otros) 
Página | 11 
 
 
 
iii. Descargue en su computadora un conjunto de datos por cada sitio 
encontrado en el punto e identifique la siguiente información: 
Datos Abiertos de México - Índice de marginación (carencias poblacionales) por 
localidad, municipio y entidad - Índice de marginación urbana 2020 
1. Concepto 
 
2. ¿Con qué tipo de problema de aprendizaje automático se puede resolver 
(clasificación, regresión, asociación y agrupamiento)? 
Clasificación 
3. Autores 
Fuente: Estimaciones del CONAPO con base en el INEGI, Censo de Población 
y Vivienda 2020. 
https://datos.gob.mx/busca/dataset/indice-de-marginacion-carencias-poblacionales-por-localidad-municipio-y-entidad/resource/2c69b9aa-a833-4211-96de-d5efdb5c8d1d
https://datos.gob.mx/busca/dataset/indice-de-marginacion-carencias-poblacionales-por-localidad-municipio-y-entidad/resource/2c69b9aa-a833-4211-96de-d5efdb5c8d1d
Página | 12 
 
 
4. Número de instancias 
50791 
 
5. Atributos de las instancias 
21 
Página | 13 
 
 
6. Tipos de datos para cada una de las instancias 
CVE_AGEB Enteros (Numérico) 
ENT Enteros (Numérico) 
NOM_ENT Cadena de caracteres (Texto) 
MUN Enteros (Numérico) 
NOM_MUN Cadena de caracteres (Texto) 
LOC Enteros (Numérico) 
NOM_LOC Cadena de caracteres (Texto) 
POB_TOT Enteros (Numérico) 
P6A14NAE Reales (Numérico) 
SBASC Reales (Numérico) 
PSDSS Reales (Numérico) 
OVSDE Reales (Numérico) 
OVSEE Reales (Numérico) 
OVSAE Reales (Numérico) 
OVPT Reales (Numérico) 
OVSREF Reales (Numérico) 
Página | 14 
 
OVSINT Reales (Numérico) 
OSCEL Reales (Numérico) 
OVHAC Reales (Numérico) 
IM_2020 Reales (Numérico) 
GM_2020 Cadena de caracteres (Texto) 
 
 
https://www.kaggle.com/ 
a. Para cada uno de estos sitios web indique: 
i. ¿Cuál es el tipo de información que gestiona? 
 
ii. ¿Qué información se puede encontrar en el sitio? 
1. Objetivo 
 
2. Tipos de usuarios objetivo 
https://www.kaggle.com/
Página | 15 
 
 
3. Cómo se accede a los conjuntos de datos (Scraper, API, 
descarga directa, entre otros) 
Descarga directa y visualización en línea 
 
4. Formato (ej. Relación de base de datos, archivo de texto plano, entre otros) 
 
 
 
Página | 16 
 
 
 
iii. Descargue en su computadora un conjunto de datos por cada sitio 
encontrado en el punto e identifique la siguiente información: 
Mall Customers Clustering Analysis | Kaggle 
1. Concepto 
 
2. ¿Con qué tipo de problema de aprendizaje automático se 
puede resolver (clasificación, regresión, asociación y 
agrupamiento)? 
Agrupamiento 
 
3. Autores 
https://www.kaggle.com/roshansharma/mall-customers-clustering-analysis/data?select=Mall_Customers.csv
Página | 17 
 
 
4. Número de instancias 
201 
 
5. Atributos de las instancias 
 
Página | 18 
 
 
 
 
6. Tipos de datos para cada una de las instancias 
Página | 19 
 
 
CustomerID Reales (Numérico) 
Gender Booleanos (Lógicos) F ó M 
Age Reales (Numérico) 
Annual Income (k$) Reales (Numérico) 
Spending Score (1-100) Reales (Numérico)

Otros materiales