Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
05/09/2021 UNIVERSIDAD DE GUADALAJARA CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS DEPARTAMENTO DE CIENCIAS COMPUTACIONALES INTEGRANTES: SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409 SALDIVAR FONSECA FRANCISCO – INNI – 215408162 HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982 MINERÍA DE DATOS PROFESOR: GODINEZ ROMAN ISRAEL SECCIÓN D01 – CICLO ESCOLAR 2021 - B ACTIVIDAD 1.4: FUENTES DE CONJUNTOS DE DATOS ACTIVIDADES: Página | 2 1: Descripciones y ejemplificaciones: a) Sitio UCI Machine Learning Repository I: b) I: ¿Qué es el UCI Machine Learning Repository? II: ¿Qué universidad administra el repositorio? III: ¿Cuál es el objetivo del repositorio? IV: Lista las cinco bases de datos más populares: Página | 3 V: Lista las cinco bases de datos más nuevas: c) Apartado “view all data set” I: ¿Qué partes la conforman? Página | 4 II: Seleccionar y descargar un conjunto de datos por cada tarea que resuelve los algoritmos de aprendizajes automático: https://archive.ics.uci.edu/ml/datasets/Adult https://archive.ics.uci.edu/ml/datasets/Auto+MPG Página | 5 https://archive.ics.uci.edu/ml/datasets/AAAI+2013+Accepted+Papers d) Descripción de cada conjunto I: Concepto: II: Tipo de problema: III: Autores (recursos): IV: Número de instancias: Página | 6 V: Atributos de instancias y tipos de datos: I: Concepto: II: Tipo de problema: III: Autores: IV: Número de instancias: V: Atributos de instancias y tipos de datos: Página | 7 I: Concepto: II: Tipo de problema: III: Autores: IV: Número de instancias: V: Atributos de instancias y tipos de datos: I: Concepto: II: Tipo de problema: Asociación III: Autores: Página | 8 IV: Número de instancias: V: Atributos de instancias y tipos de datos: 2. Busque dos sitios webs https://datos.gob.mx/ a. Para cada uno de estos sitios web indique: i. ¿Cuál es el tipo de información que gestiona? Información demográfica y pública ii. ¿Qué información se puede encontrar en el sitio? https://datos.gob.mx/ Página | 9 Cultura y turismo, desarrollo, economía, educación, energía y medio ambiente, finanzas y contrataciones, geoespacial, gobiernos locales, infraestructuras, salud, seguridad y justicia. 1. Objetivo Cumplir con el Decreto de Datos Abiertos. 2. Tipos de usuarios objetivo Página | 10 3. Cómo se accede a los conjuntos de datos (Scraper, API, descarga directa, entre otros) Descarga directa 4. Formato (ej. Relación de base de datos, archivo de texto plano, entre otros) Página | 11 iii. Descargue en su computadora un conjunto de datos por cada sitio encontrado en el punto e identifique la siguiente información: Datos Abiertos de México - Índice de marginación (carencias poblacionales) por localidad, municipio y entidad - Índice de marginación urbana 2020 1. Concepto 2. ¿Con qué tipo de problema de aprendizaje automático se puede resolver (clasificación, regresión, asociación y agrupamiento)? Clasificación 3. Autores Fuente: Estimaciones del CONAPO con base en el INEGI, Censo de Población y Vivienda 2020. https://datos.gob.mx/busca/dataset/indice-de-marginacion-carencias-poblacionales-por-localidad-municipio-y-entidad/resource/2c69b9aa-a833-4211-96de-d5efdb5c8d1d https://datos.gob.mx/busca/dataset/indice-de-marginacion-carencias-poblacionales-por-localidad-municipio-y-entidad/resource/2c69b9aa-a833-4211-96de-d5efdb5c8d1d Página | 12 4. Número de instancias 50791 5. Atributos de las instancias 21 Página | 13 6. Tipos de datos para cada una de las instancias CVE_AGEB Enteros (Numérico) ENT Enteros (Numérico) NOM_ENT Cadena de caracteres (Texto) MUN Enteros (Numérico) NOM_MUN Cadena de caracteres (Texto) LOC Enteros (Numérico) NOM_LOC Cadena de caracteres (Texto) POB_TOT Enteros (Numérico) P6A14NAE Reales (Numérico) SBASC Reales (Numérico) PSDSS Reales (Numérico) OVSDE Reales (Numérico) OVSEE Reales (Numérico) OVSAE Reales (Numérico) OVPT Reales (Numérico) OVSREF Reales (Numérico) Página | 14 OVSINT Reales (Numérico) OSCEL Reales (Numérico) OVHAC Reales (Numérico) IM_2020 Reales (Numérico) GM_2020 Cadena de caracteres (Texto) https://www.kaggle.com/ a. Para cada uno de estos sitios web indique: i. ¿Cuál es el tipo de información que gestiona? ii. ¿Qué información se puede encontrar en el sitio? 1. Objetivo 2. Tipos de usuarios objetivo https://www.kaggle.com/ Página | 15 3. Cómo se accede a los conjuntos de datos (Scraper, API, descarga directa, entre otros) Descarga directa y visualización en línea 4. Formato (ej. Relación de base de datos, archivo de texto plano, entre otros) Página | 16 iii. Descargue en su computadora un conjunto de datos por cada sitio encontrado en el punto e identifique la siguiente información: Mall Customers Clustering Analysis | Kaggle 1. Concepto 2. ¿Con qué tipo de problema de aprendizaje automático se puede resolver (clasificación, regresión, asociación y agrupamiento)? Agrupamiento 3. Autores https://www.kaggle.com/roshansharma/mall-customers-clustering-analysis/data?select=Mall_Customers.csv Página | 17 4. Número de instancias 201 5. Atributos de las instancias Página | 18 6. Tipos de datos para cada una de las instancias Página | 19 CustomerID Reales (Numérico) Gender Booleanos (Lógicos) F ó M Age Reales (Numérico) Annual Income (k$) Reales (Numérico) Spending Score (1-100) Reales (Numérico)
Compartir