Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE GUADALAJARA Centro Universitario de Ciencias Exactas e Ingenierías Minería de Datos Representación de datos Alumnos: Código: Carrera: Sandoval Padilla Fernando Cesar 215685409 Ingeniería informática (INNI) Saldívar Fonseca Francisco 215408162 Ingeniería informática (INNI) Hernández Sánchez Luis Ángel 215638982 Ingeniería informática (INNI) Docente: Sección: Ciclo: Román Godínez Israel D01 2021B ESTILOS DE APRENDIZAJE • En aprendizaje de clasificación, el esquema de aprendizaje se presenta con un conjunto de ejemplos clasificados de los que se espera aprender una forma de clasificar ejemplos invisibles. • En aprendizaje asociativo, Se busca cualquier asociación entre características, no solo las que predicen una clase valor. • En agrupamiento, Se buscan grupos de ejemplos que vayan juntos. • En predicción numérica, el resultado a predecir no es una clase discreta sino una cantidad numérica. ¿QUE ES UN CONCEPTO? Independientemente del tipo de aprendizaje involucrado, llamamos a lo que se aprende el “concepto” y al resultado producido por un esquema de aprendizaje “descripción del concepto”. ¿QUÉ HAY EN UN EJEMPLO? La entrada a un esquema de aprendizaje automático es un conjunto de instancias. Estas instancias son las cosas que se van a clasificar, asociar o agrupar. • En el escenario estándar, cada instancia es un ejemplo individual e independiente del concepto que se debe aprender. • Las instancias se caracterizan por los valores de un conjunto de atributos predeterminados. ¿QUÉ HAY EN UN ATRIBUTO? Cada instancia que proporciona la entrada al aprendizaje automático se caracteriza por sus valores en un conjunto fijo y predefinido de características o atributos. • El valor de un atributo para una instancia particular es una medida de la cantidad a la que se refiere el atributo. OBJETOS DE DATOS Y TIPOS DE ATRIBUTOS • Los conjuntos de datos se componen de objetos de datos. • Los objetos de datos representan una entidad. • Los objetos de datos se describen normalmente mediante atributos. • Los objetos de datos también pueden denominarse muestras, ejemplos, instancias, puntos de datos, u objetos. ¿QUÉ ES UN ATRIBUTO? Es un campo de datos que representa una característica o rasgo de un objeto de datos. • Los valores observados para un atributo dado se conocen como observaciones. • Un conjunto de atributos que se utilizan para describir un objeto dado se denomina vector de atributo o vector de características. • La distribución de datos que involucran un atributo (o variable) se llama univariante. • Una distribución bivariada implica dos atributos, y así sucesivamente. • El tipo de atributo está determinado por el conjunto de valores posibles (nominal, binario, ordinal o numérico) que puede tener el atributo. ATRIBUTOS NOMINALES Nominal significa "relativo a los nombres". • Los valores de un atributo nominal son símbolos o nombres de cosas. • Cada valor representa algún tipo de categoría, código o estado, por lo que los atributos nominales también se denominan categóricos. • Los valores no tienen ningún orden significativo. • En informática, los valores también se conocen como enumeraciones. Un ejemplo de un atributo nominal es “ocupación”, con los valores profesor, dentista, programador, granjero, etcétera. ATRIBUTOS BINARIOS Es un atributo nominal con solo dos categorías o estados: 0 o 1, donde 0 normalmente significa que el atributo está ausente y 1 significa que está presente. • Los atributos binarios se denominan Booleanos si los dos estados corresponden a cierto y falso. • Un atributo binario es simétrico si ambos estados son igualmente valiosos y tienen el mismo peso • Un atributo binario es asimétrico si los resultados de los estados no son igualmente importantes. EJEMPLOS Atributo binario simétrico: • El género al tener los estados masculino y mujer. Atributo binario asimétrico: • El positivo y negativo resultados de una prueba médica para el VIH. ATRIBUTOS ORDINALES Es un atributo con valores posibles que tienen un orden significativo o clasificación entre ellos, pero se desconoce la magnitud entre valores sucesivos. • Son útiles para registrar evaluaciones subjetivas de cualidades que no pueden medirse objetivamente. Ejemplo: Suponer que tamaño de la bebida corresponde al tamaño de las bebidas disponibles en un restaurante de comida rápida. Este atributo nominal tiene tres valores posibles: pequeño mediano, y grande. ATRIBUTOS NUMÉRICOS Es cuantitativo; es decir, es una cantidad medible, representada en valores enteros o reales. Los atributos numéricos pueden ser a escala de intervalo o en escala de relación. • Escala de intervalo: se miden en una escala de unidades de igual tamaño. Los valores de los atributos tienen orden y pueden ser positivos, 0 o negativos. • Escala de proporción: es un atributo numérico con un punto cero inherente. (múltiplo o razón de otro valor) En ambos podemos calcular la media, la mediana y la moda. ATRIBUTOS DISCRETOS VS CONTINUOS Un atributo discreto tiene un conjunto finito o numerablemente infinito de valores, que pueden representarse o no como números enteros. • Los atributos color de cabello, fumador, examen médico, y tamaño de la bebida, cada uno tiene un número finito de valores, por lo que son discretos. Si un atributo no es discreto, es continuo. Bibliografía • Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann Publishers. • Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques (3rd ed.). Morgan Kaufmann Publishers.
Compartir