Logo Studenta

2do parcial Apuntes

¡Estudia con miles de materiales!

Vista previa del material en texto

Mientras más se aproxime R a 0 más débil es la relación lineal, los valores de R + indican una correlación positiva en la que los valores de ambas variables tienden a incrementarse juntos y los valores de R- indican una relación negativa y las variables no sufren el mismo comportamiento
Los valores de 1 y -1 representan una correlación perfecta respectivamente, dos variables perfectamente contrastadas cambian conjuntamente a una (se vuelven un 100%)
Decimos que tenemos una relación lineal cuando representados en un gráfico de dispersión, todos los puntos correspondientes a los datos pueden conectarse con una misma línea recta.
13 abril 23
Big Data
Datos que tienen una mayor variedad y que se presentan en volúmenes crecientes y a mayor velocidad.
Esto se conoce también como las 3V
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.
Variedad. - La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse perfectamente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder entender su significado y admitir metadatos.
Volumen. - La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, secuencias de clics en una página web o aplicación móvil, o equipos con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.
Velocidad. - La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.
¿Qué creen que falte para que esta información pueda ayudar a una correcta toma de decisión?
Valor y veracidad
Valor y Veracidad: Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿Cuál es la veracidad de sus datos y cuanto puede confiar en ellos?
Y ejecutivos se plantean las preguntas correctas, identifiquen patrones, formulen hipótesis informadas y predigan comportamientos
El desarrollo de marcos de código abierto tales como Hadoop (y, más recientemente, Spark) sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años siguientes, el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son los únicos que lo hacen.
NoSQL = Java
Ventajas de big data:
El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad de información.
La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.
El big data puede ayudarle a abordar una serie de actividades empresariales, desde la experiencia del cliente hasta la analítica. A continuación, recopilamos algunas de ellas.
Usos
Desarrollo de Productos
Mantenimiento predictivo
Experiencia del cliente
Fraude y cumplimiento
Machine Learning
Eficiencia operativa
Impulso a la innovación
1. El big data se caracteriza por su gran tamaño. Aunque se han desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos duplica su tamaño cada dos años aproximadamente. 
2. No basta con almacenar los datos. Para ser de algún valor, los datos deben poder utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos relevantes para el cliente y organizados de tal modo que permitan un análisis significativo— requiere una gran cantidad de trabajo. 
3. La tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache Hadoop era la tecnología más conocida utilizada para gestionar big data. Más tarde, en 2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío constante. 
Tarea: Describir cómo es un perro para una persona invidente
19 abril 23
Resumen
Es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos. Para predecir resultados. 
Esto se logra empleando varias técnicas estadísticas. 
Las características de la Minería de Datos 
1. Estadística 
2. IA 
3. Machine Learning
Esta permite filtrar todo el ruido caótico o ruido blanco y repetitivo en sus datos. Entender que es relevante y luego hacer un buen uso de esa información para evaluar resultados probables. Acelerar el ritmo de toma de decisiones informadas. 
20 abril 23
Minería de Datos
¿Quién lo utiliza?
La minería de datos se sitúa en el corazón de esfuerzos analíticos en diversas industrias y disciplinas.
Comunicaciones 	Educación	Bancos 		Seguros		Manufactura 		Retail
¿Cómo funciona?
La minería de datos, como una disciplina compuesta, representa diversos métodos o técnicas que se utilizan en diferentes capacidades analíticas que abordan una gama de necesidades organizacionales, hacen diferentes tipos de preguntas y utilizan diferentes niveles de aportación humana o reglas para llegar a una decisión
	Modelo descriptivo
Características
Descubre similitudes o agrupaciones compartidas en datos históricos para determinar razones detrás del éxito o el fracaso, como la clasificación de clientes por preferencias de productos o sentimiento.
Algunas técnicas de ejemplo incluyen:
	Agrupación en clústeres		Agrupación de registros similares
	Detección de anomalías		Identificación de valores atípicos multidimensionales
	Aprendizaje de reglas de asociación	Detección de relaciones entre registros
	Análisis de componentes principales	Detección de relaciones entre variables
Agrupación por afinidad	Agrupación de personas con intereses comunes o metas similares (por ejemplo, personas que compran X a menudo compran Y y probablemente Z)
Modelado prescriptivo: con el incremento de los datos no estructurados de la Web, campos de comentarios, libros, correo electrónico, PDFs, audio y otras fuentes de texto, la adopción de la minería de texto como disciplina relacionada con la minería de datos también ha crecido de manera considerable.
Necesita l posibilidad de analizar, filtrar y transformar con éxito datos no estructurados para incluirlos en modelos predictivos para mejorar la precisión de predicciones.
Al final, no debe ver la minería de datos como una entidad pendiente porque el procesamiento (preparación y exploración de datos) y el procesamiento (validación de modelos, calificación y monitoreo del desempeño de modelos) son igualmente esenciales.
El modelado prescriptivo se centra en variables y restricciones internas y externas para recomendar uno o más cursos de acción – por ejemplo, determinar la mejor oferta de marketing para enviar a cada cliente.
Algunas técnicas de ejemplo incluyen:
Analítica predictiva más reglas 	Creación de reglas qué pasaría sí/entonces a partir de patrones y predicción de resultados
Optimización del marketing	Simulación de mezcla de medios más ventajosa en tiempo real para lograr el más alto ROI posible
Rotaciónde clientes 
26 abril 23
Metadatos
Meta. – más allá de algo
Más allá de los datos
Definición
Conjunto de datos que describen el contenido informativo de un recurso de archivos o de información de los mismos.
Características principales
	Son altamente estructurados por que explican contenido, calidad y características de los datos
	Son precisos y muchas veces cortos
	Dan información de páginas web
Usos/para qué sirven
Según su función:
Lógicos. – Datos que explican de qué forma pueden utilizarse para hacer deducciones de resultados lógicos
Simbólicos. – Datos que detallan los datos subsimbólicos por lo que introducen sentido
Subsimbólicos. – Datos que no contienen ninguna información sobre sus significados
Según viabilidad
Inmutables. – Son los datos que no cambian independientemente de la parte del recurso que sea visible
	Mutables. – Datos diferentes de los demás, difieren de parte en parte
Ejemplo de metadato
Acabas de tomar una foto en el bosque y la subes a la computadora. Para buscarlo más fácilmente, la buscarás con una sección de metadatos
Los metadatos incluyen la descripción del sitio web, todos juegan un papel importante

Continuar navegando