Logo Studenta

Taller de Modelos de Análisis y Decisión_2

¡Este material tiene más páginas!

Vista previa del material en texto

Taller de Modelos de
Análisis y Decisión
PRESENTACIÓN GRUPAL
¿Quién eres? (Cual es tu nombre, tu edad, hobbies)
¿Por qué estudias comunicación?
¿Qué entiendes por “Modelos de análisis y decisión"?.
¿Cuáles son tus expectativas de la clase?
¿Por qué crees que es relevante esta materia?
Método de Evaluación
50% Proyecto Final y Exámenes.
20% Participación en Clase.
30% Tareas (Lecturas, Videos e Investigación).
Mínimo de Asistencia 80% .
Los Métodos Cuantitativos
Los métodos cuantitativos son un conjunto de estrategias, técnicas y herramientas de investigación enfocadas en las mediciones objetivas y el análisis estadístico, matemático o numérico de los datos recogidos a través de sondeos, cuestionarios y encuestas, o mediante el uso de datos estadísticos preexistentes utilizando técnicas computacionales. 
Generalmente, estos métodos se utilizan como parte de la investigación cuantitativa, la cual se centra en la recopilación de datos numéricos y su generalización entre grupos de personas o con el fin de explicar un fenómeno concreto
El objetivo de los métodos cuantitativos para una investigación es determinar la relación entre una variable independiente y una variable dependiente dentro de una población.
¿Qué son los métodos Cuantitativos? 
¿Para que se usan los métodos cuantitativos?
El objetivo general de un estudio de investigación cuantitativa es clasificar las características, contarlas y construir modelos estadísticos en un intento de explicar lo que se observa.
La investigación cuantitativa se ocupa de números, lógica y una posición objetiva. Además, se centra en recolectar datos numéricos y de la generación de una variedad de ideas sobre un problema de investigación de manera espontánea.
Como investigador, tienes la opción de optar por la recolección de datos en línea o utilizar los métodos tradicionales de recolección de datos a través de la investigación cuantitativa. Sin embargo, necesitarás herramientas computacionales, estadísticas y matemáticas para obtener resultados.
¿Para que se usan los métodos cuantitativos?
Las características principales de los métodos cuantitativos son: 
Los datos generalmente se recopilan utilizando instrumentos de investigación estructurados.
En el método cuantitativo el tamaño de la muestra es mayor que en el método cualitativo.
El estudio de investigación generalmente se puede replicar o repetir, dada su alta confiabilidad.
La pregunta que se aplica está claramente establecida y lista para registrar respuestas objetivas.
Todos los aspectos del estudio están cuidadosamente diseñados antes de la recolección de datos.
Los datos están en forma de números y estadísticas, a menudo organizados en tablas, cuadros, figuras u otras formas no textuales.
El proyecto se puede utilizar para generalizar conceptos más ampliamente, predecir resultados futuros o investigar relaciones causales.
El investigador utiliza herramientas, como cuestionarios o software de computadora, para recopilar datos numéricos.
¿Qué métodos cuantitativos existen?
Aunque existen muchos métodos cuantitativos para recopilar datos, a continuación, te presentaremos los más comunes y ampliamente utilizados, tanto para la recopilación de datos offline, como para la recopilación de datos online.
•Muestreo probabilístico 
•Entrevistas
•Encuestas y cuestionarios
•Observación 
•Observación estructurada
•Revisión de documentos
Método de Muestreo probabilístico
El Método de muestreo en el que se utiliza alguna forma de selección aleatoria y permite a los investigadores hacer una declaración de probabilidad basada en datos recolectados de la población objetivo. 
Una de las mejores cosas sobre el muestreo probabilístico es que permite a los investigadores recolectar los datos de representantes de la población que les interesa estudiar. Además, los datos se recogen de forma aleatoria a partir de la muestra seleccionada, lo que descarta la posibilidad de que se produzca un sesgo de muestreo.
 
Existen tres tipos principales de muestreo probabilístico:
•Muestreo aleatorio simple: Con mayor frecuencia se elige al grupo demográfico objetivo para su inclusión en la muestra. 
•Muestreo sistemático: Cualquiera de los grupos demográficos objetivo se incluiría en la muestra, pero sólo la primera unidad para su inclusión en la muestra es seleccionada al azar.
•Muestreo estratificado: Da la oportunidad de seleccionar cada unidad de un grupo particular de la audiencia objetivo mientras se crea una muestra. Es útil cuando los investigadores son selectivos sobre la inclusión de un grupo particular de personas en la muestra, es decir, sólo hombres o mujeres, gerentes o ejecutivos, personas que trabajan en una industria específica.
Encuestas y Cuestionarios
Las encuestas o cuestionarios son métodos cuantitativos de recolección de datos que se pueden realizar utilizando un software de encuestas en línea. 
Las encuestas están diseñadas para legitimar el comportamiento y la confianza de los encuestados. Con mayor frecuencia, las preguntas de escala de calificación constituyen el grueso de las encuestas cuantitativas, ya que ayudan a simplificar y cuantificar la actitud o el comportamiento de los encuestados. 
Encuestas y Cuestionarios
•Encuesta en web: Este es uno de los métodos más confiables para la investigación en línea. Un cuestionario basado en la web se recibe con un correo electrónico que contiene el enlace de la encuesta.
Al ser una encuesta rentable, más rápida y de mayor alcance, las encuestas basadas en la web son las preferidas por los investigadores. El principal beneficio es la flexibilidad, los encuestados son libres de responder a la encuesta en su tiempo libre, ya sea utilizando una computadora de escritorio, portátil, tableta o teléfono móvil.
•Encuesta por correo electrónico: Aquí, la encuesta se envía por correo a una gran cantidad de población de la muestra, lo que permite al investigador conectarse con una amplia gama de público.
El cuestionario por email explica la razón por la que se está llevando a cabo la investigación y ofrece beneficios como los recordatorios e incentivos para completar la encuesta, ayudando a mejorar drásticamente la tasa de respuesta.
•Encuesta por redes sociales: Realizar encuestas a través de las plataformas de redes sociales permite recolectar una gran cantidad de datos valiosos de un gran número de personas, generalmente de forma inmediata, accesible y de bajo costo.
Además, este tipo de encuestas son idóneas para aumentar el reconocimiento de tu marca, ya que te permiten interactuar con un amplio público y conocer sus gustos y necesidades.
Observación cuantitativa
La observación cuantitativa es un método en el que los investigadores recopilan datos cuantitativos a través de observaciones sistemáticas utilizando técnicas como el recuento del número de personas presentes en un evento específico y en un lugar específico o el número de personas que asisten al evento en un lugar designado.
Para la recolección de datos a través de métodos cuantitativos, los investigadores tienen un enfoque de observación naturalista que necesita habilidades de observación y sentido agudo para obtener los datos numéricos sobre el “qué” y no sobre el “por qué” y el “cómo”.
Revisión de Documentos
La revisión de documentos es uno de los métodos cuantitativos de recolección de datos más utilizados, este proceso es utilizado para recopilar datos después de revisar los documentos existentes. 
Es una forma eficiente y eficaz de recopilar datos, ya que los documentos son manejables y son el recurso práctico para obtener datos calificados del pasado. 
Además de fortalecer y apoyar la investigación mediante el suministro de datos suplementarios, la revisión de documentos de investigación ha surgido como uno de los métodos beneficiosos para recopilar datos cuantitativos de investigación. 
Revisión de Documentos
Hay tres tipos principales de documentos que se están analizando para recopilar datos de investigación cuantitativos:
Registrospúblicos: Bajo esta revisión de documentos, se analizan los registros oficiales y en curso de una organización para su posterior investigación. Ejemplo: informes anuales, manuales de políticas, actividades estudiantiles, etc.
Documentos personales: A diferencia de los documentos públicos, este tipo de revisión de documentos se ocupa de los relatos personales individuales de las acciones, el comportamiento, la salud, el físico, etc. de los individuos. Por ejemplo, la altura y el peso de los estudiantes, la distancia que viajan para asistir a la escuela, etc.
Evidencia física: La evidencia física o los documentos físicos se trata de los logros previos de un individuo o de una organización en términos de crecimiento monetario y escalable.
Importancia de los métodos cuantitativos de investigación
Los métodos de recolección de datos cuantitativos son exhaustivos y quizá los únicos que podrían mostrar resultados analíticos en cuadros y gráficos. La información de calidad te dará resultados precisos, lo cual hace de este proceso uno de los más importantes para la investigación. 
Como los métodos de recolección de datos cuantitativos son de naturaleza numérica, representan tanto información definitiva como objetiva. 
Comúnmente, estos datos se utilizan para estudiar los eventos o niveles de la concurrencia y se recogen a través de un cuestionario estructurado que hace preguntas que comienzan por lo regular con cuánto o cuántos. 
Cualquier método tradicional o en línea de recolección de datos que ayude en la recolección de datos numéricos es un método cuantitativo de recolección de datos
Pasos para realizar una investigación utilizando métodos cuantitativos
A continuación, tenemos los pasos para realizar una investigación con ayuda de los métodos cuantitativos:
1.Identifica el problema de investigación: Debes indicar de manera clara y concisa el problema de tu estudio de investigación. Incluye la pregunta de investigación que guiará la revisión de fuentes, la recolección y el análisis de los resultados.
2.Revisa la información previa: Revisa los estudios realizados previamente sobre el tema. Observa dónde existen elementos clave que pueden ser aclarados.
3.Describe el marco teórico: Proporciona un resumen de la teoría o hipótesis que sustentan el estudio. Si es necesario, define conceptos desconocidos o complejos y proporciona la información de antecedentes para ubicar el problema de investigación en el contexto adecuado.
Pasos para realizar una investigación utilizando métodos cuantitativos
4.Selecciona la metodología: La sección de métodos cuantitativos para una investigación debe describir cómo se logrará cada objetivo del estudio a través del método elegido. Asegúrate de proporcionar suficientes detalles para que el lector pueda hacer una evaluación informada de los métodos que se utilizan para obtener resultados asociados con el estudio.
5.Recolecta los datos: Una vez que hayas definido claramente los pasos anteriores, es momento de iniciar la recolección de datos, por ejemplo, a través del levantamiento de encuestas online. Fija un cronograma de trabajo para poder contar con los datos requeridos en tiempo y forma.
6.Analiza los resultados: El hallazgo de la investigación debe escribirse objetivamente. En los estudios cuantitativos, es común usar gráficos, tablas, cuadros y otros elementos no textuales para ayudar al lector a comprender los datos. Asegúrate de utilizar elementos que te ayuden a aclarar los puntos clave.
Pasos para realizar una investigación utilizando métodos cuantitativos
7.Crea una conclusión: Las discusiones que genera el estudio deben ser analíticas, lógicas y exhaustivas. Además, debes combinar los hallazgos en relación con los identificados en la revisión de la literatura, y ubicarlos dentro del contexto del marco teórico que sustenta el estudio. Finaliza resumiendo el tema y proporciona un comentario final y una evaluación del estudio.
Ventajas de utilizar métodos cuantitativos para una investigación
Entre las principales ventajas del uso de métodos cuantitativos para realizar una investigación, se encuentran las siguientes:
•Permite un estudio más amplio, que involucra un mayor número de sujetos y mejora la generalización de los resultados.
•Permite una mayor objetividad y precisión de los resultados.
•La aplicación de estándares bien establecidos significa que la investigación puede ser replicada, luego analizada y comparada con estudios similares.
•Puede resumir vastas fuentes de información y hacer comparaciones entre categorías y a lo largo del tiempo.
•El sesgo personal se puede evitar manteniendo una distancia de la muestra de estudio y utilizando técnicas computacionales aceptadas.
Desventajas de utilizar métodos cuantitativos para una investigación
Algunas limitaciones de los métodos cuantitativos son las siguientes:
•Los datos cuantitativos son más eficientes y capaces de probar hipótesis, pero pueden perder detalles contextuales.
•Utiliza un enfoque estático y rígido, por lo tanto, emplea un proceso inflexible de descubrimiento.
•El desarrollo de preguntas estándar por parte de los investigadores puede conducir a un sesgo estructural y una representación falsa, donde los datos realmente reflejan la opinión del investigador en lugar del sujeto participante.
•Los resultados proporcionan menos detalles sobre el comportamiento, las actitudes y la motivación.
•El proceso de recolección de datos es mucho más limitado y generalmente, superficial.
•Los resultados son limitados, proporcionan descripciones numéricas y generalmente menos elaboradas de la percepción de los sujetos de estudio.
1.1 Proposiciones Lógicas y formas de Medición
¿Qué es Lógica?
Lógica es el estudio de los principios y métodos utilizados para distinguir el razonamiento correcto del incorrecto.
¿Pero que pasa en este proceso?
Cuando razonamos sobre cualquier asunto, elaboramos argumentos para apoyar nuestras conclusiones En nuestros razonamientos exponemos las razones que creemos justifican nuestras ideas. Sin embargo, las razones que ofrecemos no siempre son buenas. Con el razonamiento elaboramos argumentos (algunos correctos y otros incorrectos) que podemos formular de manera escrita o hablada. 
¿El argumento cumple su objetivo?
Si al confirmar que las premisas de un argumento son verdaderas se garantiza la verdad de la conclusión, entonces. El razonamiento es correcto, de otra manera es incorrecto-razonar es un arte y una ciencia, es algo que hacemos tan bien como lo entendamos. 
Dar razones puede ser algo que surge de manera natural, pero nuestra habilidad en el arte de construir argumentos y probarlos puede fortalecerse con la práctica. 
Es más probable que razone correctamente alguien que ha desarrollado esta habilidad, qué alguien que nunca ha pensado sobre los principios que esto implica.
El razonamiento no es la única forma en la que sustentamos las afirmaciones que hacemos o aceptamos. A menudo, simplemente nos dejamos llevar por los hábitos, sin ninguna reflexión. 
Proposiciones
Las proposiciones son el material de nuestro razonamiento. Una proposición afirma que algo es (o no es) el caso; cualquier proposición puede ser afirmada o negada. 
Es posible que la verdad (o falsedad) de algunas proposiciones por ejemplo, la proposición: 
--¨existe vida en algún otro planeta de nuestra galaxia¨-- no se conozca nunca. Pero esa proposición, como cualquier otra, tiene que ser verdadera o falsa.
Así, las proposiciones difieren de la preguntas, de las ordenes y de las exclamaciones. Ninguna de las anteriores se puede afirmar o negar. La verdad y la falsedad siempre se aplican a las proposiciones, pero no se aplican a las preguntas, ni a las ordenes ni a las exclamaciones.
Proposición es el termino empleado para referirnos a aquello para lo que las oraciones declarativas se utilizan normalmente para aseverar.
Las oraciones son partes de una lengua, pero las proposiciones no están atadas a ninguna lengua dada. Estas cuatro oraciones.4
It is raining.(Inglés)
Está lloviendo. (Español)
il pleut. (Francés)
Es regnet. (Alemán)
Están escritas en diferente lengua pero tienen un solo significado, las cuatro oraciones, que utilizan palabras muy distintas, se pueden emplear para aseverar la misma proposición, o el mismo enunciado. El termino enunciado no es un sinónimo exacto de proposición, pero en lógica se utiliza en el mismo sentido. 
A continuación un par de ejemplos de proposiciones
La misma oración puede emplearse para expresar diferentes enunciados si es que el contexto cambia. Por ejemplo, la siguiente oración:
El estado más grande de Estados Unidos alguna vez fue una república.
Alguna vez fue un enunciado (o proposición) verdadero acerca de Texas, pero ahora es un enunciado falso sobre Alaska. Estas mismas palabras aseveran diferentes proposiciones en diferentes momentos.
La proposición anterior es un ejemplo de simple, pero muchas proposiciones son compuestas, contienen otras proposiciones, como la que veremos a continuación: 
Los estadounidenses y los rusos se dirigían rápidamente hacia una confluencia en el Elba. Los británicos se encontraban en las puertas de Hamburgo y Bremen, y amenazaban con aislar a Alemania desde la Dinamarca ocupada. En Italia, la ciudad de Bolonia cayo y las fuerzas aliadas de Harold Alexander iniciaban la ofensiva en el valle del Po. Los rusos, que habían tomado Viena el 13 de abril, se dirigían al Danubio.
Varias de las proposiciones contenidas en este párrafo son proposiciones compuestas. ¨Los británicos se encontraban en las puertas de Hamburgo y Bremen¨, por ejemplo, es la conjunción de dos proposiciones. ¨los británicos se encontraban en la puerta de Hamburgo¨ y ¨los británicos se encontraban en la puerta de Bremen (los británicos) amenazaban con aislar Alemania desde la Dinamarca ocupada¨. En este pasaje, cada proposición es aseverada, esto es, sé supone que cada una es verdadera. Aseverar una proposición conjuntiva es equivalente a aseverar cada uno de los componentes de la proposición por separado.
Sin embargo, algunas proposiciones compuestas no aseveran la verdad de sus componentes, por ejemplo, en las proposiciones disyuntivas (o alternativas), como la siguiente:
Los tribunales de distrito son útiles o no son útiles.
No se asevera ninguno de los componentes, únicamente se asevera la disyunción compuesta, ¨o una cosa o la otra¨. Si esta proposición disyuntiva es verdadera, cualquiera de sus componentes podría ser falsa.
Algunas proposiciones compuestas son hipotéticas ( o condicionales),como el famoso comentario del librepensador del siglo XVIII, François Voltaire.
Si Dios no existe, sería necesario inventarlo
En el cual, una vez más, no se asevera ninguno de sus componentes. Aquí no se asevera la proposición ¨Dios no existe¨. Tampoco la proposición ¨seria necesario inventarlo¨. El enunciado hipotético o condicional solo asevera la proposición ¨si, entonces¨, y este enunciado puede ser verdadero aun cuando ambos componentes sean falsos.
Después de haber definido que es lógica y que entendemos por proposición, llegamos al siguiente concepto de suma importancia para esta clase, que es la Lógica Proposicional. 
En un intento por sistematizar el razonamiento matemático, surge el concepto de lógica proposicional. Se trabaja con proposiciones lógicas; las cuales poseen un valor de verdad (verdadero o falso). Por convención, las denotaremos con letras minúsculas. Por ejemplo: x,y,d,z,
X=El perro es un cuadrúpedo
Y=4 es un numero par
D= 18 es múltiplo de 3 y múltiplo de 6
Z=
Estas proposiciones tienen un valor de verdad. En particular x, y, D son verdaderas mientras que z es falsa.
Existen proposiciones simples y compuestas. Por ejemplo x, y, z, son simples mientras que d es compuesta
No son ejemplos de proposiciones lógicas:
P:¿Qué hora es?
Q: Borra la pizarra 
R:Tengo sueño
La proposición p:Bogotá es una ciudad de Colombia y Rio de Janeiro es una ciudad de Brasil es una proposición compuesta.
Está formada por dos proposiciones simples: q: Bogotá es una ciudad de Colombia y r: Rio de Janeiro es una ciudad de Brasil ; las cuales están unidas por el conectivo lógico "y".
(Negación): Sea p una proposición lógica. La negación de p se denota y toma el valor de verdad contrario a p
Si p: Dubái es una ciudad de Colombia, su negación es Dubái no es una ciudad de Colombia .
Conectivos lógicos 
En lógica, una conectiva lógica, o también conectiva es un símbolo o palabra que se utiliza para conectar dos fórmulas bien formadas o sentencias, de modo que el valor de verdad de la fórmula compuesta depende del valor de verdad de las fórmulas componentes
Se definen los conectivos lógicos:
∧: Conjunción ("y")
∨: Disyunción ("o").
⊻: Disyunción Exclusiva ("o bien").
⇒: Implicancia ("entonces").
⇔: Equivalencia ("si y sólo si").
1.2 Hipótesis y Tipo de Variables
Como introducción a este módulo es importante conocer cuáles son los pasos dentro del método científico: 
Hacer una pregunta/Plantear un problema
Investigar el Tema
Elaborar una hipótesis
Prueben Hipótesis y hacer experimentación
Analizar los Datos y Obtener una conclusión
Compartan los resultados
Dentro de estos pasos nos centraremos en la elaboración de Hipótesis….. las hipótesis estadísticas. 
La definición de esta es la siguiente:
Es la suposición que se realiza acerca de las características de una población. Es utilizada para verificarla o rechazarla tras realizar el estudio estadístico pertinente.
En cuanto a la estadística, una parte fundamental de ella es el trabajo con hipótesis. Las hipótesis son afirmaciones realizadas acerca de las características de una población o de la relación que pueda existir entre variables.
Las hipótesis podrán verificarse o rechazarse en función de los resultados que arroje el estudio estadístico realizado. En este artículo te explicamos los diferentes tipos de hipótesis que hay y un ejemplo para que lo entiendas a la perfección.
Existen distinto tipos de hipótesis estadísticas:
Causales: Como su propio nombre indica, este tipo de hipótesis tienen el objetivo de explicar los factores de causalidad existentes entre dos o más variables estadísticas. Si bien es cierto, causalidad no es lo mismo que correlación, pero sí que es necesario que para que exista causalidad haya correlación.
Correlacionales: Estas hipótesis tratan de establecer qué tipo de relación existe entre dos variables. Por ejemplo, cuanto más deporte realice una persona, mejor condición física tendrá. Este tipo de correlación es positiva. Sin embargo, cuanto más deporte haga una persona, menor número de problemas de salud sufrirá, existiendo una correlación negativa.
Diferencia de grupos: Tienen el objetivo de crear una distinción entre dos o más grupos estudiados en función de las características de los mismos. Un ejemplo de este tipo podría ser que las mujeres presentan un menor número de partes de accidente de coche que los hombres.
Descriptivas: Son aquellas hipótesis que tienen la función de informar acerca de la relación existente entre dos o más variables.
1.3 Estadística Descriptiva e Inferencial 
Medidas Estadísticas
Es imprescindible que se tenga el conocimiento de la estadística, que es uno de los pilares que dan soporte para calcular adecuadamente el posible efecto de los riesgos. A continuación, se revisan las principales medidas estadísticas.
Las medidas estadísticas se clasifican en:
Medidas de tendencia central:
1. Media
2. Mediana
3. Moda
Medidas de posición:
1. Cuartiles
2. Deciles
3. Percentiles
Medidas Estadísticas
Medidas de dispersión:
1. Rango o Recorrido
2. Varianza
3. Desviación estándar
4. Coeficiente de variación
Medidas de forma:
1. Sesgo
2. Curtosis
Medidas Estadísticas
Las medidas de tendencia central pretenden resumir en un solo valor a un conjunto de valores.
Media
Para calcular la media, se suman todos los datos y el resultado se divide entre el número total de datos (n).
Ejemplo. De la siguienteserie de datos (2,4,6,10) la media es igual a:
Medidas Estadísticas
Mediana
La mediana arroja el dato que está en el centro de la distribución de datos. Antes de calcular la mediana, se tienen que ordenar los datos de manera ascendente o descendente, esto es vital, ya que de esa forma tendremos los datos en una recta numérica, que nos ayudará a conocer la posición de la mediana.
Ejemplo: Para la siguiente serie de datos (2,1,5,3,7) calcular la mediana.
Primero, se tienen que ordenar los datos. Si se ordenan de manera ascendente se tiene; 1,2,3,5,7. La mediana es el valor que ocupa el centro de los datos, en este caso la mediana es 3. El número tres se encuentra exactamente en el centro de dicha distribución.
Ahora, si el número de datos es par, la mediana corresponde al promedio de los dos valores centrales. Por ejemplo: en la distribución: 2,5,7,9,10,12, la mediana es el promedio de los dos datos centrales (7+9) /2=8.
Medidas Estadísticas
Moda
La moda de un conjunto de datos es el valor que más se repite. En la siguiente distribución tenemos: 2,2,2,1,4,6,7,9,0. La moda por tanto, es 2. Una distribución puede tener desde una moda, como en el ejemplo anterior, hasta un número infinito de modas. 
Si un conjunto de datos posee dos modas, se dice que la distribución es bimodal: 2,2,1,4,5,7,8,8. En este ejemplo, se tienen 2 modas, el 2 y el 8, ya que ambos se repiten 2 veces. 
Si se tienen más de dos modas la distribución es multimodal. Cabe mencionar que si no hay un dato que se repite con mayor frecuencia, la distribución no tiene moda, ejemplo: 2,2,3,3,4,4,5,5 en este conjunto de datos no hay moda dado que todos los elementos tienen la misma frecuencia.
Medidas Estadísticas
Medidas de Posición
Las medidas de posición dividen la distribución en partes iguales. Las más comunes son los cuartiles (dividen a los datos en 4 partes iguales), los deciles (dividen a los datos en 10 partes iguales) y los percentiles (dividen a los datos en 100 partes iguales).
A continuación, se puede observar el esquema de un cuartil:
El cuartil divide a los datos en 4 partes iguales, donde cada parte equivale a 25% de los datos. El cuartil 2 (Q2) es igual a la mediana. Para calcular los cuartiles, lo primero que se hace es ordenar los datos.
Medidas Estadísticas
Para encontrar la posición del cuartil se aplica la fórmula:
P: es la posición de cuartil
n: número total de datos
K: cuartil a calcular
El rango intercuartílico se calcula mediante la siguiente ecuación: 𝑄3−𝑄1
Ejemplo práctico. ¿Cuál es el valor del tercer cuartil en la siguiente distribución?
2,3,5,6,7,9,10,11,13
Medidas Estadísticas
K=3, ya que se pide el tercer cuartil. El número total de datos es igual a 9. Aplicando la fórmula tenemos: P=3*(9/4) = 6.75 ≃7. Por lo tanto, la posición del tercer cuartil es el séptimo elemento, mismo que se ubica en la distribución y que tiene el valor igual a 10.
2,3,5,6,7,9,10,11,13
10 es el séptimo elemento.
Medidas Estadísticas
Una medida de dispersión es importante en dos Modos: primero, puede ser usada para mostrar el grado de variación entre los valores en los datos usados. 
Por ejemplo, una muy baja dispersión de los salarios por hora en un grupo de trabajadores en una fábrica dará la indicación que a los trabajadores en la fabrica les son pagados, aproximadamente, salarios iguales. Pero, por otro lado, una alta dispersión dará la impresión de que los trabajadores son pagados, en una amplia variación de los salarios por hora. 
Segundo, la medida de dispersión puede ser usada para suplementar un promedio para describir un grupo de datos o para comparar un grupo de datos con otro. Cuando la dispersión es alta, el promedio se vuelve de poca o ninguna significación, cuando la dispersión es baja, el valor promedio se vuelve altamente significativo; esto es, el promedio es un valor altamente representativo.
 
Medidas Estadísticas
Por ejemplo, la media del grupo de números 1,2 y 12 es 5 o (1+2+12)/3=5. Puesto que 5 no está cercano a ningún número en el grupo, se espera una alta dispersión. 
La media de un segundo grupo de números 4,5 y 6 es también 5, o (4+5+6)/3= 5. Puesto que 5 esta cercano (o igual) cada número en el segundo grupo, se espera una baja dispersión. 
El hecho de que la medida de dispersión del primer grupo es más alta que aquella del segundo grupo, da una mejor comprensión en la comparación de las medias de los dos grupos de datos. 
Medidas Estadísticas
Una medida de dispersión puede ser expresada ya sea en valor absoluto o en valor relativo. Los tipos mas comunes de dispersiones expresadas en valores absolutos son: 
Recorrido 
Desviación cuartílica 
Desviación media 
Desviación estándar. 
Entre ellas el recorrido es el tipo mas simple de con respecto a su concepto y calculo. La desviación estándar es, con mucho el tipo mas importante, puesto que es matemáticamente lógica y puede ser usada en cálculos adicionales. 
Medidas Estadísticas
Hay otras dos medidas, las cuales están estrechamente relacionadas con los promedios y dispersiones en describir las características de un grupo de datos: asimetría y kurtosis o apuntamiento. Las dos medidas son especialmente útiles en indicar las formas de las distribuciones de frecuencia. Una medida de asimetría puede indicar la dirección de la distribución ya sea asimétrica hacia los valores mas altos o hacia los valores mas bajos. 
Una medida de kurtosis puede indicar el grado de concentración de la distribución, ya sea apuntada (valores concentrados alrededor de la moda) o achatada (valores descentralizados con respecto a la moda).
Medidas Estadísticas
Rango o Recorrido
Método de cálculo de recorrido
El recorrido de un grupo de valores es la diferencia entre los valores más alto y más bajo 
R= recorrido
Xn=El valor más alto 
X1=EL valor más bajo
Ejemplo 1. Encontrar el recorrido de los valores 1 ,4, 8, 10 y 10. 
Medidas Estadísticas
Principales características del recorrido 
El recorrido esta basado en los valores más bajo y mas alto de un grupo de datos. Es fácil de calcular y es el valor simple mas conveniente como suplemento de la media. Por ejemplo, el promedio semanal de producción de un grupo de trabajadores en una fabrica A, puede ser 40 unidades con un recorrido de 15 a 60 unidades. El promedio de una fabrica B puede ser también de 40 unidades, pero recorrido de 30 a 50 unidades. Considerando los dos diferentes recorridos, podemos concluir que el promedio de la fabrica B es mas representativo de las unidades producidas por los trabajadores que el promedio para la fabrica A. ¿Por que?
El Recorrido puede ser influido grandemente por valores no usuales en los datos dados. Si hay un valor no usual en los datos, ya sea muy pequeño o grande, el recorrido puede no ser una medida propia de dispersión para el grupo de valore.
El recorrido no esta afectado por los valores comprendidos entre los valores mas bajo y mas alto. Por lo tanto, el recorrido es solamente una tosca estimación de la medida de dispersión
Medidas Estadísticas
Desviación cuartílica
La desviación cuartílica de un grupo de datos, como el recorrido, esta basada solamente en dos valores. Los dos valores no son valores extremos, sino son la primera y la tercera cuartilas del grupo. Para encontrar las cuartilas, primero dividimos los elementos del grupo en cuatro partes iguales de acuerdo a sus valores. La primera cuartila (Q1) es el punto sobre la escala de los valores abajo del cual hay un cuarto de los elementos. La segunda cuartila (Q2) es el punto abajo o sobre el cual hay la mitad de los elementos. Por lo tanto, Q2 corresponde a la mediana. La tercera cuartila (Q3 es el punto abajo del cual hay las tres cuartas partes de los elementos. La diferencia entre la primera y la tercera cuartilas es llamada el recorrido intercuartílico. Cuando esta diferencia es dividida por 2 el cociente es la desviación cuartílica (Q.D), o semi recorrido intercuartílico.
El método para localizar las cuartilas para datos no agrupados es ligeramentediferente del método por datos agrupados.
Medidas Estadísticas
 Ejercicio: Encontrar Q1, Q2, Q3 y Q.D de los ocho valores 2,5,10,3,7,13,20,18 
Medidas Estadísticas
Principales características de la desviación cuartilica
La desviación cuartilica esta basada en dos valores: Q1 y Q3. No está afectada por los valores extremos, los cuales son menores que Q1 o mayores que Q3. Hay 50 % de los elementos de los datos entre Q1 y Q3. Una desviación cuartilica baja indican, por lo tanto, una pequeña variación entre el 50 % de los elementos centrales. Por otra parte, una desviación cuartilica alta significa que la variación entre los elementos centrales es grande. 
La desviación cuartílica es un medio de la distancia entre Q3 y Q1. Sin embargo, si la distribución no es simétrica la distancia de “mediana o . no coincidirá con el recorrido intercuartílico (de Q1 a Q3). 
La desviación cuartílica es una medida refinada de dispersión cuando se compara con el recorrido. Sin Embargo, como el recorrido, tiene el punto débil de que no está basada en cada valor incluido en una distribución dada
Medidas Estadísticas
Desviación Media 
El recorrido y la desviación cuartílica son medidas posicionales de dispersión. Están basadas en las posiciones de ciertos elementos en una distribución. La desviación media y la desviación estándar están basadas en todos los elementos y están diseñadas para medir la dispersión alrededor de un promedio.
La desviación media es la media aritmética de las desviaciones de los valores individuales con respecto al promedio de los datos dados. El promedio que se usa frecuentemente al calcular la desviación media es, ya sea la media aritmética o la mediana. Sin embargo, solamente la media aritmética será usada aquí para propósitos de ilustración. Al calcular la desviación media, los valores absolutos de las desviaciones son usados; es decir los signos positivos o negativos de las desviaciones se ignoran. 
Medidas Estadísticas
El procedimiento para calcular la desviación media para datos no agrupados es arreglado como sigue:
Encontrar la media aritmética (o mediana si así se desea)
Encontrar la desviación de cada valor con respecto a la media aritmética, o x= X- 
Encontrar la suma de los valores absolutos de las desviaciones, o 
Encontrar la desviación media dividiendo la suma por el numero de (n) en los datos
 
Ejercicio: Encontrar la desviación media de los valores 2,3,5,7,10
Medidas Estadísticas
Principales características de la desviación media
Las desviación media esta basada en cada valor de los datos. Por lo tanto da una mejor descripción de la dispersión que el recorrido y la desviación cuartílica
La desviación media se calcula con respecto a un promedio, ya sea la media aritmética o la mediana. Mide la dispersión alrededor del promedio mas bien que la dispersión dentro de ciertos valores, como lo hace el recorrido y la desviación cuartílica 
La desviación media es la media aritmética de los valores Absolutos de las desviaciones. Ignora el signo positivo o negativo de las desviaciones. Esta debilidad crea la demanda por una medida de dispersión mas confiable: la desviación estándar
Medidas Estadísticas
La desviación estándar es una forma refinada de la desviación media. Se calcula de la misma manera que la desviación media, excepto que los signos positivos y negativo de las desviaciones individuales son tomadas en consideración. Los métodos para calcular la desviación estándar para datos no agrupados y para datos agrupados son las siguientes: 
Datos no Agrupados
La desviación estándar de un conjunto de valores es la raíz cuadrada de la media aritmética de las desviaciones individuales elevadas al cuadrado. 
Las desviaciones individuales están basadas en la media aritmética de los valores en conjunto.
Medidas Estadísticas
El procedimiento para calcular la desviación estándar para datos no agrupados es la siguiente:
1.- Encontrar la media aritmética de los datos dados. 
2.- Encontrar la desviación de cada valor con respecto a la media aritmética, o 
3.- Elevar al cuadrado cada desviación para hacerla positiva o 
4.- Encontrar la suma de las desviaciones al cuadrado, o 
5.- Encontrar la varianza dividiendo la suma por el número de valores (n) en los datos.
6.- Extraer la raíz cuadrada de la varianza para encontrar la desviación estándar (s).
Medidas Estadísticas
Encontrar la desviación estándar de los valores 2,3,5,7,10
Medidas Estadísticas
El siguiente grupo de imágenes, ejemplifica dos situaciones diferentes.
En la primera imagen, se cuenta con una serie de datos de baja distribución estándar y, en la segunda imagen, se observan los datos con mayor nivel de dispersión, es decir, con una desviación estándar alta.
Medidas Estadísticas
Principales características de la desviación estándar 
1.- La desviación estándar está basada en cada uno de los valores de los datos. Al igual que la desviación promedio permite, por lo tanto, una mejor descripción de la dispersión que el recorrido y la desviación cuartílica
2.- La desviación estándar esta calculada con respecto a la media aritmética de los valores de los datos. Mide la dispersión alrededor de la media. No la dispersión dentro de ciertos valores, como es medida por el recorrido y la desviación cuartílica
3.- La desviación estándar es matemáticamente lógica, puesto que su cálculo no desprecia los signos positivo y negativo de las desviaciones individuales. Este hecho aumento el uso de la desviación estándar en operaciones matemáticas adicionales.
4.-Cuando cada valor de los datos dados se aumenta (o disminuye) en un número fijo, la desviación estándar no se afecta. Esto es cierto por que la media, lo mismo que cada valor, también se aumenta por la cantidad fija. La desviación de cada valor con respecto a la media no es, por lo tanto, afectada. Sin embargo, cuando cada valor de los datos se multiplica (o divide) por un número fijo, la desviación estándar también se multiplica por el número fijo 
Medidas Estadísticas
Dispersión Relativa
Las medidas de dispersión expresadas en valores absolutos, como fueron presentadas en las secciones precedentes, son convenientes parar describir la dispersión de un solo conjunto de valores. Si dos conjuntos de valore sestan siendo comparados, los valores absolutos son convenientes solamente cuando los promedios de los dos conjuntos son aproximadamente del mismo tamaño y las unidades de medida de los conjuntos son iguales. Es obvio que la comparación de dos diferentes unidades, tales como el número de millas comparadas con el número de dólares no tienen sentido.
Cuando los promedios son claramente diferentes, aunque las unidades pueden ser las mismas, la tarea de comparar los grados de dispersión basados en los valores absolutos de los diferentes conjuntos es aún difícil. 
Medidas Estadísticas
Calcular la desviación estándar para los siguientes grupos
Conjunto 1 Peso de 3 estudiantes: 160,200,240
Conjunto 2 Peso de 3 estudiantes: 40,45,65
Medidas Estadísticas
La medida de dispersión más comúnmente usada expresada en valor relativo es el coeficiente de variación, representado por V. Es el cociente de la desviación estándar dividida por la media aritmética, o 
El coeficiente de variación de los pesos de los tres estudiantes universitarios es:
El coeficiente de variación de los pesos de los tres estudiantes de escuela elemental es:
Medidas Estadísticas
La dispersión relativa de los pesos de los estudiantes de escuela elemental es mas grande que la de los pesos de los estudiantes universitarios, aunque la dispersión absoluta es mas pequeña para los estudiantes de escuela elemental.
Similarmente otras medidas de dispersión, expresadas en valores relativos pueden ser obtenidas como sigue:
 
El coeficiente del recorrido:
 
El coeficiente de la desviación media
 
 
 
Medidas Estadísticas
El coeficiente de la desviación cuartílica
 
Obviamente, si una de las medidas de dispersión relativa es usada para describir un conjunto de datos, la mismamedida debe ser usada en otro conjunto de datos para comparación.
Medidas Estadísticas
Medidas de Asimetría
Una distribución de frecuencia simétrica, los valores de la media, mediana y moda coincidirán bajo la curva de frecuencia: es decir, . Cuando una distribución de frecuencia es asimétrica, los tres valores se apartan unos de otros. Mientras mas se separe la media de la moda, mayor la asimetría. La curva de frecuencia puede ser asimétrica, ya sea hacia el lado derecho de la escala de las X (positivamente asimétrica) o hacia el lado izquierdo del eje de las X (negativamente asimétrica). En cualquier caso, la mediana esta entre la moda y la media, Cuando la diferencia entre la media y la moda es divida por la desviación estándar, el cociente es llamado Coeficiente de asimetría (sk) y fue usado Karl Pearson para medir el grado de asimetría o
 
Medidas Estadísticas
Calcular el coeficiente de asimetría para los siguientes datos donde:
Donde: 
Puesto que el coeficiente es un valor negativo, la distribución es asimétrica hacia la izquierda, o hacia los valores más pequeños en la escala de las X. el valor negativo también indica que la moda es mas grande que la media por una cantidad igual al 72% del valor de la desviación estándar. 
Medidas Estadísticas
Kurtosis
Al describir una distribución de frecuencia, una persona puede usar un promedio para mostrar el valor atípico o la tendencia central en la distribución, una medida de dispersión para mostrar la variación de los valores, ya sea dentro de ciertos valores (tales como el recorrido y la desviación cuartílica ) o alrededor de un promedio de la distribución (tal como la desviación media y la desviación estándar), y una medida de asimetría para mostrar la dirección de la distribución, ya sea asimétrica hacia los valores altos ( el lado derecho en el eje de las X) o hacia los valores bajos ( el lado izquierdo sobre el eje de las x). Además, la medida de apuntamiento o kurtosis, el cuarto recurso para describir una distribución de frecuencia puede ser usado para mostrar el grado de concentración, ya sea los valores concentrados en el área alrededor de la moda ( una curva apuntada) o descentralizados con respecto a la moda hacia ambos extremos de la curva de frecuencia (una curva achatada).
Medidas Estadísticas
Una medida de Kurtosis, o apuntamiento, puede ser obtenida mediante el uso de fórmulas. Sin embargo, un método simple para encontrar el grado de apuntamiento o achatamiento de cada distribución es observando la curva de frecuencia de los datos el siguiente grafico muestra tres tipos de curvas:
A) la curva de mayor apuntamiento, también llamada Leptokúrtica, 
B) la curva de apuntamiento intermedio, llamada Mesokúrtica
C) La curva achatada llamada platikúrtica
A
B
C
Medidas Estadísticas
Se supone que las tres distribuciones representadas por las curvas son simétricas y tienen la misma media y dispersión medida mediante los recorridos.
La curva A indica que la mayoría de los estudiantes recibieron casi las mismas calificaciones en la prueba de inglés; la Curva B indica la Distribución Normal de las calificaciones en historia; la curva C indica una amplia variación de las calificaciones de matemáticas entre el grupo de Estudiantes. La distribución normal, la cual no es ni muy apuntada ni muy achatada, es para medir el apuntalamiento de una distribución. 
A
B
C
Medidas Estadísticas
Medición de la asimetría y Apuntamiento o kurtosis mediante momentos
Sea la desviación de cada valor de X con respecto a la media aritmética . Entonces, definimos el r-esimo momento con respecto a la media como
La tercera potencia de cada desviación retiene el signo original de la desviación. Cuando la suma de las potencias cúbicas negativas es mayor que la suma de las potencias cubicas positivas, el valor de o debe ser negativo y el tercer momento con respecto a la media es también negativo.
Un negativo indica la asimetría de la distribución de los valores de X hacia valores mas pequeños o hacia el lado izquierdo del eje de las X. Por otro lado, un positivo indica la asimetría hacia los valores mayores o hacia el lado derecho en el eje de las X.
Medidas Estadísticas
Una medida relativa de asimetría puede ser obtenida dividiendo el tercer momento con respecto a la media por la tercera potencia de la desviación estándar, o 
 
La cuarta potencia de cada desviación (es siempre positiva. Por lo tanto, el valor del cuarto momento con respecto a la media es también positivo. Una medida relativa de kurtosis () puede ser obtenida dividiendo el cuarto momento por la cuarta potencia de la desviación estándar, o 
 
Donde 
Medidas Estadísticas
El valor de para una distribución normal es 3. Por lo tanto, la medida relativa de kurtosis puede ser expresada como sigue: 
 Indica distribución normal
 Mientras mayor sea la diferencia de arriba de cero, mas apuntada es la distribución
 Mientras menor sea la diferencia debajo de cero, mas achatada es la distribución
Ejercicio
Encontrar la asimetría relativa basada en el tercer momento y la kurtosis relativa basada en el cuarto momento para la siguiente serie 2,3,5,7y 10
1.4 Forma de Presentación Gráfica
Un gráfica, una representación gráfica o un gráfico es un tipo de representación de Datos, generalmente cuantitativos, mediante recursos visuales (líneas, vectores, superficies o símbolos), para que se manifieste visualmente la relación matemática o correlación estadística que guardan entre si.
Ahora practicaremos algunos tipos de representación grafica, para poder asociar que tipo de gráficos tenemos y a que tipos de variables pueden asociarse. Empezaremos con el mas básico el grafico de Línea.
Los gráficos de líneas permiten visualizar los cambios a lo largo de un rango continuo, como el tiempo o la distancia. La visualización del cambio con un grafico de líneas permite ver de una solo vez la tendencia general y comparar simultáneamente varias tendencias.
El siguiente grafico a observar es el grafico de barras, este grafico es una forma de resumir un conjunto de datos por categorías. Muestra los datos usando varias barras de la misma anchura, cada una de las cuales representa una categoría concreta. La Altura de cada barra es proporcional a una agregación especifica (por ejemplo, la suma de los valores de la categoría a representar). Las categorías podrían ser desde grupos de edad a ubicaciones geográficas.
Los gráficos circulares se dividen en sectores; cada uno muestra el tamaño de un fragmento de información relacionado. Los gráficos circulares suelen utilizarse para mostrar tamaños relativos de partes de un todo.
La siguiente forma de grafico es la de dispersión, estos gráficos se usan para trazar puntos de datos de un eje vertical y uno horizontal, mediante lo que se trata de mostrar cuanto afecta una variable a otra.
Cada fila de la tabla de datos la representa un indicador cuya posición depende de sus valores en las columnas en las columnas que se establecen en los ejes X e Y. Se pueden usar varias escalas en el eje Y cuando se desea comparar varios indicadores con rangos de valor significativamente distintos. Se puede establecer una tercera variable para que se corresponda con el color o el tamaño (por ejemplo, un grafico de burbujas) 
La relación entre dos variables se llama correlación. Si los indicadores forman una línea casi recta en el gráfico de dispersión, las dos variables tendrán una correlación alta.
¿Qué es el Big Data?
Son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a mayor velocidad. Esto se conoce también como “Las tres V”.
Dicho de otro modo, el big data esta formado por conjuntos de datos de mayor tamaño y mas complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse paraaprobar problemas empresariales que antes no hubiera sido posible solucionar.
¿Qué son las 3 V de Big Data?
	3V de Big Data		
	Volumen		La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, secuencias de clics en una página web o aplicación móvil, o equipos con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.
			
	Velocidad		La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.
			
	Variedad		La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse perfectamente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder entender su significado y admitir metadatos.
Pero….. ¿Qué creen falte para que esta información pueda ayudar a una correcta toma de decisión?
Valor y Veracidad: Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿Cuál es la veracidad de sus datos y cuanto puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, formulen hipótesis informadas y predigan comportamientos
Historia de Big Data
Los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.
El desarrollo de marcos de código abierto tales como Hadoop (y, más recientemente, Spark) sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años siguientes, el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son los únicos que lo hacen.
Historia de Big Data
Con la llegada de Internet of Things (Internet de las cosas), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. La aparición del Machine Learning ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente flexible, donde los desarrolladores pueden simplemente incorporar clústeres ad hoc para probar un subconjunto de datos. Además, las bases de datos orientadas a grafos son cada vez más importantes, gracias a su capacidad para mostrar enormes cantidades de datos de forma que la analítica sea rápida y completa.
Historia de Big Data
Ventajas de big data:
El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad de información.
La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.
Casos de Uso de Big Data
El big data puede ayudarle a abordar una serie de actividades empresariales, desde la experiencia del cliente hasta la analítica. A continuación, recopilamos algunas de ellas.
	Desarrollo de Productos	 	Empresas como Netflix y Procter & Gamble usan big data para prever la demanda de los clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando atributos clave de productos anteriores y actuales, y modelando la relación entre dichos atributos y el éxito comercial de las ofertas. Además, P&G utiliza los datos y la analítica de grupos de interés, redes sociales, mercados de prueba y avances de salida en tiendas para planificar, producir y lanzar nuevos productos.
	 	 	 
	Mantenimiento Predictivo	 	Los factores capaces de predecir fallos mecánicos pueden estar profundamente ocultos entre datos estructurados (año del equipo, marca o modelo de una máquina) o entre datos no estructurados que cubren millones de entradas de registros, datos de sensores, mensajes de error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales antes de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una forma más rentable y optimizar el tiempo de servicio de componentes y equipos.
	 	 	 
	Experiencia del Cliente	 	La carrera por conseguir clientes está en marcha. Disponer de una vista clara de la experiencia del cliente es más posible que nunca. El big data le permite recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas personalizadas, reducir las tasas de abandono de los clientes y gestionar las incidencias de manera proactiva.
	 	 	 
	Fraude y Cumplimiento	 	En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos, sino a equipos completos de expertos. Los entornos de seguridad y requisitos de cumplimiento están en constante evolución. El big data le ayuda a identificar patrones en los datos que pueden ser indicativos de fraude, al tiempo que concentra grandes volúmenes de información para agilizar la generación de informes normativos.
Casos de Uso de Big Data
	Machine Learning	 	El machine learning o aprendizaje automático es un tema candente en la actualidad. Y los datos, concretamente big data, son uno de los motivos de que así sea. Ahora, en lugar de programarse, las máquinas pueden aprender. Esto es posible gracias a la disponibilidad de big data para crear modelos de machine learning.
	 	 	 
	Eficiencia Operativa	 	Puede que la eficiencia operativa no sea siempre noticia, pero es el área en la que big data tiene un mayor impacto. El big data le permite analizar y evaluar la producción, la opinión de los clientes, las devoluciones y otros factores para reducir las situaciones de falta de stock y anticipar la demanda futura. El big data también puede utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada momento.
	 	 	 
	Impulse la innovación	 	El big data puede ayudarle a innovar mediante el estudio de las interdependencias entre seres humanos, instituciones, entidades y procesos, y, posteriormente, mediante la determinación de nuevas formas de usar dicha información. Utilice las perspectivas que le ofrecen los datos para mejorar sus decisiones financieras y consideraciones de planificación. Estudie las tendencias y lo que desean losclientes para ofrecer nuevos productos y servicios. Implemente precios dinámicos. Las posibilidades son infinitas.
No todo es color de rosa…..
El big data se caracteriza por su gran tamaño. Aunque se han desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos duplica su tamaño cada dos años aproximadamente. Las organizaciones continúan esforzándose por mantener el ritmo de crecimiento de sus datos y por encontrar formas de almacenarlos eficazmente.
No basta con almacenar los datos. Para ser de algún valor, los datos deben poder utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos relevantes para el cliente y organizados de tal modo que permitan un análisis significativo— requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan utilizarse.
La tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache Hadoop era la tecnología más conocida utilizada para gestionar big data. Más tarde, en 2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío constante.
¿Cómo funciona el Big Data? 
El Big Data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Empezar a explorar debe tener 3 líneas muy delimitadas que debemos considerar:
Integre: El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, como extracción, transformación y carga (ETL), generalmente no están a la altura de dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías. 
Gestione: Requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premises o en ambos. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento. La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita
Analice: La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos. 
Minería de Datos 
¿Qué es?
La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados. Empleando una amplia variedad de técnicas, puede utilizar esta información para incrementar sus ingresos, recortar costos, mejorar sus relaciones con clientes, reducir riesgos y más.
El proceso de hurgar en los datos para descubrir conexiones ocultas y predecir tendencias futuras tiene una larga historia. Conocido algunas veces como "descubrimiento de conocimientos en bases de datos", el término "minería de datos" no se acuño sino hasta la década de 1990. Pero su base comprende tres disciplinas científicas entrelazadas: 
Estadística (el estudio numérico de relaciones de datos) 
Inteligencia artificial (inteligencia similar a la humana exhibida por software y/o máquinas) 
machine learning (algoritmos que pueden aprender de datos para hacer predicciones). 
Lo que era antiguo es nuevo otra vez, ya que la minería de datos continúa evolucionando para igualar el ritmo del potencial sin límites del big data y poder de cómputo asequible.
Minería de Datos 
En la última década, los avances en el poder y la velocidad de procesamiento nos han permitido llegar más allá de las prácticas manuales, tediosas y que toman mucho tiempo al análisis de datos rápido, fácil y automatizado. Cuanto más complejos son los conjuntos de datos recopilados, mayor es el potencial que hay para descubrir insights relevantes. Los comerciantes detallistas, bancos, fabricantes, proveedores de telecomunicaciones y aseguradoras, entre otros, utilizan la minería de datos para descubrir relaciones entre todas las cosas, desde precios, promociones y demografía hasta la forma en que la economía, el riesgo, la competencia y los medios sociales afectan sus modelos de negocios, ingresos, operaciones y relaciones con clientes.
Minería de Datos 
¿Por qué es importante?
Ha podido apreciar los números asombrosos – el volumen de datos producidos se duplica cada dos años. Los datos no estructurados por sí solos conforman el 90% del universo digital. Pero más información no significa necesariamente más conocimientos.
La minería de datos le permite:
Filtrar todo el ruido caótico y repetitivo en sus datos.
Entender qué es relevante y luego hacer un buen uso de esa información para evaluar resultados probables.
Acelerar el ritmo de la toma de decisiones informadas. 
Minería de Datos 
¿Quién lo utiliza?
La minería de datos se sitúa en el corazón de esfuerzos analíticos en diversas industrias y disciplinas.
Comunicaciones
En un mercado sobrecargado donde la competencia es cerrada, las respuestas se encuentran a menudo en los datos de sus consumidores. Las compañías de multimedia y telecomunicaciones pueden utilizar modelos analíticos para entender montañas de datos de clientes, ayudándoles así a predecir el comportamiento de sus clientes y ofrecer campañas altamente dirigidas y relevantes.
Seguros
Con conocimientos analíticos, las compañías de seguros pueden resolver problemas complejos concernientes a fraude, cumplimiento, gestión de riesgo y separación de clientes. Las compañías han utilizado técnicas de minería de datos para asignar precios a productos con mayor eficacia en líneas de negocios y hallar nuevas formas de ofrecer productos competitivos a su base de clientes existente.
Bancos
Los algoritmos automatizados ayudan a los bancos a entender a su base de clientes y también los miles de millones de transacciones en el corazón del sistema financiero. La minería de datos ayuda a las compañías de servicios financieros a tener una mejor vista de los riesgos del mercado, a detectar el fraude en menos tiempo, a gestionar las obligaciones de cumplimiento de las regulaciones y a obtener retornos óptimos de sus inversiones en marketing.
Minería de Datos 
Cómo funciona
La minería de datos, como una disciplina compuesta, representa diversos métodos o técnicas que se utilizan en diferentes capacidades analíticas que abordan una gama de necesidades organizacionales, hacen diferentes tipos de preguntas y utilizan diferentes niveles de aportación humana o reglas para llegar a una decisión.
Modelado descriptivo 
Descubre similitudes o agrupaciones compartidas en datos históricos para determinar razones detrás del éxito o el fracaso, como la clasificación de clientes por preferencias de productos o sentimiento. Algunas técnicas de ejemplo incluyen:
Minería de Datos 
Modelado predictivo
Este modelado llega más a fondo para clasificar eventos en el futuro o calcular resultados desconocidos – por ejemplo, el uso de evaluación de crédito para determinar la probabilidad de que una persona pague un préstamo. El modelado predictivo también ayuda a descubrir insights de cosas como la rotación de clientes, respuesta a campañas o coberturas por impago de créditos. Algunas técnicas de ejemplo incluyen:
Minería de Datos 
Modelado prescriptivo: Con el incremento de los datos no estructurados de la Web, campos de comentarios, libros, correo electrónico, PDFs, audio y otras fuentes de texto, la adopción de la minería de texto como disciplina relacionada con la minería de datos también ha crecido de manera considerable. Necesita la posibilidad de analizar, filtrar y transformar con éxito datos no estructuradospara incluirlos en modelos predictivos para mejorar la precisión de las predicciones.
Al final, no debe ver la minería de datos como una entidad independiente porque el preprocesamiento (preparación y exploración de datos) y el posprocesamiento (validación de modelos, calificación y monitoreo del desempeño de modelos) son igualmente esenciales. El modelado prescriptivo se centra en variables y restricciones internas y externas para recomendar uno o más cursos de acción – por ejemplo, determinar la mejor oferta de marketing para enviar a cada cliente. Algunas técnicas de ejemplo incluyen:
Metadatos 
Los metadatos son datos sobre datos. En otras palabras……. Es información que se usa para describir los datos contenido en algo como una pagina web, documento o archivo.
La etimología del término 
Consta de 2 palabras, una griega y otra en latina. Por un lado la palabra griega “meta”, que significa después de o mas allá de, y por otro lado el vocablo latino “datum”, que significa dato. Por tanto, la expresión metadatos significa mas allá de los datos. 
Metadatos son un conjunto de datos que describen el contenido informativo de un recurso de archivos o de información de los mismos. 
¿Qué es?
Metadatos 
Entre las principales características de los metadatos se encuentran las siguientes: 
Son paquetes de información altamente estructurados que explican contenido, calidad y características de los datos del sitio web
Son precisos y en muchos casos cortos e integrados por palabras simples
Ofrecen puntos de acceso a la información del sitio web
Codifican la descripción del sitio web
Características de los metadatos
Metadatos 
Los metadatos sirven para una variedad de propósitos, siendo el descubrimiento de recursos uno de los más comunes. Aquí, se puede comparar con una catalogación efectiva, que incluye identificar recursos, definirlos por criterios, reunir recursos similares y distinguir entre los que son diferentes.
También es un medio eficaz para organizar los recursos electrónicos, que es un uso importante dado el crecimiento de los recursos basados ​​en la Web. Normalmente, los enlaces a los recursos se han organizado como listas y se han creado como páginas web estáticas, con los nombres y recursos codificados en HTML. Sin embargo, una práctica más eficaz es utilizar metadatos para crear estas páginas. Para fines web, la información se puede extraer y reformatear mediante el uso de herramientas de software.
Los metadatos también facilitan la identificación digital a través de números estándar que identifican de forma única el recurso que definen los metadatos. En esta línea, otra práctica es combinar metadatos para que actúen como un conjunto de datos identificativos que diferencian objetos o recursos, apoyando las necesidades de validación.
Finalmente, los metadatos son una forma importante de proteger los recursos y su accesibilidad futura
¿Para qué sirven?
Metadatos 
Los metadatos son una herramienta a través de la que las empresas que dominan una gran cantidad de información obtienen la ayuda necesaria para organizar esa información y facilitar el trabajo de los usuarios, incrementando su productividad.
Estos son los principales tipos de metadatos:
Según la función que tengan esos metadatos, se dividen en:
Lógicos
Son datos que explican de qué forma los datos simbólicos pueden utilizarse para hacer deducciones de resultados lógicos, por lo que se caracterizan por la compresión.
Simbólicos
Son los datos que detallan los datos subsimbólicos, por lo que introducen sentido.
Subsimbólicos
Son aquellos datos que no contienen ninguna información sobre su significado.
Tipos de Metadatos
Metadatos 
Según su variabilidad
En este caso, los metadatos se dividen en dos tipos:
Inmutables
Son los datos que no cambian independientemente de la parte del recurso que sea visible.
Mutables
Son los datos diferentes de los demás e incluso difieren de parte a parte.
Según su contenido
En este caso, los metadatos son fraccionados por su contenido. Así, se da la opción de diferenciar entre los metadatos que detallan el recurso en sí y los metadatos que describen el contenido de ese recurso.
Tipos de Metadatos
Metadatos 
Acabas de tomar una foto de un oso en el bosque. La subes a tu computadora y la colocas en tu base de datos de imágenes. Para encontrarlo rápidamente, utilizarás los descriptores de metadatos para buscar la foto en el futuro. Esto es especialmente importante porque tienes muchas otras fotografías de osos y quieres poder recordar algunas específicas.
Los metadatos ayudan a acotar su búsqueda utilizando descriptores que identifican la imagen. Primero, se anota la fecha en que se tomó la foto y el autor. Esta fecha da una buena base de dónde comenzar tu búsqueda de la imagen. A continuación, se pueden adjuntar a la imagen algunas palabras clave como oso o bosque. Estos son sus metadatos. Usando una combinación de las palabras clave de metadatos, podrás encontrar las imágenes exactas. Estos tipos de metadatos se incluyen en la categoría “descriptiva”.
Otros ejemplos de uso de metadatos son los siguientes: 
 Ejemplos de Metadatos
Metadatos 
Búsquedas de metadatos y sitios web
Los metadatos incrustados en los sitios web son de vital importancia para el éxito del sitio. Incluye una descripción del sitio web, palabras clave, metaetiquetas y más, todos los cuales juegan un papel en los resultados de búsqueda.
Algunos términos de metadatos comunes que se utilizan al crear una página web incluyen metatítulo y meta descripción. El metatítulo explica brevemente el tema de la página para ayudar a los lectores a comprender qué obtendrán de la página si la abren. La meta descripción es más información, aunque breve, sobre el contenido de la página.
Ambas piezas de metadatos se muestran en los motores de búsqueda para que los lectores tengan una idea rápida de lo que trata la página. El motor de búsqueda utiliza esta información para agrupar elementos similares, de modo que cuando busque una palabra clave específica o un grupo de palabras clave, los resultados sean relevantes para su búsqueda.
Los metadatos de una página web también pueden incluir el idioma en el que se escribió la página, como si es una página HTML.
Metadatos 
Metadatos en archivos de computadora
Cada archivo que guardas en tu computadora incluye información básica sobre el archivo para que el sistema operativo entienda cómo manejarlo, y para que tu u otra persona pueda recopilar rápidamente de los metadatos cuál es el archivo.
Por ejemplo, en Windows, cuando ve las propiedades de un archivo, puede ver claramente el nombre del archivo, el tipo de archivo, dónde está almacenado, cuándo fue creado y modificado por última vez, cuánto espacio ocupa en el disco duro, quién es el propietario del archivo y más.
La información puede ser utilizada por el sistema operativo así como por otros programas. Por ejemplo, puedes usar una utilidad de búsqueda de archivos para encontrar rápidamente todos los archivos en tu computadora que se crearon en algún momento de hoy y que pesen más de 3 MB.
Metadatos en las redes sociales
Cada vez que haces amigo de alguien en Facebook, escuchas la música que Spotify recomienda para ti, publicas un estado o compartes el tweet de alguien, los metadatos funcionan en segundo plano. Los metadatos online son útiles en situaciones de redes sociales muy específicas, como cuando estás buscando a alguien en Facebook. Puedes ver una imagen de perfil y una breve descripción del usuario de Facebook para aprender solo los conceptos básicos sobre él antes de decidirte a hacerle amigo o enviarle un mensaje.
TiposCuándo utilizarlaCuándo no utilizarla
Gráfica de barras
Para comparar 2 o más valores en la misma categoría. 
Usa barras apiladas para mostrar cómo se relacionan 
entre sí múltiples conjuntos de datos similares.
Si la categoría tiene un valor asociado a ella
Gráfica de mapas
Si la geografía es una parte importante de tu historia 
de datos.
Para mostrar puntos de datos precisos.Si la geografía 
no es un elemento importante de la historia general del 
dashboard.
Gráfica de líneas
Para comprender tendencias, patrones y fluctuaciones 
en tus datos. O si quieres comparar diferentes 
conjuntos de datos relacionados con múltiples series.
Para demostrar un análisis profundo de los datos.
Diagramas de 
dispersión
Para crear un informe interactivo o crear una 
visualización compacta de datos.
No lo uses si deseas escanear información 
rápidamente o requieres visualizar puntos de datos 
claros y/o precisos.
Minigráficos 
(sparklines)
Úsala junto con una métrica que tenga un valor de su 
estado actual monitoreado durante un período de 
tiempo específico, o si quieres mostrar una tendencia
Si requieres graficar múltiples series. Illustrar puntos 
de datos precisos (es decir, valores individuales).
Gráfica de pastel o 
circular
Para comparar valores relativos o escanear métricas 
rápidamente.
No lo uses si vas a comparar datos con precisión
¿Cuándo utilizar cada tipo de gráfica?
TiposCuándo utilizarlaCuándo no utilizarla
Gráfica de bala
Uno de los tipos de gráfica que sirve para monitorear 
métricas individuales que tengan un objetivo claro en 
este momento.
No la utilices para monitorear múltiples métricas o 
visualizar puntos de datos precisos.
Tabla
Para mostrar conjuntos de datos bidimensionales que 
pueden ser organizados categóricamente. De manera 
desglosada se utiliza para dividir grandes conjuntos de 
datos a través de una ventana desplegable.
Para mostrar grandes cantidades de datos
Gráfica de embudo
Cuando necesitamos hacer un seguimiento de cómo 
un conjunto inicial de visitantes o usuarios abandonan 
un proceso o flujo
Cuando se tienen menos de tres etapas que visualizar 
o si todas las etapas tienen aproximadamente el 
mismo tamaño.
Gráfica de gauge o de 
medidor radial
Cuando tienes un rango lineal de información 
progresiva y quieres representar cómo cambia
Cuando quieras representar una información compleja 
o múltiples escalas en una esfera.
Gráfica de burbujaCuando tus datos tengan al menos tres dimensiones.
Si las dimensiones adicionales no añaden suficiente 
valor incremental para compensar su presencia.
Gráfico de mapa de 
calor
Cuando quieres que el usuario identifique rápidamente 
las áreas de interés y señalar dónde debe producirse 
el cambio
Puedes usar otro tipo de gráfica si tienes pocas 
categorías o pocos datos complejos.
¿Cuándo utilizar cada tipo de gráfica?
Análisis de componentes principalesDetección de relaciones entre variables.
Agrupación por afinidad
Agrupación de personas con intereses comunes o metas 
similares (por ejemplo, personas que compran X a menudo 
compran Y y posiblemente Z).
Agrupación en clústeresAgrupación de registros similares.
Detección de anomalíasIdentificación de valores atípicos multidimensionales.
Aprendizaje de reglas de asociaciónDetección de relaciones entre registros.
Máquinas vectoriales de 
soporte
Modelos de aprendizaje supervisado con 
algoritmos de aprendizaje asociados.
Regresión
Medida de la solidez de la relación entre 
una variable dependiente y una serie de 
variables independientes.
Redes neurales
Programas de computadora que detectan 
patrones, hacen predicciones y aprenden.
Árboles de decisión
Diagramas en forma de árbol en los que 
cada rama representa una incidencia 
probable.
Analítica predictiva más 
reglas
Creación de reglas qué pasaría si/entonces 
a partir de patrones y predicción de 
resultados.
Optimización del 
marketing
Simulación de la mezcla de medios más 
ventajosa en tiempo real para lograr el más 
alto ROI posible.

Continuar navegando