RESUMEN 1-2-3

Estadística

•

SIN SIGLA

0

Pedro Emi

12/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5643 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIDAD 1
ESTADISTICA
Se refiere a datos numéricos, tales como promedios, medianas, porcentajes y números índices que ayudan a entender una gran variedad de negocios y situaciones económicas.
Sin embargo, el campo de la estadística es mucho más que datos numéricos. La estadística se define como el arte y la ciencia de reunir datos, analizarlos, presentarlos e interpretarlos.
DATOS Y ESTADISTICA
· OBSERVACIONES: Conjunto de mediciones, informaciones o cifras obtenidas para un determinado elemento
· VARIBALES: Es una característica de los elementos que es de interés
· ELEMENTOS: Son las entidades de las que se obtienen los datos
· DATOS: Son hechos/informaciones y cifras que se recogen, analizan y resumen para su presentación e interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos para el estudio.
Clasificación de las variables
· Variables cualitativas: Es una variable con datos que comprenden etiquetas o nombres que se usan para identificar un atributo de cada elemento. Los datos cualitativos emplean la escala nominal u ordinal y pueden ser numéricos o no.
· Variables cualitativas nominal : Cuando el dato de una variable es un nombre o una etiqueta que identifica un atributo de un elemento
· Profesiones de un grupo de personas • 1: Sexo F, 2: Sexo M • Estado Civil • Nombre • Marca de automóvil
· Variables cualitativas ordinal : Cuando el dato muestra las propiedades de los datos nominales y además tiene sentido el orden o jerarquía
· Grado de escolaridad • Grado de enfermedad • Puesto ocupacional • Medallas olímpicas (oro, plata, bronce)
· Variables cuantitativas: Es el resultado de un proceso que cuenta o mide a un elemento de una población. Se expresa numéricamente. En estas variables tenemos dos clases fundamentales; las variables cuantitativas discretas y las variables cuantitativas continuas.
· Variables cuantitativas discreta: Es una variable que podemos contar. Entre una unidad y otra no hay valores intermedios, no hay continuidad.
· Número de hijos • Frecuencia respiratoria • Número de leucocitos • Número de alumnos • Edad
· Variables cuantitativas continúa: Es aquella que puede admitir todo tipo de subdivisiones. Entre un valor y otro existe una cantidad infinita de valores posibles.
· Peso • Edad • Temperatur a • Distancia
Una observación es el conjunto de mediciones obtenidas para cada elemento de un conjunto de datos. Por tanto, el número de observaciones es siempre igual al número de elementos. El número de mediciones de cada elemento es igual al número de variables. Entonces, el número total de datos se determina multiplicando el número de observaciones por el número de variables. Los datos cuantitativos son discretos o continuos. Datos cuantitativos que miden cuántos (ej: el número de llamadas recibidas en 5 minutos) son discretos. Datos cuantitativos que miden cuánto (ej: peso o tiempo) son continuos porque entre los posibles valores de los datos no hay separación.
FUENTES DE DATOS
· Fuentes ya existentes: Bases de datos de empresas sobre sus empleados, ventas, importaciones, exportaciones, etc. Empresas que proporcionan servicios de bases de datos (Mercado Datos, Fidelitas S.A.)
· Estudios Estadísticos: estudios y encuestas experimentales
· Estudios experimentales:
· En los estudios experimentales se identifica primero la variables de interés. Después se ubica otra u otras variables que son controladas para lograr datos de cómo ésta influye sobre la variables de interés.
· Estudios observacionales
· En los estudios no experimentales u observacionales no se controla la variable de interés. El tipo más usual de estudio observacional es una encuesta. Por ejemplo, en una encuesta mediante entrevistas personales, primero se identifican las preguntas de la investigación. Después se presenta un cuestionario a los individuos de la muestra. Algunas empresas utilizan cuestionarios para realizar encuestas de satisfacción del cliente. Los estudios observacionales demanda mayor tiempo y costo.
ESTADISTICA DESCRIPTIVA: La estadística descriptiva trata del recuento, ordenamiento y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos que permiten simplificar la complejidad de los datos que intervienen en la distribución. No se hace cálculo de Probabilidades y únicamente se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos.
ESTADISTICA INFERENCIAL: La estadística Inferencial o inductiva plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra. Su estudio se basa en el cálculo de probabilidades.
DIFERENCIA ENTRE ESTADISTICA DESCRIPTIVA E INFERENCIAL
· La estadística descriptiva, como muy bien lo dice su nombre se encarga de describir datos y obtener conclusiones. La estadística inferencial argumenta sus resultados a partir de la muestra de una población.
· La estadística descriptiva se encarga de hacer descripciones tomando en cuenta algunos datos. La inferencial realiza estimaciones aplicadas a los datos que se obtienen de las muestras que se recogen de una población.
· En la estadística descriptiva se usan números como medidas para analizar datos y llegar a conclusiones de acuerdo a ellas. En la inferencial, existen técnicas que se utilizan para obtener conclusiones que exceden los límites del conocimiento obtenido por los datos, intenta conseguir información utilizando un procedimiento ordenado del manejo de los datos de la muestra.
ELEMENTOS DE LA ESTADISTICA:
· UNIVERSO: Totalidad de individuos o elementos en los cuales puede presentarse determinada característica susceptible a ser estudiada. No siempre es posible estudiarlo en su totalidad. Puede ser finito o infinito, y en el caso de ser finito puede ser muy grande y no poderse estudiar en su totalidad. Se debe escoger una parte del Universo para su estudio.
· POBLACION: Grupo del cual se desea obtener información. Parte del Universo en la cual vamos a basar nuestro estudio, según las características de nuestra investigación. Conjunto de todos los casos que concuerdan con una serie de especificaciones.
· MUESTRA: Parte o subconjunto de la población. Grupo en el que se realiza el estudio.
· DATOS: Son hechos/informaciones y cifras que se recogen de la muestra. Se analizan y resumen para su presentación e interpretación
DATOS DE SECCION TRANSVERSAL: Son los datos obtenidos en el mismo, o aproximadamente el mismo momento.
DATOS DE SERIES DE TIEMPO: Son los datos obtenidos a lo largo de varios períodos
UNIDAD 2 PRESENTACION DE DATOS
DESCRIPCION DE DATOS
La Descripción de Datos es el estudio de varias medidas numéricas que proporcionan opciones para resumir datos. Por un lado, medidas numéricas para conjuntos de datos que constan de una sola variable. Si el conjunto de datos consta de más de una variable, se emplearán estas mismas medidas numéricas para cada una de las variables por separado. Sin embargo, en el caso de dos variables, se estudiará también medidas de la relación entre dos variables
RESUMEN DE DATOS
Los datos cualitativos o cuantitativos se resumen mediante una tabla de Distribución de Frecuencia: Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada una de las diferentes clases.
FRECUENCIA RELATIVA: Proporción o porcentaje de elementos en cada clase
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 / 𝑛
n: número de observaciones
FRECUENCIA RELATIVA PORCENTUAL : frec relativa * 100
Cuando se trata de datos cuantitativos se debe tener más cuidado al definir las clases disyuntas que se van a usar en la distribución de frecuencia.
Pasos para definir la distribución de frecuencias
1. Determinar el número de clases disyuntas. Cuando la variable es continua o cuando es discreta pero con elevado número de valores, se agrupan dichos valores en intervalos o clases. Las clases seforman especificando los intervalos que se usarán para agrupar los datos. Se recomienda emplear entre 5 y 20 clases. Cuando los datos son pocos, cinco o seis clases bastan para resumirlos. Si son muchos, se suele requerir más clases.
2. Determinar el ancho de cada clase(valor mayor – valor menor / n ): Como regla general es recomendable que el ancho sea el mismo para todas las clases. Así, el ancho y el número de clases no son decisiones independientes. Entre mayor sea el número de clases menor es el ancho de las clases y viceversa. Para determinar el ancho de clase apropiada se empieza por identificar el mayor y el menor de los valores de los datos. Después, usando el número de clases deseado, se emplea la expresión siguiente para determinar el ancho aproximada de clase.
3. Determinar los límites de clase. Los límites de clase deben elegirse de manera que cada dato pertenezca a una y sólo una de las clases. El límite de clase inferior indica el menor valor de los datos a que pertenece esa clase. El límite de clase superior indica el mayor valor de los datos a que pertenece esa clase
Punto medio de clase: En algunas aplicaciones se desea conocer el punto medio de las clases o marca de clase (mc) de una distribución de frecuencia de datos cuantitativos. El punto medio de clase es el valor que queda a la mitad entre el límite inferior y el límite superior de la clase.
Distribución de frecuencia acumulada: En lugar de mostrar la frecuencia de cada clase, la distribución de frecuencia acumulada muestra la cantidad de datos que tienen un valor menor o igual al límite superior de cada clase. También es de utilidad calcular la Frecuencia acumulada relativa y la Frecuencia acumulada relativa porcentual
MEDIDAS DE TENDENCIA CENTRAL
· MEDIA: La medida de tendencia central más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota 𝑥ҧ; si los datos son datos de una población, la media se denota con la letra griega μ
· MEDIA MUESTRAL
· MEDIA EN UNA DISTRIBUCION DE FREC
· MEDIDA PARA DATOS AGRUPADOS
· MEDIANA: La mediana es otra medida de localización central. Es el valor de en medio en los datos ordenados de menor a mayor (en forma ascendente).
· Si el número de observaciones es impar, la mediana es el valor de en medio.
· Si el número de observaciones es par, la mediana es el promedio de las dos observaciones de en medio.
· MEDIANA PARA DATOS PARES
· MEDIANA PARA DATOS IMPARES
· MEDIANA EN UNA DISTRIBUCCION DE FREC
· MEDIANA PARA DATOS AGRUPADOS
· MODA: La moda es el valor que se presenta con mayor frecuencia. Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En otros casos, la moda puede no existir.
· MODA PARA DATOS AGRUPADOS
· MODA PARA DATOS NO AGRUPADOS
MEDIDAD DE POSICION
· PERCENTILES: El percentil es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100 - p) por ciento de las observaciones son mayores o iguales que este valor
· CUARTILES: Con frecuencia es conveniente dividir los datos en cuatro partes; así, cada parte contiene una cuarta parte o 25% de las observaciones. A los puntos de división se les conoce como cuartiles
· CUARTILES EN UNA MUESTRA
· CUARTILES EN UNA DISTRIBUCION DE FRECUENCIA
· CUARTILES PARA DATOS AGRUPADOS
MEDIDAD DE DISPERSION
· RANGO = VAL MAYOR – VAL MENOR
· VARIANZA: La varianza está basada en la diferencia entre el valor de cada observación (xi) y la media
· VARIANZA PARA DATOS AGRUPADOS
· VARIANZA PARA DATOS NO AGRUPADOS
· DESVIO ESTANDAR: La desviación estándar se define como la raíz cuadrada positiva de la varianza
· COEF DE VARIABILIDAD: Es una medida relativa de la variabilidad; mide la desviación estándar en relación con la media.
UNIDAD 3 PRESENTACION DE DATOS
Un gráfico estadístico es una representación visual de una serie de datos estadísticos. Es una herramienta muy eficaz, ya que un buen gráfico:
· capta la atención del lector;
· presenta la información de forma sencilla, clara y precisa;
· no induce a error;
· facilita la comparación de datos y destaca las tendencias y las diferencias;
· ilustra el mensaje, tema o trama del texto al que acompaña.
TIPOS DE GRAFICOS
GRAFICO DE BARRAS
Un gráfico de barras es una representación gráfica en un eje cartesiano de las frecuencias de una variable cualitativa o discreta En uno de los ejes se posicionan las distintas categorías o modalidades de la variable cualitativa o discreta y en el otro los valores, la frecuencia absoluta o relativa de cada categoría en una determinada escala. Las barras deben estar separadas para evidenciar que los valores recogidos en la abscisa son categorías discontinuas (discretas). Para facilitar la legibilidad se recomienda no usar mas de 7 (siete) barras.
Se suelen usar para:
· Comparar magnitudes de varias categorías
· Ver la evolución en el tiempo de una magnitud concreta
Grafico de barras sencillo : Contiene una única serie de datos
Grafico de barras agrupado : Contiene varias series de datos y cada una se representa por un tipo de barra de un mismo color o textura.
Grafico de barras apilado : Contiene varias series de datos. La barra se divide en segmentos de diferentes colores o texturas y cada uno de ellos representa una serie.
Grafico de barras horizontal : Las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen usarse cuando hay muchas categorías o sus nombres son demasiado largos.
HISTOGRAMA
Se usa para representar las frecuencias de una variable cuantitativa continua. En uno de los ejes se posicionan las clases de la variable continua (los intervalos o las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las barras. Para facilitar la legibilidad se recomienda no usar mas de 7 (siete) columnas. El área de los rectángulos es proporcional a la frecuencia representada. Los intervalos representados (ancho de las columnas) son siempre iguales.
POLIGONO DE FRECUENCIA
En datos agrupados se unen los puntos dados por las siguientes coordenadas:
• Eje de abscisas: Marcas de clase o puntos medios de clase
• Eje de ordenadas: Valor o Frecuencia (absoluta, relativa o porcentual) Es decir, se unen los puntos medios de las columnas de un histograma.
GRAFICOS DE LINEAS
Se suelen usar para presentar tendencias temporales. En el eje horizontal se ha de posicionar la variable que indica las unidades de tiempo y en el vertical se introduce la escala de la variable cuya variación en el tiempo queremos ver. Pueden aparecer varias variables para compararlas. Los gráficos de líneas se dibujan primero, trazando puntos de datos en una cuadrícula de coordenadas cartesianas, a continuación, se conectan estos puntos mediante una línea
GRAFICO DE AREA
Un gráfico de área es un gráfico de líneas en el que el área entre la línea y el eje aparece sombreada con un color. Estos gráficos normalmente se usan para representar los totales acumulados a lo largo del tiempo y son la forma convencional de visualizar líneas apiladas.
GRAFICO DE SECTORES O CIRCULAR
Un gráfico de sectores es una representación circular de las frecuencias relativas de una variable cualitativa o discreta que permite, de una manera sencilla y rápida, su comparación.
GRAFICO DE DISPERSION
Los diagramas de dispersión utilizan una colección de puntos colocados mediante coordenadas cartesianas para mostrar los valores de dos variables. Al mostrar una variable en cada eje, se puede detectar si existe una relación o correlación entre las dos variables. Las correlaciones pueden ser positivas (valores que aumentan juntos), negativas (un valor disminuye a medida que los otros aumentan), nulo (sin correlación), lineal , exponencial y en forma de U. Lospuntos que terminan muy fuera del cúmulo general se conocen como valores atípicos. Se pueden añadir líneas o curvas dentro de la gráfica para ayudar en el análisis y se dibujan tan cerca de todos los puntos como sea posible de forma equidistante. Normalmente, esto se conoce como línea de mejor ajuste o línea de tendencia, y se puede utilizar para hacer estimaciones por interpolación.
COMO SE CONSTRUYE?
Primero es preciso decidir cuál de las dos variables es la VARIABLE INDEPENDIENTE (X), es decir, cuál de ellas condiciona el comportamiento de la otra que se tomará como VARIABLE DEPENDIENTE (Y). El diagrama de dispersión o Nube de Puntos, se construye representando cada elemento (xi, yi) por un punto en el plano de manera que sus coordenadas son los valores que toman las dos variables.
CORRELACION
La finalidad de la correlación es examinar la dirección y la fuerza de la asociación entre dos variables cuantitativas. Así conoceremos la intensidad de la relación entre ellas y si, al aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable. Para valorar la asociación entre dos variables, la primera aproximación suele hacerse mediante un diagrama de dispersión. Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos variables, pero si queremos cuantificar esta asociación debemos calcular un coeficiente de correlación.
COEF DE CORRELACION
El coeficiente de correlación de Pearson evalúa específicamente la adecuación a la recta lineal que defina la relación entre dos variables cuantitativas. Se trata de un índice que mide si los puntos tienen tendencia a disponerse en una línea recta. Puede tomar valores entre -1 y +1. Se simboliza por “r” y está definido como el cociente entre la covarianza entre “x” e “y” y el producto de las desviaciones típicas de ambas variables.
COVARIANZA
La covarianza indica si la posible relación entre dos variables es directa o inversa. Es una medida que nos habla de la variabilidad conjunta de dos variables cuantitativas.
· Si 𝑆𝑥𝑦 > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).
· Si 𝑆𝑥𝑦 < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos decreciente).
· Si los puntos se reparten con igual densidad alrededor del centro de gravedad, 𝑆𝑥𝑦 = 0 (no hay relación lineal).
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables
PROPIEDADES DEL COEF DE CORRELACION
· Carece de unidades de medida (adimensional).
· Sólo toma valores comprendidos entre [-1,1].
· Cuando |r| esté próximo a uno, r= +1 (recta lineal creciente de izquierda a derecha) o r = -1 (recta lineal decreciente), se tiene que existe una relación lineal muy fuerte entre las variables.
· Cuando r≈0, puede afirmarse que no existe relación lineal entre ambas variables.
r = ±1 es lo mismo que decir que las observaciones de ambas variables están perfectamente alineadas. El signo de r, es el mismo que el de 𝑆𝑥𝑦, por tanto nos indica el crecimiento o decrecimiento de la recta. La relación lineal es tanto más perfecta cuanto r está cercano a ±1.
INTERPRETACION DE R
Aunque la interpretación de la magnitud del coeficiente de correlación depende del contexto particular de aplicación, en términos generales se considera que una correlación es baja por debajo de 0,30 en valor absoluto, que existe una asociación moderada entre 0,30 y 0,70, y alta por encima de 0,70.
CONDICIONES DE APLICACIÓN DE LA CORRELACION
· Variables cuantitativas: Ambas variables examinadas han de ser cuantitativas.
· Independencia: Las observaciones han de ser independientes, es decir, sólo hay una observación de cada variable para cada individuo.
REGRESION LINEAL SIMPLE
La regresión está dirigida a describir como es la relación entre dos variables X e Y, de tal manera que incluso se pueden hacer predicciones sobre los valores de la variable Y, a partir de los de X.
La regresión es su forma más sencilla se llama regresión lineal simple. Se trata de una técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de verificar si dicha relación es lineal.
Una vez que hemos hecho el diagrama de dispersión y después de observar una posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de regresión.
La ecuación de la regresión lineal estimada es: 𝑦 = 𝑏0 + 𝑏1𝑥
A la gráfica de la ecuación de regresión simple estimada se le llama recta de regresión estimada; 𝑏0 es la intersección con el eje “y” y 𝑏1 es la pendiente. A 𝑦 ^ se le llamará simplemente valor estimado de y.
METODO DE MINIMOS CUADRADOS
El método de mínimos cuadrados es un método en el que se usan los datos muestrales para hallar la ecuación de regresión estimada. 𝑦= 𝑏0 + 𝑏1X
Para el restaurante i, la ecuación de regresión simple estimada es: 𝑦 𝑖 = 𝑏0 + 𝑏1𝑥𝑖
Donde: 𝑦 : valor estimado de las ventas trimestrales (en miles de dólares) del restaurante i
𝑏0: intersección de la recta de regresión con el eje y
𝑏1: pendiente de la recta de regresión
𝑥 : tamaño de la población de estudiantes (en miles) del restaurante i
METODO DE MINIMOS CUADRADOS RESIDUOS
En el método de mínimos cuadrados se usan los datos muestrales para obtener los valores de 𝑏0 y 𝑏1 que minimicen la suma de los cuadrados de las desviaciones (diferencias) entre los valores observados de la variable dependiente yi y los valores estimados de la variable dependiente