UNIDAD N3

Estadística

•

SIN SIGLA

0

Pedro Emi

12/7/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5542 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

3
1
Unidad N°3
Un gráfico estadístico es una representación visual de una serie de datos
estadísticos. Es una herramienta muy eficaz, ya que un buen gráfico:
• capta la atención del lector;
• presenta la información de forma sencilla, clara y precisa;
• no induce a error;
• facilita la comparación de datos y destaca las tendencias y las diferencias;
• ilustra el mensaje, tema o trama del texto al que acompaña.
2
Unidad N°3
Datos cualitativos
• Ordinales: si siguen un orden o secuencia (ej. el abecedario, los meses del año).
• Nominales: si no siguen ningún orden (ej. el estado civil de las personas: solteros,
casados, viudos, divorciados y separados).
Datos cuantitativos
• Discretos: si toman valores enteros (0, 1, 2, 3...). Ej. el número de hijos, el número de
alumnos de una clase
• Continuos: si pueden tomar cualquier valor dentro de un intervalo (ej. la estatura o el
peso de las personas).
3
Unidad N°3
• Gráficos de Barras
• Histograma
• Gráfico de líneas
• Polígono de frecuencias
• Gráfico de Pareto
• Gráfico de Áreas
• Gráfico de Sectores
• Gráfico de Dispersión
4
Unidad N°3
Un gráfico de barras es una representación gráfica en un eje cartesiano de las
frecuencias de una variable cualitativa o discreta
En uno de los ejes se posicionan las distintas categorías o modalidades de la
variable cualitativa o discreta y en el otro los valores, la frecuencia absoluta o
relativa de cada categoría en una determinada escala.
Las barras deben estar separadas para evidenciar que los valores recogidos en la
abscisa son categorías discontinuas (discretas).
Para facilitar la legibilidad se recomienda no usar mas de 7 (siete) barras.
5
Unidad N°3
Eje de abscisas: Tipo de cereal
Eje de ordenadas: Miles de toneladas de cada cereal
6
Unidad N°3
• Comparar magnitudes de varias categorías
• Ver la evolución en el tiempo de una magnitud
concreta
7
Unidad N°3
Contiene una única serie de datos
8
Unidad N°3
Contiene varias series de datos y cada una se representa por un tipo de barra de un mismo
color o textura.
9
Unidad N°3
Contiene varias series de datos. La barra se divide en segmentos de diferentes colores o
texturas y cada uno de ellos representa una serie.
10
Unidad N°3
Las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen usarse
cuando hay muchas categorías o sus nombres son demasiado largos.
11
Unidad N°3
Se usa para representar las frecuencias de una variable cuantitativa continua.
En uno de los ejes se posicionan las clases de la variable continua (los intervalos o
las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje
las frecuencias. No existe separación entre las barras.
Para facilitar la legibilidad se recomienda no usar mas de 7 (siete) columnas.
El área de los rectángulos es proporcional a la frecuencia representada.
Los intervalos representados (ancho de las columnas) son siempre iguales.
12
Unidad N°3
Número de hogares según ingresos
• Eje de abscisas: Ingresos en Euros
• Eje de ordenadas: Miles de hogares
13
Unidad N°3
En datos agrupados se unen los puntos dados por las siguientes coordenadas:
• Eje de abscisas: Marcas de clase o puntos medios de clase
• Eje de ordenadas: Valor o Frecuencia (absoluta, relativa o porcentual)
Es decir, se unen los puntos medios de las columnas de un histograma.
14
Unidad N°3
Se unen los puntos medios de las columnas de un histograma.
15
Unidad N°3
Se suelen usar para presentar tendencias temporales.
En el eje horizontal se ha de posicionar la variable que indica las unidades de
tiempo y en el vertical se introduce la escala de la variable cuya variación en el
tiempo queremos ver.
Pueden aparecer varias variables para compararlas.
Los gráficos de líneas se dibujan primero, trazando puntos de datos en una
cuadrícula de coordenadas cartesianas, a continuación, se conectan estos puntos
mediante una línea.
16
Unidad N°3
Graduados en España por nivel de
formación académica
17
Unidad N°3
Un gráfico de área es un gráfico de líneas en el que el área entre la línea y el eje
aparece sombreada con un color. Estos gráficos normalmente se usan para
representar los totales acumulados a lo largo del tiempo y son la forma
convencional de visualizar líneas apiladas.
18
Unidad N°3
19
Unidad N°3
Un gráfico de sectores es una representación circular de las frecuencias relativas
de una variable cualitativa o discreta que permite, de una manera sencilla y rápida,
su comparación.
20
Unidad N°3
El círculo representa la totalidad que se quiere observar (en el ejemplo, total de viajeros hospedados en
hoteles) y cada porción, llamadas sectores, representan la proporción de cada categoría de la variable (en
el ejemplo, tipo de hotel) respecto el total. Suele expresarse en porcentajes.
21
Unidad N°3
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 =
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒
𝑛
Á𝑛𝑔𝑢𝑙𝑜 = 𝐹𝑟𝑒𝑐. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 ∙ 360°
22
Unidad N°3
Los diagramas de dispersión utilizan una colección de puntos colocados mediante
coordenadas cartesianas para mostrar los valores de dos variables. Al mostrar una variable
en cada eje, se puede detectar si existe una relación o correlación entre las dos variables.
Las correlaciones pueden ser positivas (valores que aumentan juntos), negativas (un valor
disminuye a medida que los otros aumentan), nulo (sin correlación), lineal , exponencial y en
forma de U. Los puntos que terminan muy fuera del cúmulo general se conocen como valores
atípicos.
Se pueden añadir líneas o curvas dentro de la gráfica para ayudar en el análisis y se dibujan
tan cerca de todos los puntos como sea posible de forma equidistante. Normalmente, esto se
conoce como línea de mejor ajuste o línea de tendencia, y se puede utilizar para hacer
estimaciones por interpolación.
23
Unidad N°3
DIAGRAMA DE DISPERSIÓN EN EL QUE SE MUESTRA LA POBLACIÓN DE
ESTUDIANTES Y LAS VENTAS TRIMESTRALES DE CIERTA PIZZERÍA:
El gerente de la cadena de pizzerías sostiene que sus mejores
ubicaciones son las que se encuentran cerca de los campus de las
universidades. Las ventas trimestrales de estos restaurantes (que se
denotan por y) están directamente relacionadas con el tamaño de la
población estudiantil (que se denota x).
24
Unidad N°3
Primero es preciso decidir cuál de las dos variables es la VARIABLE INDEPENDIENTE
(X), es decir, cuál de ellas condiciona el comportamiento de la otra que se tomará
como VARIABLE DEPENDIENTE (Y).
El diagrama de dispersión o Nube de Puntos, se construye representando cada
elemento (xi, yi) por un punto en el plano de manera que sus coordenadas son los
valores que toman las dos variables.
25
Unidad N°3
La finalidad de la correlación es examinar la dirección y la fuerza de la asociación
entre dos variables cuantitativas. Así conoceremos la intensidad de la relación
entre ellas y si, al aumentar el valor de una variable, aumenta o disminuye el valor
de la otra variable.
Para valorar la asociación entre dos variables, la primera aproximación suele
hacerse mediante un diagrama de dispersión.
Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos
variables, pero si queremos cuantificar esta asociación debemos calcular un
coeficiente de correlación.
26
Unidad N°3
El coeficiente de correlación de Pearson evalúa específicamente la adecuación a la
recta lineal que defina la relación entre dos variables cuantitativas.
Se trata de un índice que mide si los puntos tienen tendencia a disponerse en una
línea recta. Puede tomar valores entre -1 y +1.
Se simboliza por “r” y está definido como el cociente entre la covarianza entre “x” e
“y” y el producto de las desviaciones típicas de ambas variables.
𝑟 =
𝑆𝑥𝑦
𝑆𝑥𝑆𝑦
27
Unidad N°3
La covarianza indica si la posible relación entre dos variables es directa o inversa.Es
una medida que nos habla de la variabilidad conjunta de dos variables cuantitativas.
𝑆𝑥𝑦 =
1
𝑛
෍(𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦)
• Si 𝑆𝑥𝑦 > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).
• Si 𝑆𝑥𝑦 < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de
puntos decreciente).
• Si los puntos se reparten con igual densidad alrededor del centro de gravedad,
𝑆𝑥𝑦 = 0 (no hay relación lineal).
28
Unidad N°3
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relación entre las variables
29
Unidad N°3
• Carece de unidades de medida (adimensional).
• Sólo toma valores comprendidos entre [-1,1].
• Cuando |r| esté próximo a uno, r= +1 (recta lineal creciente de izquierda a
derecha) o r = -1 (recta lineal decreciente), se tiene que existe una relación lineal
muy fuerte entre las variables.
• Cuando r≈0, puede afirmarse que no existe relación lineal entre ambas variables.
30
Unidad N°3
r = ±1 es lo mismo que decir que las observaciones de ambas variables están perfectamente alineadas.
El signo de r, es el mismo que el de 𝑆𝑥𝑦, por tanto nos indica el crecimiento o decrecimiento de la recta.
La relación lineal es tanto más perfecta cuanto r está cercano a ±1.
31
Unidad N°3
Aunque la interpretación de la
magnitud del coeficiente de
correlación depende del contexto
particular de aplicación, en
términos generales se considera
que una correlación es baja por
debajo de 0,30 en valor absoluto,
que existe una asociación
moderada entre 0,30 y 0,70, y alta
por encima de 0,70.
• Variables cuantitativas: Ambas
variables examinadas han de ser
cuantitativas.
• Independencia: Las observaciones
han de ser independientes, es decir,
sólo hay una observación de cada
variable para cada individuo.
32
Unidad N°3
La regresión está dirigida a describir como es la relación entre dos variables X e Y, de
tal manera que incluso se pueden hacer predicciones sobre los valores de la variable
Y, a partir de los de X.
La regresión es su forma más sencilla se llama regresión lineal simple. Se trata de
una técnica estadística que analiza la relación entre dos variables cuantitativas,
tratando de verificar si dicha relación es lineal.
Una vez que hemos hecho el diagrama de dispersión y después de observar una
posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación
de la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de
regresión.
33
Unidad N°3
La ecuación de la regresión lineal estimada es:
ො𝑦 = 𝑏0 + 𝑏1𝑥
A la gráfica de la ecuación de regresión simple estimada se le llama recta de
regresión estimada; 𝑏0 es la intersección con el eje “y” y 𝑏1 es la pendiente. A ො𝑦 se le
llamará simplemente valor estimado de y.
34
Unidad N°3
El método de mínimos cuadrados es un método en el que se usan los datos
muestrales para hallar la ecuación de regresión estimada.
ො𝑦 = 𝑏0 + 𝑏1𝑥
35
Unidad N°3
Población de estudiantes y ventas trimestrales
en 10 pizzerías de una cadena
Eje y: Ventas trimestrales
Eje x: Población de estudiantes
36
Unidad N°3
Para el restaurante i, la ecuación de regresión simple estimada es:
ෝ𝑦𝑖 = 𝑏0 + 𝑏1𝑥𝑖
Donde:
ෝ𝑦𝑖: valor estimado de las ventas trimestrales (en miles de dólares) del restaurante i
𝑏0: intersección de la recta de regresión con el eje y
𝑏1: pendiente de la recta de regresión
𝑥𝑖: tamaño de la población de estudiantes (en miles) del restaurante i
37
Unidad N°3
En el método de mínimos cuadrados se usan los datos muestrales para obtener los valores de 𝑏0 y 𝑏1
que minimicen la suma de los cuadrados de las desviaciones (diferencias) entre los valores observados
de la variable dependiente yi y los valores estimados de la variable dependiente.
36
Unidad N°3
min෍(𝑦𝑖 − ෝ𝑦𝑖)
2
Donde:
ෝ𝑦𝑖: valor estimado de la variable independiente en la observación i
𝑦𝑖: valor observado de la variable dependiente en la observación i
37
Unidad N°3
Se puede demostrar que los valores de 𝑏0 y 𝑏1 que minimiza la expresión anterior son
los obtenidos mediante las siguientes ecuaciones:
𝑏1 =
σ(𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦)
σ(𝑥𝑖 − ҧ𝑥)
2
𝑏0 = ത𝑦 − 𝑏1 ҧ𝑥
Donde:
ҧ𝑥: media de la variable independiente
ത𝑦: media de la variable dependiente
37
Unidad N°3
𝑏1 =
σ(𝑥𝑖− ҧ𝑥)(𝑦𝑖−ത𝑦)
σ(𝑥𝑖− ҧ𝑥)
2 =
2480
568
= 5 𝑏0 = ത𝑦 − 𝑏1 ҧ𝑥 = 130 − 5 14 = 60
ො𝑦 = 60 + 5𝑥
38
Unidad N°3
Si se considera que la ecuación de regresión estimada obtenida por el método de mínimos cuadrados
describe adecuadamente la relación entre x e y, parecerá razonable usar esta ecuación de regresión
estimada para estimar el valor de y para un valor dado de x. Por ejemplo, si se quisieran predecir las ventas
trimestrales de un restaurante ubicado cerca de un campus de 16 000 estudiantes, se calcularía:
ො𝑦 = 60 + 5𝑥 = 60 + 5 16 = 140