Logo Studenta

RA1 PCE industrial

¡Este material tiene más páginas!

Vista previa del material en texto

Probabilidad y 
Estadística
PABLO CHÁVEZ MERINO
¿Qué es la 
estadística?
Recolectar
Organizar
Análizar
Concluir
Tomar
decisiones
https://www.youtube.com/watch?v=0_ybaigJd1s
https://www.youtube.com/watch?v=0_ybaigJd1s
Estadística
TIPOS DE ESTADÍSTICA -YouTube
https://www.youtube.com/watch?v=2bkjvrQSU7s
Estadística 
descriptiva
Población
Llamaremos población al 
conjunto de todos los 
elementos de interés 
para un problema 
determinado (individuos, 
objetos u observaciones), 
que al menos tengan una 
característica en común.
Muestra
Parte o subconjunto 
representativo de la 
población
Estadística 
descriptiva
A los elementos que a estudiar, se les 
llama Unidad de observación.
Si es posible 
obtener la 
información 
de todas las 
unidades de 
observación, 
se está en 
presencia de 
un Censo.
Estadística 
descriptiva
Las características asociadas a un conjunto de 
unidades observables de una población o muestra se 
le llama variable. 
Estadística 
descriptiva
Cualquier valor cualitativo o cuantitativo 
asociado a una variable se le llama “dato” u 
“observación”
Estadística 
descriptiva
Datos continuos
Son aquellos que, al menos
teóricamente, pueden tomar
cualquier valor intermedio entre dos
valores dados (intervalo), ejemplo:
temperatura del horno de secado.
Datos discretos
Son aquellos que surgen por el
procedimiento de conteo, tomando
valores enteros (ejemplo: nº de
piezas que pasan por un punto del
proceso).
Datos cuantitativos
Estadística 
descriptiva
Datos nominales
Son números o letras que
representan categorías donde no
interesa el orden
Ejemplo:
0 = defectuoso
1 = no defectuoso
Datos ordinales
Son números o letras que
representan categorías donde el
orden interesa
Ejemplo:
1: altamente defectuoso
2: medianamente defectuoso
3: no defectuoso
Datos cualitativos
Estadística 
descriptiva
Actividad: Pensar en una investigación y hacer un listado 
de preguntas que podría realizar que den como 
resultados una variable de cada tipo:
- 2 Ordinales: 
- 2 nominales: 
- 2 discretas:
- 2 continuas:
Tabla de 
frecuencias
Esta tabla resume las frecuencias las ocurrencias para las categorías en
un conjunto de datos, es la agrupación de datos en categorías o clases;
la estructura de la tabla depende del tipo de variable (cualitativa o
cuantitativa) que queramos ordenar y presentar.
Categoría o
Clase p
Intervalo de 
clase
[ Li-1 , Li [
Frecuencia
absoluta
ni
Frecuencia
relativa
fi (%)
Frecuencia
acumulada Ni
Frecuencia
relativa
acumulada Fi 
(%)
Marca de clase
mi
1 [L0 , L1[ n1 f1 N1 F1 m1
2 [L1 , L2[ n2 f2 N2 F2 m2
3 [L2 , L3[ n3 f3 N3 F3 m3
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
i [Li-1 , Li[ ni fi Ni Fi mi
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
k [Lk-1 , Lk] nk fk Nk Fk mk
Distribución 
de frecuencias
Categoría o
Clase p
Intervalo de 
clase
[ Li-1 , Li [
Frecuencia
absoluta
ni
Frecuencia
relativa
fi (%)
Frecuencia
acumulada Ni
Frecuencia
relativa
acumulada Fi 
(%)
Marca de clase
mi
1 [L0 , L1[ n1 f1 N1 F1 m1
2 [L1 , L2[ n2 f2 N2 F2 m2
3 [L2 , L3[ n3 f3 N3 F3 m3
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
i [Li-1 , Li[ ni fi Ni Fi mi
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
k [Lk-1 , Lk] nk fk Nk Fk mk
Li-1: es el límite inferior del i-ésimo intervalo de clase.
Li : es el límite superior del i-ésimo intervalo de clase.
𝒇𝒊 : es el cociente entre la frecuencia absoluta de algún valor de
la población/muestra y el total de valores que componen la
población/muestra
𝒏𝒊: cantidad de veces que se repite un suceso al realizar un número
determinado de experimentos aleatorios
Distribución 
de frecuencias 
para datos 
cuantitativos 𝑵𝒊: es la suma de las frecuencias absolutas del i-ésimo intervalo de clase y
las anteriores a ellas y la llamamos “frecuencia absoluta acumulada”
Fi: es la suma de las frecuencias relativas del i-ésimo intervalo de clase y las
anteriores a ellas y la llamamos “frecuencia relativa acumulada”
mi: es el punto medio del i-ésimo intervalo de clase, llamada “marca de
clase”
Categoría o
Clase p
Intervalo de 
clase
[ Li-1 , Li [
Frecuencia
absoluta
ni
Frecuencia
relativa
fi (%)
Frecuencia
acumulada Ni
Frecuencia
relativa
acumulada Fi 
(%)
Marca de clase
mi
1 [L0 , L1[ n1 f1 N1 F1 m1
2 [L1 , L2[ n2 f2 N2 F2 m2
3 [L2 , L3[ n3 f3 N3 F3 m3
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
i [Li-1 , Li[ ni fi Ni Fi mi
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
k [Lk-1 , Lk] nk fk Nk Fk mk
Tabla de 
frecuencias 
para Datos 
cualitativos
Ejemplo: La siguiente tabla muestra un resumen del estudio sobre los
tipos de siniestros a automóviles que han ocurrido entre los meses de
enero y marzo en el gran Concepción
Tabla de 
frecuencias 
para Datos 
cualitativos
La siguiente tabla muestra un resumen del estudio sobre 
tipo de automóviles que circularon en quince minutos en la 
intersección de las calles “Carrera” y “Paicaví”
Actividad: Complete la tabla 
Tabla de 
frecuencias
Ejemplo Consideremos los datos para la variable “nivel de satisfacción” de la
atención al cliente en una sucursal de la compañía Telefónica del Norte.
Categorías 
Frecuencia 
absoluta
Frecuencia 
relativa (%)
Satisfecho 15 25,4%
No responde 10 16,9%
Ni satisfecho ni insatisfecho 6 10,2%
Insatisfecho 28 47,5%
Total 59 100,0%
¿Qué le llama la atención de los datos que contiene esta tabla?
Distribución 
de frecuencias
a)Identifique la población y la variable en estudio. Clasifique la variable.
b)Construya la tabla de frecuencia e interprete n3 N2 f5 F4
Ejercicio: Los cuatro programas principales de televisión con mayor
audiencia fueron La ley y el orden (LyO), CSI, Sin rastro y Esposas
desesperadas (ED) (Nielsen Media Research, 1 de enero de 2007). A
continuación se proporcionan los datos que incluyen los programas
preferidos en una muestra de 50 espectadores.
Distribución 
de frecuencias 
para datos 
cuantitativos
Ejemplo (Cuantitativo discreto): Éstos fueron obtenidos de una prueba de
aptitudes de 150 preguntas a 50 personas entrevistadas recientemente
para un puesto en Haskens Manufacturing. Los datos indican el número de
preguntas respondidas correctamente.
Distribución 
de frecuencias
Los pasos para elaborar una distribución de frecuencias se pueden resumir en los 
siguientes: 
1.Obtener el rango (𝑅 = 𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜)
2. Determinar el número de clases (𝑘), existen dos reglas bastante usadas para 
determinar el número apropiado de clases son: 
•2𝑘 > n (donde n representa el total de observaciones)
• 𝒌 ≈ 𝟏 + 𝟑, 𝟑 𝒍𝒐𝒈(𝒏) (regla de Sturges) 
3. Determinar la amplitud (A): A =
𝑅
𝑘
•Comprobar amplitud con
𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 + 𝐴 ∗ 𝑘 >= 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜
4. Completar la tabla con: Intervalos de clases, frecuencias absolutas (𝒏𝒊), frecuencias 
relativas (𝒇𝒊), las frecuencias absolutas acumuladas (𝑵𝒊), las frecuencias relativas 
acumuladas (𝑭𝒊) y las marcas de clases (𝒎𝒊)
Gráficas para 
describir 
datos
La representación gráfica de una tabla o distribución
de frecuencias es una herramienta que permite
visualizar rápidamente los resultados de un conjunto
de datos.
15
5
2
4
0
2
4
6
8
10
12
14
16
Sin defecto bajo medio alto
N
ª 
D
E
 O
B
S
E
R
V
A
C
IO
N
E
S
CLASES
Gráfico de barras
Calidad línea A: N=30
Gráfico de 
barras
Es la gráfica más simple y es usada para representar
variables cualitativas o variables discretas.
Construcción
En el eje horizontal (X) se representan las clases y en el
eje vertical (Y) la frecuencia (“frecuencia absoluta”,
“relativa” o “relativa porcentual”). Sobre cada clase se
levanta una barra igual a su frecuencia.
15
5
2
4
0
2
4
6
8
10
12
14
16
Sin defecto bajo medio alto
N
ª 
D
E
 O
B
S
E
R
V
A
C
IO
N
E
S
CLASES
Gráfico de barras
Calidad bolsas de azúcar
Gráfico 
circular o de 
torta
Este tipo de gráficos se utilizada cuando
queremos representar la distribución de
frecuencias de una variable cualitativa o
cuantitativa continua mediante una
circunferencia.
Distribución 
de frecuencias 
para datos 
cuantitativos 
Ejemplo (cuantitativo continuo): El informe Nielsen Home TechnologyReport proporciona información sobre tecnología en el hogar y su uso. Los
datos siguientes registran las horas de uso de computadoras personales
durante una semana para una muestra de 50 personas.
a) Construya la tabla de frecuencia asociada e interprete lo relevante.
Actividad.
Histograma
Esta gráfica es usada para representar la
distribución de frecuencias de una variable
cuantitativa continua cuyos datos han sido
ordenados en intervalos de clase.
Pictograma
Es un icono gráfico para representar la información, a
través de una figura que se relaciona con la variable que
se está analizando se presenta la distribución.
Estadígrafos
Necesitamos determinados valores numéricos
que permiten cuantificar ciertas “características” de la
distribución, llamando a estos valores “estadísticos” o
“estadígrafos”, si son calculados a partir de los datos de
una muestra y “parámetros” si son calculados desde los
datos de una población. Existen 4 grandes familias que
veremos:
1. Medidas de tendencia central
2. Medidas de posición
3. Medidas de dispersión
4. Medidas de forma
Medidas de 
tendencia 
central
Localizan el centro de la distribución, portando
información respecto al valor promedio de un conjunto
de datos.
Los estadígrafos más utilizados son:
 Media
 Mediana
 Moda
Media 
La media (media aritmética o promedio) de un conjunto de n
mediciones x1, x2, x3,.......,xn para una variable o característica x,
es igual a la suma de los valores dividida por el número total de
observaciones n :
n
x
x
n
i
i
 1
Mediana
La mediana (Me) de un conjunto de n mediciones x1, x2,
x3,.......,xn es el valor de x que se encuentra en el punto
medio o centro cuando los valores se ordenan de menor
a mayor.
 Si n es par
 Si n es impar
2
1
22



nn xx
Me
21
 nxMe
Observaciones:
 Aunque los valores de la media y mediana son buenas
localizaciones del centro de una distribución, la mediana es menos
sensible a los valores extremos (muy grandes o muy pequeños).
 Si tenemos datos extremos “grandes” entonces la media será́
sobreestimada ത𝑋 > Me
 Si tenemos datos extremos “pequeños” entonces la media será́
subestimada ത𝑋 < Me
Moda
La moda (Mo) de un conjunto de n mediciones x1, x2,
x3,.......,xn para una variable o característica x, es el valor
que ocurre con mayor frecuencia o que más se repite.
 Observación: Cuando una distribución tiene una, dos o
más modas, hablamos de distribución “unimodal”,
“bimodal”.
Errores con el 
uso de la 
media
a) “Los valores de todos los datos son iguales o están muy cerca
de la media”, ignorando que la media no proporciona ninguna
información sobre la variabilidad.
b) “La media es el dato más frecuente”, olvidando que esto se da
en datos simétricos y unimodales, desconociendo el concepto
de moda.
c) “La media es el valor que está al centro, a la izquierda de él
queda el 50% de los datos y a la derecha el 50% restante”,
ignorando el concepto de mediana y el hecho que la media es
vulnerable a “sesgos” y “datos raros”.
d) “La media muestral es la media poblacional”, ignorando que
la media muestral es una variable aleatoria, es decir, lo que se
observa en la muestra es variable y depende de los elementos
que se seleccionan de la población, por lo que debemos
asegurar la calidad de la muestra (aleatoriedad y tamaño
suficiente).
Medidas de 
posición 
(Cuantiles)
Son utilizadas cuando se quiere dividir el
conjunto de datos en partes iguales. Según el número de
particiones pueden ser:
 Cuartiles (Ki) Existen tres cuartiles que dividen el
conjunto de datos en 4 partes iguales, cada uno reúne
un 25%.
 Quintiles (Qi) Dividen el conjunto de datos en 5 partes
iguales, por lo tanto hay 4 quintiles con 20% cada uno.
 Deciles (Di) Dividen el conjunto de datos en 10 partes
iguales, por lo tanto hay 9 deciles con 10% cada uno.
 Percentiles (Pi) Dividen el conjunto de datos en 100
partes iguales, por lo tanto hay 99 quintiles con 1%
cada uno.
Medidas de 
posición 
(Cuantiles)
Para calcular los cuantiles primero se deben ordenar los 
datos de manera ascendente, luego se utiliza la fórmula 
de calculo siguiente: 
𝑃𝑖 = 𝑥𝑖(𝑛+1)
100
Medidas de 
dispersión
Las medidas de tendencia central no bastan para
conocer el comportamiento de una distribución de
frecuencias, puesto que no proporcionan información
respecto de la “variabilidad” de los datos. Muchas veces,
el desconocimiento de esta medida nos conduce a tomar
decisiones erróneas al usar las medidas de tendencia
central.
Las “medidas de dispersión” cuantifican la dispersión de
los datos en torno a un valor central, por lo general es la
media.
 Varianza
 Desviación estándar
 Rango
 Coeficiente de variación
Varianza
Las “varianza” se define como el promedio cuadrático de
las desviaciones de las observaciones respecto del
promedio de estos datos.
Para una variable X, la varianza se denota por V(X), Sx
2 ó
σx
2, y dado un conjunto de n datos muestrales con media 
ത𝑋 , se calcula como sigue: 
𝑆𝑥
2 =
σ𝑖=1
𝑛 (𝑥𝑖 − ത𝑋)
2
𝑛 − 1
Desviación 
estándar
 Un inconveniente para la interpretación de la
“varianza” es que su unidad de medida es el “cuadrado
de los datos originales”.
 Por lo tanto, para obviar este inconveniente y tener una
medida de variabilidad expresada en la misma unidad
de los datos, se extrae la raíz cuadrada positiva a la
varianza, llamándose a esta medida “desviación
estándar”, la cual denotamos por Sx (Desviación
estándar muestral) ó σx(Desviación estándar
poblacional):
𝑆𝑥 =
σ𝑖=1
𝑛 (𝑥𝑖 − ത𝑋)
2
𝑛 − 1
Rango
El rango se calcula como la diferencia entre el valor 
máximo y el valor mínimo de un conjunto de datos, esto 
es: 
R=Xmax −Xmin
Coeficiente de 
variación
La desviación estándar es útil como medida de variación
de un conjunto de datos, sin embargo, depende de la
unidad de medida.
Cuando se quiere comparar la dispersión de dos
conjuntos de datos, con unidad de medida diferente,
surge una medida de varianza relativa llamada
“coeficiente de variación”, la cual expresa la desviación
estándar como un porcentaje de la media. Esto es:
𝐶𝑉 =
𝑆
ത𝑋
(100%)
Medidas de 
forma
Las “medidas de forma” buscan cuantificar aspectos
formales de una distribución de frecuencias basados en
comparar el comportamiento en las colas de las
distribución con respecto a las zonas centrales de la
misma. Entregan in indicio de la forma de distribución.
Los coeficiente son dos:
 Coeficiente de asimetría 
 Curtosis
Asimetría
Las “medidas de asimetría o sesgo” cuantifican el grado
de asimetría de la distribución en torno a una medida de
tendencia central.
𝐴𝑠 =
𝑛
(𝑛 − 1)(𝑛 − 2)
෍
𝑖=1
𝑛
𝑥𝑖− ҧ𝑥
𝑠
3
Asimetría
Se tienen los siguientes 3 casos: 
 Si As < 0 la distribución es asimétrica hacia la izquierda (negativa). 
Los datos están concentrados a la derecha 
 Si As = 0 la distribución es simétrica.
Los datos presentan una concentración centrada
 Si As > 0 la distribución es asimétrica hacia la derecha (positiva).
Los datos están concentrados a la izquierda
Curtosis
Las “medidas de curtosis” cuantifican el grado de
apuntamiento o aguzamiento de la de frecuencias con
respecto de una distribución simétrica unimodal de
forma acampanada (coeficiente de curtosis, K). Es decir,
que indica cuan alta o baja está la curva de los datos. La
fórmula de calculo es:
𝑘 =
𝑛(𝑛 + 1)
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)
෍
𝑖=1
𝑛
𝑥𝑖− ҧ𝑥
𝑠
4
−
3 𝑛 − 1 2
(𝑛 − 2)(𝑛 − 3)
Curtosis
Se tienen los siguientes 3 casos: 
 Si k > 0 la distribución es leptocúrtica , los datos están 
más concentrados cerca de la media.
 Si k = 0 la distribución es normal o mesocúrtica
 Si k < 0 la distribución es platicúrtica, los datos se 
distribuyen más alejados de la media

Continuar navegando