Logo Studenta

03 Uni3 1Estadística aplicada al mej ani

¡Este material tiene más páginas!

Vista previa del material en texto

1
3.0 ESTADÍSTICA APLICADA 
AL MEJORAMIENTO ANIMAL
Ing. María Elisa Catalina García Salas
La Molina, Agosto 2020
Universidad Nacional Agraria La Molina
Facultad de Zootecnia
Departamento de Producción Animal
Curso: ZT3007 Mejoramiento Genético del Ganado
Contenido
3.1.- Generalidades
3.2.- Caracterización de una población
3.3.- Distribución Normal
3.4.- Medidas de asociación
3.5.-Tipos de correlación
2
 La ciencias exactas usan: modelos deterministas
 X + 3 = 7
 X = 4
 La estadísticas hace uso de: modelos probabilísticos
 X + 3 = 7 + e
 Existe un intervalo y 4 se encuentra en él
 X puede estar entre 4.1 - 3.9
 Las conclusiones estadísticas dependen de 3 factores: 
 Tamaño de la muestra
 Variabilidad de la variable
 Error que estemos dispuestos a asumir
3.1.- Generalidades.
Estadística = ciencia de probabilidades y errores
3.1.- Generalidades. 
PRINCIPALES FUNCIONES DE LA ESTADÍSTICA
1. Resumir información: calcular medias, variancias, etc.
2. Ayudar a tomar decisiones: Pruebas de hipótesis.
3. Diseño e interpretación de resultados experimentales.
3
•Variable aleatorea, es el resultado la
representación de la característica, por ejemplo
Peso de la camada al nacer en lechones. Este
valor no es único, sino que es el resultado del
proceso de extracción de un valor de su
distribución normal.
•Dato, es el valor que puede tomar la variable,
pudiendo ser numérico o no, ejemplo 10 Kg. el
peso de la camada al nacimiento.
VARIABLE ALEATOREA Y DATO
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
•Cualitativa: toma valores que se corresponden
con cualidades no cuantificables de los
individuos, no se pueden medir.
Ejemplo el color del pelaje en vacunos Holstein.
•Dicotómicas: solo pueden tomar dos valores,
(SI/NO); (0,1).
Ejemplo: Clasificación de los efectos fijos en un
modelo lineal.
TIPOS DE VARIABLES
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
4
•Cuantitativa: toma valores en un conjunto
prefijado de valores numéricos, se puede medir.
– Discreta: el conjunto es finito o numerable .
Ejemplo: número de hijos de una familia.
– Continua: el conjunto es infinito no numerable, contiene 
algún intervalo.
Ejemplo: producción de leche.
TIPOS DE VARIABLES
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
• Parámetro. Es la cantidad numérica (valor) que ha sido
calculada con los datos de una población.
• Estadístico. Es el valor calculado en una muestra,
obtenida de la población.
– La altura media de los que estamos en este aula.
• Somos una muestra (¿representativa?) de la
población.
• Si un estadístico se usa para aproximar un parámetro
también se le suele llamar estimador.
PARAMETROS ESTADISTICOS
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
5
POBLACIÓN y MUESTRA
• Población a un conjunto bien definido sobre el que
se observa o puede observarse una cierta
característica.
• La población puede ser finita o infinita.
• El tamaño de la población es el número de
individuos que tiene, lo denotamos por N.
• Si la población es muy grande se realiza una
selección denominada muestra, la cual debe de ser
representativa de ella.
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
POBLACIÓN y MUESTRA
• Individuo, es cada uno de los elementos de la
población.
•Muestra, es un conjunto de individuos de la
población que refleja las características lo mejor
posible. si la característica queda bien reflejada se
dice que la muestra es representativa. se denota por
“n”.
• Si la muestra y la población coinciden, se dice que
se tiene un censo.
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
6
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
 Para que las muestras sean útiles en el estudio de
las poblaciones, deben de cumplir 2 condiciones:
 Deben ser aleatorias
 Deben ser representativas
POBLACIÓN y MUESTRA
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
7
3.2.- DATOS Y SU DISTRIBUCIÓN
1. Distribución de Frecuencias
2. Diagrama de Tallos y Hojas (- 50 datos)
Representaciones Gráficas:
1. Diagrama de Pareto: datos cualitativos
2. Diagrama de barras: variables discretas
3. Histogramas: intervalos de clase
MEDIDAS DE 
TENDENCIA 
CENTRAL
Media Aritmética 
Mediana 
Moda o Modo
Coeficiente de regresión
Coeficiente de correlación
Coef. Determinación
Coef. No determinación
MEDIDAS DE 
ASOCIACIÓN
MEDIDAS DE 
VARIABILIDAD O 
DISPERSIÓN
Varianza
Desviación Estándar
Error Estándar
Coef. de Variación.
3.2. CARACTERIZACIÓN DE UNA POBLACIÓN
MEDIDAS DE 
POSICION
Cuántiles
Percentiles
8
3.2.1. Medidas de Posición
 Amplitud o Rango
Es la diferencia entre las observaciones extremas.
 Es muy sensible a los valores extremos.
 Rango intercuartílico
Es la distancia entre el primer y tercer cuartil.
 Rango intercuartílico = P75 - P25
 Parecida al rango, pero eliminando las observaciones más
extremas inferiores y superiores.
 No es tan sensible a valores extremos.
 Se puede utilizar como criterio de estandarización de valores
para su análisis.
Datos atípicos y Diagramas de cajas
Es muy frecuente que los datos
presenten observaciones que
contienen errores de medida o
transcripción o que son
heterogéneas con el resto
porque se han obtenido en
circunstancias distintas.
Estudios efectuados sobre
datos recogidos revelan que
aparecen entre 1 Y 3% de
observaciones atípicas en una
muestra.
Li = Q1 – 1.5 (Q3 – Q1)
Ls = q3 + 1.5 (Q3 – Q1)
9
3.2.2.- Medidas de Tendencia Central
MEDIA, MEDIANA Y MODA
NOMBRE SÍMBOLO DEFINICIÓN VENTAJAS DESVENTAJAS
Promedio
(Media)
X
1) Refleja cada valor.
2) Propiedades
algebraicas.
3) Es la más usada
en análisis
estadísticos.
1) Puede ser excesivamente
influenciada por valores
extremos.
Mediana Md
50% de los
valores son
mayores y
50% son
menores que
ella.
1) Menos sensible a 
valores extremos 
que la media.
1) Difícil de calcular si hay
muchos datos.
2) No tiene propiedades
algebraicas.
Moda M
Valor con la
frecuencia
más alta.
1) Fácil de calcular.
2) Valor "típico" más
valores reunidos
en este punto que
en cualquier otro.
1) No se presta para el
análisis estadístico.
2) Puede haber más de una
moda o ninguna.
n
i
X
n
X
i
1


Medidas de Tendencia Central
MEDIA, MEDIANA Y MODA
10
75.286
20
735.5
75.94
20
895.1


Y
X
Número 
de animal X Y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
105
95
80
85
90
100
110
95
95
90
80
100
95
90
85
100
90
110
105
95
300
265
250
270
290
310
325
280
300
250
230
300
290
280
240
330
280
350
330
265
Datos de 20 terneros hereford
X: peso a los 150días.
Y: peso a los 300 días.
Ejemplo:
Medias
3.2.3.- Medidas de Dispersión
 Las medidas de dispersión mide la variabilidad 
de los datos (valores) independientemente de 
su causa.
 Las medidas consideradas son:
 Varianza
 Desviación estándar
 Coeficiente de variación
 Error estándar
11
 Varianza (s2).
Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.
 Es sensible a valores extremos (datos con mayor dispersión).
 Sus unidades son el cuadrado de las de la variable.
Suma de cuadrados 
de x = SC X
3.2.3.- Medidas de Dispersión
Varianza :
S2x = (105 – 94.75) 2 + (95 – 94.7) 2 + (80 – 94.7) 2 +………………. = 77.6
20 - 1
S2y = (300 – 286.75) 2 + (265 – 286.75) 2 + (250 – 286.75) 2 +…. = 1040.197
20 - 1
X: peso a los 150días.
Y: peso a los 300 días.
12
DESVIACIÓN ESTÁNDAR O TIPICA
• A la raíz cuadrada (positiva) de la varianza se le llama desviación
estándar ó desviación típica, así
ó 
1
2



n
XX
s i
1
22



n
XnX
s i
• La desviación estándar presenta ventajas sobre la varianza, pues sus
unidades físicas son las mismas que las de las observaciones,
mientras que las de la varianza son unidades físicas cuadradas.
DESVIACIÓN ESTANDAR DEL LOS PESOS DE GANADO HEREFORD
DE x = 8.8 DS y= 32.2 
 Ejemplos de media y desviación estándar de características 
de interés zootécnico. 
13
ERROR ESTÁNDAR:
A la Desviación Estándar de la distribución
muestral de un estadígrafo se le denomina
Error Estándar o Error Típico del estadígrafo
en cuestión.
Así, es el error estándarde la
media o simplemente error estándar, cuando
el muestreo se hace con reemplazo.
También se puede tener el error estándar de
la varianza o de la mediana o de la
proporción, etc.
nX
 
pMdS
 ,,2
COEFICIENTE DE VARIACIÓN.
 Es una medida de dispersión relativa,
pues está exenta de unidades y se expresa
en porcentaje. Se usa para comparar
distribuciones con diferentes unidades o
para comparar las dispersiones de dos
distribuciones diferentes. Su fórmula es:
C. V. = s (100)
X
14
Coeficiente de variación
CVX (%) = 8.807 * 100 = 9.01 % 
94.75
CVY (%) = 32.252 * 100 = 11.25 % 
286.75
X: peso a los 150días.
Y: peso a los 300 días.
3.3.- LA DISTRIBUCIÓN NORMAL O DE GAUSS
 La mayoría de los caracteres cuantitativos o
métricos de interés en el mejoramiento animal
siguen esta distribución.
 Los parámetros que la caracterizan son la media (μ)
y la desviación típica (σ) o desviación estándar.
 Al considerarse dos variables simultáneamente, se
llama Distribución binormal, y otro parámetro es la
covariancia entre las dos variables (σXY).
15
Tiene importancia ya que hay muchas variables
asociadas a fenómenos naturales que siguen el modelo
de la normal:
 Caracteres morfológicos de los individuos de una
especie, ej. tallas, pesos, diámetros, perímetros.
 Caracteres fisiológicos, ej.: efecto de una misma dosis
de un fármaco, o de una misma cantidad de abono.
 Caracteres sociológicos, ej.: consumo de cierto
producto por un mismo grupo de individuos,
puntuaciones de examen.
 Caracteres psicológicos, ej.: cociente intelectual, grado
de adaptación a un medio.
Importancia de la Distribución Normal
DISTRIBUCIÓN NORMAL
Es una distribución teórica de
probabilidades, cuyas
principales características son:
 Simétrica.
Acampanada.
Asintótica.
 Se dan las siguientes relaciones:
u +- 1Ϭ = 68.26 %
u +- 2Ϭ = 95.44%
u +- 3Ϭ = 99.76%
16
La población A tiene menor
media que las poblaciones B y C,
igual variabilidad que la
población B. La población C es la
de mayor variabilidad.(a) Probabilidades dadas por la
desviación típica.
(b) Comparación de media y
variación en tres poblaciones
distribuidas normalmente.
LA DISTRIBUCIÓN NORMAL O DE GAUSS
MEDIDAS DE ASIMETRÍA Y CURTOSIS
 Estas medidas informan sobre la forma de distribución: su 
grado de asimetría y su grado de homogeneidad. Al ser 
medida de forma, no dependen de las unidades.
 Coeficiente de asimetría, el signo indica la forma
 - la distribucion se alarga con respecto a la media
 + la distribución se acentúa con respecto a la media
 Coeficiente de curtosis, indica la heterogeneidad en los 
datos:
 Si es muy bajo (<2) es una distribución mezclada
 Si es muy alto 8<69 indica presencia de valores atípicos
17
ASIMETRÍA Y CURTOSIS
 Catalogo de toros: uso de la desviación estándar
18
3.4.- MEDIDAS DE ASOCIACIÓN
En base a las relaciones biológicas entre los
características de importancia de los
animales domésticas, buscamos las
asociaciones entre ellas y le damos la
denominación de:
Variable Independiente X, y de
Variable Dependiente Y.
Ejemplos:
MEDIDAS DE ASOCIACIÓN
COEFICIENTE DE REGRESIÓN
byx= regresión de y sobre x
bxy= regresión de x sobre y
El valor puede ser + o – y de acuerdo a este, indicará el tipo de
pendiente.
El coeficiente de regresión tiene unidades.
Si b=0, la línea sería paralela a las abscisas y no existiría relación 
entre las variables.
Se presenta cuando la relación funcional entre la variable aleatoria
dependiente (Y) y la variable independiente (X) es una línea recta.
19
REGRESIÓN LINEAL SIMPLE
Esta definida por la ecuación:
Y = ß0 + ß1 X
Donde:
ß0 = Es el valor de la ordenada, el punto de intersección.
ß1 = Es la pendiente de la línea recta, llamada el 
Coeficiente de Regresión de la población.
2
X
XY
XY S
S
b 
El coeficiente de regresión 
de Y sobre X (Y variable 
dependiente) se calcula:
YXXY bb  
COEFICIENTE DE REGRESIÓN:
Las unidades en que se expresa el coeficiente de
regresión son las mismas de la variable Y.
Interpretación:
El valor obtenido (b) es la variación de la variable
dependiente cuando la variable independiente varia en 1
unidad
20
Sabiendo que:
COEFICIENTE DE REGRESION LINEAL
Para el ejemplo Ganado Hereford:
XbYa XY 
23.3XYb 29.19a XY 23.329.19 
Interpretación:
Por cada kilo de aumento de peso a los 150 días, se espera un
aumento de 3.23 Kg. en el peso a los 300 días.
La predicción está restringida a la amplitud estudiada de X, en
este caso solo para pesos a los 150 días entre 80 y 110 kilos.
Por ejemplo: a=-19.29 no tiene interpretación biológica ya que
corresponde a X=0.
La regresión puede ser negativa, un aumento en X resulta disminución en
Y, o cero (una línea horizontal) en cuyo caso la correlación es también 0.
USO DEL COEFICIENTE DE REGRESIÓN
Para predecir o estimar valores futuros de Y cuando se conocen los
valores de X; para ello se utiliza la ecuación de predicción:
PREDICCIÓN
21
Para ajustar valores iniciales de Y a fin de comparar
libremente sin temor a cometer parcialidad alguna; para ello
se utiliza la ecuación de ajuste:
ESTIMACIÓN
USO DEL COEFICIENTE DE REGRESIÓN
COEFICIENTE DE CORRELACIÓN
 Mide el grado de asociación que existe entre dos 
variables o caracteres.
 Las variables son consideradas como:
 X = Variable independiente
 Y = Variable Dependiente.
22
• Un valor de la correlación cercano a -1 o +1
indica que ambos caracteres están
controlados por muchos genes en común.
• Un valor cercano a cero indica que la
regulación genética de ambos caracteres tiene
pocos genes en común.
El rango de correlación es de : -1 a + 1
No tiene unidades.
COEFICIENTE DE CORRELACIÓN
CLASES DE CORRELACIONES:
 Correlación Positiva: Cuando las dos variables 
marchan juntas en el mismo sentido. 
X↓Y↓ ; X↑ Y↑
 Correlación Negativa: Cuando las dos variables 
marchan en diferentes sentidos; es decir cuando 
una incrementa, la otra disminuye o viceversa.
X↑Y↓ ; X↓Y↑
COEFICIENTE DE CORRELACIÓN
23
GRADOS DE CORRELACIÓN:
0 = No existe correlación.
0.01 a 0.20 = Baja correlación.
0.21 a 0.40 = Medianamente regular.
0.41 a 0.60 = Medianamente alta.
0.61 a 0.99 = Alta correlación.
1 = Máxima asociación.
COEFICIENTE DE CORRELACION
Ejemplo Ganado Hereford: Pesos a los 150 días, 300 d
a. Correlación: Si tenemos dos variables X e Y, el grado de asociación 
linar está dado por el coeficiente de correlación:
YX
XY
XY SS
S
r 
  








  N
YXi
YX
N
S jiiXY 1
1
150.548 iiYX
La covariancia entre X e Y se define:
Para el conjunto de datos que estamos trabajando:
461.250XYS 88.0XYr
24
COEFICIENTE DE DETERMINACIÓN
 El coeficiente de determinación mide la proporción de
variabilidad total de la variable dependiente respecto a su
media que es explicada por el modelo estadístico.
 Es usual expresar esta medida en tanto por ciento,
multiplicándola por cien.
YX
XY
ss
s
R 22
2
2 
 RELACIÓN ENTRE LOS COEFICIENTES DE CORRELACION Y
DETERMINACION
Correlación r 1.0 0.95 0.9 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.5
Determinación r2 1.0 0.90 0.81 0.72 0.64 0.56 0.49 0.42 0.36 0.30 0.25
• De aquí se deduce que coeficientes de correlación de
menores de 0.70 implican que más de la mitad de la
variabilidad de Y es “independiente” de X.
• El coeficiente de correlación mide relaciones lineares (puede
existir alta determinación entre dos variables pero no ser
lineal), varía entre -1 y +1 y es simétrico rXY=rYX.
• Una alta correlación no implica relación de causa-efecto
entre las variables.
25
COEFICIENTE DE NO DETERMINACIÓN
 El coeficiente de No Determinación mide la proporción de
variabilidad total de la variable dependiente que no esta
explicada por el modelo de regresión.
 Es usual expresar esta medida en tanto por ciento,
multiplicándola por cien.
YX
XY
ss
s
R 22
2
2 11 
COEFICIENTES DE DETERMINACIÓN Y NO 
DETERMINACION
 Del ejemplo de Ganado Hereford:
 R = (0.88 x0.88) = 77.4%
 El peso a los 150 días tiene una influenciadel 77% en el 
peso a los 300 días
 1-R = 1 – 0.774 = 22.6 %
 Otros factores influyen en el peso a los 300 días en 22%, 
que por el momento los desconocemos.
26
CAMPAÑA CERRADA DE PRODUCCIÓN DE EUN ESTABLO DE VACUNOS DE 
LECHE, A 2 ORDEÑOS, 305 DÍAS, EDAD ADULTA
Nº de vaca Kgs de leche % de grasa Kgs de grasa
1 5567 3.2 178
2 5114 3.2 164
3 3922 3.2 126
4 5561 3.2 178
5 4808 3.4 163
6 5464 3.3 180
7 7087 3.2 227
8 3596 3.3 119
9 3855 3.4 131
10 4655 3.2 149
11 6103 3.2 195
12 4872 3.2 156
13 3615 3.2 116
14 4377 3.2 140
15 7254 3.2 232
16 4473 3.2 143
17 5163 3.2 165
18 5384 3.2 172
19 5278 3.2 169
20 6235 3.2 200
SUMA 102383 64.6 3303
MEDIA 5119.15 3.23 164.13
DESV. EST. 1031.36 0.07 32.29
CV 20.15 2.03 19.55
Grado de correlación entre Kgs de leche % de grasa -0.336
Grado de correlación entre Kg de leche y Kg de grasa 0.996
Grado de correlación entre % de grasa y Kg de grasa -0.255
Ave Peso 1era 
semana (g)
Peso 2da semana 
(g)
Ave Peso 1era 
semana (g)
Peso 2da 
semana (g)
1 17 25 16 23 44
2 18 26 17 24 45
3 18 26 18 24 45
4 20 27 19 24 47
5 20 28 20 24 47
6 20 30 21 25 48
7 20 30 22 25 50
8 21 32 23 26 50
9 21 33 24 26 50
10 22 33 25 27 50
11 22 35 26 29 51
12 22 40 27 30 52
13 22 40 28 30 53
14 23 41 29 30 53
15 23 43 30 30 55
Codornices y sus pesos vivos a la 1era y 2da semana.
27
Codornices y sus pesos vivos a la 1era y 2da semana.
1era. Semana 2da. Semana 1era. Semana 2da. Semana
Media 23.533 40.967 Desv. 3.729 9.747
Mediana 23 43.5 Varian 13.913 94.999
Moda 20 50 CV 16.17% 23.79%
Coeficiente de 
correllación
0.938 Coeficiente de 
determinación
87.98% Coeficiente de 
no determinación
12.02%
Coeficiente de 
regresión 2da/1era
2.45 gr Y= -16.7 + 2.45X
3.5.- Tipos de Correlación:
a) Correlación fenotípica: 
 Es la correlación existente entre los valores fenotípicos
de dos caracteres y puede ser positiva (p.e. producción
de leche y cantidad de grasa en Kg), nula o negativa
(crecimiento e índice de conversión).
1 y 2, dos caracteres cuantitativos
• Puede calcularse directamente entre dos caracteres 
fenotípicos entre ellos:
28
Correlación observada (fenotípica):
Entre el peso de vellón sucio (PV) y peso corporal (PC) en 1900
ovinos corridale . El coeficiente de correlación calculado fue r = 0.26
 b) Correlación genotípica: 
Es la correlación entre los valores de cría para 
dos caracteres. 
Como los valores de cría no se conocen, la correlación
genética no puede ser medida directamente al igual que la
heredabilidad, debe ser estimada a partir de información
con algún tipo de estructura familiar.
29
• c) Correlación ambiental:
Es la correlación entre las (desviaciones ambientales + 
desviaciones genéticas no aditivas dominante y 
epistática).
1,2 = Caracteres cuantitativos
P1P2= Valor fenotípico de caracteres 1 y 2 
A1A2= Valor de cría para caracteres 1 y 2
E1E2 = Desvíos genéticos no aditivos 
(Dominancia + Epistasis) + 
ambientales del individuo para 
caracteres 1 y 2
rP12 = Correlación fenotípica
rA12 = Correlación genética
rE12 = Correlación ambiental
Subdivisión de la Correlación Fenotípica
30
Correlaciones Genéticas y Ambientales de 
signo contrario en gallinas
Estimación de parámetros genéticos de 
caracteres de producción de lana….
En ovinos Corridale bajo condiciones extensivas en el 
Sur de Brasil

Continuar navegando