Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 3.0 ESTADÍSTICA APLICADA AL MEJORAMIENTO ANIMAL Ing. María Elisa Catalina García Salas La Molina, Agosto 2020 Universidad Nacional Agraria La Molina Facultad de Zootecnia Departamento de Producción Animal Curso: ZT3007 Mejoramiento Genético del Ganado Contenido 3.1.- Generalidades 3.2.- Caracterización de una población 3.3.- Distribución Normal 3.4.- Medidas de asociación 3.5.-Tipos de correlación 2 La ciencias exactas usan: modelos deterministas X + 3 = 7 X = 4 La estadísticas hace uso de: modelos probabilísticos X + 3 = 7 + e Existe un intervalo y 4 se encuentra en él X puede estar entre 4.1 - 3.9 Las conclusiones estadísticas dependen de 3 factores: Tamaño de la muestra Variabilidad de la variable Error que estemos dispuestos a asumir 3.1.- Generalidades. Estadística = ciencia de probabilidades y errores 3.1.- Generalidades. PRINCIPALES FUNCIONES DE LA ESTADÍSTICA 1. Resumir información: calcular medias, variancias, etc. 2. Ayudar a tomar decisiones: Pruebas de hipótesis. 3. Diseño e interpretación de resultados experimentales. 3 •Variable aleatorea, es el resultado la representación de la característica, por ejemplo Peso de la camada al nacer en lechones. Este valor no es único, sino que es el resultado del proceso de extracción de un valor de su distribución normal. •Dato, es el valor que puede tomar la variable, pudiendo ser numérico o no, ejemplo 10 Kg. el peso de la camada al nacimiento. VARIABLE ALEATOREA Y DATO 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN •Cualitativa: toma valores que se corresponden con cualidades no cuantificables de los individuos, no se pueden medir. Ejemplo el color del pelaje en vacunos Holstein. •Dicotómicas: solo pueden tomar dos valores, (SI/NO); (0,1). Ejemplo: Clasificación de los efectos fijos en un modelo lineal. TIPOS DE VARIABLES 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN 4 •Cuantitativa: toma valores en un conjunto prefijado de valores numéricos, se puede medir. – Discreta: el conjunto es finito o numerable . Ejemplo: número de hijos de una familia. – Continua: el conjunto es infinito no numerable, contiene algún intervalo. Ejemplo: producción de leche. TIPOS DE VARIABLES 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN • Parámetro. Es la cantidad numérica (valor) que ha sido calculada con los datos de una población. • Estadístico. Es el valor calculado en una muestra, obtenida de la población. – La altura media de los que estamos en este aula. • Somos una muestra (¿representativa?) de la población. • Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. PARAMETROS ESTADISTICOS 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN 5 POBLACIÓN y MUESTRA • Población a un conjunto bien definido sobre el que se observa o puede observarse una cierta característica. • La población puede ser finita o infinita. • El tamaño de la población es el número de individuos que tiene, lo denotamos por N. • Si la población es muy grande se realiza una selección denominada muestra, la cual debe de ser representativa de ella. 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN POBLACIÓN y MUESTRA • Individuo, es cada uno de los elementos de la población. •Muestra, es un conjunto de individuos de la población que refleja las características lo mejor posible. si la característica queda bien reflejada se dice que la muestra es representativa. se denota por “n”. • Si la muestra y la población coinciden, se dice que se tiene un censo. 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN 6 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN Para que las muestras sean útiles en el estudio de las poblaciones, deben de cumplir 2 condiciones: Deben ser aleatorias Deben ser representativas POBLACIÓN y MUESTRA 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN 7 3.2.- DATOS Y SU DISTRIBUCIÓN 1. Distribución de Frecuencias 2. Diagrama de Tallos y Hojas (- 50 datos) Representaciones Gráficas: 1. Diagrama de Pareto: datos cualitativos 2. Diagrama de barras: variables discretas 3. Histogramas: intervalos de clase MEDIDAS DE TENDENCIA CENTRAL Media Aritmética Mediana Moda o Modo Coeficiente de regresión Coeficiente de correlación Coef. Determinación Coef. No determinación MEDIDAS DE ASOCIACIÓN MEDIDAS DE VARIABILIDAD O DISPERSIÓN Varianza Desviación Estándar Error Estándar Coef. de Variación. 3.2. CARACTERIZACIÓN DE UNA POBLACIÓN MEDIDAS DE POSICION Cuántiles Percentiles 8 3.2.1. Medidas de Posición Amplitud o Rango Es la diferencia entre las observaciones extremas. Es muy sensible a los valores extremos. Rango intercuartílico Es la distancia entre el primer y tercer cuartil. Rango intercuartílico = P75 - P25 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos. Se puede utilizar como criterio de estandarización de valores para su análisis. Datos atípicos y Diagramas de cajas Es muy frecuente que los datos presenten observaciones que contienen errores de medida o transcripción o que son heterogéneas con el resto porque se han obtenido en circunstancias distintas. Estudios efectuados sobre datos recogidos revelan que aparecen entre 1 Y 3% de observaciones atípicas en una muestra. Li = Q1 – 1.5 (Q3 – Q1) Ls = q3 + 1.5 (Q3 – Q1) 9 3.2.2.- Medidas de Tendencia Central MEDIA, MEDIANA Y MODA NOMBRE SÍMBOLO DEFINICIÓN VENTAJAS DESVENTAJAS Promedio (Media) X 1) Refleja cada valor. 2) Propiedades algebraicas. 3) Es la más usada en análisis estadísticos. 1) Puede ser excesivamente influenciada por valores extremos. Mediana Md 50% de los valores son mayores y 50% son menores que ella. 1) Menos sensible a valores extremos que la media. 1) Difícil de calcular si hay muchos datos. 2) No tiene propiedades algebraicas. Moda M Valor con la frecuencia más alta. 1) Fácil de calcular. 2) Valor "típico" más valores reunidos en este punto que en cualquier otro. 1) No se presta para el análisis estadístico. 2) Puede haber más de una moda o ninguna. n i X n X i 1 Medidas de Tendencia Central MEDIA, MEDIANA Y MODA 10 75.286 20 735.5 75.94 20 895.1 Y X Número de animal X Y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 105 95 80 85 90 100 110 95 95 90 80 100 95 90 85 100 90 110 105 95 300 265 250 270 290 310 325 280 300 250 230 300 290 280 240 330 280 350 330 265 Datos de 20 terneros hereford X: peso a los 150días. Y: peso a los 300 días. Ejemplo: Medias 3.2.3.- Medidas de Dispersión Las medidas de dispersión mide la variabilidad de los datos (valores) independientemente de su causa. Las medidas consideradas son: Varianza Desviación estándar Coeficiente de variación Error estándar 11 Varianza (s2). Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. Es sensible a valores extremos (datos con mayor dispersión). Sus unidades son el cuadrado de las de la variable. Suma de cuadrados de x = SC X 3.2.3.- Medidas de Dispersión Varianza : S2x = (105 – 94.75) 2 + (95 – 94.7) 2 + (80 – 94.7) 2 +………………. = 77.6 20 - 1 S2y = (300 – 286.75) 2 + (265 – 286.75) 2 + (250 – 286.75) 2 +…. = 1040.197 20 - 1 X: peso a los 150días. Y: peso a los 300 días. 12 DESVIACIÓN ESTÁNDAR O TIPICA • A la raíz cuadrada (positiva) de la varianza se le llama desviación estándar ó desviación típica, así ó 1 2 n XX s i 1 22 n XnX s i • La desviación estándar presenta ventajas sobre la varianza, pues sus unidades físicas son las mismas que las de las observaciones, mientras que las de la varianza son unidades físicas cuadradas. DESVIACIÓN ESTANDAR DEL LOS PESOS DE GANADO HEREFORD DE x = 8.8 DS y= 32.2 Ejemplos de media y desviación estándar de características de interés zootécnico. 13 ERROR ESTÁNDAR: A la Desviación Estándar de la distribución muestral de un estadígrafo se le denomina Error Estándar o Error Típico del estadígrafo en cuestión. Así, es el error estándarde la media o simplemente error estándar, cuando el muestreo se hace con reemplazo. También se puede tener el error estándar de la varianza o de la mediana o de la proporción, etc. nX pMdS ,,2 COEFICIENTE DE VARIACIÓN. Es una medida de dispersión relativa, pues está exenta de unidades y se expresa en porcentaje. Se usa para comparar distribuciones con diferentes unidades o para comparar las dispersiones de dos distribuciones diferentes. Su fórmula es: C. V. = s (100) X 14 Coeficiente de variación CVX (%) = 8.807 * 100 = 9.01 % 94.75 CVY (%) = 32.252 * 100 = 11.25 % 286.75 X: peso a los 150días. Y: peso a los 300 días. 3.3.- LA DISTRIBUCIÓN NORMAL O DE GAUSS La mayoría de los caracteres cuantitativos o métricos de interés en el mejoramiento animal siguen esta distribución. Los parámetros que la caracterizan son la media (μ) y la desviación típica (σ) o desviación estándar. Al considerarse dos variables simultáneamente, se llama Distribución binormal, y otro parámetro es la covariancia entre las dos variables (σXY). 15 Tiene importancia ya que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal: Caracteres morfológicos de los individuos de una especie, ej. tallas, pesos, diámetros, perímetros. Caracteres fisiológicos, ej.: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos, ej.: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos, ej.: cociente intelectual, grado de adaptación a un medio. Importancia de la Distribución Normal DISTRIBUCIÓN NORMAL Es una distribución teórica de probabilidades, cuyas principales características son: Simétrica. Acampanada. Asintótica. Se dan las siguientes relaciones: u +- 1Ϭ = 68.26 % u +- 2Ϭ = 95.44% u +- 3Ϭ = 99.76% 16 La población A tiene menor media que las poblaciones B y C, igual variabilidad que la población B. La población C es la de mayor variabilidad.(a) Probabilidades dadas por la desviación típica. (b) Comparación de media y variación en tres poblaciones distribuidas normalmente. LA DISTRIBUCIÓN NORMAL O DE GAUSS MEDIDAS DE ASIMETRÍA Y CURTOSIS Estas medidas informan sobre la forma de distribución: su grado de asimetría y su grado de homogeneidad. Al ser medida de forma, no dependen de las unidades. Coeficiente de asimetría, el signo indica la forma - la distribucion se alarga con respecto a la media + la distribución se acentúa con respecto a la media Coeficiente de curtosis, indica la heterogeneidad en los datos: Si es muy bajo (<2) es una distribución mezclada Si es muy alto 8<69 indica presencia de valores atípicos 17 ASIMETRÍA Y CURTOSIS Catalogo de toros: uso de la desviación estándar 18 3.4.- MEDIDAS DE ASOCIACIÓN En base a las relaciones biológicas entre los características de importancia de los animales domésticas, buscamos las asociaciones entre ellas y le damos la denominación de: Variable Independiente X, y de Variable Dependiente Y. Ejemplos: MEDIDAS DE ASOCIACIÓN COEFICIENTE DE REGRESIÓN byx= regresión de y sobre x bxy= regresión de x sobre y El valor puede ser + o – y de acuerdo a este, indicará el tipo de pendiente. El coeficiente de regresión tiene unidades. Si b=0, la línea sería paralela a las abscisas y no existiría relación entre las variables. Se presenta cuando la relación funcional entre la variable aleatoria dependiente (Y) y la variable independiente (X) es una línea recta. 19 REGRESIÓN LINEAL SIMPLE Esta definida por la ecuación: Y = ß0 + ß1 X Donde: ß0 = Es el valor de la ordenada, el punto de intersección. ß1 = Es la pendiente de la línea recta, llamada el Coeficiente de Regresión de la población. 2 X XY XY S S b El coeficiente de regresión de Y sobre X (Y variable dependiente) se calcula: YXXY bb COEFICIENTE DE REGRESIÓN: Las unidades en que se expresa el coeficiente de regresión son las mismas de la variable Y. Interpretación: El valor obtenido (b) es la variación de la variable dependiente cuando la variable independiente varia en 1 unidad 20 Sabiendo que: COEFICIENTE DE REGRESION LINEAL Para el ejemplo Ganado Hereford: XbYa XY 23.3XYb 29.19a XY 23.329.19 Interpretación: Por cada kilo de aumento de peso a los 150 días, se espera un aumento de 3.23 Kg. en el peso a los 300 días. La predicción está restringida a la amplitud estudiada de X, en este caso solo para pesos a los 150 días entre 80 y 110 kilos. Por ejemplo: a=-19.29 no tiene interpretación biológica ya que corresponde a X=0. La regresión puede ser negativa, un aumento en X resulta disminución en Y, o cero (una línea horizontal) en cuyo caso la correlación es también 0. USO DEL COEFICIENTE DE REGRESIÓN Para predecir o estimar valores futuros de Y cuando se conocen los valores de X; para ello se utiliza la ecuación de predicción: PREDICCIÓN 21 Para ajustar valores iniciales de Y a fin de comparar libremente sin temor a cometer parcialidad alguna; para ello se utiliza la ecuación de ajuste: ESTIMACIÓN USO DEL COEFICIENTE DE REGRESIÓN COEFICIENTE DE CORRELACIÓN Mide el grado de asociación que existe entre dos variables o caracteres. Las variables son consideradas como: X = Variable independiente Y = Variable Dependiente. 22 • Un valor de la correlación cercano a -1 o +1 indica que ambos caracteres están controlados por muchos genes en común. • Un valor cercano a cero indica que la regulación genética de ambos caracteres tiene pocos genes en común. El rango de correlación es de : -1 a + 1 No tiene unidades. COEFICIENTE DE CORRELACIÓN CLASES DE CORRELACIONES: Correlación Positiva: Cuando las dos variables marchan juntas en el mismo sentido. X↓Y↓ ; X↑ Y↑ Correlación Negativa: Cuando las dos variables marchan en diferentes sentidos; es decir cuando una incrementa, la otra disminuye o viceversa. X↑Y↓ ; X↓Y↑ COEFICIENTE DE CORRELACIÓN 23 GRADOS DE CORRELACIÓN: 0 = No existe correlación. 0.01 a 0.20 = Baja correlación. 0.21 a 0.40 = Medianamente regular. 0.41 a 0.60 = Medianamente alta. 0.61 a 0.99 = Alta correlación. 1 = Máxima asociación. COEFICIENTE DE CORRELACION Ejemplo Ganado Hereford: Pesos a los 150 días, 300 d a. Correlación: Si tenemos dos variables X e Y, el grado de asociación linar está dado por el coeficiente de correlación: YX XY XY SS S r N YXi YX N S jiiXY 1 1 150.548 iiYX La covariancia entre X e Y se define: Para el conjunto de datos que estamos trabajando: 461.250XYS 88.0XYr 24 COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo estadístico. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien. YX XY ss s R 22 2 2 RELACIÓN ENTRE LOS COEFICIENTES DE CORRELACION Y DETERMINACION Correlación r 1.0 0.95 0.9 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.5 Determinación r2 1.0 0.90 0.81 0.72 0.64 0.56 0.49 0.42 0.36 0.30 0.25 • De aquí se deduce que coeficientes de correlación de menores de 0.70 implican que más de la mitad de la variabilidad de Y es “independiente” de X. • El coeficiente de correlación mide relaciones lineares (puede existir alta determinación entre dos variables pero no ser lineal), varía entre -1 y +1 y es simétrico rXY=rYX. • Una alta correlación no implica relación de causa-efecto entre las variables. 25 COEFICIENTE DE NO DETERMINACIÓN El coeficiente de No Determinación mide la proporción de variabilidad total de la variable dependiente que no esta explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien. YX XY ss s R 22 2 2 11 COEFICIENTES DE DETERMINACIÓN Y NO DETERMINACION Del ejemplo de Ganado Hereford: R = (0.88 x0.88) = 77.4% El peso a los 150 días tiene una influenciadel 77% en el peso a los 300 días 1-R = 1 – 0.774 = 22.6 % Otros factores influyen en el peso a los 300 días en 22%, que por el momento los desconocemos. 26 CAMPAÑA CERRADA DE PRODUCCIÓN DE EUN ESTABLO DE VACUNOS DE LECHE, A 2 ORDEÑOS, 305 DÍAS, EDAD ADULTA Nº de vaca Kgs de leche % de grasa Kgs de grasa 1 5567 3.2 178 2 5114 3.2 164 3 3922 3.2 126 4 5561 3.2 178 5 4808 3.4 163 6 5464 3.3 180 7 7087 3.2 227 8 3596 3.3 119 9 3855 3.4 131 10 4655 3.2 149 11 6103 3.2 195 12 4872 3.2 156 13 3615 3.2 116 14 4377 3.2 140 15 7254 3.2 232 16 4473 3.2 143 17 5163 3.2 165 18 5384 3.2 172 19 5278 3.2 169 20 6235 3.2 200 SUMA 102383 64.6 3303 MEDIA 5119.15 3.23 164.13 DESV. EST. 1031.36 0.07 32.29 CV 20.15 2.03 19.55 Grado de correlación entre Kgs de leche % de grasa -0.336 Grado de correlación entre Kg de leche y Kg de grasa 0.996 Grado de correlación entre % de grasa y Kg de grasa -0.255 Ave Peso 1era semana (g) Peso 2da semana (g) Ave Peso 1era semana (g) Peso 2da semana (g) 1 17 25 16 23 44 2 18 26 17 24 45 3 18 26 18 24 45 4 20 27 19 24 47 5 20 28 20 24 47 6 20 30 21 25 48 7 20 30 22 25 50 8 21 32 23 26 50 9 21 33 24 26 50 10 22 33 25 27 50 11 22 35 26 29 51 12 22 40 27 30 52 13 22 40 28 30 53 14 23 41 29 30 53 15 23 43 30 30 55 Codornices y sus pesos vivos a la 1era y 2da semana. 27 Codornices y sus pesos vivos a la 1era y 2da semana. 1era. Semana 2da. Semana 1era. Semana 2da. Semana Media 23.533 40.967 Desv. 3.729 9.747 Mediana 23 43.5 Varian 13.913 94.999 Moda 20 50 CV 16.17% 23.79% Coeficiente de correllación 0.938 Coeficiente de determinación 87.98% Coeficiente de no determinación 12.02% Coeficiente de regresión 2da/1era 2.45 gr Y= -16.7 + 2.45X 3.5.- Tipos de Correlación: a) Correlación fenotípica: Es la correlación existente entre los valores fenotípicos de dos caracteres y puede ser positiva (p.e. producción de leche y cantidad de grasa en Kg), nula o negativa (crecimiento e índice de conversión). 1 y 2, dos caracteres cuantitativos • Puede calcularse directamente entre dos caracteres fenotípicos entre ellos: 28 Correlación observada (fenotípica): Entre el peso de vellón sucio (PV) y peso corporal (PC) en 1900 ovinos corridale . El coeficiente de correlación calculado fue r = 0.26 b) Correlación genotípica: Es la correlación entre los valores de cría para dos caracteres. Como los valores de cría no se conocen, la correlación genética no puede ser medida directamente al igual que la heredabilidad, debe ser estimada a partir de información con algún tipo de estructura familiar. 29 • c) Correlación ambiental: Es la correlación entre las (desviaciones ambientales + desviaciones genéticas no aditivas dominante y epistática). 1,2 = Caracteres cuantitativos P1P2= Valor fenotípico de caracteres 1 y 2 A1A2= Valor de cría para caracteres 1 y 2 E1E2 = Desvíos genéticos no aditivos (Dominancia + Epistasis) + ambientales del individuo para caracteres 1 y 2 rP12 = Correlación fenotípica rA12 = Correlación genética rE12 = Correlación ambiental Subdivisión de la Correlación Fenotípica 30 Correlaciones Genéticas y Ambientales de signo contrario en gallinas Estimación de parámetros genéticos de caracteres de producción de lana…. En ovinos Corridale bajo condiciones extensivas en el Sur de Brasil
Compartir