Logo Studenta

4_clase_2021

¡Este material tiene más páginas!

Vista previa del material en texto

Estadística	descriptiva	para	
combinaciones	de	variables
(una	cuantitativa	y	una	categórica	o	dos	
cuantitativas)
Bioestadística 2021
Estadística	descriptiva	para	combinaciones	de	variables	
• Ya	vimos	como	graficar	y	tabular	datos	derivados	de	dos	variables	categóricas	(tablas	de	
contingencia,	gráficos	de	barras	y	de	torta).
• Para	el	caso	de	variables	cuantitativas,	hasta	ahora	solo	hemos	considerado	estrategias	
para	describir	los	datos	derivados	de	una	única	variable	de	este	tipo.	
• Aquí	consideraremos	aquellos	casos	en	los	que	tenemos	una	variable	cuantitativa	y	una	
categórica	o	dos	cuantitativas
Usuario1
Highlight
Una	variable	cuantitativa	y	una	categórica
• Si	tenemos	una	variable	cuantitativa	medida	en	dos	grupos	o	dos	
muestras	diferentes,	cada	grupo	sería	un	criterio	de	clasificación,	una	
variable	categórica.
• Los	gráficos	a	realizar	son	los	mismos	que	hemos	visto	para	variables	
cuantitativas:	histogramas,	polígonos	de	frecuencia,	boxplot.	
Usuario1
Highlight
Ejemplo:	una	variable	cuantitativa	y	una	categórica
• Estamos	interesados	en	estudiar	el	tamaño	del	genoma	de	dos	géneros	de	virus:	los	
Alphaflexivirus (virus	que	infectan	plantas	y	hongos)		y	los	Flavivirus (arbovirus,	virus	
que	se	propagan	por	vectores	artrópodos,	principalmente	mosquitos	y	garrapatas;	
uno	de	los	más	conocidos	es	el	dengue).	
• Descargamos	los	datos	de	NCBI	(https://www.ncbi.nlm.nih.gov/) )
Usuario1
Highlight
Usuario1
Highlight
Ejemplo:	una	variable	cuantitativa	y	una	categórica
• Asumamos	que	pasamos	por	alto	que	estos	datos	de	largo	(en	bases)	de	genomas	
provienen	de	dos	géneros	virales	diferentes,	y	decidimos	graficar	todo	junto:
Histograma	y	polígono	de	frecuencias	
absolutas	para	el	largo	de	los	genomas	
de	Flavivirus y	Alphaflexivirus
descargados	de	NCBI	(sin	discriminar	por	
géneros,	todos	los	datos	juntos).	Notar	
que	como	estamos	graficando	
frecuencias	absolutas,	indicar	el	tamaño	
muestral (n)	no	es	necesario.
Ejemplo:	una	variable	cuantitativa	y	una	categórica
• Asumamos	que	pasamos	por	alto	que	estos	datos	de	largo	(en	bases)	de	genomas	
provienen	de	dos	géneros	virales	diferentes,	y	decidimos	graficar	todo	junto:
Aun	si	no	supiéramos	que	estos	datos	
provienen	de	dos	géneros	diferentes,	el	
histograma	ya	nos	da	una	idea	de	eso:	
vean	como	parecieran	existir	dos	grupos	
de	datos	diferentes.	
Claramente	es	una	distribución	bimodal,	
una	centrada	en	el	rango	~6500-7000	
bases	y	otra	centrada	en	el	rango	
~10500-11000	bases	(flechas).	
Ejemplo:	una	variable	cuantitativa	y	una	categórica
• Dos	histogramas	(y	sus	polígonos	de	frecuencias),	dividiéndolo	por	género	viral
• Para	poder	comparar	efectivamente	es	necesario	que	la	escala	del	eje	“Y”		sea	la	misma	para	
ambos	histogramas.	
Histogramas y polígonos de
frecuencias para los datos de
“largo del genoma (bases) por
género. Izquierda: Flavivirus.
Derecha: Alphaflexivirus.
En ambos el eje Y va de 0 a 25
Ejemplo:	una	variable	cuantitativa	y	una	categórica
• Otro	tipo	de	gráfico	para	representar	una	variable	cuantitativa	y	una	categórica	es	
gráfico	de	cajas	y	bigotes	
• Ya	vimos	que	estos	nos	permiten	también	ver	si	hay	datos	atípicos	en	nuestras	muestras
Boxplots. Izquierda: usando todos los datos de
largo (bases) de genomas virales, sin
discriminar por familia. Derecha: gráfico
combinando los boxplots de largo (bases) de
genomas, discriminado por género. Notar que
indicar el tamaño muestral es obligatorio
Ejemplo:	una	variable	cuantitativa	y	una	categórica
Interpretando	estos	gráficos:
• No	hay	datos	atípicos	en	ninguno	de	los	dos	conjuntos	(Alphaflexivirus,	Flavivirus)
• El	largo	de	los	genomas	de	Alphaflexivirus parece	tener	mayor	dispersión	que	el	de	
Flavivirus (el	rango,	es	decir	la	diferencia	entre	el	mayor	largo	observado		y	el	menor	
valor	observado	es	mayor	en	Alfaflexivirus que	en	Flavivirus).
• El	tamaño	medio	de	largo	de	genoma	(bases)	parece	ser	
mayor	en	Flavivirus que	en	Alfaflexivirus.
Ejemplo:	una	variable	cuantitativa	y	una	categórica
Interpretando	estos	gráficos:
• El	largo	de	genomas	en	Alfaflexivirus pareciera	ser	
asimétrico	a	la	derecha	(es	decir,	con	una	cola	a	la	derecha…	
la	pauta	para	notar	eso	en	este	caso	es	que	la	mediana,	en	
vez	de	estar	en	el	centro	de	la	caja,	está	más	cerca	del	Q1).	
Esperaríamos	un	coeficiente	de	asimetría	mayor	a	cero.
• El	largo	de	genomas	en	Flavivirus pareciera	ser	asimétrico	a	
la	izquierda	(de	decir,	con	una	cola	a	la	izquierda…	la	pauta	
para	notar	eso	en	este	caso	es	que	la	mediana,	en	vez	de	
estar	en	el	centro	de	la	caja,	está	más	cerca	del	Q3).	
Esperaríamos	un	coeficiente	de	asimetría	menor	a	cero.
Ejemplo:	una	variable	cuantitativa	y	una	categórica
Podemos	confirmar	esas	observaciones	calculando	los	descriptores	que	vimos	la	
semana	pasada	y	compararlos	entre	grupos	(además	con	esos	valores	pueden	
calcular	otras	medias	como	rango	y	RIC):
Min. Q1 Mediana Media Q3 Max Var (s2) DS (s) CV(%) Asimet Kurtosis
Alfaflexiv
irus 5470 6286 6677 6888 7370 8832 674889 821,5163 11,93 0.659 2,64
Flavivirus 10053 10272 10745 10628 10869 11375 109938.7 331,57 3,12 -0,26 1,81
Relación	entre	dos	variables	cuantitativas
• En	el	caso	en	que,	para	la	misma	unidad	muestral registremos	dos	variables	
cuantitativas	(algunos	ejemplos:	peso	y	altura;	largo	de	pico	y	largo	de	cola;	
número	de	intrones y	exones,	entre	otras)	nos	encontramos	ante	un	estudio	de	la	
relación	entre	dos	variables	cuantitativas.	
• Esto	conlleva	un	tratamiento	especial	de	los	datos,	
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Tablas	para	datos	de	dos	(o	más)	variables	cuantitativas
• Cuando	tenemos	dos	(o	más)	variables	cuantitativas	registradas	sobre	la	misma	
unidad	muestral (si	no	recuerda	la	definición	de	unidad	muestral,	es	la	mínima	
unidad	de	la	cual	podemos	obtener	una	observación	o	valor	de	la	variable	
independiente),	los	datos	se	plasman	en	tablas	en	los	cuales	cada	fila	contiene	la	
información	de	una	unidad	muestral y	hay	tantas	columnas	como	variables	
hayamos	medido.	
Usuario1
Highlight
Usuario1
Highlight
Ejemplo:	Tablas	para	datos	de	dos	(o	más)	variables	
cuantitativas
• Si	volvemos	a	la	base	de	datos	NCBI	y	buscamos	el	largo	del	genoma	(en	millones	de	
bases,	Mb),	contenido	de	GC	(citosina,	guanina,	en	porcentaje),	el	número	de	regiones	
codificantes	(CDS),	la	cantidad	de	genes	anotados	y	la	cantidad	de	RNA	de	transferencia	
(tRNA)	anotados	en	genomas	de	proteobacteriadel	género	Rhizobium,	obtendríamos
una	tabla	de	este	tipo	(pero	más	larga,	esto	solo	son	las	primeras	6	líneas):
Especie largo	genoma	(Mb) GC% CDS Nro_Genes tRNA
Rhizobium	sp.	Khangiran2 4.25979 61.9471 3969 4105 50
Rhizobium	sp.	TCK 4.27544 61.8842 3991 4102 50
Rhizobium	sp.	S41 5.52437 59.3 5141 5417 61
Rhizobium	grahamii 5.88932 60.3002 5168 5537 53
Rhizobium	sp.	JKLM12A2 7.53305 60.7926 6980 7234 51
Rhizobium	acidisoli 7.49768 61.0382 6721 7190 50
Ejemplo:	Tablas	para	datos	de	dos	(o	más)	variables	
cuantitativas
• Como	se	puede	observar,	cada	fila	es	una	unidad	muestral independiente.
• La	primera	columna	sería	el	ID	(identificador)	de	cada	unidad	muestral (en	ese	
caso	el	nombre	de	la	especie)	y	hay	5	columnas	(una	por	cada	variable	medida).
• Pregunta	¿de	qué	tipo	es	cada	variable?
Especie largo	genoma	(Mb) GC% CDS Nro_Genes tRNA
Rhizobium	sp.	Khangiran2 4.25979 61.9471 3969 4105 50
Rhizobium	sp.	TCK 4.27544 61.8842 3991 4102 50
Rhizobium	sp.	S41 5.52437 59.3 5141 5417 61
Rhizobium	grahamii 5.88932 60.3002 5168 5537 53
Rhizobium	sp.	JKLM12A2 7.53305 60.7926 6980 7234 51
Rhizobium	acidisoli 7.49768 61.0382 6721 7190 50
Ejemplo:	Tablas	para	datos	de	dos	(o	más)	variables	
cuantitativas
• Pregunta	¿de	qué	tipo	es	cada	variable?
Vemos	que	todas	ellas	son	cuantitativas;	largo	del	genoma	(en	MB)	y	%GC	son	
cuantitativas	continuas	mientras	que	las	restantes	son	cuantitativas	discretas.
Especie largo	genoma	(Mb) GC% CDS Nro_Genes tRNA
Rhizobium	sp.	Khangiran2 4.25979 61.9471 3969 4105 50Rhizobium	sp.	TCK 4.27544 61.8842 3991 4102 50
Rhizobium	sp.	S41 5.52437 59.3 5141 5417 61
Rhizobium	grahamii 5.88932 60.3002 5168 5537 53
Rhizobium	sp.	JKLM12A2 7.53305 60.7926 6980 7234 51
Rhizobium	acidisoli 7.49768 61.0382 6721 7190 50
Gráficos	para	variables	cuantitativas:	diagramas	de	
dispersión
• Un	diagrama	de	dispersión	es	un	tipo	de	diagrama	matemático	que	utiliza	las	
coordenadas	cartesianas	para	mostrar	los	valores	de	distintas	variables	para	un	
conjunto	de	datos.	
• Seguramente	todos	han	hecho	alguna	vez	un	gráfico	de	este	tipo!	
• Dado	que	se	usa	una	coordenada	cartesiana	por	cada	variable	a	graficar,	lo	más	
común	es	que	s	grafiquen	dos	variables,	aunque	hay	algunos	casos	de	
representación	de	3	variables	(gráfico	3D).
NOTA:	Este	“nuevo”	tipo	de	diagrama,	se	suma	a	los	que	ya	vimos	para	variables	cuantitativas	
(boxplot,	histogramas,	etc).	
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Ej:	Gráficos	para	variables	cuantitativas:	diagramas	de	
dispersión
• A	continuación	se	presentan	4	gráficos	(de	dos	coordenadas	cada	uno)	que	
muestran	la	relación	entre	largo	(Mb)	de	los	genomas	vs	su	porcentaje	de	GC,	
Cantidad	de	regiones	codificantes	(CDS),	número	de	genes	y	número	de	tRNA
anotados	
Cómo	interpretar	los	gráficos	de	dispersión
• Al	observar	críticamente	un	diagrama	de	dispersión,	tenemos	que	tener	en	
mente	algunas	preguntas.	Entre	ellas:
1. Los	puntos	se	distribuyen	siguiendo	un	patrón	general	o	una	cierta	dirección,	o	
no	hay	un	patrón	evidente	de	distribución	de	los	puntos.
2. Si	observamos	un	patrón,	este	es	creciente	o	decreciente?	Es	decir,	se	observa	
que	van	“subiendo”	de	izquierda	a	derecha,	o	van	“bajando”	de	derecha	a	
izquierda?
3. Si	observamos	un	patrón,	este	es	en	forma	lineal,	o	forman	algún	otro	tipo	de	
curva?
4. Existe	algún	dato	“atípico”,	que	sea	claramente	diferente	del	patrón	general	de	
los	datos?
Usuario1
Highlight
Usuario1
Highlight
Ej:	Cómo	interpretar	los	gráficos	de	dispersión
• Los	puntos	siguen	una	clara	línea	ascendente.	Esto	nos	da	una	idea	de	que	hay	una	asociación	
positiva	(creciente)	entre	las	variables	“largo	del	genoma	(Mb)”	y	“número	de	genes”,	y	que	
también	hay	una	asociación	positiva	(o	creciente)	entre	las	variables	“largo	del	genoma	(Mb)”	
y	“número	de	genes”.	
• Podríamos	decir	que,	para	la	especie	Rhizobium,	a	mayor	tamaño	de	genoma,	más	genes	(o	
regiones	codificantes)	se	identifican.	
La	flecha azul	marca	
un	dato	atipico,	que	
se	aparta	del	patrón
general
Ej:	Cómo	interpretar	los	gráficos	de	dispersión
• Este	gráfico muestra	una	mayor	dispersión	de	
los	puntos	respecto	de	los	anteriores,	aunque	
esta	parece	no	ser	aleatoria:	se	observa	
dispersión	en	el		%GC	en	genomas	de	tamaño	
más	pequeño,	mientras	que	en	genomas	de	
mayor	tamaño	la	dispersión	en	%GC	parece	
ser	menor.	
• Este	gráfico	presenta	una	forma	de	cono	o	
embudo	(marcada	por	las	líneas azules).
Ej:	Cómo	interpretar	los	gráficos	de	dispersión
• En	este	gráfico,	el	número	de	tRNA parece	
mantenerse	constante	a	distintos	tamaños	de	
genoma	(ver	línea azul);	esto	nos	da	una	idea	de	
que,	independientemente	del	largo	(en	Mb)	del	
genoma	de	individuos	de	la	especie	Rhizobium,	el	
número	de	tRNA es	aproximadamente	el	mismo.
• Hay	un	dato	que	parece	diferenciarse	del	resto,	
está	señalado	con	flecha.
Correlación
• La	correlación	es	valor	de	que	sintetiza	la	relación	entre	dos	variables	
cuantitativas.	
• La	correlación	es	una	medida	de	la	fuerza y	dirección de	la	asociación	
entre	dos	variables	cuantitativas.	
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Propiedades	del	coeficiente	de	correlación
El	coeficiente	de	correlación	(r)	tiene	las	siguientes	propiedades:
1. La	correlación	es	un	número	entre	-1	y	1,	es	decir	que	-1	≤	r	≤	1
2. El	signo	de	r	(positivo	o	negativo)	indica	la	dirección	de	la	asociación:	si	r	<	0,	la	
asociación	entre	dos	variables	será	negativa,	mientras	que	si	r	>	0	la	asociación	entre	
dos	variables	será	positiva
3. Valores	de	r	cercanos	a	-1	o	a	+1	nos	dan	idea	de	que	existe	una	asociación	lineal	muy	
fuerte	entre	las	dos	variables	cuantitativas,	mientras	que	coeficientes	de	correlación	
cercanos	a	cero	nos	hablan	de	ausencia	de	asociación	lineal.
Usuario1
Highlight
Propiedades	del	coeficiente	de	correlación
El	coeficiente	de	correlación	(r)	tiene	las	siguientes	propiedades:
4. El	coeficiente	de	correlación	r	no	tiene	unidades
5. La	correlación	es	simétrica.	Es	decir,	el	coeficiente	de	correlación	r	entre	las	
variables	X	e	Y	es	el	mismo	que	el	coeficiente	de	correlación	entre	las	variables	
Y	y	X.
Vinculando	valores	de	correlación con	gráficas	de	
dispersión
• A	continuación	se	presenta	una	gráfica	con	numerosas	posibles	gráficas	de	dispersión	
entre	dos	variables	cuantitativas	y	sus	coeficientes	de	correlación	(r).	
• Notar	que	mientras	más	se	acerca	el	coeficiente	de	correlación	a	cero,	más	dispersos	
(formando	una	“nube”)	se	ven	los	datos	
Usuario1
Highlight
Notación	para	la	correlación
• Ya	hemos	visto	que	es	sumamente	importante	distinguir	cuando	estamos	hablando	de	
valores	calculados	para	una	muestra	de	valores	calculados	para	una	población.	Para	el	
caso	del	coeficiente	de	correlación,	tenemos	que:
1. Si	el	coeficiente	de	correlación	se	calculó	para	una	muestra,	se	denota	r	(r	
minúscula)
2. Si	el	coeficiente	de	correlación	se	obtuvo	para		toda	una	población,	se	denota	ρ (la	
letra	griega	Rho).
• Notar	que	todas	las	propiedades	que	especificamos	para	el	coeficiente	de	correlación	
muestral r	también	son	válidas	para	el	coeficiente	de	correlación	poblacional	ρ.
Usuario1
Highlight
Tres	(3)	cuidados	al	interpretar	el	coeficiente	de	
correlación
Hay	errores	muy	comunes	de	interpretación	que	suelen	hacerse	al	estimar	un	
coeficiente	de	correlación,	y	que	deben	ser	evitados:
1)	Que	dos	variables	estén	correlacionadas	(por	más	fuerte	que	sea	esa	
correlación)	no	necesariamente	implica	que	exista	una	relación	causa:efecto
entre	estas	dos	variables.	Una	relación	causa:efecto implica	que,	si	yo	vario	una	
de	las	variables,	la	otra	variará	también.	Esto	no	siempre	sucede	en	variables	
correlacionadas.	
Es	decir,	“Correlación	no	implica	causalidad”.	
Usuario1
Highlight
Tres	(3)	cuidados	al	interpretar	el	coeficiente	de	
correlación
Ejemplo	de	que	“correlación no	implica	causalidad”
Ejemplos	de	correlaciones	espurias.	A	la	izquierda,	vemos	un	estudio	de	correlación	positiva	(r=0,66)	entre	el	número	de	películas	por	año	en	
las	que	participó	Nicolas Cage	(período	1999-2009)	y	el	número	de	muertos	ahogados	en	piscinas	por	año,	registrados	en	el	mismo	período	
(1999-2009).	La	figura	de	la	derecha	nos	muestra	otra	correlación	positiva	y	muy	cercana	a	1	(r=0,98)	entre	el	consumo	de	margarina,	en	libras	
per	cápita	(período	2000-2009)	y	la	tasa	de	divorcio	por	año	en	Maine,	Estados	Unidos	en	el	mismo	período	(2000-2009).	Nadie	se	atrevería	a	
decir	que	hay	una	relación	causa	efecto	entre	estas	variables!!!	Es	mera	coincidencia
Tres	(3)	cuidados	al	interpretar	el	coeficiente	de	
correlación
Hay	errores	muy	comunes	de	interpretación	que	suelen	hacerse	al	estimar	un	
coeficiente	de	correlación,	y	que	deben	ser	evitados:
2)	Una	correlación	cercana	a	cero	no	implica	(necesariamente)	que	las	variables	
no	estén	asociadas.	Hay	que	tener	siempre	en	mente	que	el	coeficiente	de	
correlación	mide	la	fuerza	y	dirección	de	asociación	LINEAL	entre	dos	variables.	
Si	la	asociación	sigue	otra	forma	(no	lineal),	este	coeficiente	no	nos	dice	nada.	
Veamos	un	ejemplo	en	la	próxima diapositiva:
Tres	(3)	cuidados	al	interpretar	el	coeficiente	de	
correlación
Ejemplo	de	gráficos	de	dispersión	no	aleatorios	que	tienen	coeficiente	de	
correlación	cercanos	a	cero:	
Tres	(3)	cuidados	al	interpretar	el	coeficiente	de	
correlación
Hay	errores	muy	comunes	de	interpretación	que	suelen	hacerse	al	estimar	un	
coeficiente	de	correlación,	y	que	deben	ser	evitados:
3)	Al	igual	que	la	media	y	rango,	la	correlación	es	una	medida	fuertementeinfluenciada	por	la	presencia	de	datos	atípicos.	Es	por	ello	que,	antes	de	
calcular	un	coeficiente	de	correlación,	hay	que	graficar	los	datos,	para	poder	
detectar	estos	datos	fuera	de	tipo.
Regresión	lineal
• Vimos	que	el	coeficiente	de	correlación	nos	permite	estimar	la	relación	entre	dos	
variables.	Aquí	discutiremos	cómo	usar	una	de	las	variables	para	predecir	otra,	
siempre	que	las	mismas	se	encuentren	linealmente	asociadas.
• El	proceso	de	ajustar	una	línea	a	un	conjunto	de	datos	se	llama	regresión	lineal	y	
la	línea	de	mejor	ajuste	se	llama	recta	de	regresión.	
• La	recta	de	regresión	proporciona	un	modelo de	la	asociación	lineal	entre	dos	
variables.	
Usuario1
Highlight
Regresión	lineal
• Podemos	usar	la	ecuación	de	una	recta	para	dar	un	valor	predicho	de	la	variable	
de	respuesta,	basado	en	un	valor	dado	de	la	variable	explicativa.
• A	modo	de	repaso,	sabemos	que	la	ecuación	para	una	recta	es
y	=	bx +	a
• donde	“a”	es	una	constante,	llamada	“ordenada	al	origen”	que	representa	la	
intersección	de	la	recta	en	el	eje	Y	(es	decir,	cuando	el	valor	de	x	=	0),	mientras	
que	“b”	representa	la	pendiente	de	la	recta.
Regresión	lineal
• Como	la	recta	de	regresión	suele	usarse	para	hacer	predicciones	de	valores,	para	
ayudar	a	distinguir	entre	los	valores	predichos	y	valores	observados	de	la	variable	
de	respuesta,	a	menudo	agregamos	un	"sombrerito"	al	nombre	de	la	variable	de	
respuesta	para	indicar	el	valor	predicho.	
• Por	lo	tanto,	si	nuestros	pares	de	datos	son	(x,	y)	con	x	como	variable	explicativa	e	
y	como	variable	de	respuesta,	la	línea	de	regresión	viene	dada	por
𝑦" =		bx +	a
Ejemplo:	Regresión	lineal
• Retomemos	la	relación	entre	las	variables	“largo	del	genoma	(Mb)”	y	“número	de	
genes”.	
• Como	mencionamos	previamente,	se	observa	una	clara	asociación	positiva	entre	
variables.	
• De	hecho,	si	calculamos	el	coeficiente	de	correlación	obtenemos:
r	=	0,995	(muy	cercano	a	1)
• La	gráfica,	conteniendo	la	recta	de	regresión,	es	
Ejemplo:	Regresión	lineal
• Al	graficar	un	diagrama	de	dispersión	para	dos	variables	cuantitativas,	de	las	
cuales	una	depende	de	la	otra	(es	decir,	hay	una	variable	explicativa	y	una	
respuesta),	la	variable	explicativa	(en	este	caso	el	largo	del	genoma	en	Mb)	va	
siempre	en	el	eje	X,	mientras	que	la	variable	respuesta	va	siempre	en	el	eje	Y.
• Esto	es	una	convención	que	debe	respetarse.
Ejemplo:	Regresión	lineal
• Calculando	(con	software)	la	ecuación	de	la	recta	de	regresión	para	predecir	el	número	
de	genes	que	contiene	un	genoma,	conociendo	el	largo	(en	Mb)	de	dicho	genoma	en	
Rhizobium es:
𝑦" =		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠* =	978,02x	- 83,19
• Esa	recta	podemos	usarla	para	hacer	predicciones.	Ejemplo:	si	tenemos	un	genoma	
ensamblado	de	un	individuo	de	esta	especie	que	mide	6,776	Mb,	podemos	predecir	que	
contendrá:
𝑦" =		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠* =	978,02*(6,776)	- 83,19	~6543	genes	
Ejemplo:	Regresión	lineal
• Hay	que	tener	siempre	en	cuenta	que	este	valor	es	una	predicción hecha	en	base	a	un	
modelo.	
• Veamos	que	pasa	cuando	predecimos	un	valor	que	ya	conocemos.	
• Tomemos	el	ejemplo	del	genoma	de	Rhizobium grahamii:	este	es	un	dato	de	la	lista,	que	
sabemos	que	mide	5,88932	Mb	y	tiene	5537	genes.	
• Si	usamos	los	datos	de	tamaño	de	genoma	(Mb)	para	predecir	el	contenido	de	genes	
obtendremos:	
𝑦" =		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠* =	978,02*(5,88932)	 - 83,19	~	5677	genes	
• Como	ven,	la	predicción	no	es	perfecta,	pero	se	le	acerca	bastante.
Residuo
• Como	vimos	recién,	las	predicciones	son	eso:	predicciones.	
• Pueden	coincidir	con	el	valor	real	o	no:	lo	más probable	es	que	sea un	valor	
cercano,	pero	no	exactamente	el	mismo.	
• Esa	diferencia	entre	el	dato	observado	(real)	y	el	predicho	se	llama	
“residuo”.	
• Un	residuo	entonces	se	calcula	como:
Residuo	=	valor	observado	– valor	predicho	=	y	- 𝑦"
Usuario1
Highlight
Residuo
• En	el	gráfico	de	dispersión,	un	residuo	es	la	distancia	vertical	entre	cualquier	
punto	(dato)	y	la	recta	de	regresión	(ver	la	pequeña	línea	vertical	roja	que	marca	
la	distancia	entre	un	punto	y	la	recta).
residuo
Residuo
• Como	podrán	imaginar,	mientras	más	fuerte	sea	la	asociación	entre	dos	variables	
cuantitativas	(es	decir,	mientras	más	cercano	a	-1	o	a	+1	esté	el	coeficiente	de	
correlación)	más	cerca	estarán	los	puntos	de	la	recta	de	regresión,	y	más	chicos	
serán	los	residuos.	
• En	caso	contrario,	mientras	más	lejos	estén	los	puntos	(datos)	de	la	recta	de	
regresión,	más	grandes	serán	los	residuos.	
• Los	residuos	no	son	otra	cosa	más	que	los	errores	en	la	predicción.
Interpretando	los	coeficientes	de	la	recta	de	regresión
Para	la	recta	de	regresión		y	=		bx +	a,	tenemos	que:
• La	pendiente	“b”	representa	el	cambio	predicho	en	la	variable	de	respuesta	(y)	
dado	un	aumento	de	una	unidad	en	la	variable	explicativa	(x).
• La	ordenada	al	origen	“a”	representa	el	valor	predicho	de	la	variable	de	respuesta	
(y)	cuando	la	variable	explicativa	(x)	vale	cero.	La	interpretación	puede	no	tener	
sentido	ya	que	a	menudo	no	es	razonable	que	la	variable	explicativa	sea	cero.
Usuario1
Highlight
Ejemplo:	Interpretando	los	coeficientes	de	la	recta	de	
regresión
Si	tomamos	nuestro	ejemplo:	𝑦" =		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠* =	978,02x	-83,19,	podemos	decir	que:
• Por	cada	aumento	de	1	Mb	en	el	largo	del	genoma	de	Rhizobacterium,	se	espera	
que	el	número	de	genes	aumente	978,02
• Cuando	el	largo	del	genoma	de	Rhizobacterium es	igual	a	0,	tendríamos -83,19	
genes	(lo	cual	claramente	es	un	sinsentido).	
Notación	para	la	pendiente
La	pendiente	de	la	recta	de	regresión	también	puede	ser	calculada	a	partir	de	una	
muestra	o	para	toda	una	población,	entonces	es	necesario	distinguir	cuando	se	
trata	de	un	caso	y	cuando	del	otro.
1. Si	la	pendiente	fue	calculada	para	una	muestra,	se	denota	“b”
2. Si	la	pendiente	fue	obtenida	para	toda	una	población,	se	denota	β (la	letra	
griega	Beta)
Usuario1
Highlight
Cuatro	(4)	precauciones	a	tener	en	cuenta	con	la	recta	
de	regresión
Hay	cosas	que	deben	tener	en	cuenta	cuando	estén	trabajando	con	regresión	lineal,	para	
no	cometer	errores.
1. La	ecuación	de	la	recta	de	regresión	sólo	puede	ser	usada	para	predecir	valores	en	el	
rango	de	los	usados	para	generar	la	recta.	O	sea,	nunca	extrapolen	a	valores	más	altos	
o	más	bajos,	ya	que	allí	no	se	garantiza	que	la	asociación	lineal	entre	variables	se	
mantenga
2. Al	igual	que	lo	que	vimos	con	la	correlación,	la	recta	de	regresión	puede	verse	
fuertemente	influenciada	por	datos	atípicos.	Siempre	grafiquen	los	datos	antes	de	
calcular	una	recta	de	regresión.
Usuario1
Highlight
Cuatro	(4)	precauciones	a	tener	en	cuenta	con	la	recta	
de	regresión
Hay	cosas	que	deben	tener	en	cuenta	cuando	estén	trabajando	con	regresión	lineal,	para	
no	cometer	errores.
3. Hay	que	tener	mucho	cuidado	con	cuál	es	la	variable	explicativa	que	estamos	usando	
(x)	y	cuál	la	respuesta.	A	diferencia	de	lo	que	sucede	con	el	coeficiente	de	correlación	
(que	es	simétrico),	la	recta	de	regresión	para	predecir	(y)	a	partir	de	(x)	no	es	igual	a	la	
recta	de	regresión	para	predecir	(x)	a	partir	de	(y).
4. Recordar,	como	se	mencionó	previamente,	que	al	graficar	estas	variables,	la	variable	
explicativa	va	siempre	sobre	el	eje	X	y	la	variable	respuesta	sobre	el	eje	Y.

Continuar navegando

Materiales relacionados

15 pag.
1_Estadistica descriptiva - Eliana Benavides

User badge image

Desafío COL y ARG Veintitrés

3 pag.
introduccion a la probabilidad y estadistica ejercicios-187

27 De Septiembre

User badge image

EDUARDO GONZALEZ GARCIA

14 pag.
Apunte Analisis Cuantitativo

SIN SIGLA

User badge image

Rocio Estrella