Logo Studenta

4_guia_teorica_OK

¡Este material tiene más páginas!

Vista previa del material en texto

Estadística	 descriptiva	 para	 combinaciones	 de	 variables	 (una	
cuantitativa	y	una	categórica	o	dos	cuantitativas)	
En	 esta	 nueva	 sección	 presentaremos	 estrategias	 de	 la	 estadística	 descriptiva	 que	
permitan	plasmar	o	representar	datos	derivados	de	la	combinación	de	dos	variables.		
Recuerden	 que	 ya	 vimos	 como	 graficar	 y	 tabular	 datos	 derivados	 de	 dos	 variables	
categóricas.	Para	ello	usamos	tablas	de	contingencia	y	gráficos	de	barras	(lado	a	lado	y	
apiladas)	y	de	torta.	Pero	en	el	caso	de	variables	cuantitativas,	hasta	ahora	solo	hemos	
considerado	estrategias	para	describir	los	datos	derivados	de	una	variable	de	este	tipo.		
Aquí	retomaremos	esto,	pero	ahora	considerando	aquellos	casos	en	los	que	tenemos	
una	variable	cuantitativa	y	una	categórica		o	dos	cuantitativas.	Aún	más,	veremos	qué	
pasa	 cuando	 podemos	 clasificar	 dichas	 variables	 en	 “variable	 dependiente	 (o	 de	
respuesta)”	y	“variable	independiente	(o	explicativa)”.	Finalmente,	presentaremos	los	
conceptos	 de	 “asociación”	 y	 “causalidad”,	 sumamente	 importantes	 cuando	
pretendemos	hacer	inferencia	estadística.	
	
Una	variable	cuantitativa	y	una	categórica	
Si	tenemos	una	variable	cuantitativa	medida	en	dos	grupos	o	dos	muestras	diferentes,	
cada	 grupo	 sería	 un	 criterio	 de	 clasificación,	 una	 variable	 categórica.	De	 este	modo,	
podemos	estar	 interesados	en	ver	cómo	se	comporta	esa	variable	cuantitativa	en	 los	
distintos	grupos.	Entonces,	los	gráficos	a	realizar	son	los	mismos	que	hemos	visto	para	
variables	cuantitativas:	histogramas,	polígonos	de	frecuencia,	boxplots.	Veámoslo	con	
un	ejemplo.	
	
Ejemplo	
Estamos	 interesados	en	estudiar	el	 tamaño	del	genoma	de	dos	géneros	de	virus:	 los	
Alphaflexivirus	(virus	que	infectan	plantas	y	hongos)		y	los	Flavivirus	(arbovirus,	virus	que	
se	propagan	por	vectores	artrópodos,	principalmente	mosquitos	y	garrapatas;	uno	de	
los	más	conocidos	es	el	dengue).		
Como	 vimos	 en	 un	 ejemplo	 de	 la	 sección	 anterior,	 una	 forma	 de	 obtener	 esta	
información	 es	 buscándola	 en	 bases	 de	 datos	 públicas,	 como	 el	 NCBI	
(https://www.ncbi.nlm.nih.gov/,	Figura	1).		
	
	
Figura	1.	 Captura	de	pantalla	de	 la	búsqueda	de	genomas	 completos	disponibles	en	 la	base	de	datos	
biológica	NCBI	(https://www.ncbi.nlm.nih.gov/)	para	Flavivirus	y	Alphaflexivirus.	
	
Asumamos	 que	 pasamos	 por	 alto	 que	 estos	 datos	 de	 largo	 (en	 bases)	 de	 genomas	
provienen	 de	 dos	 géneros	 virales	 diferentes,	 y	 decidimos	 graficar	 todo	 junto,	 como	
hemos	hecho	hasta	ahora.	Obtendríamos	lo	siguiente:	
	
Figura	2.	Histograma	y	polígono	de	frecuencias	absolutas	para	el	largo	de	los	genomas	de	Flavivirus	y	
Alphaflexivirus	descargados	de	NCBI	(sin	discriminar	por	géneros,	todos	los	datos	juntos).	Notar	que	
como	estamos	graficando	frecuencias	absolutas,	indicar	el	tamaño	muestral	(n)	no	es	necesario.	
	
Notar	 lo	 importante	 que	 es	 graficar	 los	 datos	 que	 tenemos,	 antes	 de	 proceder	 a	
cualquier	 análisis!	 Aun	 si	 no	 supiéramos	 que	 estos	 datos	 provienen	 de	 dos	 géneros	
diferentes,	observar	la	figura	2	ya	nos	da	una	idea	de	eso:	vean	como	parecieran	existir	
dos	grupos	de	datos	diferentes.	Claramente	es	una	distribución	bimodal,	una	centrada	
en	el	rango	~6500-7000	bases	y	otra	centrada	en	el	rango	~10500-11000	bases.	
Vamos	ahora	a	graficar	dos	histogramas	(y	sus	polígonos	de	frecuencias),	dividiéndolo	
por	 género	viral.	Notar	que	para	poder	 comparar	efectivamente	es	necesario	que	 la	
escala	 del	 eje	 “Y”	 sea	 la	 misma	 para	 ambos	 histogramas.	 Acá	 como	 son	
aproximadamente	la	misma	cantidad	de	datos	(nalfa=59	y	nflavi=74)	da	casi	lo	mismo	usar	
frecuencias	absolutas	(conteos)	que	relativas	(Figura	3).	Pero	si	los	tamaños	muestrales	
fueran	 muy	 diferentes,	 para	 poder	 comparar	 necesitaríamos	 hacer	 gráficos	 de	
frecuencias	relativas	(proporciones).	
	
Figura	3.	Histogramas	y	polígonos	de	frecuencias	para	los	datos	de	“largo	del	genoma	(bases)	por	género.	
Izquierda:	Flavivirus.	Derecha:	Alphaflexivirus.	
	
Otro	tipo	de	gráfico	que	podemos	hacer	para	representar	una	variable	cuantitativa	y	
una	categórica	es	gráfico	de	cajas	y	bigotes	(Figura	4).	Ya	vimos	que	estos	nos	permiten	
también	ver	si	hay	datos	atípicos	en	nuestras	muestras.	
	
Figura	4.	Boxplots.	Izquierda:	usando	todos	los	datos	de	largo	(bases)	de	genomas	virales,	sin	discriminar	
por	 familia.	Derecha:	 gráfico	 combinando	 los	boxplots	 de	 largo	 (bases)	de	genomas,	discriminado	por	
género.	Notar	que	indicar	el	tamaño	muestral	es	obligatorio	
	
Una	observación	de	estos	gráficos	nos	da	algunas	ideas	sobre	nuestros	dos	conjuntos	de	
datos,	como	por	ejemplo:	
a) No	 hay	 datos	 atípicos	 en	 ninguno	 de	 los	 dos	 conjuntos	 (Alphaflexivirus,	
Flavivirus)	
b) El	largo	de	los	genomas	de	Alphaflexivirus	parece	tener	mayor	dispersión	que	el	
de	 Flavivirus	 (se	 ve	 que	 el	 rango,	 es	 decir	 la	 diferencia	 entre	 el	mayor	 largo	
observado	 	 y	 el	 menor	 valor	 observado	 es	 mayor	 en	 Alfaflexivirus	 que	 en	
Flavivirus).	
c) El	tamaño	medio	de	largo	de	genoma	(bases)	parece	ser	mayor	en	Flavivirus	que	
en	Alfaflexivirus.	
d) El	 largo	de	genomas	en	Alfaflexivirus	pareciera	ser	asimétrico	a	la	derecha	(es	
decir,	con	una	cola	a	la	derecha…	la	pauta	para	notar	eso	en	este	caso	es	que	la	
mediana,	 en	 vez	 de	 estar	 en	 el	 centro	 de	 la	 caja,	 está	 más	 cerca	 del	 Q1).	
Esperaríamos	un	coeficiente	de	asimetría	mayor	a	cero.	
e) El	largo	de	genomas	en	Flavivirus	pareciera	ser	asimétrico	a	la	izquierda	(de	decir,	
con	 una	 cola	 a	 la	 izquierda…	 la	 pauta	 para	 notar	 eso	 en	 este	 caso	 es	 que	 la	
mediana,	 en	 vez	 de	 estar	 en	 el	 centro	 de	 la	 caja,	 está	 más	 cerca	 del	 Q3).	
Esperaríamos	un	coeficiente	de	asimetría	menor	a	cero.	
Para	 confirmar	 todas	estas	observaciones	que	hemos	hecho	 sobre	 la	distribución	de	
nuestros	 datos,	 podemos	 calcular	 los	 distintos	 descriptores	 (centralización,	 posición,	
forma)	 para	 estos	 datos,	 y	 compararlos.	 Aquí	 se	 presentan	 las	 distintas	 medidas	
descriptoras,	estimadas	usando	software:	
		 Min.	 Q1	 Mediana	 Media	 Q3	 Max	 Var	(s2)	 DS	(s)	 CV(%)	 Asimet	 Kurtosis	
Alfaflexivirus	 5470	 6286	 6677	 6888	 7370	 8832	 674889	 821,5163	 11,93	 0.659	 2,64	
Flavivirus	 10053	 10272	 10745	 10628	 10869	 11375	 109938.7	 331,57	 3,12	 -0,26	 1,81	
	
Relación	entre	dos	variables	cuantitativas	
En	el	caso	en	que,	para	la	misma	unidad	muestral	registremos	dos	variables	cuantitativas	
(algunos	ejemplos:	peso	y	altura;	 largo	de	pico	y	largo	de	cola;	número	de	intrones	y	
exones,	entre	otras)	nos	encontramos	ante	un	estudio	de	la	relación	entre	dos	variables	
cuantitativas.	Esto	conlleva	un	tratamiento	especial	de	los	datos,	por	eso	dedicaremos	
gran	parte	de	esta	sección	a	esto.	
	
Tablas	y	gráficos	para	plasmar	la	relación	entre	dos	(o	más)	variables	cuantitativas	
Por	lo	general,	cuando	tenemos	dos	(o	más)	variables	cuantitativas	registradas	sobre	la	
misma	unidad	muestral	(si	no	recuerda	la	definición	de	unidad	muestral,	es	la	mínima	
unidad	 de	 la	 cual	 podemos	 obtener	 una	 observación	 o	 valor	 de	 la	 variable	
independiente),	 los	 datos	 se	 plasman	 en	 tablas	 en	 los	 cuales	 cada	 fila	 contiene	 la	
información	de	una	unidad	muestral	y	hay	 tantas	columnas	como	variables	hayamos	
medido.	Ejemplo,	si	volvemos	a	la	base	de	datos	NCBI	y	buscamos	el	largo	del	genoma	
(en	 millones	 de	 bases,	 Mb),	 contenido	 de	 GC	 (citosina,	 guanina,	 en	 porcentaje),	 el	
número	de	regiones	codificantes	(CDS),	la	cantidad	de	genes	anotados	y	la	cantidad	de	
RNA	 de	 transferencia	 (tRNA)	 anotados	 en	 genomas	 de	 proteobacteria	 del	 género	
Rhizobium,	obtendríamos	una	tabla	de	este	tipo:	
Especie	 largo	genoma	(Mb)	 GC%	 CDS	 Nro_Genes	 tRNA	
Rhizobium	sp.	Khangiran2	 4.25979	 61.9471	 3969	 4105	 50	
Rhizobium	sp.	TCK	 4.27544	 61.8842	 3991	 4102	 50	
Rhizobium	sp.S41	 5.52437	 59.3	 5141	 5417	 61	
Rhizobium	grahamii	 5.88932	 60.3002	 5168	 5537	 53	
Rhizobium	sp.	JKLM12A2	 7.53305	 60.7926	 6980	 7234	 51	
Rhizobium	acidisoli	 7.49768	 61.0382	 6721	 7190	 50	
	
Como	se	puede	observar,	cada	fila	es	una	unidad	muestral	 independiente,	la	primera	
columna	sería	el	ID	(identificador)	de	cada	unidad	muestral	(en	ese	caso	el	nombre	de	
la	especie)	y	hay	5	columnas	(una	por	cada	variable	medida).	
Lo	primero	que	podemos	preguntarnos	es	de	qué	tipo	es	cada	variable.	Vemos	que	todas	
ellas	 son	cuantitativas;	 largo	del	genoma	 (en	MB)	y	%GC	son	cuantitativas	 continuas	
mientras	que	las	restantes	son	cuantitativas	discretas.	
Gráficos	para	variables	cuantitativas	
El	 gráfico	 que	 se	 usa	 para	 representar	 la	 relación	 entre	 dos	 (o	 más)	 variables	
cuantitativas	 es	 el	 gráfico	 de	 dispersión.	 Un	 diagrama	 de	 dispersión	 es	 un	 tipo	 de	
diagrama	matemático	que	utiliza	las	coordenadas	cartesianas	para	mostrar	los	valores	
de	distintas	variables	para	un	conjunto	de	datos.	Seguramente	todos	han	hecho	alguna	
vez	 un	 gráfico	 de	 este	 tipo!	 Dado	 que	 se	 usa	 una	 coordenada	 cartesiana	 por	 cada	
variable	a	graficar,	lo	más	común	es	que	s	grafiquen	dos	variables,	aunque	hay	algunos	
casos	de	representación	de	3	variables	(gráfico	3D).	
A	continuación	se	presentan	4	gráficos	(de	dos	coordenadas	cada	uno)	que	muestran	la	
relación	entre	largo	(Mb)	de	los	genomas	vs	su	porcentaje	de	GC,	Cantidad	de	regiones	
codificantes	(CDS),	número	de	genes	y	número	de	tRNA	anotados	(Figura	5).	
	
Figura	5.	Gráficos	de	dispersión.	De	izquierda	a	derecha	tenemos:	largo	del	genoma	(en	millones	de	bases,	
Mb)	 versus	 contenido	 de	 Citocina:Guanina	 (%GC),	 largo	 del	 genoma	 (Mb)	 vs	 número	 de	 regiones	
codificantes,	largo	del	genoma	(Mb)	vs	número	de	genes	anotados	y	largo	del	genoma	(Mb)	vs	número	
de	RNA	de	transferencia	(tRNA)	anotados.	Las	flechas	azules	señalan	posibles	datos	atípicos.	
	
Cómo	interpretar	los	gráficos	de	dispersión	
Al	 observar	 críticamente	 un	 diagrama	 de	 dispersión,	 tenemos	 que	 tener	 en	 mente	
algunas	preguntas.	Entre	ellas:	
a) Los	puntos	se	distribuyen	siguiendo	un	patrón	general	o	una	cierta	dirección,	o	
no	hay	un	patrón	evidente	de	distribución	de	los	puntos.	
b) Si	observamos	un	patrón,	este	es	creciente	o	decreciente?	Es	decir,	se	observa	
que	 van	 “subiendo”	 de	 izquierda	 a	 derecha,	 o	 van	 “bajando”	 de	 derecha	 a	
izquierda?	
c) Si	observamos	un	patrón,	este	es	en	forma	lineal,	o	forman	algún	otro	tipo	de	
curva?	
d) Existe	algún	dato	“atípico”,	que	sea	claramente	diferente	del	patrón	general	de	
los	datos?	
	
En	los	gráficos	de	nuestro	ejemplo,	podemos	ver	como	en	los	dos	gráficos	del	medio	los	
puntos	 siguen	 una	 clara	 línea	 ascendente.	 Esto	 nos	 da	 una	 idea	 de	 que	 hay	 una	
asociación	positiva	(o	creciente)	entre	las	variables	“largo	del	genoma	(Mb)”	y	“número	
de	genes”,	y	que	también	hay	una	asociación	positiva	(o	creciente)	entre	las	variables	
“largo	del	genoma	(Mb)”	y	“número	de	genes”.	A	grandes	rasgos	podríamos	decir	que,	
para	 la	 especie	 Rhizobium,	 a	 mayor	 tamaño	 de	 genoma,	 más	 genes	 (o	 regiones	
codificantes)	se	identifican.		
Por	 su	parte,	el	gráfico	de	 la	 izquierda	muestra	una	mayor	dispersión	de	 los	puntos,	
aunque	esta	parece	no	ser	aleatoria:	se	observa	dispersión	en	el		%GC	en	genomas	de	
tamaño	más	pequeño,	mientras	que	en	genomas	de	mayor	tamaño	la	dispersión	en	%GC	
parece	ser	menor.	Este	gráfico	presenta	una	forma	de	cono	o	embudo.	En	el	gráfico	de	
la	derecha,	el	número	de	tRNA	parece	mantenerse	constante	a	distintos	tamaños	de	
genoma;	 esto	 nos	 da	 una	 idea	 de	 que,	 independientemente	 del	 largo	 (en	 Mb)	 del	
genoma	de	individuos	de	la	especie	Rhizobium,	el	número	de	tRNA	es	aproximadamente	
el	mismo.	
Hay	un	dato	que	parece	diferenciarse	del	 resto	en	algunos	 casos,	 está	 señalado	 con	
flechas.	
Correlación	
La	correlación	es	valor	de	que	sintetiza	la	relación	entre	dos	variables	cuantitativas.	La	
correlación	es	una	medida	de	la	fuerza	y	dirección	de	la	asociación	entre	dos	variables	
cuantitativas.		
El	coeficiente	de	correlación	(r)	tiene	las	siguientes	propiedades:	
- La	correlación	es	un	número	entre	-1	y	1,	es	decir	que	-1	≤	r	≤	1	
- El	signo	de	r	(positivo	o	negativo)	indica	la	dirección	de	la	asociación:	si	r	<	0,	la	
asociación	entre	dos	variables	será	negativa,	mientras	que	si	r	>	0	la	asociación	
entre	dos	variables	será	positiva	
- Valores	de	r	cercanos	a	-1	o	a	+1	nos	dan	idea	de	que	existe	una	asociación	lineal	
muy	fuerte	entre	 las	dos	variables	cuantitativas,	mientras	que	coeficientes	de	
correlación	cercanos	a	cero	nos	hablan	de	ausencia	de	asociación	lineal.	
- El	coeficiente	de	correlación	r	no	tiene	unidades	
- La	 correlación	 es	 simétrica.	 Es	 decir,	 el	 coeficiente	 de	 correlación	 r	 entre	 las	
variables	X	e	Y	es	el	mismo	que	el	coeficiente	de	correlación	entre	las	variables	Y	
y	X.	
	
A	continuación	se	presenta	una	gráfica	con	numerosas	posibles	gráficas	de	dispersión	
entre	 dos	 variables	 cuantitativas	 y	 sus	 coeficientes	 de	 correlación	 (r).	 Notar	 que	
mientras	más	se	acerca	el	coeficiente	de	correlación	a	cero,	más	dispersos	(formando	
una	“nube”)	se	ven	los	datos	(Figura	6).	
	
Figura	6.	Distintas	gráficas	de	dispersión	y	sus	coeficientes	de	correlación	asociados.	
	
Notación	para	la	correlación	
Ya	hemos	visto	que	es	sumamente	importante	distinguir	cuando	estamos	hablando	de	
valores	calculados	para	una	muestra	de	valores	calculados	para	una	población.	Para	el	
caso	del	coeficiente	de	correlación,	tenemos	que:	
- Si	 el	 coeficiente	 de	 correlación	 se	 calculó	 para	 una	 muestra,	 se	 denota	 r	 (r	
minúscula)	
- Si	el	coeficiente	de	correlación	se	obtuvo	para		toda	una	población,	se	denota	ρ	
(la	letra	griega	Rho).	
Notar	que	todas	las	propiedades	que	especificamos	para	el	coeficiente	de	correlación	
muestral	r	también	son	válidas	para	el	coeficiente	de	correlación	poblacional	ρ.	
Cuidados	al	interpretar	el	coeficiente	de	correlación	
Hay	 errores	 muy	 comunes	 de	 interpretación	 que	 suelen	 hacerse	 al	 estimar	 un	
coeficiente	de	correlación,	y	que	deben	ser	evitados:	
a) Que	dos	variables	estén	correlacionadas	(por	más	fuerte	que	sea	esa	correlación)	
no	necesariamente	implica	que	exista	una	relación	causa:efecto	entre	estas	dos	
variables.	Una	relación	causa:efecto	implica	que,	si	yo	vario	una	de	las	variables,	
la	otra	variará	 también.	Esto	no	siempre	sucede	en	variables	correlacionadas.	
Acá	se	presentan	dos	ejemplos	extremos	de	correlaciones	espurias,	hechas	en	
base	 a	 datos	 reales	 (https://tylervigen.com/spurious-correlations),	 que	
ejemplifican	esta	idea	de	que	correlación	no	implica	causalidad	(Figura	7).	
	
Figura	7.	Ejemplos	de	correlaciones	espurias.	A	 la	 izquierda,	vemos	un	estudio	de	correlación	positiva	
(r=0,66)	entre	el	número	de	películas	por	año	en	las	que	participó	Nicolas	Cage	(período	1999-2009)	y	el	
número	de	muertos	ahogados	en	piscinas	por	año,	registrados	en	el	mismo	período	(1999-2009).	La	figura	
de	 la	 derecha	nos	muestra	 otra	 correlación	positiva	 y	muy	 cercana	 a	 1	 (r=0,98)	 entre	 el	 consumo	de	
margarina,	en	libras	per	cápita	(período	2000-2009)	y	la	tasa	de	divorcio	por	año	en	Maine,	Estados	Unidos	
en	el	mismo	período	(2000-2009).	Nadie	se	atrevería	a	decir,	en	su	sano	juicio,	que	hay	una	relación	causa	
efecto	entre	estas	variables.	
	
Si	 les	 interesa,	 pueden	 entrar	 y	 revisar	 esta	 página	 web	
(https://tylervigen.com/spurious-correlations)	 que	 compila	 múltiples	
correlaciones	espurias.	Es	decir,	datos	de	dos	variables	cuantitativas	que	tienen	
un	 coeficiente	 de	 correlación	 fuerte	 (cercano	 a	 -1	 o	 +1)	 pero	 que	 jamás	
podríamos	decir	que	tienen	una	relación	causa:	efecto.	Reciten	esto	como	un	
mantra:	“Correlación	no	implica	causalidad”.	
	
b) Una	correlación	cercana	a	cero	no	implica	(necesariamente)que	las	variables	no	
estén	 asociadas.	 Hay	 que	 tener	 siempre	 en	 mente	 que	 el	 coeficiente	 de	
correlación	mide	la	fuerza	y	dirección	de	asociación	LINEAL	entre	dos	variables.	
Si	la	asociación	sigue	otra	forma	(no	lineal),	este	coeficiente	no	nos	dice	nada.	A	
modo	 de	 ejemplo,	 observar	 la	 siguiente	 gráfica	 que	 nos	 muestras	 múltiples	
diagramas	de	dispersión	de	datos	que	siguen	un	patrón	evidente	(no	aleatorio)	
pero	con	valores	de	correlación	iguales	o	próximos	a	cero	(Figura	8):	
	
Figura	8.	Gráficos	de	dispersión	no	aleatorios	que	tienen	coeficiente	de	correlación	cercanos	a	cero	(el	
coeficiente	de	correlación	es	el	valor	especificado	encima	de	cada	gráfica	de	puntos).		Wikipedia.	
	
c) Al	 igual	 que	 la	 media	 y	 rango,	 la	 correlación	 es	 una	 medida	 fuertemente	
influenciada	por	la	presencia	de	datos	atípicos.	Es	por	ello	que,	antes	de	calcular	
un	coeficiente	de	correlación,	hay	que	graficar	 los	datos,	para	poder	detectar	
estos	datos	fuera	de	tipo.	
	
Regresión	lineal	
Vimos	 que	 el	 coeficiente	 de	 correlación	 nos	 permite	 estimar	 la	 relación	 entre	 dos	
variables.	Aquí	discutiremos	cómo	usar	una	de	las	variables	para	predecir	otra,	siempre	
que	las	mismas	se	encuentren	linealmente	asociadas.	
El	proceso	de	ajustar	una	línea	a	un	conjunto	de	datos	se	llama	regresión	lineal	y	la	línea	
de	 mejor	 ajuste	 se	 llama	 recta	 de	 regresión.	 La	 recta	 de	 regresión	 proporciona	 un	
modelo	de	la	asociación	lineal	entre	dos	variables.	Podemos	usar	la	ecuación	de	dicha	
recta	para	dar	un	valor	predicho	de	la	variable	de	respuesta,	basado	en	un	valor	dado	
de	la	variable	explicativa.	
A	modo	de	repaso,	sabemos	que	la	ecuación	para	una	recta	es	
y	=	bx	+	a	
donde	 “a”	 es	 una	 constante,	 llamada	 “ordenada	 al	 origen”	 que	 representa	 la	
intersección	de	la	recta	en	el	eje	Y	(es	decir,	cuando	el	valor	de	x	=	0),	mientras	que	“b”	
representa	la	pendiente	de	la	recta.	
De	este	modo,	encontrar	la	recta	de	regresión	para	un	conjunto	de	datos	implica	hallar	
los	valores	para	la	pendiente	y	ordenada	al	origen	de	la	recta	que	mejor	se	ajusta	a	la	
disposición	lineal	de	nuestros	datos.	Por	lo	general	esto	se	hace	con	software.	
Como	la	recta	de	regresión	suele	usarse	para	hacer	predicciones	de	valores,	para	ayudar	
a	distinguir	entre	los	valores	predichos	y	los	observados	de	la	variable	de	respuesta,	a	
menudo	agregamos	un	"sombrerito"	al	nombre	de	la	variable	de	respuesta	para	indicar	
el	valor	predicho.	Por	lo	tanto,	si	nuestros	pares	de	datos	son	(x,	y)	con	x	como	variable	
explicativa	e	y	como	variable	de	respuesta,	la	línea	de	regresión	viene	dada	por	
𝑦	=		bx	+	a	
	
Ejemplo	
Retomemos	 la	 relación	 entre	 las	 variables	 “largo	 del	 genoma	 (Mb)”	 y	 “número	 de	
genes”.	 Como	 mencionamos	 previamente,	 se	 observa	 una	 clara	 asociación	 positiva	
entre	variables.	De	hecho,	si	calculamos	el	coeficiente	de	correlación	obtenemos:	
r	=	0,995	(muy	cercano	a	1)	
La	gráfica,	conteniendo	la	recta	de	regresión,	es	la	siguiente	(Figura	9):	
	
Figura	9.	Gráficos	de	dispersión	de	largo	del	genoma	(Mb)	vs	número	de	genes	anotados.	Se	presenta	
también	la	recta	de	regresión.	La	recta	vertical	roja	indica	un	residuo	(distancia	entre	un	datos	y	la	recta	
de	regresión).		
	
 
residuo 
Es	 importante	 remarcar	 que,	 cuando	 se	 grafica	 un	 diagrama	 de	 dispersión	 para	 dos	
variables	cuantitativas,	de	las	cuales	una	depende	de	la	otra	(es	decir,	hay	una	variable	
explicativa	y	una	respuesta),	la	variable	explicativa	(en	este	caso	el	largo	del	genoma	en	
Mb)	va	siempre	en	el	eje	X,	mientras	que	la	variable	respuesta	va	siempre	en	el	ele	Y.	
Esto	es	una	convención	que	debe	respetarse.	
Calculando	(con	software)	la	ecuación	de	la	recta	de	regresión	para	predecir	el	número	
de	genes	que	contiene	un	genoma,	conociendo	el	largo	(en	Mb)	de	dicho	genoma	en	
Rhizobium	es:	
𝑦	=		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠=	978,02x	-	83,19	
Es	decir,	si	tenemos	un	genoma	ensamblado	de	un	individuo	de	esta	especie	que	mide	
6,776	Mb,	podemos	predecir	que	contendrá:	
𝑦	=		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠=	978,02*(6,776)	-	83,19	~6543	genes		
Hay	que	tener	siempre	en	cuenta	que	este	valor	es	una	predicción	hecha	en	base	a	un	
modelo	 lineal.	 De	 hecho,	 veamos	 que	 pasa	 cuando	 predecimos	 un	 valor	 que	 ya	
conocemos.	Tomemos	el	ejemplo	del	genoma	de	Rhizobium	grahamii:	este	es	un	dato	
de	la	lista,	que	sabemos	que	mide	5,88932	Mb	y	tiene	5537	genes.	Si	usamos	los	datos	
de	tamaño	de	genoma	(Mb)	para	predecir	el	contenido	de	genes	obtendremos:		
𝑦	=		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠=	978,02*(5,88932)	-	83,19	~	5677	genes		
Como	ven,	la	predicción	no	es	perfecta	(porque	el	r	no	es	exactamente	1!)	pero	se	le	
acerca	bastante.	
	
Residuo	
Como	vimos	recién,	las	predicciones	son	eso:	predicciones.	Pueden	coincidir	con	el	valor	
real	o	no,	ser	un	valor	cercano	pero	no	exactamente	el	mismo.	Esa	diferencia	entre	el	
dato	observado	(real)	y	el	predicho	se	llama	“residuo”.	Un	residuo	entonces	se	calcula	
como:	
Residuo	=	valor	observado	–	valor	predicho	=	y	-	𝑦	
En	 el	 gráfico	 de	 dispersión,	 un	 residuo	 es	 la	 distancia	 vertical	 entre	 cualquier	 punto	
(dato)	y	la	recta	de	regresión	(ver	la	pequeña	línea	vertical	roja	que	marca	la	distancia	
entre	un	punto	y	la	recta	en	la	Figura	9).	
En	nuestro	ejemplo,	el	residuo	para	x	=	tamaño	del	genoma	=	5,88932	Mb	
Residuo	=		5537	genes	–	5677	genes	=	-	140	genes	(ver	que	los	residuos	pueden	ser	
positivos	o	negativos)	
Como	 podrán	 imaginar,	 mientras	 más	 fuerte	 sea	 la	 asociación	 entre	 dos	 variables	
cuantitativas	 (es	 decir,	 mientras	 más	 cercano	 a	 -1	 o	 a	 +1	 esté	 el	 coeficiente	 de	
correlación)	más	cerca	estarán	los	puntos	de	la	recta	de	regresión,	y	más	chicos	serán	
los	residuos.	En	caso	contrario,	mientras	más	lejos	estén	los	puntos	(datos)	de	la	recta	
de	regresión,	más	grandes	serán	los	residuos.		
Los	residuos	no	son	otra	cosa	más	que	los	errores	en	la	predicción.	
	
Interpretando	los	coeficientes	de	la	recta	de	regresión	
Para	la	recta	de	regresión		y	=		mx	+	b,	tenemos	que:	
- La	pendiente	“m”	representa	el	cambio	predicho	en	la	variable	de	respuesta	(y)	
dado	un	aumento	de	una	unidad	en	la	variable	explicativa	(x).	
- La	ordenada	al	origen	b	representa	el	valor	predicho	de	la	variable	de	respuesta	
(y)	cuando	la	variable	explicativa	(x)	vale	cero.	La	interpretación	puede	no	tener	
sentido	ya	que	a	menudo	no	es	razonable	que	la	variable	explicativa	sea	cero.	
	
Entonces	si	tomamos	nuestro	ejemplo:	𝑦	=		#𝑑𝑒	𝑔𝑒𝑛𝑒𝑠=	978,02x	-83,19,	podemos	decir	
que:	
- Por	cada	aumento	de	1	Mb	en	el	largo	del	genoma	de	Rhizobacterium,	se	espera	
que	el	número	de	genes	aumente	978,02	
- Cuando	el	largo	del	genoma	de	Rhizobacterium	es	igual	a	0,	tendríamos	-83,19	
genes	(lo	cual	claramente	es	un	sinsentido).		
	
Notación	para	la	pendiente	
La	 pendiente	 de	 la	 recta	 de	 regresión	 también	 puede	 ser	 calculada	 a	 partir	 de	 una	
muestra	o	para	toda	una	población,	entonces	es	necesario	distinguir	cuando	se	trata	de	
un	caso	y	cuando	del	otro.	
- Si	la	pendiente	fue	calculada	para	una	muestra,	se	denota	“b”	
- Si	la	pendiente	fue	obtenida	para	toda	una	población,	se	denota	β	(la	letra	griega	
Beta)	
Precauciones	a	tener	en	cuenta	con	la	recta	de	regresión	
Hay	cosas	que	deben	 tener	en	cuenta	cuando	estén	 trabajando	con	 regresión	 lineal,	
para	no	cometer	errores.	
a) La	ecuación	de	la	recta	de	regresión	sólo	puede	ser	usada	para	predecir	valores	
en	el	rango	de	los	usados	para	generar	la	recta.	O	sea,	nunca	extrapolen	a	valores	
más	altos	o	más	bajos,	ya	que	allí	no	se	garantiza	que	la	asociación	lineal	entre	
variables	se	mantenga	
b) Al	igual	que	lo	que	vimos	con	la	correlación,	la	recta	de	regresión	puede	verse	
fuertemente	influenciada	por	datos	atípicos.	Siempre	grafiquen	los	datos	antes	
de	calcular	una	recta	de	regresión.	
c) Hay	que	tener	mucho	cuidado	con	cuál	es	 la	variable	explicativa	que	estamos	
usando	(x)	y	cuál	la	respuesta.A	diferencia	de	lo	que	sucede	con	el	coeficiente	
de	correlación	(que	es	simétrico),	la	recta	de	regresión	para	predecir	(y)	a	partir	
de	(x)	no	es	igual	a	la	recta	de	regresión	para	predecir	(x)	a	partir	de	(y).	
d) Recordar,	 como	 se	mencionó	 previamente,	 que	 al	 graficar	 estas	 variables,	 la	
variable	explicativa	va	siempre	sobre	el	eje	X	y	la	variable	respuesta	sobre	el	eje	
Y.

Continuar navegando

Materiales relacionados

80 pag.
15 pag.
1_Estadistica descriptiva - Eliana Benavides

User badge image

Desafío COL y ARG Veintitrés

73 pag.
Cuaderno Maca Ossa

User badge image

Estudiando Ingenieria

133 pag.
Apuntes 2016 (1) (1)

SIN SIGLA

User badge image

lizethsalin748