Logo Studenta

guia_teorica_6-2021

¡Este material tiene más páginas!

Vista previa del material en texto

Prueba	de	hipótesis	
En	la	sección	introdujimos	el	concepto	de	inferencia	estadística,	 la	cual	se	encarga	o	nos	permite	
extrapolar	las	conclusiones	que	hemos	obtenido	al	trabajar	sobre	una	pequeña	muestra	a	toda	la	
población	de	estudio.	
Hicimos	 hincapié	 en	 que,	 para	 que	 estas	 conclusiones	 sean	 válidas,	 se	 debe	 seguir	 un	 riguroso	
proceso	 enmarcado	 en	 el	 diseño	 de	 experimentos.	 Dentro	 de	 las	 distintas	 etapas	 a	 seguir	 para	
garantizar	la	validez	de	nuestras	conclusiones,	encontramos	la	formulación	de	la	pregunta	biológica	
(una	 pregunta	 concisa,	 acotada,	 factible	 de	 ser	 respondida	 realizando	 un	 experimento),	 la	
formulación	de	hipótesis	biológicas	nula	y	alternativa	(relacionadas	a	procesos	biológicos,	donde	la	
hipótesis	nula	nos	habla	de	ausencia	de	cambio	y	la	alternativa	nos	plantea	el	cambio	que	nosotros	
esperábamos	 observar,	 es	 decir	 el	 resultado	 esperado…	 y	 que	 ese	 cambio	 podía	 tener	 una	
dirección	 y	 sentido:	 “mas	 grande	 que”,	 “más	 chico	 que”,	 “más	 rápido”;	 o	 no	 tener	 dirección	 ni	
sentido),	la	formulación	de	hipótesis	estadísticas	(nula	y	alternativa),	entre	otros.		
Es	 importante	 que	 remarquemos	 que,	mientras	 las	 hipótesis	 biológicas	 nos	 hablan	 de	 procesos	
biológicos,	 las	hipótesis	estadísticas	hacen	referencia	a	valores	numéricos,	cantidades	medibles	o	
contables.	 Y	 más	 puntualmente,	 a	 descriptores	 de	 esos	 valores	 numéricos.	 De	 esta	 forma,	 las	
hipótesis	 estadísticas	 hacen	 referencia	 a	 descriptores	 como	media,	 desvío	 estándar,	 proporción,	
correlación,	entre	otros.	
	
Parámetros	y	estadísticos	
Hacer	 inferencia	 sobre	 una	 población,	 en	 este	 caso,	 nos	 habla	 de	 la	 posibilidad	 de	 calcular	
descriptores	 (media,	 desvío	 estándar,	 proporción,	 correlación,	 etc)	 sobre	 una	muestra	 (es	 decir,	
muestrales),	y	usar	esos	valores	para	estimar	esos	mismos	descriptores	para	toda	la	población	de	
estudio	(es	decir,	poblacionales).	
Antes	de	seguir,	entonces,	introduzcamos	dos	conceptos	claves:	
-	Parámetro:	Es	un	descriptor	numérico	(cualquiera	de	los	ya	mencionados:	media,	varianza,	etc)	
poblacional.	 Como	 es	 poblacional,	 un	 parámetro	 es	 único	 (para	 una	 determinada	 variable,	 una	
población	va	a	tener	una	única	media,	un	único	desvío	estándar,	una	única	proporción...)	
-	Estadístico	(o	estimador):	Es	un	descriptor	numérico	(cualquiera	de	los	ya	mencionados:	media,	
desvío	 estándar,	 etc)	 muestral.	 Como	 es	 muestral,	 un	 estadístico	 no	 es	 único	 (porque	 va	 a	
depender	 de	 la	 composición	 de	 la	 muestra	 tomada	 aleatoriamente	 de	 la	 población…	 para	 una	
determinada	 variable,	 una	 muestra	 (a)	 tendrá	 su	 media,	 su	 desvío	 estándar,	 su	 proporción…	
mientras	 que	 otra	 muestra	 (b)	 tendrá	 su	 media,	 su	 desvío	 estándar,	 su	 proporción,	 que	 no	
necesariamente	 serán	 iguales	 a	 los	 calculados	 para	 la	muestra	 (a)).	 Cada	 estadístico	 (descriptor	
calculado	 sobre	 una	 muestra)	 es	 un	 estimador	 puntual	 (una	 aproximación)	 del	 parámetro	
poblacional.	
De	 esta	 forma,	 mientras	 que	 los	 parámetros	 (poblacionales)	 son	 únicos	 y	 constantes,	 los	
estadísticos	(muetrales)	van	a	variar	de	muestra	en	muestra.			
No	 obstante,	 y	 si	 cumplimos	 con	 todos	 los	 pasos	 de	 “Recolección	 de	 datos	 y	 Diseño	 de	
experimentos”	 detallados	 en	 la	 sección	 anterior,	 esperamos	 que	 cualquiera	 de	 esos	 estadísticos	
(muestrales)	sean	bastante	parecidos	al	parámetro	(poblacional)	que	buscan	estimar.	
	
Notación		
Antes	de	seguir	adelante,	veamos	un	poco	de	notación	para	aprender	a	discriminar,	por	escrito,	un	
parámetro	de	un	estadístico:	
Descriptor	 Parámetro	(poblacional)	 Estadístico	(muestral)	
Media	 µ	 𝑥	
Desvío	estándar	 σ	 s	
proporción	 p	 𝑝	
Correlación	 ρ	 r	
Pendiente	(regresión	lineal)	 β	 b	
	
Concepto	de	“prueba	de	hipótesis”	
La	prueba	de	hipótesis	es	una	de	 las	principales	herramientas	de	 la	estadística	 inferencial.	Es	 	el	
proceso	según	el	cual	intentamos	determinar	si	podemos	rechazar	o	no	una	afirmación	(hipótesis)	
hecha	acerca	de	una	población,	en	base	a	la	evidencia	proporcionada	por	una	muestra.		
Razonamiento	
Se	parte	de	dos	hipótesis	estadísticas:	hipótesis	nula	(ausencia	de	cambio)	e	hipótesis	alternativa	
(el	 cambio	que	el	 investigador	espera	que	ocurra).	Cabe	destacarse	que	ambas	hipótesis	 (nula	y	
alternativa)	se	plantean	sobre	parámetros	(µ,	σ,	ρ,	β,	etc).		
A	priori,	aceptamos	la	hipótesis	nula	como	verdadera	e	intentamos	ver	si	la	evidencia	muestral	la	
refuta	o	no.	Esto	quizá	 suene	 raro,	pero	 si	 lo	piensan	es	en	 realidad	algo	 intuitivo:	por	ejemplo,	
consideremos	 una	 paciente	 que	 va	 al	 médico	 para	 ver	 si	 está	 embarazada	 o	 no.	 El	 médico	
normalmente	mantiene	la	creencia	de	que	la	paciente	no	está	embarazada	hasta	que	una	prueba	
médica	proporcione	 la	evidencia	de	 lo	contrario.	Entonces	 la	hipótesis	nula	del	médico	es	que	 la	
paciente	no	está	embarazada	contra	la	alternativa	de	que	sí	 lo	está.	De	modo	que	lo	que	intenta	
refutar	(rechazar)	en	base	a	la	evidencia	proporcionada	por	los	datos	(la	prueba	de	embarazo)	es	la	
hipótesis	nula,	nunca	la	alternativa!		
La	 idea	detrás	de	 la	prueba	de	hipótesis	es	 la	siguiente:	si	 la	hipótesis	nula	 (formulada	sobre	un	
parámetro	poblacional)	es	cierta,	y	yo	tomo	una	muestra	aleatoria	de	dicha	población	y	calculo	su	
estadístico,	este	estadístico	muestral	debería	ser	bastante	“parecido”	al	parámetro	poblacional.	Es	
decir,	tengo	una	probabilidad	muy	alta	de	obtener	un	estadístico	parecido	al	parámetro	(siempre	
asumiendo	 que	 la	 hipótesis	 nula	 es	 cierta).	 Visto	 de	 otro	 modo,	 obtener	 para	 una	 muestra	
aleatoria	 un	 estadístico	 muy	 diferente	 al	 parámetro	 poblacional	 tendría	 una	 probabilidad	 muy	
baja!!		
Entonces,	si	eso	que	en	realidad	tiene	una	probabilidad	muy	baja	de	ocurrir	es	lo	que	yo	observo	
que	 está	 ocurriendo	 (es	 decir,	 si	 mi	 muestra	 aleatoria	 tiene	 un	 estadístico	 muy	 diferente	 al	
parámetro	postulado	en	la	hipótesis	nula),	puedo	decir	que	mi	muestra	me	proporciona	evidencia	
suficiente	para	rechazar	la	hipótesis	nula.	
Notar	que	por	 regla	 la	única	hipótesis	que	 se	pone	a	prueba	es	 la	hipótesis	nula.	 La	 forma	de	
ponerla	 a	 prueba	 estadísticamente	 es	 ver	 si	 la	 evidencia	 proporcionada	 por	 nuestros	 datos	 nos	
permite	rechazar	esa	hipótesis	nula	o,	si	por	el	contrario,	nuestra	muestra	no	nos	permite	rechazar	
dicha	hipótesis	nula.	Si	la	evidencia	proporcionada	por	los	datos	nos	permite	rechazar	la	hipótesis	
nula,	podemos	aceptar	la	hipótesis	alternativa.	Pero	si	la	evidencia	proporcionada	por	los	datos	NO	
nos	permite	rechazar	 la	hipótesis	nula,	no	es	correcto	decir	“aceptamos	la	hipótesis	nula”.	Jamás	
en	 estadística	 aceptamos	 la	 hipótesis	 nula,	 solo	 decimos	 que	 la	 evidencia	 no	 nos	 permite	
rechazarla	(lo	cual	no	implica	que	sea	verdadera,	más	adelante	volveremos	sobre	esta	idea).	
	
Reformulando	las	hipótesis	estadísticas	nula	y	alternativas,	pero	usando	notación	
Como	mencionamos,	las	hipótesis	estadísticas	nula	y	alternativa	se	tienen	que	formular	sobre	los	
parámetros,	no	sobre	estadísticos.	Lo	cual	es	lógico;	lo	que	nos	tiene	que	interesar	siempre	es	qué	
pasa	a	nivel	poblacional,	ya	que	una	muestra	aleatoria	no	tiene	ningún	interés	ulterior	más	que	el	
de	permitirnos	hacer	inferencia!	
De	 esta	 forma,	 y	 a	modo	 de	 ejemplo,	 podemos	 formular	 en	 notación	 las	 hipótesis	 estadísticas	
presentadas	en	la	sección	anterior:	
a) Experimento	de	Begonias	
Hipótesis	estadística	nula:	No	hay	diferencia	en	el	 largo	de	tallo	promedio	de	 	begonias	 	 regadas	
con	agua	con	sal	(BRCS,	Begonias	Regadas	Con	Sal)	durante	10	días	respecto	de	begonias	regadas	
con	agua	sin	sal	(BRSS,	Begonias	Regadas	Sin	Sal).		
Sea	la	variable:	largo	de	tallo	(en	cm)	
Hipótesis	estadística	nula	(notación):		µBRCS	=	µBRSS	
Hipótesis	estadística	alternativa:	Sihay	diferencias.	El	largo	de	tallo	promedio	BRCS	durante	10	días	
es	mas	corto	que	el	de	BRSS.	
Hipótesis	estadística	alternativa	(notación):		µBRCS	<	µBRSS	
b) Experimento	Germinación	Arena	
Hipótesis	estadística	nula:	El	tiempo	medio	desde	siembra	hasta	germinación,	medido	en	días,	es	
igual	en	semillas	sembradas	en	suelos	arenosos	(SSSA;	Semilla	Sembrada	Suelos	Arenosos)	que	en	
suelos	con	baja	proporción	de	arena	(SSPA;	Semillas	Sembradas	en	Poca	Arena)	
Sea	la	variable:	Tiempo	de	siembra	hasta	germinación	(en	días)	
Hipótesis	estadística	nula	(notación):		µSSSA	=	µSSPA	
Hipótesis	 estadística	 alternativa:	 El	 tiempo	medio	 desde	 siembra	 hasta	 germinación,	medido	 en	
días,	es	más	corto	en	SSSA	que	en	SSPA.	
Hipótesis	estadística	alternativa	(notación):		µSSSA	<	µSSPA	
c) Experimento	Timo	
Hipótesis	 estadística	 nula:	 La	 concentración	 media	 de	 linfocitos	 T	 en	 sangre	 es	 la	 misma	 en	
animales	con	timo	(ACT;	Animales	Con	Timo)	que	en	animales	a	 los	cuales	se	 les	extirpó	el	 timo	
(AST;	Animales	Sin	Timo).	
Sea	la	variable:	Concentración	de	linfocitos	T	en	sangre	
Hipótesis	estadística	nula	(notación):		µACT	=	µAST	
Hipótesis	estadística	alternativa:	La	concentración	media	de	linfocitos	T	es	 la	distinta	en	ACT	que	
en	AST.	
Hipótesis	estadística	alternativa		(notación):		µACT	≠	µAST	
Noten	 como,	en	notación,	 siempre	usamos	 los	parámetros.	 También,	 vean	 como	en	 la	hipótesis	
alternativa	usamos	los	signos	(<	y	>)	para	especificar	una	dirección	y	un	sentido:	mayor	que,	menor	
que)	y	el	signo	(≠)	para	plantear	diferencias,	pero	sin	dirección	ni	sentido.	
	
Poniendo	a	prueba	la	hipótesis	nula	
Como	se	menciona	previamente,	la	prueba	de	hipótesis	se	basa	en	asumir	que	una	de	las	hipótesis	
(la	 hipótesis	 nula)	 es	 verdadera,	 e	 intentar	 ver	 si	 la	 evidencia	 proporcionada	 por	 los	 datos	 nos	
permite	 o	 no	 rechazarla.	 Dijimos	 que	 si	 dicha	 hipótesis	 nula	 (formulada	 sobre	 un	 parámetro	
poblacional)	fuera	verdadera,	la	probabilidad	de	obtener	una	muestra	aleatoria	de	dicha	población	
con	 un	 estadístico	 muy	 alejado	 del	 parámetro	 sería	 muy	 baja!	 Si	 esto	 que	 tiene	 muy	 baja	
probabilidad	es	lo	que	está	ocurriendo	con	mi	muestra,	tengo	evidencia	suficiente	para	rechazar	la	
hipótesis	nula.		
Entonces	 la	 pregunta	 que	 deben	 estar	 haciéndose	 en	 este	momento	 es:	 (a)	 cómo	 definimos	 si	
nuestro	estadístico	muestral	es	lo	suficientemente	diferente	del	parámetro	poblacional?	(b)	Hay	un	
punto	del	 corte	a	partir	del	 cuál	uno	puede	decir:	 a	partir	de	aquí	 “parámetro	y	estadístico	 son	
diferentes,	 puedo	 rechazar	 la	 hipótesis	 nula”	 o,	 por	 el	 contrario	 “parámetro	 y	 estadístico	 son	
bastante	parecidos,	no	puedo	rechazar	la	hipótesis	nula”?	Además	deben	estar	preguntándose,	(c)	
cuándo	una	probabilidad	es	baja?	
	
Antes	 de	 seguir,	 vamos	 a	 recordar	 algunas	 nociones	 de	 probabilidad	 introducidas	 en	 la	 primera	
sección.	 Vimos	 que	 cuando	 dos	 eventos	 son	 independientes	 y	 tienen	 la	misma	 probabilidad	 de	
ocurrir	 (ejemplo,	 obtener	 cara	 o	 ceca	 al	 tirar	 una	moneda)	 es	 posible	 calcular	 una	 probabilidad	
teórica	 para	 la	 ocurrencia	 de	 estos	 eventos,	 que	 se	 obtiene	 como	 número	 de	 casos	 probables	
sobre	 número	 de	 casos	 posibles	 (ejemplo,	 probabilidad	 de	 que	 salga	 cara	 al	 tirar	 una	moneda,	
P(cara)	 =	 0,50).	 Sin	 embargo,	 también	 vimos	 que,	 si	 repetimos	 ese	 experimento	 varias	 veces	
(ejemplo,	 tiramos	 la	 moneda	 10	 veces	 y	 registramos	 cuantas	 veces	 sale	 cara),	 la	 probabilidad	
teórica	 sigue	 siendo	P(cara)	=	0,50,	pero	eso	NO	quiere	decir	que	 realmente	vayamos	a	 tener	5	
caras	y	5	cecas:	obtener	6	caras	y	4	cecas	es	un	resultado	posible	(menos	probable	que	obtener	5	y	
5,	pero	es	posible),	obtener	7	caras	y	3	cecas	 también	es	un	 resultado	posible	 (menos	probable	
que	los	dos	previos,	pero	posible),	al	igual	que	obtener	8	caras	y	2	cecas,	9	caras	y	1	ceca,	e	incluso	
10	 caras	 y	 0	 cecas.	 Sin	 embargo,	 a	 medida	 que	 las	 proporciones	 observadas	 se	 alejan	 de	 la	
calculada	 teóricamente,	 P(cara)	 =	 0,50,	 obtener	 esos	 resultados	 tan	 improbables	 se	 ve	 “raro”,	 e	
incluso	nos	hace	dudar	de	que	realmente	la	moneda	sea	una	moneda	“normal”	(y	no	una	de	esas	
“trucadas”	que	pueden	usar	los	ilusionistas).	
	
Teniendo	estas	nociones	en	mente,	podemos	retomar	las	preguntas	previas:	(a)	hay	un	punto	del	
corte	a	partir	del	cuál	uno	puede	decir:	a	partir	de	aquí	“parámetro	y	estadístico	son	diferentes,	
puedo	rechazar	la	hipótesis	nula”?	(b)	Cuándo	una	probabilidad	es	baja?	Para	poder	responder	a	
esto	necesitamos	calcular	cuál	es	la	probabilidad	de	obtener,	por	simple	azar,	un	estadístico	con	un	
valor	igual	(o	más	extremo)	al	que	obtuvimos	para	nuestra	muestra,	si	la	hipótesis	nula	fuera	cierta	
(esta	 probabilidad	 se	 llama	 “p-valor”).	 Y	 compararlo	 con	 un	 valor	 de	 referencia	 (α):	 si	 dicha	
probabilidad	es	menor	que	el	valor	de	referencia,	decimos	que	tenemos	evidencia	que	nos	permite	
rechazar	la	hipótesis	nula.		
	
P	valor	
El	p-valor	es	la	probabilidad	de	obtener	el	valor	de	estadístico	observado	para	nuestra	muestra	(o	
un	valor	incluso	más	extremo),	si	la	hipótesis	nula	fuera	verdadera	
En	el	ejemplo	de	la	moneda,	tenemos	como	hipótesis	nula		
P(cara)	=	0,50.	
Y,	si	suponemos	que	la	moneda	está	trucada,	podemos	plantear	como	hipótesis	alternativa	
P(cara)	≠	0,50.	
Si	 luego	 de	 tirar	 10	 veces	 la	 moneda	 (nuestra	 muestra,	 n	 =	 10)	 obtenemos	 8	 caras	 y	 2	 cecas	
(𝑝 𝑐𝑎𝑟𝑎 = 	0,80),	podemos	calcular	el	p-valor,	el	cual	indica	la	probabilidad	de	obtener	por	azar	
este	estadístico	(𝑝 𝑐𝑎𝑟𝑎 = 	0,80)	o	uno	más	extremo,	asumiendo	que	proviene	de	una	muestra	
aleatoria	tomada	de	una	población	con	P(cara)	=	0,50	(que	es	lo	que	afirma	la	hipótesis	nula).		
Calcular	el	p-valor	involucra	complejos	cálculos	(vamos	a	ver	más	adelante	que	esas	probabilidades	
se	calculan	como	áreas	bajo	una	curva	de	distribución),	que	hoy	en	día	se	hacen	con	software.		
En	 el	 caso	 de	 este	 problema	 en	 particular,	 la	 probabilidad	 de	 obtener	 este	 valor	 de	 estadístico	
(𝑝 𝑐𝑎𝑟𝑎 = 	0,80)	 o	 un	 valor	más	 extremo,	 asumiendo	 que	 proviene	 de	 una	muestra	 aleatoria	
tomada	de	una	población	con	P(cara)	=	0,50	es:	
p-valor	=	0,05469	
	
Falsos	positivos	y	falsos	negativos	
Cuando	hacemos	una	prueba	de	hipótesis,	el	resultado	de	la	misma	será	rechazar	o	no	rechazar	la	
hipótesis	nula	(notar	que	decimos	“rechazar	o	no	rechazar”,	y	no	“rechazar	o	aceptar”…).	Rechazar	
la	hipótesis	nula	 significa	que	concluimos,	en	base	a	 la	evidencia	proporcionada	por	 la	muestra,	
que	la	hipótesis	nula	no	es	cierta.		
Sin	 embargo,	 dado	 que	 el	 hecho	 de	 rechazar	 (o	 no	 rechazar)	 una	 hipótesis	 nula	 se	 basa	 en	
probabilidades,	siempre	existe	una	pequeña	chance	de	que	estemos	cometiendo	un	error.	Dijimos	
que	 si	 la	 probabilidad	 de	 obtener	 un	 estadístico	 como	 el	 obtenido	 para	 nuestra	 muestra,	
asumiendo	a	hipótesis	nula	como	verdadera,	es	muy	baja,	podríamos	 rechazar	 la	hipótesis	nula.	
Sin	 embargo,	 existe	 una	 pequeña	 chance	 de	 que	 estemos	 rechazando	 la	 hipótesis	 nula	
incorrectamente,	dado	que	por	simple	azar	podríamos	obtener	un	valor	extremo	como	el	nuestro	
(piensen	siempre	en	la	moneda:	obtener	10	caras	y	0	cecas	en	10	tiradas	es	muy	poco	probable,	
pero	no	es	 imposible…	puede	ocurrir	por	puro	azar	que	alguna	vez	tengamos	ese	resultado,	aun	
con	una	moneda	“normal”).	Esta	es	la	razón	por	la	cual	no	es	correcto	decir	en	ciencias	biológicas	
que	 “demostramos”	 algo…	 siempre	 existe	 la	 posibilidad,	 aunque	 sea	minúscula,	 de	 que	 lo	 que	
estemos	observando	no	sean	verdaderas	diferencias	sino	algo	producto	del	azar.		
Cuando	rechazamos	incorrectamente	una	hipótesis	nula	verdadera,	estamos	cometiendo	un	FALSO	
POSITIVO,	 también	 conocido	 como	 “Error	 de	 tipo	 I”.	 Se	 estarán	 imaginando	 que	 elp-valor,	
entonces,	se	convierte	en	la	probabilidad	de	cometer	un	falso	positivo	(o	“error	de	tipo	I”).	
Este	error	es	el	más	preocupante	de	todos,	de	modo	que	las	pruebas	de	hipótesis	de	formulan	de	
manera	 tal	de	poder	controlar	este	error.	Cómo	se	hace	esto?	Estableciendo	un	punto	de	corte,	
una	probabilidad	máxima	de	cometer	“error	de	tipo	I”	que	podemos	aceptar.	Ese	valor,	o	punto	de	
corte,	se	llama	“nivel	de	significancia”	(α)	y	lo	desarrollaremos	más	en	la	próxima	sección.	
Otro	error	que	podemos	estar	cometiendo	el	prueba	de	hipótesis	es	el	de	no	rechazar	la	hipótesis	
nula,	cuando	esta	no	es	verdadera.	Fallar	al	rechazar	la	hipótesis	nula	cuando	esta	no	es	verdadera	
implica	cometer	un	FALSO	NEGATIVO,	también	llamado	“Error	de	tipo	II”.	Es	por	este	motivo	que	
nunca	decimos	en	ciencias	que	“nuestros	datos	demuestran	que	la	hipótesis	nula	es	verdadera”.	Lo	
único	que	podemos	decir	es	que,	en	base	a	nuestros	datos,	no	hemos	podido	rechazarla.	
De	esta	manera,	siempre	que	rechacemos	la	hipótesis	nula,	podemos	estar	cometiendo	“error	de	
tipo	 I”.	 Cuál	 es	 la	 magnitud	 de	 “error	 de	 tipo	 I”	 que	 podemos	 estar	 cometiendo?	 El	 p-valor.	
Además,	siempre	que	no	rechacemos	la	hipótesis	nula,	podemos	estar	cometiendo	“error	de	tipo	
II”	(veremos	más	adelante	cómo	cuantificar	la	probabilidad	de	cometer	este	error).		
	
Nivel	de	significancia	(α)	
Hemos	 mencionado	 que	 si	 el	 p-valor	 es	 muy	 bajo	 podemos	 rechazar	 la	 hipótesis	 nula.	 Cómo	
sabemos	 cuándo	 un	 p-valor	 es	 bajo?	 Decimos	 que	 si	 el	 p-valor	 es	 menor	 que	 el	 nivel	 de	
significancia	(α,	es	decir,	es	menor	que	la	probabilidad	máxima	que	aceptamos	de	cometer	“error	
de	tipo	I”),	tenemos	evidencia	muestral	suficiente	como	para	rechazar	la	hipótesis	nula.		
Por	convención	en	ciencias	biológicas,	se	acepta	un	valor	de	α	=	0,05	como	límite,	a	partir	del	cual	
podemos	rechazar	la	hipótesis	nula.	Tengan	en	cuenta	que	no	hay	nada	mágico	alrededor	de	ese	
valor	(α=0,05)!	Es	más	bien	un	valor	arbitrario	(que	corresponde	a	una	tasa	de	error	de	1:20)	que	
se	estableció	mucho	tiempo	atrás,	y	quedó…	
Tiene	que	quedar	claro	que	un	α=	0,05	implica	que	tenemos	un	5%	de	probabilidad	de	rechazar	la	
hipótesis	 nula,	 incluso	 cuando	 esta	 es	 verdadera.	 Esto	 quiere	 decir	 que,	 si	 realizamos	 el	mismo	
experimento	 100	 veces	 (es	 decir,	 si	 sobre	 una	 población	 tomamos	 100	 muestras,	 hacemos	 el	
experimento	 de	 interés	 y	 calculamos	 el	 estadístico	 muestral),	 por	 simple	 azar	 5	 de	 esas	 veces	
vamos	a	obtener	datos	que	se	alejan	lo	suficiente	del	parámetro	establecido	como	para	rechazar	la	
hipótesis	nula	(aunque	sea	verdadera).	
Entonces,	obviamente,	este	valor	crítico	(α)	no	es	un	valor	fijo	(aunque	normalmente	se	use	0,05),	
sino	 que	 se	 puede	 ir	 cambiando	 arbitrariamente	 de	 acuerdo	 a	 la	 tasa	 de	 “error	 de	 tipo	 I”	 que	
estemos	dispuesto	a	aceptar.		
Quizá	estén	pensando,	entonces,	en	tomar	α	lo	más	pequeño	posible,	cercano	a	cero,	como	para	
evitar	cometer	“error	de	tipo	I”.	El	tema	es	que,	asociado	a	la	probabilidad	de	cometer	“Error	de	
tipo	 I”	 (Falso	 positivo)	 está	 la	 probabilidad	 de	 cometer	 “Error	 de	 tipo	 II”	 (Falso	 negativo).	 Estos	
errores	 están	 inversamente	 relacionados:	 para	 un	 mismo	 tamaño	 muestral	 (un	 mismo	 n)	 si	
disminuimos	mucho	α	 (para	bajar	 la	tasa	de	falsos	positivos),	 lo	más	probable	es	que	nos	cueste	
mucho	 rechazar	 la	 hipótesis	 nula,	 aun	 cuando	 no	 sea	 cierta	 (aumentando	 la	 tasa	 de	 falsos	
negativos).	 La	 única	 forma	 de	 bajar	 mucho	 ambas	 probabilidades	 de	 error	 es	 aumentando	 el	
tamaño	 muestral,	 pero	 esto	 puede	 ser	 muy	 costoso	 (tiempo,	 recursos,	 etc).	 De	 este	 modo,	 a	
menos	que	tengan	un	motivo	real	y	justificable	para	cambiar	el	nivel	de	significancia,	conviene	usar	
0,05	que	es	el	aceptado	por	convención.	
	
Cómo	reportar	los	resultados	en	un	trabajo	o	artículo		
Hemos	dicho	que	si	el	p-valor	obtenido	es	menor	que	el	nivel	de	significancia	α,	podemos	rechazar	
la	hipótesis	nula.	Caso	contrario,	si	el	p-valor	obtenido	es	mayor	que	el	nivel	de	significancia	α,	no	
podemos	 rechazar	 la	 hipótesis	 nula.	 Por	 convención,	 al	 presentar	 estos	 resultados	 en	
publicaciones,	 si	 p-valor	 es	 menor	 que	 0,05	 se	 dice	 que	 es	 “la	 prueba	 de	 hipótesis	 fue	
estadísticamente	significativa”,	y	se	agrega	un	asterisco	 (*).	Si	p-valor	es	menor	que	0,01	se	dice	
que	“la	prueba	de	hipótesis	altamente	significativa”,	y	se	agregan	dos	asteriscos	(**).	Si	p-valor	es	
menor	que	0,001,	se	dice	que	“la	prueba	de	hipótesis	extremadamente	significativa”,	y	se	agregan	
tres	asteriscos	(***).	
Otra	 cosa	 a	 tener	 en	 cuenta,	 es	 que	hace	muchos	 años	 las	 determinaciones	de	 los	 p-valores	 se	
hacían	con	tablas	que	no	eran	muy	precisas,	de	modo	que	no	permitían	calcular	exactamente	el	p-
valor,	sino	que	daban	un	valor	aproximado.	De	hecho,	si	observan	publicaciones	científicas,	verán	
que	 las	 más	 antiguas	 solían	 enunciar:	 p-valor	 <	 0,05;	 p-valor	 <	 0,01,	 etc	 (p-valor	 menor	 a	 un	
determinado	 número).	 Ahora	 en	 cambio	 es	más	 común	 observar:	 p-valor=0,035;	 p-valor=0,004,	
etc.	 Por	 regla	 general,	 solo	 cuando	 el	 p-valor	 es	 demasiado	 chico,	 e	 involucra	 muchos	 ceros	
(ejemplo:	p-valor=0,0000000007),	se	sintetiza	con	un:	p-valor<	0,00001,	dando	a	entender	que	es	
un	valor	extremadamente	pequeño	(es	decir,	extremadamente	significativo).	
	
Cuantificación	del	efecto	e	intervalos	de	confianza	
En	 un	 estudio	 biológico,	 además	 de	 reportar	 el	 p-valor	 de	 una	 prueba	 estadística,	 es	 necesario	
presentar	una	medida	de	cuantificación	del	efecto.	Es	decir,	 indicar	el	efecto	del	 tratamiento,	ya	
que	 un	 tratamiento	 puede	 ser	 estadísticamente	 significativo	 (p-valor	 <	α),	 pero	 biológicamente	
irrelevante	(si	el	efecto	observado	es	muy	pequeño	como	para	que	valga	la	pena	su	estudio).		
Otra	estimación	que	suele	reportarse	conjuntamente	es	el	intervalo	de	confianza.	Profundizaremos	
en	 el	 cálculo	 e	 interpretación	 de	 intervalos	 de	 confianza	 en	 las	 próximas	 secciones,	 pero	 por	 lo	
pronto	que	quede	claro	que	es	una	medida	de	precisión	que	se	suma	y	resta	al	valor	del	estadístico	
calculado	en	nuestra	muestra,	generando	un	rango	en	el	cual	esperamos	esté	el	verdadero	valor	
del	parámetro.		
A	modo	de	ejemplo,	tomemos	el	experimento	del	crecimiento	(medido	como	largo	de	tallo	en	cm)	
entre	begonias	 regadas	 con	agua	 con	 sal	 y	 begonias	 regadas	 con	agua	 sin	 sal.	 Supongamos	que	
estos	dos	 grupos	 se	diferencian	 significativamente	 (es	decir,	 a	partir	 de	nuestra	muestra,	 vemos	
que	el	largo	de	tallo	promedio	estimado	para	begonias	regadas	con	sal	es	más	corto	que	el	largo	de	
tallo	promedio	estimado	en	begonias	regadas	con	agua	sin	sal,	con	una	probabilidad	de	p=0,030).	
Informar	 “el	 largo	 de	 tallo	 (en	 cm)	 de	 begonias	 regadas	 con	 agua	 con	 sal	 es	 significativamente	
menor	que	el	largo	de	tallo	promedio	de	begonias	regadas	con	agua	sin	sal	(p=0,030*)”	es	correcto	
pero	 incompleto.	 Es	 necesario	 además	 agregar	 cuántos	 centímetros	más	 corto	 es	 el	 tallo	 de	 las	
begonias	regadas	con	agua	con	sal,	respecto	del	tallo	de	las	begonias	regadas	con	agua	sin	sal	(2	
cm?	5	cm?	0,1	cm?).		
De	esta	forma,	si	la	diferencia	en	el	largo	de	tallo	entre	plantas	regadas	con	agua	con	sal	y	con	agua	
sin	sal	fue	de	5	cm,	con	un	intervalo	de	confianza	de	±1,2	cm,	lo	correcto	es	decir:	“el	largo	de	tallo	
(en	cm)	de	begonias	 regadas	con	agua	con	sal	es	 significativamente	menor	que	el	 largo	de	 tallo	
promedio	de	begonias	 regadas	 con	agua	 sin	 sal	 (p=0,030*).	 El	 tallo	de	 las	begonias	 regadas	 con	
agua	 con	 sal	 fue	 5	 cm	 más	 corto	 que	 el	 de	 las	 begonias	 regadas	 sin	 sal,	 con	 un	 intervalo	 de	
confianza	para	esta	diferencia	de	±1,2	cm”.	
	
Potencia	de	una	prueba	estadística	
Hemos	mencionado	repetidamente	que	las	pruebas	de	hipótesisse	hacen	intentando	controlar	el	
“error	de	tipo	I”,	por	ser	el	más	peligroso.	Este	control	se	hace	fijando	un	valor	máximo	de	“falsos	
positivos”	 que	 estamos	 dispuestos	 a	 cometer	 (α).	 Pero	 no	 hemos	mencionado	 nada	 acerca	 de	
cómo	podemos	controlar	el	“error	de	tipo	II”	(tasa	de	falsos	negativos).	
Lo	 que	 sí	 hemos	mencionado	 es	 que,	 para	 un	mismo	 tamaño	muestral,	mientras	más	 estrictos	
seamos	con	el	control	del	“error	de	tipo	I”	(numéricamente,	mientras	más	pequeño	sea		α),	menos	
chances	 tendremos	 de	 detectar	 diferencias	 significativas	 en	 nuestra	muestra,	 aun	 cuando	 estas	
diferencias	existan!		
El	“error	de	tipo	II”	está	estrechamente	relacionado	con	la	potencia	de	una	prueba	estadística.	La	
potencia,	que	se	se	calcula	como:		
Potencia	=	1	–	(probabilidad	de	cometer	“error	de	tipo	II”)	
es	 la	probabilidad	de	rechazar	 la	hipótesis	nula	cuando	esta	es	falsa	(o	visto	de	otra	forma,	es	 la	
probabilidad	de	observar	diferencias	significativas,	cuando	estas	realmente	existen).		
Al	igual	que	el	nivel	de	significancia	(α),	la	potencia	también	es	un	valor	arbitrario.	Por	lo	general,	
se	acepta	que	una	prueba	estadística	con	una	potencia	de	0,80	es	aceptable.	Dado	que	la	potencia	
se	calcula	como	1	–	(probabilidad	de	cometer	“error	de	tipo	II”),	una	potencia	de	0,80	implica	que	
estamos	aceptando	una	probabilidad	de	0,20	de	cometer	“error	de	tipo	II”.	En	contras	palabras,	si	
realmente	hay	efecto,	el	mismo	será	detectado	el	80%	de	las	veces.	
	
La	potencia	de	una	prueba	estadística	depende	de:	
- El	 tamaño	muestral	 (a	mayor	 n,	mayor	 potencia…	más	 chances	 de	 encontrar	 diferencias	
significativas.	 Esto	 tiene	 sentido	 ya	 que	 cuanto	mayor	 tamaño	muestral	 tengamos	mejor	
representada	estará	 la	población	en	estudio,	más	confiable	será	nuestro	análisis,	y	por	 lo	
tanto	la	potencia	de	la	prueba	estadística	aumentará).	
- El	tamaño	del	efecto	del	tratamiento	(si	el	tamaño	del	efecto	es	grande,	va	a	ser	más	fácil	
obtener	diferencias	significativas	en	una	prueba	estadística	que	si	el	tamaño	del	efecto	es	
un	pequeño.	Cabe	mencionarse	que	el	tamaño	del	efecto	no	se	puede	variar	porque	es	una	
propiedad	 intrínseca	 de	 la	 población	 que	 estamos	 midiendo…	 así	 que	 si	 el	 tamaño	 es	
pequeño,	 para	 aumentar	 la	 potencia	 tendremos	 que	 aumentar	 el	 tamaño	 muestral,	 o	
aumentar	el	nivel	de	significancia)	
- Nivel	de	significancia	(α)	(ya	lo	mencionamos	previamente:	si	α	es	pequeño,	más	difícil	es	
encontrar	 diferencias	 significativas,	mientras	que	 si	 aumentamos	α,	 ejemplo	α=0,1,	 0,2…	
aumentamos	 las	 chances	 de	 encontrar	 diferencias	 significativas,	 pero	 también	
aumentaríamos	 las	 chances	 de	 cometer	 “error	 de	 tipo	 I”,	 que	 es	 justamente	 lo	 que	
queremos	minimizar	siempre…	Por	ende	no	conviene	aumentar	α).	
De	esto	se	desprende	que	la	única	forma	de	controlar	y	mantener	bajos	tanto	el	“error	de	tipo	I”	
como	el	“error	de	tipo	II”	es	aumentando	el	tamaño	muestral.	Lo	cual	puede	tener	su	costo.		
De	esta	forma,	la	potencia	de	una	prueba	nos	sirve	para	dos	cosas:	(a)	estimarla	antes	de	hacer	el	
experimento,	 nos	 permite	 calcular	 cuál	 es	 el	 tamaño	muestral	mínimo	 que	 debemos	 usar	 para	
detectar	 diferencias	 significativas	 (si	 es	 que	 esas	 diferencias	 existen),	 es	 decir,	 para	 tener	 baja	
probabilidad	 de	 cometer	 “error	 de	 tipo	 II”.	 Hoy	 en	 día	 existen	 softwares	 que,	 conociendo	 el	
tamaño	del	efecto,	el	nivel	de	significancia,	 la	potencia	deseada,	nos	permiten	calcular	cuál	es	el	
tamaño	 muestral	 óptimo	 para	 nuestro	 experimento;	 y	 (b)	 calcularla	 una	 vez	 concluido	 el	
experimento,	 nos	 sirve	 como	 una	 medida	 de	 la	 confianza	 que	 podemos	 tener	 en	 nuestros	
resultados,	principalmente	cuando	NO	hemos	obtenido	un	resultado	significativo	(es	decir,	cuando	
no	rechazamos	la	hipótesis	nula):	si	resulta	que	la	potencia	de	la	prueba	estadística	es	baja	(y	por	
ende,	 la	 probabilidad	 de	 cometer	 “error	 de	 tipo	 II”	 alta),	 puede	 ser	 conveniente	 repetir	 el	
experimento	 pero	 con	 mayor	 tamaño	 muestral,	 ya	 que	 podríamos	 haber	 obtenido	 un	 falso	
negativo.

Continuar navegando

Materiales relacionados

50 pag.
19 pag.
Inferencia Estadistica - ALICAR OCANTO

SIN SIGLA

User badge image

Ali Ocanto Bastidas

13 pag.
Prueba de Hipotesis

UNAM

User badge image

isabelpb64