Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD Carlos Camacho Universidad de Sevilla APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD Tema VI. Introducción a la teoría de la probabilidad 6.1.- Introducción ................................................................................................................................. 1 6.2.- Concepto de probabilidad ........................................................................................................... 3 6.3.- Probabilidades simples ................................................................................................................ 8 6.4.- Probabilidades totales ............................................................................................................... 10 6.5.- Probabilidades compuestas ....................................................................................................... 13 6.5.1.- Sucesos independientes ........................................................................................................ 13 6.5.2..- Sucesos dependientes ........................................................................................................... 16 6.6.- Probabilidad e investigación en ciencias humanas ................................................................... 21 Tema VII. Variables aleatorias y modelos de probabilidad (I): El caso discreto 7.1.- Introducción ............................................................................................................................... 25 7.2.- Concepto de variable aleatoria .................................................................................................. 26 7.3.- Variable aleatoria discreta ......................................................................................................... 26 7.4.- Distribución de probabilidad y función de probabilidad ........................................................... 27 7.4.1.- Representación gráfica de la función de probabilidad ........................................................... 31 7.5.- Función de distribución ............................................................................................................ 32 7.5.1.- Representación gráfica de la función de distribución ............................................................ 33 7.6.- Esperanza matemática de una variable aleatoria discreta ....................................................... 34 7.7.- Varianza de una variable aleatoria discreta .............................................................................. 36 7.8.- Modelos de función discreta de probabilidad ........................................................................... 37 7.8.1.- Distribución binomial .............................................................................................................. 38 7.8.1.- Distribución binomial y toma de decisión estadística ............................................................ 41 7.8.2.- Distribución multinomial ........................................................................................................ 49 Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso continuo 8.1.- Introducción ............................................................................................................................... 50 8.2.- Variable aleatoria continua ....................................................................................................... 50 8.3.- Distribución de una variable aleatoria continua ....................................................................... 50 8.4.- Función de densidad de probabilidad ....................................................................................... 53 8.5.- Media de una variable aleatoria continua ................................................................................. 56 8.6.- Varianza de una variable aleatoria continua ............................................................................. 56 8.7.- Distribución normal de probabilidad ......................................................................................... 57 8.7.1.- Cálculo de probabilidades en distribuciones normales .......................................................... 59 8.7.2.- Manejo de la tabla normal tipificada...................................................................................... 63 8.7.3.- Ley normal y distribuciones afines ......................................................................................... 68 8.7.3.1.- Distribución muestral de medias ........................................................................................ 71 8.7.3.2.- Distribución muestral de proporciones ............................................................................... 72 8.7.3.3.- Aplicaciones en la teoría de la decisión estadística............................................................. 73 1 Tema VI. Introducción a la teoría de la probabilidad ))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))) 6.1.- Introducción 6.2.- Concepto de probabilidad 6.3.- Probabilidades simples 6.4.- Probabilidades totales 6.5.- Probabilidades compuestas 6.5.1.- Sucesos independientes 6.5.2.- Sucesos dependientes 6.6.- Probabilidad e investigación en ciencias humanas ))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))) 6.1.- Introducción En los capítulos anteriores hemos ofrecido técnicas para estudiar de forma eficaz el comportamiento de diferentes tipos de variables en las muestras observadas -estadística descriptiva-. No obstante, nuestro objetivo -la estadística como ciencia- no es saber lo que ocurre en unos pocos casos (muestra), sino conocer lo que sucede en la generalidad de los mismos (población) a efecto de establecer las leyes generales que rigen el comportamiento de los fenómenos estudiados. Interesa el caso general a partir del caso particular. La cuestión es precisamente cómo determinar el procedimiento estadístico que nos permita realizar tal tipo de consideraciones; cómo generalizar a partir del caso particular, o si se quiere, cómo inferir las poblaciones orígenes a partir de las muestras observadas. Es evidente el interés de lo que estamos exponiendo. Supóngase que estamos investigando el efecto de una vacuna que ha sido efectiva en seis de once casos estudiados. Es importante conocer el efecto de dicha vacuna en la generalidad de los casos, y en especial, si la proporción de curaciones, a nivel poblacional, supera de manera significativa las remisiones espontáneas de la enfermedad observada o, en cualquier caso, si supera la de otros tratamientos utilizados. En el supuesto de que la bondad de la vacuna se confirmase mediante procedimientos estadístico procederíamos a aplicar masivamente dicha vacuna en la población. 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra y lo pronosticable en la población, que es desconocida. Para ello hemos de conocer las leyes de probabilidad que rigen los fenómenos estudiados, o lo que es lo mismo, hemos de tener una idea previa del modelo matemático que subyace tras los datos de observación. De esta forma, del conocimiento de un determinado valor muestral -estadístico- y del tipo de distribución que presenta -distribución en el muestreo- derivará las conjeturas que podamos establecer sobre los valores poblacionales -parámetros-, tal como se verá extensamente en loscapítulos dedicados a la estimación y decisión estadísticas. Abundando en lo que estamos diciendo, y a título exclusivamente ilustrativo (en los próximos capítulos se tratarán in extenso estos aspectos) permítasenos exponer algunos ejemplos donde se hace patente la lógica de la inferencia estadística y su conexión con la teoría de la probabilidad. Supongamos que retomamos el caso anterior de la vacuna y nos preguntamos qué proporción de sujetos sanarán si dicha vacuna se aplicase masivamente. La teoría de la estimación estadística nos indica que la proporción de sujetos que sanarán a nivel poblacional en base a este experimento oscilará, por ejemplo, entre 0.45 y 0.65, y este resultado podemos afirmarlo en el 95% de las veces. En otro términos: tenemos una probabilidad de 0.95 de que en la generalidad de los casos sanen entre 0.45 y 0.65. Si queremos rizar un poco más el rizo, diremos que la probabilidad de que un sujeto sane se encuentra entre 0.45 y 0.65, y esta afirmación la hacemos con una probabilidad de 0.95 de acertar. Obsérvese que aquí hay una doble utilización de la probabilidad, por un lado está el valor límite de una proporción cuando el número de observaciones tiende a infinito (lo explicaremos más adelante) y por otro, estamos operando con un determinado modelo de probabilidad - la ley normal- a la que supuestamente se ajusta la distribución muestral de proporciones, y sobre esa curva estamos definiendo un intervalo de probabilidad. (No pretendemos que por el momento el lector entienda cabalmente lo que estamos diciendo, sino tan sólo estamos justificando el uso de la probabilidad dando un avance de lo que vendrá más adelante. Ya se entenderá entonces). Es importante destacar el papel primordial de la teoría de la probabilidad en ciencias humanas, donde los sucesos no pueden predecirse con certeza. Aunque en la práctica habitual de la estadística no se suele hacer mención expresa del concepto de probabilidad no por eso deja de estar presente en todo momento, como acabamos de ver en el ejemplo anterior. Igualmente queremos insistir que en toda estimación y decisión estadística existe un modelo matemático subyacente -configuración de los valores aleatorios-, 3 definido por una determinada ley de probabilidad, que es la que hace de horma y determina toda consideración estadística. En los próximos apartados intentaremos ofrecer una visión comprensiva y práctica de la aplicación de la teoría de la probabilidad en ciencias humanas sin por ello dejar de lado un cierto rigor expositivo. El concepto de probabilidad y algunos otros asociados a ella tales como el de variable aleatoria, esperanza matemática, función de densidad de probabilidad, función de distribución ... etc, devienen de una manera natural a partir del estudio de las muestras y como una generalización de las mismas. No son más que los mismos conceptos, observados inicialmente en las muestras, y aplicados posteriormente a las poblaciones; es el comportamiento idealizado -modelo- a partir del comportamiento particular. Así pues, en la medida que nos sea posible recurriremos a conceptos ya familiares, desarrollados en los capítulos anteriores, para explicar los nuevos, algo más abstractos. Seguiremos un cierto camino en paralelo con los puntos expuestos en los temas de estadística descriptiva. 6.2.- Concepto de probabilidad Digamos en primer lugar que, aunque el término probabilidad es frecuentemente utilizado en la vida ordinaria no por ello se hace con el rigor necesario. Decimos "probablemente lloverá" o "probablemente habrá elecciones anticipadas antes de verano" para indicar que ocurrirá algo con cierta seguridad. Aquí no hay precisión en los asertos, pero se supone una cierta memoria del pasado donde situaciones equivalentes dieron lugar a lo que ahora, de nuevo, suponemos que ocurrirá. Hay una cierta frecuencia de acontecimientos ocurridos que nos sirve de base para futuros acontecimientos. Otras veces nuestras afirmaciones carecen de fundamento objetivo ya que se limitan a un único acontecimiento, sin otras referencias posibles. Esto ocurre cuando nos referimos a la probabilidad de vida en Marte o a la probabilidad de que una conflagración mundial acabe con la vida del planeta. Se tratan de probabilidades subjetivas que no vienen al caso por el momento. La teoría de las probabilidades hunde sus raíces en los juegos de azar, muy probablemente motivado por esa vieja tendencia del ser humano a conseguir algo a cambio de nada, o mejor dicho, mucho a cambio de casi nada. No es casualidad que tanto la palabra "azar" (del árabe azahr: dado para jugar) como aleatorio (del latín aleatorius: relativo al juego) tengan el mismo origen. Pero no fue hasta el siglo XVII cuando de una forma cabal, y gracias a los matemáticos Fermat (1601-1665) y 4 P(A) ' n A n (6.1) P(4) ' 1 6 Pascal (1623-1675), se pudo cuantificar las ganancias esperadas en los juegos de cartas. A partir de entonces se observó que fenómenos equivalentes podían observarse en otros ámbitos de la ciencia. En particular, el astrónomo belga Quételet (1796-1874), interesado en mediciones antropológicas mostró que la teoría de las probabilidades podía aplicarse igualmente a temas humanos. La misma distribución de frecuencias presentada en los juegos de la ruleta se observaba en la estatura o en el perímetro torácico de los soldados, en los cocientes intelectuales de los niños o en las presiones sanguíneas de los adultos. Se sentó así la base para la utilización de la estadística, en cuanto teoría de probabilidades, en las ciencias de la conducta. La primera definición de probabilidad, atribuida a Laplace (1749-1827), y denominada definición clásica por razones históricas, indica que la probabilidad de un determinado suceso es el cociente entre el número de casos favorables y el número de casos posibles. De una manera algo más rigurosa diremos: dado un suceso A tal que de n casos posibles ocurre nA veces, entonces, se entiende por P(A): Por ejemplo, si un dado tiene seis lados, la probabilidad de obtener uno cualquiera, sea el cuatro, será: Esta definición implica algunos supuestos que pueden ser evidentes en el seno de la teoría de juegos, donde originalmente surgieron, pero que no lo son tanto en otros contextos. En el caso del dado, como en las cartas de la baraja, la ruleta, y otros artilugios de la suerte, existen razones física para suponer que todos los sucesos son igualmente probables. Por ejemplo, la homogeneidad de las caras de un dado, su simetría, inducen a pensar que no hay ninguna razón para que el cuatro salga más o menos veces que el dos. Ambas caras son para todos los conceptos exactamente iguales, por tanto deberán ser igualmente probables en su ocurrencia. Lo mismo puede decirse de cualquier número de la ruleta o de cualquier carta de la baraja. Pero esta definición de probabilidad puede resultar engañosa. Por las mismas razones aducidas en el caso del dado o la moneda supondremos que la probabilidad de que nazca un niño varón será 0.5. Sin embargo, si 5 P(varón) ' número de varones total de nacimientos ' 0.51 P(A) ' lim n64 n a n (6.2) nos tomásemos la molestia de comprobar la proporción de niños que nacen varones en un número suficientemente grande de observaciones (por ejemplo, los nacidos en toda España durante un año) observaríamos que: La probabilidad de dicho acontecimiento es 0.51. No hay una gran diferencia con la que habría en el supuesto de equiprobabilidad entre varones y mujeres, pero es suficientemente indicativo de que no conviene aventurarse a hacer afirmaciones sobre la realidad antes de efectuar ciertas comprobaciones, aunque la idea que tengamos de cómo deben funcionar las cosas parezca razonable. Y en cualquier caso, muchos fenómenos carecen de la simetría y homogeneidad de los juegos de azar. Supóngase que nos preguntamos por la probabilidad de que un niño nazca pelirrojo. Aquí no vale imaginar quelos humanos se reparten cromáticamente a todo lo largo del arco iris, y además lo hacen de forma homogénea, siendo la probabilidad de nacer con un cierto color de pelo igual a la unidad partido por el número de colores diferentes del espectro. En este caso hemos de recurrir a la evidencia empírica. Hemos de observar en un número suficientemente grande las distintas proporciones de nacimientos referidos a los diferentes colores de pelo, y estas proporciones se acercarán (más cuanto mayor sea el número de observaciones) a las probabilidades reales. De esta forma, entramos en un nuevo concepto de probabilidad, la llamada definición empírica de probabilidad. De una manera formal diremos que la probabilidad de un determinado suceso A, definido empíricamente, hace referencia a la frecuencia relativa de dicho suceso cuando el número de observaciones tiende a infinito. Esto es: Debe entenderse que el concepto aquí utilizado de "límite" no es el usualmente manejado en el análisis, por cuanto no es posible fijar un número n tal que la diferencia entre la frecuencia relativa y su probabilidad sea menor que un infinitésimo ε prefijado. La característica fundamental de la definición empírica de la probabilidad reside en su insistencia en que la probabilidad debe estar 6 f(A) ' 25 100 ' 0.25 f(A) ' 140 500 ' 0.28 f(A) ' 810 3000 ' 0.27 basada en evidencias observables y no en supuestos basados en la lógica y naturaleza de los sucesos. Hace referencia a las denominadas probabilidades a posteriori, precisamente porque sus magnitudes se conocen después de la ocurrencia de los fenómenos estudiados y nunca antes. Se distinguen de las denominadas probabilidades a priori, que son precisamente las surgidas en el seno de la teoría de juegos, y que se caracterizan porque previamente a cualquier ensayo podemos (supuestamente) establecer las probabilidades correspondientes. La consideración de la probabilidad basada en la definición empírica es la que viene más al caso con la forma habitual que aquí utilizaremos para estimar probabilidades. Como se recuerda, nos interesa conocer - la estadística como ciencia- lo que ocurre en la generalidad de los casos (población). Para ello partimos del conocimiento que nos suministran las muestras estudiadas. Es evidente que cuanto mayor sea el número de observaciones más nos acercaremos a los valores poblacionales, y por tanto, a la generalidad de los casos. Supongamos, a este respecto, que en una determinada muestra, pongamos 100 sujetos, calculamos el número de ellos que son rubios, obteniendo un total de 25, entonces: Supongamos que incrementamos ahora el número de observaciones, sean 500, donde obtenemos 130 personas rubias, entonces: Ahora, incrementamos esta cantidad hasta 3000, obteniendo 810 sujetos rubios, luego: De esta manera nos iremos aproximando cada vez más hasta el valor real, aunque, en la práctica hay que decir que jamas conoceremos su valor exacto, si bien es cierto que será lo suficientemente aproximado. En el capítulo referente a la estimación estadística veremos con qué grado de certeza podremos establecer una determinada aproximación. La consideración empírica de la probabilidad mejora considerablemente el planteamiento de la definición clásica, no solamente en aquellos 7 fenómenos en los que es absolutamente necesario tener experiencia de lo acontecido, como por ejemplo, en el caso en que interese determinar la probabilidad de que un determinado tratamiento contra la osteoporosis sea exitosa, sino que incluso en aquellos fenómenos en los que supuestamente pueda establecerse a priori su probabilidad es precisamente a través de su comprobación fáctica como pueda confirmarse de forma definitiva el supuesto establecido. A pesar de ello, la definición empírica presenta algunos inconvenientes. En primer lugar, hablar del "límite cuando n tiende a infinito" nos deja en la práctica imposibilitados de conocer jamás el valor exacto de una probabilidad cualquiera, por cuanto nunca se harán infinitos ensayos. Cualquier número grande de ensayos será susceptible de ampliarse, y por tanto, de modificarse su probabilidad. Por otro lado, un determinado fenómeno puede variar a lo largo del tiempo con lo que lo que afirmamos hoy no lo válido para mañana. Vistas estas deficiencias, hoy en día se ha propuesto una nueva definición de probabilidad, debida especialmente a Kolmogorov (1933), y que es denominada definición axiomática. Tiene un interés más bien teórico que práctico. No afecta en nada a la forma en como realicemos nuestras estimaciones de la probabilidad pero deja a salvo el honor de los matemáticos por cuanto al fin se consigue un discurso que en cuanto tal discurso es coherente, riguroso y carente de fisuras lógicas, pero que no pretende ninguna correspondencia con la realidad. Se trata simplemente de establecer las reglas que deben cumplir toda frecuencia relativa, pero sin preocuparnos por la adecuación de tales valores con algún suceso en particular. En todo caso, más tarde podremos efectuar comprobaciones para ver si se ajustan a los hechos. De cualquier manera, y al margen de los diferentes intentos por aproximarnos a la idea de probabilidad de una forma rigurosa, podemos llegar al acuerdo tácito de que la probabilidad de un suceso no es otra cosa que su frecuencia relativa a nivel poblacional. Es eso precisamente, tanto como cuando nos aventuramos a establecer una probabilidad previamente a toda experiencia -definición clásica- como cuando recurrimos a su comprobación fáctica -enfoque empírico-. Por otro lado, la definición axiomática no dice nada respecto a qué cosa se refiere la probabilidad sino tan sólo qué requisitos deben cumplir los valores de tales probabilidades, por lo que nuestra propuesta sigue siendo válida. En lo que sigue nos introduciremos en el manejo del cálculo de las 8 0 # P(A) # 1 (6.3) P(A) ' N A N ' N N ' 1 (6.4) P(A) ' N A N ' 0 N ' 0 (6.5) probabilidades entendidas como frecuencias relativas. Comenzaremos por el caso más sencillo, donde se trata la ocurrencia de un único suceso -probabilidades simples- para tratar a continuación situaciones en las que puedan presentarse varios sucesos -probabilidades totales y probabilidades compuestas-. Aunque somos conscientes de que tales conceptos no son estrictamente necesarios para resolver problemas prácticos de investigación en psicología, estimamos de su conveniencia en la comprensión de la lógica que subyace en toda investigación. No pretendemos ser exhaustivos, pero sí ofrecer un mínimo conocimiento que posibilite abordar la estadística inferencial con cierta eficacia. Observará el lector que numerosos problemas donde intervienen muestras pequeñas sólo pueden resolverse mediante un mínimo de conocimiento de la teoría de la probabilidad. Por otro lado, como tendrá ocasión de comprobar, muchas consecuencias útiles para su vida habitual serán logradas si muestra interés por los próximos apartados. 6.3.- Probabilidades simples Ofreceremos algunas definiciones relacionadas con la probabilidad de un determinado suceso. En algunos textos se plantean como axiomas, teoremas o propiedades que han de reunir toda frecuencia relativa. Son necesarios para apuntalar las ideas. Y como observará el lector, bastantes sencillas. Comencemos por la primera. La frecuencia relativa de un suceso A oscila entre cero y uno. Esto es: Esta propiedad es evidente si entendemos f(A) como NA/N. Como máximo se presentará N veces de un total de N. Su cociente en este caso será la unidad. Diremos que se trata de un suceso seguro. Así: Por contra, si de N veces no se presenta ninguna, su cociente valdrá cero. Diremos, ahora que se trata de un suceso imposible: 9 P(A) ' N & N A N ' 1 & N A N ' 1 & P(A) (6.6) P(rey de bastos) ' 1 40 ' 0.025 P(caballo) ' 4 40 ' 0.1 +))))))))0)))))))))0))))))))))0)))))))))0)))))))))0))))))),* * * * * * * * Cadiz * Córdoba * Granada * Málaga * Sevilla * Total* * * * * * * * /))))))))3)))))))))3))))))))))3)))))))))3)))))))))3)))))))1 * 14315 * 15079 * 54782 * 24679 * 56918 *165773 * * * * * * * * .))))))))2)))))))))2))))))))))2)))))))))2)))))))))2)))))))- Tabla 1 Si un determinado suceso se presenta NA veces de un total de N casos, es evidente que no se presentará N-NA veces. Diremos, entonces que la probabilidad de no ocurrencia de A, que expresaremos como será:P(A) Ejemplo 6.1.- Determinar la probabilidad al extraer una carta de la baraja española de obtener: a) el rey de bastos, b) un caballo. SOL: a) Solo hay un único caso de los 40 posibles que cumpla esta condición. En consecuencia: b) Hay cuatro caballos en la baraja española. Así pues: Ejemplo 6.2.- Según datos de la Consejería de Educación y Ciencia, los alumnos matriculados en las distintas universidades andaluzas durante el curso 90-91 son los siguientes: Esto supuesto, determinar la probabilidad: a) que un alumno universitario andaluz elegido al azar sea sevillano, b) que no sea malagueño. 10 P(sevillano) ' 56918 165773 ' 0.343 P(malagueño) ' 1 & P(malagueño) ' 1 & 24679 165773 ' 0.851 SOL: a) Su frecuencia relativa al nivel de la población andaluza será: b) Y la probabilidad de que no sea malagueño: 6.4.- Probabilidades totales Frecuentemente los sucesos no se presentan aislados sino que se encuentran entrelazados con otros y hemos de tomar decisiones no sobre un único suceso, sino donde intervienen un conjunto de ellos. Por ejemplo, un alumno puede tener interés no solamente por la probabilidad de aprobar en junio sino también por la de aprobar entre la convocatoria de junio y la de septiembre. A un inversor en bolsa le puede interesar combinar probabilidades en distintas intervenciones bancarias, de tal forma que optimice ganancias. Ciertas cuestiones obedecen a la pregunta "probabilidad de suceder tal cosa o tal otra". Aquí, dados varios sucesos, nos conformamos con la ocurrencia de uno cualquiera de ellos. De esta cuestión trata el presente apartado, que hemos denominado "probabilidades totales". Otras veces, en presencia de varios sucesos, nos interesa conocer la probabilidad de que ocurran todos ellos. Aquí nos preguntamos por la "probabilidad de que suceda tal y tal cosa". Este aspecto, que denominaremos como "probabilidades compuestas" será objeto de estudio en el próximo apartado. Obviamente, podemos combinar probabilidades totales y compuestas (probabilidad de que ocurra tal y tal cosa o tal y tal otra). Comencemos, pues, por la probabilidades totales. A este respecto, tengamos dos sucesos A y B, de tal forma que ambos sucesos se excluyen mutuamente (si sucede uno no puede suceder el otro), entonces, la probabilidad que ocurra uno de los dos es la suma de las probabilidades de cada uno de los sucesos aislados. Esto es: 11 P(A o B) ' P(A) % P(B) (6.7) P(sota o rey) ' P(sota) % P(rey) ' 4 40 % 4 40 ' 8 40 ' 0.2 P(A o B) ' P(A) % P(B) & P(AB) (6.8) P(rey o copas) ' P(rey)%P(copas)&P(rey de copas) ' 4 40 % 10 40 & 1 40 ' 0.325 Ejemplo 6.3.- Calcula la probabilidad de que al extraer una carta del mazo de la baraja española sea sota o rey. SOL: Tenemos cuatro sotas y cuatro reyes. En total hay, pues, ocho casos que satisfacen cualquiera de ambas condiciones. Así pues: Se observa en este ejemplo que no se puede extraer una sota y un rey simultáneamente. Se trata, como se ha indicado, de sucesos mutuamente excluyentes. Pero no siempre las cosas son tan sencillas. Puede ocurrir que trabajemos con sucesos que no son mutuamente excluyentes; esto es, sucesos compatibles. Por ejemplo, nos puede interesar la probabilidad de obtener un rey o copas. En este caso, está claro que se puede obtener un rey que al mismo tiempo sea copas. En el caso que operemos con dos sucesos A y B, que no se excluyen mutuamente, la probabilidad de que ocurra uno cualquiera de ellos es: donde P(AB) hace referencia a la probabilidad de que suceda A y B simultáneamente. Ejemplo 6.4.- Calcular la probabilidad de obtener al extraer una carta de la baraja española sea rey o copas. SOL: Tenemos un rey de copas. Por tanto: 12 P(A ^ B) ' P(A) % P(B) & P(A _ B) (6.9) rey copa Figura 3.1 Resulta conveniente recurrir a la teoría de conjuntos para determinar probabilidades. En este caso, diremos que el suceso "A o B" hace referencia a "A U B". Utilizamos el símbolo U indicando que matemáticamente se trata de una unión de sucesos. Así, una forma equivalente de expresar (6.8) será: A este respecto puede ser ilustrativo servirnos de los diagramas de Venn, donde cada suceso simple se representa por un punto contenido en un determinado recinto. Asociemos, por otro lado, a cada uno de estos puntos una determinada probabilidad, de tal forma que la probabilidad de cada recinto equivalga a la suma de las probabilidades de los elementos contenidos en dicho recinto. Si definimos ahora, por ejemplo, dos recintos dentro del conjunto de sucesos y nos cuestionamos por la probabilidad de que se presente bien un suceso del primer recinto o bien un suceso del segundo recinto, está claro que equivaldrá a considerar un nuevo recinto que comprende los elementos de los dos recintos previos. Tiene interés plantearlo desde la perspectiva de la teoría de conjuntos por lo ilustrativo de este procedimiento, en especial cuando nos encontramos con sucesos que comparten elementos, lo que gráficamente equivale a recintos que se solapan parcialmente. En este caso, el gráfico nos facilita el recuento del total de elementos que comprende el recinto total. De esta forma, para el ejemplo 6.4, tendremos: 13 A simple vista se observa que hay trece cartas que cumplen la condición de ser rey o copa. Una de ellas, el rey de copas, pertenece tanto al conjunto de reyes como de copas. Por esa razón, al sumar 4/40 a 10/40 de la ecuación 3.20 obtenemos 14/40. Un elemento que pertenece a ambos conjuntos -el rey de copas- se ha sumado dos veces. En consecuencia, para solventar este problema, hemos de restarlo una vez. De esta forma, queda justificada la expresión 3.20. 6.5.- Probabilidades compuestas Hemos visto la probabilidades totales, donde se trata la probabilidad de ocurrencia de un "suceso o bien otro", y cuyo resultado correspondía a la suma de las probabilidades de los acontecimientos implicados. Dados varios sucesos, la ocurrencia de cualquiera de ellos nos satisfacía; por tanto, la extensión del nuevo suceso comprendía los anteriores. En algunos textos, por el procedimiento utilizado -suma de probabilidades-este caso se denominaba teorema o axioma de la suma de las probabilidades. Ahora nos preguntamos, genéricamente, por la probabilidad de ocurrencia de "un suceso y otro". Se trata de sucesos combinados o compuestos, y su cálculo, como explicaremos, se resuelve mediante el producto de las diferentes probabilidades. Por esta razón, en algunos textos se denomina teorema de la multiplicación de probabilidades. Las probabilidades compuestas obedece a preguntas donde se encuentra la conjunción "y". Puede indicar la ocurrencia simultánea de dos (o más) acontecimientos cualesquiera, como por ejemplo, la obtención en la baraja española del rey de copas (rey y copa), o bien la ocurrencia sucesiva de una serie de eventos, como por ejemplo, obtener dos caras en el lanzamiento de dos monedas (cara en la primera y cara en la segunda). En ambos casos el resultado es el producto de las distintas probabilidades. 6.5.1.- Sucesos independientes Comenzaremos por el caso más sencillo donde los sucesos que tienen lugar son independientes entre sí. Por ejemplo, si lanzamos dos veces una moneda lo que se obtenga en la segunda tirada no es afectado con lo obtenidoen el primer lanzamiento; una familia que tenga diez hijos varones, y que esté esperando su undécimo hijo, tendrá exactamente las misma probabilidades tanto de que nazca niño como de nacer niña en el próximo nacimiento. 14 P(AB) ' P(A) ( P(B) (6.10) P(CX) ' P(C) ( P(X) ' 1 2 ( 1 2 ' 1 4 De una manera formal, diremos que dados dos sucesos A y B tales que sean independientes entre sí (el resultado de uno de ellos no condiciona al otro), la probabilidad de que ocurran ambos (bien simultáneamente o secuencialmente) es igual al producto de las probabilidades de cada uno de ellos. Esto es: Es fácil comprender la razón por la cual se realiza el producto P(A)*P(B) para determinar la probabilidad de ocurrencia de A y de B. Si A ocurre 1/n veces y B, 1/m veces, entonces A y B ocurrirá 1/m veces (suceso B) de 1/n veces (suceso A). Aunque parezca un juego de palabras, se verá en los ejemplos siguientes lo sencillo que es. Ejemplo 6.5.- Calcular la probabilidad de obtener dos caras en el lanzamiento de dos monedas. SOL: Definamos como C el suceso "obtención de cara" y X al suceso "obtención de cruz". Aplicando la regla del producto: Se observa que del primer lanzamiento la mitad de las veces saldrá cara. Y una vez efectuado este lanzamiento, en el segundo lanzamiento, la mitad de las veces obtendremos cruz. Así pues, cara y cruz se obtendrá la mitad de la mitad de las veces; esto es, un cuarto de las veces. Podemos recurrir, si se desea, a establecer el conjunto de los resultados posibles: CARA CRUZ +)))))))))))0))))))))))), * * * CARA * CC * CX * /)))))))))))3)))))))))))1 * * * CRUZ * XC * XX * .)))))))))))2)))))))))))- 15 P(caballo de bastos) ' P(caballo)(P(bastos) ' 4 40 ( 10 40 ' 1 40 Comprobamos que hay dos casos posibles para el primer lanzamiento, y otros tantos para el segundo lanzamiento. En consecuencia, la combinaciones posibles son 2*2=4. Y del conjunto de estos cuatro casos (CC, CX, XC y XX) uno de ellos será cara y cruz (CX). Por tanto, su probabilidad será 1/4. Otro procedimiento alternativo que nos ayuda a comprender las probabilidades compuesta nos lo proporciona el diagrama en árbol. Veamos este caso: CARA +)))))))))))Q CC: P(CC)=1/2*1/2=1/4 CARA *P(C)=1/2 +)))))))))))1 * P(C)=1/2 * CRUZ +)))))))), * .)))))))))))Q CX: P(CX)=1/2*1/2=1/4 * LANZA- * * P(X)=1/2 * /)))))))))))1 * MIENTO * * CARA .))))))))- * +)))))))))))Q XC: P(XC)=1/2*1/2=1/4 * CRUZ *P(C)=1/2 .)))))))))))1 P(X)=1/2 * CRUZ .)))))))))))Q XX: P(XX)=1/2*1/2=1/4 P(X)=1/2 Ejemplo 6.6.- Determinar la probabilidad de obtener el caballo de bastos en la extracción de la carta de una baraja española. SOL: Aunque este ejemplo podemos resolverlo utilizando las probabilidades simples (existe un único caballo de bastos en toda la baraja, luego su probabilidad será 1/40), merece la pena plantearlo como un caso de probabilidad simultánea, a diferencia del ejemplo anterior, donde los sucesos ocurrían secuencialmente (primero cara y luego cruz). Tenemos así: 16 P(SS) ' 0.5(0.5 ' 0.25 P(A o A) ' 1 & P(SS) ' 1 & 0.25 ' 0.75 P(SSSSSS) ' 0.56 ' 0.016 P(A o A o A o A o A o A) ' 1 & P(SSSSSS) ' 1 & 0.016 ' 0.984 P(AB) ' P(A) ( P(B*A) (6.11) Ejemplo 6.7.- Supongamos (de una forma un tanto irreal) que un determinado alumno tiene siempre la probabilidad 0.5 de aprobar el examen de Estadística. Esto supuesto: a) determinar la probabilidad de que apruebe en el curso, esto es, entre junio y septiembre; b) determinar la probabilidad de que apruebe en alguna de las seis convocatorias permitidas. SOL: a) Mejor que operar con la probabilidad de aprobar P(A) lo haremos con la probabilidad de suspender P(S). De esta forma, el alumno aprobará al final si no suspende ambas convocatorias. Así pues, la probabilidad de que suspenda en junio y en septiembre será: Si no ocurre esto aprobará alguna de las veces, que será el suceso complementario. Por tanto, que apruebe en junio o en septiembre será: b) Este caso es equivalente al anterior. Aprobará (alguna vez) si no suspende las seis convocatorias. Calculemos, en primer lugar la probabilidad de suspender las seis convocatorias: Por tanto: 6.5.2.- Sucesos dependientes Frecuentemente los sucesos no son independientes entre sí, sino que la ocurrencia de uno de ellos condiciona la probabilidad de ocurrencia del otro. Por ejemplo, si está nublado es más probable que llueva que si está despejado; si somos fumadores empedernidos, la probabilidad de cáncer será mayor que si sólo respiramos aire puro ..etc. Se trata de sucesos que presentan un cierto grado de dependencia. En este caso: 17 P(B*A) ' P(AB) P(B) (6.12) P(B) ' 10 16 ' 0.625 P(N*B) ' 6 15 ' 0.4 P(BN) ' P(B)(P(N*B) ' 10 16 ( 6 15 ' 0.25 donde hace referencia a la probabilidad de que ocurra BP(B*A) habiendo ocurrido A. La lógica aquí es la misma que la expuesta para los sucesos independientes. La única diferencia se encuentra en el hecho de que la probabilidad del segundo suceso queda mediatizada por lo ocurrido en el primero. Si el suceso A se presenta siempre y en cualquier circunstancia, una vez de m veces, e igualmente, el suceso B una vez de n veces, está claro, como hemos indicado que, conjuntamente se presentarán 1/(m*n) veces, pero si al ocurrir A, B ocurre h veces, entonces la combinación de ambos será 1/(m*h) veces. Cuando un suceso A depende en su probabilidad de la ocurrencia de otro B decimos que se trata de una probabilidad condicionada. Su valor, que deduciremos fácilmente de (6.11) será: Ejemplo 6.8.- Tengamos una urna con diez bolas blancas y seis bolas negras. Si extraemos dos bolas sin reposición, determinar la probabilidad de que la primera bola sea blanca y la segunda negra. SOL: La probabilidad de que la primera bola sea blanca P(B) será: Y de que la segunda sea negra habiendo sido blanca la primera P(N*B) (obsérvese que el haber extraído la primera bola sin reposición nos quedarán quince bolas): En consecuencia: Gran parte del interés de la estadística como ciencia reside justamente en el hecho de que la probabilidad para un determinado suceso no se mantiene constante siempre y en cualquier lugar, sino que dicha probabilidad se ve afectada cuando se combina con otro suceso. Si la 18 Casado Soltero Total )))))))))))))))))))))))))))))))))))))))))))))))) Feliz ...... 2100 650 2750 No feliz ... 400 350 750 )))))))))))))))))))))))))))))))))))))))))))))))) 2500 1000 3500 Tabla 2 P(F) ' 2750 3500 ' 0.786 probabilidad de A es mayor en presencia de B, y lo que nos interesa es, justamente, tener un mayor control sobre A, entonces la presencia de B nos lo permitirá. Es lo que, enotro contexto, se conoce como relación de variables; una variable (sobre la que podemos intervenir) nos permite predecir otra (que no podemos manipular directamente). Por ejemplo, el deporte y una alimentación pobre en grasas saturadas, disminuye el riesgo de infarto, o dicho en otros términos: la probabilidad de padecer un infarto de miocardio por un sujeto que hace deporte y cuida su alimentación es menor que en un sujeto que no se dan tales circunstancias. En este caso la probabilidad condicionada nos ha permitido disminuir la probabilidad de infarto. Otras veces, nos interesará aumentar la probabilidad; de esta forma, el éxito con la mujer de nuestros sueños probablemente será mayor si lo ligamos a una conversación interesante y a una presencia agradable (en la medida de nuestras posibilidades). Ejemplo 6.9.- Supongamos que en una determinada localidad compuesta por 3500 habitantes hemos registrado las variables estado civil y nivel de felicidad. Los datos son los siguientes: Se observa que la proporción de sujetos felices (o bien, la probabilidad de ser feliz P(F)) en dicha localidad, al margen de su estado civil es: Si nos centramos en los casados, la proporción de felices (probabilidad de ser feliz condicionada a estar casado ) será:P(F*C) 19 P(F*C) ' 2100 2500 ' 0.84 P(F*S) ' 650 1000 ' 0.65 2100 3500 ' 2500 3500 ( 2100 2500 P(CF) ' P(C)(P(F*C) ' 2500 3500 ( 2100 2500 ' 0.714(0.840 ' 0.6 P(F) ' P(F*C) ' P(F*S) P(CF) ' P(C)(P(F) P(C) ' 2500 3500 ' 0.714 Por otro lado, la probabilidad de que un soltero sea feliz :P(F*S) Se observa a grosso modo que el grado de felicidad tiene que ver con el estado civil, en la medida que estar casado incrementa la probabilidad de ser feliz. Existe relación, pues, entre ambas variables, y podemos afirmar que la felicidad se hace más probable -y por tanto, más predecible- en la situación de casado (según estos datos, ficticios). Por otro lado, es fácil comprobar en base a estos datos: O lo que es lo mismo, la probabilidad de estar casado y ser feliz P(CF): En el supuesto de que el estado civil no guarde relación con la felicidad de los sujetos, la probabilidad de ser feliz sería siempre la misma al margen del estado civil. Esto es: De esta forma, la probabilidad de estar casado y ser feliz P(CF) será, ahora, el producto de sus probabilidades simples: Sabemos, operando con los marginales de la tabla I, que la probabilidad de estar casado es: Y la probabilidad de ser feliz: 20 P(F) ' 2750 3500 ' 0.786 P(CF) ' P(C)(P(F) ' 0.714(0.786 ' 0.561 Incertidumbre disipada ' 0.054 0.214 ' 0.252 Esto es, están casados el 71.4% y son felices, el 78.6%. Si estos sucesos fueran independientes el porcentaje de sujetos felices se mantendría constante para cualquier valor de la variable estado civil. Habría el 78.6% de felices del 71.4% de casados. En términos de probabilidad: Obsérvese que la probabilidad de estar casado y ser feliz, según los datos de la tabla I donde los sucesos son dependientes, es 0.6, y en el supuesto de independencia, 0.561. La dependencia de variables da lugar a que los acontecimientos sean más predecibles que desde la independencia de los mismos. Todavía se hace más patente el efecto de la dependencia si comparamos la probabilidad de ser feliz entre solteros y casados. Para los solteros es 650/1000=0.65, y para los casados, 2100/2500=0.84. Merece la pena considerar la ventaja en la predicción al incluir en nuestra investigación una variable que modifica las probabilidades. Por ejemplo, en el caso que estamos tratando, supongamos que en la citada localidad, en una primera instancia sólo preguntamos si es feliz o no. En este caso, como se sabe, la proporción de felices es 0.786. En base a la información de esta única variable tendremos una probabilidad de 0.786 de acertar si afirmamos que un sujeto cualquiera es feliz, y por contra, nuestra incertidumbre, si la cuantificásemos de alguna manera, sería 1-0.786=0.214. Supongamos, ahora, que introducimos la variable estado civil. La probabilidad de ser feliz, en el supuesto de casado es 0.84. Ha supuesto una mejora de 0.84-0.786=0.054 puntos de probabilidad. Si nos interesa conocer el grado de incertidumbre disipada, éste ha sido 0.054 de la incertidumbre inicial de 0.214. Por tanto: Hemos mejorado nuestra predicción gracias a la información que nos proporciona la variable introducida -estado civil- en algo más de un 25%. 21 6.6.- Probabilidad e investigación en Ciencias Humanas En las páginas anteriores hemos ofrecido las nociones básica mínimas (por otro lado, bastantes sencillas) para el cálculo de probabilidades. No queremos aburrir (o entretener) al lector con cuestiones tales como ¿de cuantas manera posibles se pueden sentar cinco chicos y cinco chicas de tal forma que siempre queden emparejados?. Nos interesa, en especial, ofrecer la probabilidad como una herramienta útil en la investigación psicológica. Digamos, en primera instancia, como cuestión relevante en toda investigación, la posibilidad de encontrar nexos que liguen las variables consideradas. En psicología, nuestra variable objeto de estudio, por excelencia, es la conducta en sus múltiples manifestaciones. Si estamos en un contexto clínico nos puede interesar encontrar la forma de sacar a un paciente de una depresión; o bien, mejorar el rendimiento académico de los alumnos referente a las matemáticas, si estamos en un contexto escolar; o bien lograr una mayor satisfacción laboral, si nos situamos en psicología del trabajo. En todos estos casos hemos de encontrar una variable que incida sobre la variable objeto de estudio en el sentido que pueda modificarla en la dirección que nos interesa. De esta forma, una determinada terapia cognitiva podrá resultar efectiva contra la depresión, un cierto método de enseñanza programada podrá mejorar el rendimiento de nuestros estudiantes, y un cambio en el tipo de relaciones humanas en el seno de la empresa podrá mejorar la satisfacción laboral de los trabajadores. Pero en ciencias humanas, nos topamos con un material mal conocido. No ocurre como en física que estudiando detenidamente un único objeto -por ejemplo, una pelota, rodar por un plano inclinado- podemos establecer conclusiones generales que expliquen rigurosamente el problema de la aceleración para cualquier cuerpo. En psicología -por la complejidad de la conducta- no valen conclusiones generales a partir de un único caso particular. Dos sujetos sometidos a un mismo programa de aprendizaje rendirán probablemente de forma distinta, e incluso el mismo sujeto no rendirá hoy igual que mañana. Y ya que los fenómenos particulares son impredecibles, necesitamos de la predicibilidad de los grandes números. Una moneda, en un sólo ensayo no sabremos si saldrá cara o cruz, pero en mil ensayos la proporción de caras será muy próxima a 0.5. Un buen método de enseñanza puede no mejorar a un sujeto en particular, ya que otras variables extrañas, como motivación, salud, o inteligencia puede afectar los resultados para un caso concreto, pero en una muestra relativamente amplia de individuos, tales variables 22 extrañas quedarán compensadas a lo largo de los distintos sujetos, y el promedio del rendimiento será constatable. La estadística como ciencia alcanza su máxima eficacia desde la perspectiva macroscópica -conjunto de datos-, donde pueden percibirse ciertas tendencias generales, en tanto que desde una perspectiva microscópica -un sola observación- los componentes aleatorios son de tal magnitud que hacen en la práctica inviable cualquier pronóstico serio. Pero a pesar de todo, ni siquiera desde una perspectiva macroscópica tendremos seguridad total de nada. Siempre habrá un resquicio para el azar. En una moneda bien equilibrada, podrá salir veinte veces cara de veinte lanzamiento. Muy improbablemente, pero puede ocurrir. Igualmente, una muy efectiva vacuna contra la polio puedeen muy rara ocasiones producir precisamente la polio. Entonces, ¿qué valor tiene la estadística como ciencia, si jamas tendremos total seguridad de nuestros pronósticos?. Se trata de una cuestión de probabilidad. Y la probabilidad nos ofrece una medida de la certidumbre (o incertidumbre) en nuestra decisiones. No podemos afirmar las cosas con certeza pero sí podemos saber con que probabilidad ocurrirán. Esta es la característica fundamental de la estadística como ciencia: no sabemos con seguridad si algo ocurrirá o no, pero sí sabemos con certeza su probabilidad de ocurrencia, y esto ya es un cierto grado de control. Sabemos que no sabemos, y además sabemos (exactamente) cuanto no sabemos. Disponemos de un cierto grado de certidumbre, y cuando ésta es suficiente, nos arriesgamos a tomar decisiones (aceptando un determinado riesgo de equivocarnos). Normalmente, para saber si ha ocurrido algo -una relación, por ejemplo- la estadística recurre siempre a la misma lógica. Determina, en primer lugar, cual es la probabilidad de que lo observado ocurra por puro azar. Si esta probabilidad es grande se acepta que las cosas han ocurrido por causalidad y aquí no ha pasado nada. Si por el contrario, comprobamos una probabilidad muy baja para el azar (habitualmente, por convenio, del 0.05 o bien 0.01) suponemos que probablemente haya ocurrido "algo" distinto a la pura casualidad (y probablemente debido a las modificaciones que hemos realizado sobre nuestro objeto de estudio). Veamos un ejemplo muy sencillo que puede ilustrar (a pesar de los pocos elementos de probabilidad explicados) la lógica de las decisiones estadísticas. Ejemplo 6.10.- Supongamos un sujeto que en un examen compuesto por diez items de verdadero o falso, responde correctamente los diez. ¿Podemos 24 P(diez items) ' 0.510 ' 0.00098 concluir en base a estos datos que tiene un cierto dominio de la materia. SOL: Si dicha persona no tuviera ningún conocimiento de la materia tendría una probabilidad de acertar para cada ítem de 0.5. Hay diez items, luego la probabilidad de acertar todos por puro azar será: Observamos que tal cantidad es inferior al uno por mil. Puede ocurrir que la casualidad haya dado lugar a este caso, pero obviamente es muchísimo más probable lo contrario (acertaremos más de 999 veces de cada 1000). En consecuencia suponemos que el sujeto tiene algún conocimiento de la materia asumiendo una probabilidad de equivocarnos del 0.00098. 25 Tema VII. Variables aleatorias y modelos de probabilidad (I): El caso discreto ))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q 7.1.- Introducción 7.2.- Concepto de variable aleatoria 7.3.- Variable aleatoria discreta 7.4.- Distribución de probabilidad y función de probabilidad 7.4.1.- Representación gráfica de la distribución de probabilidad 7.5.- Función de distribución 7.5.1.- Representación gráfica de la función de distribución 7.6.- Esperanza matemática de una variable aleatoria discreta 7.7.- Varianza de una variable aleatoria discreta 7.8.- Modelos de distribución discreta de probabilidad 7.8.1.- Distribución binomial 7.8.1.1.- Prueba binomial y toma de decisión estadística 7.8.2.- Distribución multinomial ))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q 7.1.- Introducción El presente capítulo guarda un cierto paralelismo con los capítulos 2,3, 4 y 5 donde se ofrecía técnicas descriptivas de datos muestrales. Aquí describiremos variables aleatorias que no son más que las mismas variables observadas en las muestras, pero esta vez referidas a nivel poblacional, esto es, en la generalidad de los casos, ya que es en esta dimensión donde adquieren validez universal las decisiones adoptadas. Estudiaremos el comportamiento idealizado de las variables en la población. Decimos idealizados por cuanto son la consecuencia de aplicar la lógica de un cierto modelo. En el futuro cuando extraigamos conclusiones de una determinada variable, bien referido a ella en particular o en relación a otras, que quede claro que es según el modelo supuesto. Tomamos el modelo como referente para explicar la realidad, aunque no es menos cierto que es a partir de la realidad como hemos concebido el modelo. En este sentido hay una justificación recíproca que queda fundamentada en la eficacia del modelo al dar cuenta de la realidad. 26 De la misma manera que la distribución de una muestra quedaba especificada por los valores de la variable junto a sus frecuencias (o bien, frecuencias relativas), aquí la variable aleatoria queda descrita por los valores que adopta junto a sus probabilidades asociadas. (Obsérvese que la probabilidad es precisamente la frecuencia relativa en la población). El conjunto de estos valores, con sus probabilidades correspondientes definen las distintas distribuciones de probabilidad; esto es, los distintos modelos de probabilidad. 7.2.- Concepto de variable aleatoria El concepto de variable aleatoria está ligado al concepto de variable tal como ha sido tratado en la Estadística descriptiva: es todo aquello susceptible de adoptar deferentes valores. Aquí se el añade el adjetivo "aleatoria" queriéndose indicar con ello que sus valores dependen del azar. Se entiende además, con este término, que se estudia el comportamiento en la generalidad de los casos; es decir, en la población. Las variables aleatorias son todas numéricas, aun cuando reflejen cualidades. Si las observaciones son de tipo cualitativo se le asigna a los diferentes atributos un número arbitrariamente; por ejemplo, en relación al sexo, asignaremos 0 si es varón y 1 si es mujer. De esta forma, desde esta perspectiva sólo se consideran dos tipos de variables aleatorias: a) variables aleatorias discretas, donde se incluyen las variables que conocemos en otro contexto como variables cualitativas, y b) variables aleatorias continuas. 7.3.- Variable aleatoria discreta Se denominan a tales variable aquellas que adoptan un número de valores numerables. Son variables cuyos valores se diferencian siempre en alguna cantidad, o lo que es lo mismo, entre dos valores consecutivos no puede existir ningún otro. Sólo puede adoptar valores enteros, y no tienen sentido en ellos valores fraccionarios tales como 1.5 o 3.44. Ejemplos de variables discretas son el número de accidentes en una empresa, el número de suicidios en un determinado país o la cantidad de naranjas exportadas en el año 1994. Es fácil percatarse que tales tipos de variables corresponden a situaciones donde se consideran el número de veces que ocurre un determinado suceso (accidentes, suicidios, naranjas). 27 También las variables que habitualmente hemos denominado cualitativas, en este contexto quedan definidas como variables aleatorias discretas. En este caso se asigna un número a cada uno de los atributos que presente la variable cualitativa en cuestión. 7.4.- Distribución de probabilidad y función de probabilidad Si deseamos conocer como se distribuye una variable aleatoria discreta en la población, procederemos en primer lugar a elaborar su distribución de probabilidad que es precisamente una tabla donde se relacionan los posibles valores que adopta la variable junto a sus probabilidades asociadas. Esta procedimiento es equivalente a la distribución de frecuencias relativasutilizada en el contexto de la Estadística descriptiva. Ejemplo 7.1.- Supongamos que en el examen de selectividad para el ingreso en la universidad realizado en una determinada capital española, se presentaron 127597 alumnos. La prueba consistía en cinco problemas. Definamos la variable aleatoria X "número de problemas acertados". La relación de alumnos que han superado los distintos problemas es: X Alumnos )))))))))))))))))))))) 0 ........... 5554 1 ........... 15784 2 ........... 27544 3 ........... 37905 4 ........... 24434 5 ........... 16376 )))))))))))))))))))))) 127597 Tabla 7.1 Determinar su distribución de probabilidad. SOL: 28 El total de alumnos es 127597. Dividiendo cada una de las frecuencias observadas en los diferentes valores de la variable aleatoria por esta cantidad obtendremos la proporciones a nivel poblacional, o lo que es lo mismo su probabilidad asociada. Así pues: X P(X) )))))))))))))))))))))) 0 ........... 0.0435 1 ........... 0.1237 2 ........... 0.2159 3 ........... 0.2971 4 ........... 0.1915 5 ........... 0.1283 )))))))))))))))))))))) Tabla 7.2 Ejemplo 7.2.- Supongamos que en la población española el porcentaje de varones es del 51% y el de mujeres, del 49%. Determinar la función de probabilidad para la variable sexo. SOL: Supongamos que arbitrariamente asignamos el valor 0 a varón y 1 a mujeres. Por tanto: Sexo Probabilidad X P(X) )))))))))))))))))))))) 0 ........ 0.51 1 ........ 0.49 )))))))))))))))))))))) Tabla 7.3 La asignación de probabilidades en casos como en los ejemplos citados (donde se ofrece información empírica de la población) es evidente. Se trata tan sólo de conocer la proporción correspondiente a un determinado valor. De esta forma, en relación al ejemplo 7.1, con sólo mirar a la tabla sabremos que la probabilidad de acertar 3 problemas es 0.2971. Este tipo de distribuciones, cuyas probabilidades derivan directamente de los datos de observación, se conocen como distribuciones empíricas de probabilidad. 29 f(x) ' P(X'x) (7.1) P(X'0) ' P(MMM) ' P(M)(P(M)(P(M) ' 0.49(0.49(0.49 ' 0.1176 Otras veces carecemos de información poblacional, y en consecuencia, hemos de operar con un modelo idealizado donde recurriremos a distintos procedimientos matemáticos para determinar probabilidades. Se tratan de distribuciones cuyos datos son producidos según un proceso determinado. En estos casos, hemos de determinar la función matemática que nos permite atribuir a un determinado valor una cierta probabilidad. Esta función se denomina función de probabilidad. De una manera formal, diremos que la función de probabilidad, denotada como f(x), hace referencia al procedimiento matemático que permite determinar la probabilidad de que la variable X adopte un determinado valor x. Si designamos P(X=x) a la probabilidad de que X valga x: Ejemplo 7.3.- Supongamos que definimos la variable aleatoria X="número de hijos varones en familias compuestas por tres hijos". Determinar las probabilidades asignadas a cada uno de los valores de la variable aleatoria X. SOL: Hemos de calcular la función de probabilidad para los diferentes valores de esta variable. En una familia de tres hijos podemos encontrarnos con 0, 1, 2 o 3 varones. Si suponemos 0.51 la probabilidad de nacer varón tendremos los siguientes casos posibles (Designemos Mujer:M y Varón:V): Probabilidad de tener 0 hijos varones. Equivale a la probabilidad de tener 3 mujeres: Probabilidad de tener 1 hijo varón. Nos conformamos con cualquiera de los tres sucesos siguientes: VMM, MVM o bien MMV. La probabilidad de cada uno de ellos es: 30 P(VMM) ' 0.51(0.49(0.49 ' 0.1225 P(MVM) ' 0.49(0.51(0.49 ' 0.1225 P(MMV) ' 0.49(0.49(0.51 ' 0.1225 P(X'1) ' P(VMM)%P(MVM)%P(MMV) ' 0.1225(3 ' 0.3674 P(VVM) ' 0.51(0.51(0.49 ' 0.1274 P(VMV) ' 0.51(0.49(0.51 ' 0.1274 P(MVV) ' 0.49(0.51(0.51 ' 0.1274 P(X'2) ' P(VVM)%P(VMV)%P(MVV) ' 0.1274(3 ' 0.3823 P(X'3) ' P(VVV) ' P(V)(P(V)(P(V) ' 0.51(0.51(0.51 ' 0.1327 Por tanto, la probabilidad de tener 1 hijo varón será: Probabilidad de tener 2 hijos varones. Igual que anteriormente, nos conformamos con cualquiera de los tres sucesos siguientes: VVM, VMV o bien MVV. Así pues: Luego la probabilidad de tener 2 hijos varones: Probabilidad de tener 3 hijos varones: Por tanto, la distribución de probabilidad de la variable "número de hijos varones en familias con 3 hijos" será: X P(X=x) ))))))))))))))))))))) 0 ........ 0.1176 1 ........ 0.3674 2 ........ 0.3823 3 ........ 0.1327 )))))))))))))))))))) Tabla 7.4 31 0 1 2 3 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 Figura 7.1 Obsérvese que las probabilidades no se ofrecen directamente de los datos de observación sino que han sido deducidas por procedimientos matemáticos -función de probabilidad-. Normalmente en los censos no se ofrece toda la casuística del numero de hijos varones o mujeres para distintos tamaños de familia. 7.4.1.- Representación gráfica de la distribución de probabilidad La forma gráfica de representar la distribuciones de probabilidad de una variable aleatoria discreta es equivalente a su homónima a nivel muestral. Recurriremos igualmente al diagrama de barras. En el eje de las abscisas se representan los valores de la variable aleatoria y en el eje de las ordenadas las probabilidades. Ejemplo 7.4.- Representar gráficamente la distribución de probabilidad del ejemplo 7.3. SOL: 32 F(x i ) ' P(X#x i ) (7.2) F(x a ) ' P(X#x a ) ' j x i #x a P(X'x i ) (7.3) (0) ' f(0) ' 0.1176 (1) ' f(0) % f(1) ' 0.1176 % 0.3674 ' 0.485 (2) ' f(0) % f(1) % f(2) ' 0.1176 % 0.3674 % 0.3823 ' 0.8673 (3) ' f(0) % f(1) % f(2) % f(3) ' 0.1176 % 0.3674 % 0.3823 % 0.1327 ' 7.5.- Función de distribución De la misma manera que en la estadística descriptiva se utilizaba el diagrama de porcentajes acumulados para describir una variable discreta, recurriremos en este caso a un concepto equivalente para caracterizar el comportamiento de una variable aleatoria discreta. Procederemos aquí, a determinar la función de distribución (también denominada función de distribución acumulada o simplemente función de probabilidad acumulada), que designaremos como F(x) y que se define en cada punto xi, como la probabilidad de que la variable aleatoria X adopte un valor menor o igual que xi. De una manera formal: Obviamente, para calcular la función de distribución de un determinado valor Xa tan sólo habremos de sumar las distintas probabilidades correspondientes a ese valor y todos los anteriores. Esto es: Ejemplo 7.5.- Determinar la función de distribución para los diferentes valores de la variable del ejemplo 7.3. SOL: Calculemos en primer lugar las distintas probabilidades acumuladas asociadas a cada uno de los valores de la variable "número de hijos". Así pues: 33 X F(x) ))))))))))))))))))))) 0 ........ 0.1176 1 ........ 0.4840 2 ........ 0.8673 3 ........ 1)))))))))))))))))))) 7.5.1.- Representación gráfica de la función de distribución Es un gráfico equivalente al polígono de frecuencias (o porcentajes) acumulados tal como se estudió en los temas de Estadística descriptiva. Sobre el eje de las abscisas se sitúan los valores de la variable, y sobre el de las ordenadas, las distintas probabilidades acumuladas. Ejemplo 7.6.- Representar el diagrama de probabilidades acumuladas del ejemplo 7.3: T +)))))))Q * * * * * +)))))))- * * * * * * * * * +)))))))- * * * * * * * * /)))))))- * * .)))))))))))))))))))))))))))))))))))Q 0 1 2 3 Figura 7.2 34 ‾X ' j N i'1 f i X i N ‾X ' j N i'1 f i N X i µ ' E(X) ' j N i'1 p i X i (7.4) 7.6.- Esperanza matemática de una variable aleatoria discreta La esperanza matemática (también, denominada valor esperado o media teórica) de una variable aleatoria discreta equivale a lo que en Estadística descriptiva denominábamos como media o valor medio de una distribución. Entonces se trataba de una medida de tendencia central útil para describir una determinada muestra, y ahora, es igualmente una media de tendencia central orientada a describir el comportamiento de una determinada variable en la generalidad de los casos, o lo que es lo mismo, en la población. En consecuencia, su formulación matemática será equivalente. Como se recuerda, para una muestra el valor de la media tenía por valor: Se observa que esta expresión puede ser reescrita en los siguientes términos: donde hace referencia a las frecuencias relativas asociadas a f i N cada uno de los valores de la variable X. Si estamos operando en la generalidad de los casos, estos valores -frecuencias relativas en la población- nos indican precisamente, las probabilidades correspondientes a los distintos valores de X. En este caso, el valor obtenido será a la media poblacional (µ), o bien, la esperanza matemática de la variable aleatoria X: 35 µ ' E(X) ' j N i'1 p i X i ' 1.5301 Ejemplo 7.7.- Calcular la esperanza matemática del ejemplo 7.3. SOL: Configuremos la siguiente tabla: Xi pi piXi ))))))))))))))))))))))))))))Q 0 ........ 0.1176 0 1 ........ 0.3674 0.3674 2 ........ 0.3823 0.7646 3 ........ 0.1327 0.3981 ))))))))))))))))))))))))))))Q 1.5301 Aplicando (7.4): Por término medio, el número de hijos varones que cabe esperar en familias de 3 hijos es 1.5301. El término "Esperanza matemática" (o también, "valor esperado") deriva de los juegos de azar, donde surgió. Se quiere expresar con este término las expectativas que se tienen a la larga, en términos de ganancias o pérdidas. En el siguiente ejemplo ilustramos una aplicación en el juego. Ejemplo 7.8.- En la ruleta de la mala suerte cada boleto cuesta 100 pesetas. Si se gana recibe el jugador 500 pesetas, y en caso contrario, nada. Sabiendo que tiene una probabilidad de ganar de 0.1, determinar cual es su esperanza matemática. SOL: Cuando pierde, pierde las 100 pesetas invertidas (gana -100), y cuando gana, gana la diferencia entre los invertido y lo conseguido (500-100=400). Así pues, la distribución de probabilidad será: 36 E(X) ' j N i'1 p i X i ' 0.9((&100)%0.1(400 ' &50 s 2 ' j N i'1 f i X i & ‾X 2 N (7.5) s 2 ' j N i'1 f i N X i & ‾X 2 Xi pi ))))))))))))))))))))) -100 ....... 0.9 400 ....... 0.1 )))))))))))))))))))) Y su valor esperado: Puede ocurrir que si juega una única vez gane o incluso gane en unas pocas jugadas, pero con toda seguridad, si juega muchas veces perderá. En el límite, perderá 50 pesetas multiplicado por el numero de jugadas. Esto es lo que sucede con bingos, tragaperras .. etc; si se juega alguna vez, a lo mejor se gana, pero si se repite mucho, al final siempre se pierde. Si se quiere ganar dinero con la lotería lo mejor es montar una. 7.7.- Varianza de una variable aleatoria discreta Tiene el mismo significado que el concepto de varianza utilizado en Estadística descriptiva. Entonces nos indicaba el grado de dispersión de los datos de una determinada muestra alrededor de su media, y ahora, hace referencia al grado de dispersión de los valores que adopta una determinada variable aleatoria en torno a su propia media -la media poblacional-. Como se recuerda, la varianza de una muestra tiene por expresión: Lo que podemos reescribir de la siguiente forma: Si operamos en la generalidad de los casos, entonces, fi/N se entiende 37 σ2 ' j N i'1 p i X i &µ 2 (7.6) s 2 ' j N i'1 X 2f i N & ‾X 2 σ2 ' j N i'1 p i X 2 & µ2 (7.7) como una probabilidad (frecuencia relativa poblacional). Por otro lado, la media será ahora la media poblacional µ. Si designamos la varianza poblacional como σ2: Puede utilizarse una expresión más simplificada. De la misma manera que en el caso de la varianza de la muestra, una fórmula más sencilla que (7.5) era: Igualmente, ahora: 7.8.- Modelos de distribución discreta de probabilidad Como hemos indicado, el concepto de variable aleatoria hace referencia al comportamiento de una determinada variable a nivel poblacional. También hemos dicho que toda variable aleatoria muestra el comportamiento en la generalidad de los casos. Pero, a este respecto, como ya se ha mencionado anteriormente, es preciso distinguir las distribuciones empíricas cuyos datos corresponden a observaciones reales, constatadas (estaturas, coeficientes intelectuales, opciones políticas de una población...etc) de los modelos de distribución, donde los datos son generados según ciertas reglas. Los datos, en este caso, son consecuencia del supuesto establecido. Decimos modelos porque hacen referencia a distribuciones ideales, o si se quiere a distribuciones que obedecen a una cierta manera de conceptualizar la realidad. Así, tiene sentido preguntarnos por la distribución teórica de las puntuaciones del test ZETA, compuesto por 20 items de verdadero o falso, cuando se aplica a sujetos que no tienen conocimiento alguno de dicho test. Y todo ello sin necesidad de que exista ninguna población empírica al respecto. 38 En este apartado trataremos algunas de los modelos de distribución aplicables a variables aleatorias discretas. Nos centraremos sólo en las dos que estimamos más relevantes, y no profundizaremos demasiado en ellos; tan sólo nos referiremos a ciertos aspectos de interés de cara a la investigación en ciencias humanas. Los dos modelos en cuestión son: la distribución binomial y la distribución multinomial. 7.8.1.- Distribución binomial La distribución binomial se utiliza en situaciones susceptibles de plantearse de forma dicotómica, como por ejemplo, sexo (varón, mujer), calificación (aprobado, suspenso), respuesta a una terapia (curación, no curación)...etc. Nos proporciona la base matemática para conocer el comportamiento de lo que hemos denominado variables cualitativas de dos categorías. Hemos dicho "susceptibles de plantearse de forma dicotómica" con lo cual no estamos estableciendorestricciones sobre la naturaleza de la variable en cuestión; puede tratarse de una variable (en sus orígenes) cualitativa de varias categorías e incluso cuantitativa. En el caso de variables como el sexo no hay problemas; se toman tal como se presentan. Otras variables, como la opción política, (supongamos: derecha, centro e izquierda), han de reconvertirse en dicotómicas (por ejemplo, derechas y no derechas, incorporando en esta categoría izquierda y centro). Otras, como la inteligencia, puede dicotomizarse, marcando un valor en el continuum de la variable, y estableciendo dos grupos de valores (inteligentes y no inteligentes). La variable que estudiamos en una distribución binomial expresa el número de veces que se presenta un determinado acontecimiento, sabiendo que en cada observación hay dos situaciones posibles (presencia o ausencia del acontecimiento en cuestión). Esto nos obliga a poner el acento en una de las categorías de la variable dicotómica. Por ejemplo, si estamos operando con la variable sexo, nos preguntaremos por el número de mujeres que se presentan en una serie de observaciones. Esto implica valorar como 1 el acontecimiento "mujer" y como 0, el acontecimiento "hombre". El valor de la variable binomial corresponde a a la suma de todos los acontecimientos. Así, si de 8 observaciones hay 6 mujeres y 2 hombres en la forma: M,M,M,V,M,M,V,M, y definimos la variable X como el número de mujeres observadas, tendremos que: X = 1 + 1 + 1 + 0 + 1 + 1 + 0 + 1 = 6 Se observa que el resultado es una variable cuantitativa, aunque en su 39 f(x) ' n x p xq n&x ' n! x!(n&x)! p xq n&x (7.8) base era dicotómica. En realidad es el número de veces que se presenta algo. Es interesante hacerlo constatar porque en última instancia en la naturaleza todo lo que hay es la suma de algo que bien se da o no se da. Incluso las variables continuas lo son aparentemente, en el límite de su resolución serán discretas: número de veces que se presenta algo. La distribución binomial, para su aplicación, exige la condición fundamental que la probabilidad de ocurrencia del acontecimiento estudiado se mantenga constante a lo largo de las pruebas, lo que obliga a que éstas sean independientes entre sí. En la práctica la distribución binomial se aplica bien cuando la población sobre la que se realiza la extracción de elementos es infinita o bien cuando es finita pero la extracción se realiza con reemplazamiento, con lo que se garantiza la constancia en las probabilidades. No obstante, el término infinito es relativo, y se acepta que es tal (no distorsiona demasiado los resultados) cuando la población de donde se extrae la muestra es por lo menos diez veces mayor que dicha muestra. La probabilidad asociada a los distintos valores de una variable binomial (su función de probabilidad) corresponde a la siguiente expresión: donde: x: valor que adopta la variable aleatoria n: número de pruebas realizadas p: probabilidad de que en una prueba se de el suceso favorable q: probabilidad de que en una prueba no se de el suceso favorable De una manera menos formal, la ecuación anterior nos proporciona la probabilidad de obtener x casos favorables de n observaciones sabiendo que la probabilidad de que se de el suceso que nos interesa en una observación es p. Su deducción es relativamente sencilla. Supóngase que el suceso se da x veces de n veces, de tal forma que las x primeras veces obtenemos tal sucesos y el resto, (n-x) veces, no lo obtenemos. La probabilidad de 40 P(X'x) ' p(p(p(p(q(q.....(q ' p xq n&x C nx ' n x ' n! n!(n&x)! P(X'x) ' n! x!(n&x)! p xq n&x P(X'2) ' 3! 2!(3&2)! 0.512(0.493&2 ' 0.3823 que tal cosa ocurra será: Pero nos conformamos con obtener x veces dicho sucesos, sin importarnos el orden. Entonces, las combinaciones posibles en las que se pueden presentar x veces un determinado suceso entre un total de n observaciones, es como se sabe: Por tanto, la probabilidad de que obtengamos x sucesos de un total de n observaciones; esto es, que se de cualquiera de las combinaciones mencionadas será: tal como se indicó en (7.8). Ejemplo 7.9.- Tomando como referencia el ejemplo 7.3, determinar la probabilidad de que de 3 nacimientos obtengamos 2 varones: SOL: Apliquemos (7.8): Obsérvese que es el mismo resultado que obtuvimos en el ejemplo 7.3. Entonces hubimos de calcular por separado los distintos sucesos donde se encontraban 2 varones y 1 mujer, para sumarlos posteriormente. 41 7.8.1.1.- Prueba binomial y toma de decisión estadística En el capítulo anterior (ejemplo 6.10) utilizamos los mínimos conocimientos adquiridos hasta entonces sobre teoría de probabilidad para abordar un sencillo problema de investigación en el que debíamos tomar la decisión sobre el aprendizaje de un sujeto en una determinada materia. Ahora, con los bagajes que nos proporciona la distribución binomial nos arriesgaremos a realizar investigaciones algo más complejas. Hemos de decir, no obstante, que será más adelante cuando se desarrollarán in extenso los denominados contrastes de hipótesis. Por el momento, nos limitamos a ofrecer algunas nociones que puede resultar útiles en las tomas de decisiones en investigaciones psicológicas. Como se recordará, cuando investigamos en psicología, nos preguntamos por la incidencia de algo sobre un determinado aspecto de la conducta (la droga X sobre la ansiedad, el método A sobre el aprendizaje, o la terapia H sobre la depresión). El punto de partida siempre en la ciencia (hay que ser lo más aséptico posible) para saber si ha ocurrido algo en especial, es suponer que no ha ocurrido absolutamente nada, que lo que ha sucedido se explica por el puro azar (la ansiedad del sujeto permanece, en las lógicas fluctuaciones de un día para otro, igual que siempre; el niño al que se le aplica el nuevo método de enseñanza sigue sacando básicamente las mismas calificaciones (unos días mejor y otros peor), y la depresión sigue más o menos como antes de la terapia). Y desde esta hipótesis -lo observado no se debe a nada en particular, sino simplemente al puro azar- se calcula la probabilidad de que suceda lo observado. Si la probabilidad es relativamente grande (se toma por convenio valores iguales o superiores a 0.05 y 0.01, según nuestro grado de exigencia al respecto) suponemos que, efectivamente no ha habido otra cosa que azar. En caso contrario, si la probabilidad de que las cosas sucedan por azar es pequeña (inferior a 0.01 o 0.05) concluiremos que ha habido algo diferente que el azar. Ese "algo diferente" es, si se ha llevado correctamente el trabajo, lo que hemos introducido en nuestra investigación y antes no estaba (la droga X, el método A, o la terapia H). A efectos ilustrativos, y con la intención de introducir la lector (brevemente) en las pruebas de decisión estadística, tomaremos como referencia un ejemplo extraído de los juegos de azar. Supongamos que tenemos en nuestras manos una moneda, sobre la que efectuamos 10 lanzamientos) y deseamos saber si está o no sesgada. Está claro que desde el supuesto que la moneda esté perfectamente equilibrada esperaremos obtener un 50% de caras, o lo que es lo mismo, de 10 42 lanzamientos esperaremos lograr 5 caras. Pero es igualmente evidente que no necesariamente tendremos que conseguir exactamente 5 caras. El azar puede dar lugar a ciertas fluctuaciones. No nos sorprenderá, por ejemplo, si obtenemos 6 o 4 caras, y aún con estos resultados seguiremos pensando que nuestra moneda está equilibrada. Sin embargo, si obtenemos 10 caras o bien 0 caras, empezaremos a pensar que quizás la moneda no esté tan equilibrada como pensábamos. La razón estriba en que consideramos que la obtención de 6 o 4 caras es bastante probable en una moneda perfecta, mientras que obtener 10 o 0 caras ya es menos probable en dicha moneda. En términos algo más formales, al lanzar la moneda, podemos plantear dos posibles
Compartir