Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Psicología del aprendizaje Cristina Gil 1 TEMA 4: PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 1. ANTECEDENTES HISTORICOS De nuevo la teoría de la evolución de Darwin tiene mucha influencia. Skinner en su obra The Behavior of Organisms relaciona los mecanismos de selección que expuso Darwin con la conducta, donde el reforzador es lo que actuaría como elemento seleccionador de las respuestas más apropiadas en una determinada ocasión. 1.1. THORNDIKE Y LA LEY DEL EFECTO Los trabajos de Thorndike son el comienzo del estudio científico del condicionamiento instrumental, tanto teórico como metodológico. Él denominó el condicionamiento instrumental como aprendizaje por ensayo y error, y centró en cómo los aciertos y los fracasos afectaban a la conducta de los organismos. Para este autor el aprendizaje ocurre porque se fortalecen las conexiones que se forman entre los estímulos y las respuestas cuando dan lugar a un estado de satisfacción para el animal. Denominó a esto conexionismo. Sus experimentos más conocidos eran con gatos metidos en diferentes “cajas problema”, una especie de jaulas de las que podían salir al activar algún tipo de resorte desde el interior, y al salir el investigador les daba una cierta cantidad de comida. En los primeros intentos, tardaban un tiempo considerable y se movía por la caja de forma “azarosa”, explorando hasta dar por casualidad con el mecanismo de apertura. Según transcurrían los ensayos y repetían la tarea, el tiempo que tardaban en accionar el mecanismo y el tiempo en salir de la caja era mucho menor. Este tiempo que pasaba desde que comenzaba el ensayo hasta que el sujeto salía de la caja, llamado latencia de escape, era la medida que Thorndike utilizó para la evaluación de la ejecución del aprendizaje. Observó que disminuía de forma muy notable a lo largo de los ensayos A partir de estos resultados, Thorndike estableció que la entrega de comida fortalecía la conexión entre la situación (en este caso los estímulos en el entorno de la caja) y la respuesta del animal. Lo denominó Ley del efecto: De las muchas respuestas dadas en la misma situación, las que vayan acompañadas o inmediatamente seguidas de satisfacción para el animal, en igualdad de condiciones, se conectaran más firmemente con la situación; de manera que cuando esta vuelva a presentarse, volverán a presentarse con gran probabilidad. Es una explicación sencilla de este tipo de aprendizajes: cuando en una determinada situación, una conducta va seguida de algo agradable, al volver de nuevo a esa misma situación será más probable que la conducta se vuelva a repetir. Las conductas con resultado placentero serían por tanto fortalecidas, y las conductas cuyo resultado fuese algo desagradable serían eliminadas. 1.2. EL ANÁLISIS EXPERIMENTAL DEL COMPORTAMIENTO DE SKINNER Skinner, considerado por muchos el autor más relevante de este tipo de aprendizaje, realizó una extensa investigación sobre los fundamentos del condicionamiento operante, lo que dio lugar a la formación de un gran número de investigaciones posteriores que lo siguieron desarrollando. En The Behavior of Organisms desarrolla la idea de que los reflejos podrían ser estudiados como conducta más que como un reflejo del sistema nervioso o de la mente: Skinner distingue entre el condicionamiento de los reflejos de Pavlov y el Psicología del aprendizaje Cristina Gil 2 tipo de aprendizaje que había propuesto Thorndike, lo que le llevo a formular que la conducta se regula tanto por el condicionamiento de los reflejos o condicionamiento respondiente como por el operante. Skinner se centró en las relaciones funcionales entre la conducta y sus consecuencias. Para el, tanto el condicionamiento operante como el respondiente debían solo prestar atención al estudio de las relaciones entre los eventos observables y la conducta. Para describir los procedimientos utilizó los términos condicionamiento operante y condicionamiento instrumental. El termino operante refleja la capacidad que tiene el individuo para operar sobre su ambiente, mientras que el termino instrumental tiene en cuenta el hecho de que la conducta del sujeto es el instrumento para obtener el reforzador. La innovación de los experimentos de Skinner fue utilizar en ellos una respuesta que el sujeto podía ejecutar repetidamente sin intervención del experimentador (en ratas era presionar una palanca, en palomas picotear una tecla). Este tipo de procedimientos son conocidos como de operante libre: en ellos la respuesta puede ocurrir en cualquier momento y de forma repetida mientras el sujeto siga en la caja de condicionamiento. La variable dependiente medida es la tasa de respuesta, o número de respuestas por unidad de tiempo, en lugar de la latencia que utilizaba Thorndike como medida. 2. DEFINICIÓN DEL CONDICIONAMIENTO OPERANTE Por condicionamiento operante (CO) entendemos el proceso que da lugar a que la probabilidad de una respuesta se vea modificada por sus consecuencias, es decir, por los efectos que tiene el ambiente sobre ella. El ejemplo más común: una rata en una caja de Skinner, que dispone de una palanca que está conectada al contenedor de comida. Para el animal, la caja será las circunstancias o el ambiente. Si la rata cuando está explorando da por casualidad a la palanca, se liberará una bolita de comida, lo que hace que aumente la probabilidad de que el animal accione de nuevo la palanca para conseguir una nueva bolita de comida. Por tanto el condicionamiento operante dispone al sujeto en unas circunstancias en las que alguna de sus conductas da lugar a la aparición de un evento, lo que produce un cambio de la probabilidad de emisión de esa conducta en el futuro. El término “operante” se utiliza porque a diferencia de lo que ocurría en el CC el sujeto interviene u “opera” en el medio. Si el resultado del comportamiento es beneficioso para el animal la conducta se fortalecerá, siendo más probable que se emita de nuevo en circunstancias parecidas. Si el resultado es perjudicial, dicha conducta tenderá a desaparecer del repertorio del sujeto. Con el condicionamiento operante, los organismos aprenden a obtener consecuencias favorables y a eliminar consecuencias desfavorables del ambiente Este condicionamiento hace que los sujetos, no sólo aprendan a responder ante una nueva circunstancia con una respuesta que formaba parte de su repertorio, sino que además puede dar lugar a la aparición de respuestas nuevas. Psicología del aprendizaje Cristina Gil 3 2.1. LA CONTINGENCIA DE TRES TÉRMINOS La descripción de la conducta operante requiere habitualmente de tres términos elementales y sus interrelaciones funcionales. Estos tres términos fundamentales son el estímulo discriminativo, la respuesta y la consecuencia o reforzador. De este modo la contingencia se define como: en presencia de un estímulo específico, el reforzador se presentará si y solo si la respuesta operante sucede. La contingencia de estos tres términos constituye la unidad fundamental de análisis en el estudio de la conducta operante. 2.1.1. El estímulo discriminativo Debemos considerar la conducta como la ejecución que ocurre después de un estímulo que en un momento determinado tiene como resultado una consecuencia específica. Esto nos viene a señalar que los estímulos antecedentes también tienen una gran importancia en el condicionamiento operante. Las claves contextuales en el CO reciben el nombre de estímulos discriminativos (Eds) y señalan la ocasión para que si la conducta se presenta sea seguida por una consecuencia. Es decir, un estímulo, en principio neutro, puede indicar si el reforzador está disponible, y por tanto indica al sujeto cuándo ha de responder. Esto implica reforzar una respuesta en una situación pero no en otra, la probabilidad de emitir una operante en presencia de un Edpuede ser muy alta, esto quiere decir que el estímulo ejerce un control sobre esa respuesta, pero no es que el Ed provoqué la respuesta. Las consecuencias de las respuestas operantes establecen el control que ejercen los Eds. Cuando un Ed va seguido de una respuesta cuya consecuencia es apetitiva, se ve como ya hemos dicho reforzada, y por tanto la probabilidad de que ocurra aumenta si dicho estímulo está presente posteriormente. Cuando una respuesta operante no es seguida de una conducta reforzante, el estímulo que precede la respuesta se conoce como estímulo delta (EΔ), y en su presencia la probabilidad de emitir la operante disminuye. El termino control por el estímulo se refiere a cómo los estímulos que preceden una conducta pueden controlar la ocurrencia de ésta. Pensemos en una maquina dispensadora de bebidas en la que introducimos una moneda para comprar un refresco. Una luz verde nos indica que el refresco que queremos seleccionar está disponible y una luz roja nos indica que está agotado. La respuesta operante en este caso es apretar el botón de selección de la bebida. La probabilidad de que pulsemos el botón con la luz verde encendida será mucho más alta que la probabilidad de que pulsemos ese mismo botón si la luz roja está encendida. En este caso la luz verde actúa como un Ed porque señala la disponibilidad del reforzador en el caso de que se emita la respuesta operante y la luz roja como un EΔ porque señala la ausencia del reforzador en el caso de que la operante ocurra. 2.1.2. La respuesta La respuesta operante en este condicionamiento se define por los efectos que provoca en el ambiente. Cuando una respuesta produce el mismo efecto que otra respuesta (aunque sean diferentes) estaremos hablando de la misma operante, porque producen los mismos efectos sobre el ambiente. La operante se define por tanto por su función, y no por su forma. En el caso de presionar la palanca, la ratita puede hacerlo con la pata o con el morro, pero ambas respuestas dan una bolita de comida, por ello son ejemplos de una misma operante. Skinner señaló que “El término enfatiza el hecho de que la conducta opera sobre el ambiente para generar consecuencias. Las consecuencias definen las propiedades en función de las cuales las respuestas se consideran similares. El término se usara como adjetivo (conducta operante) y como sustantivo que designa la conducta definida por una consecuencia dada” Psicología del aprendizaje Cristina Gil 4 Cuando hablamos de la conducta, esta puede ser muy compleja y adoptar distintas formas (topografía) teniendo la misma función. Cuando hablamos de clase de respuesta nos estamos refiriendo a cualquier forma de ejecutar una conducta con una función similar, en el ejemplo anterior la función sería obtener comida. Estas respuestas pueden ser físicamente parecidas pero no siempre tiene que ser así: por ejemplo podemos hacer algo nosotros mismos o pedirle a otro que lo haga. Ambas sería la misma clase de respuesta pero con una topografía o forma muy diferente. 2.1.3. El reforzador Para el CO el término reforzador debe dar cabida a la gran variedad de estímulos y eventos que poseen la capacidad de reforzamiento de una conducta. Se define por tanto en función de los efectos que tiene sobre la conducta. Según esta definición funcional un reforzador es cualquier suceso o evento que al hacerse contingente con una respuesta cambia la probabilidad de aparición de esa respuesta en el futuro. Reforzamiento condicionado La conducta humana muchas veces no es controlada por reforzadores primarios como puede ser la comida, sino por eventos cuyos efectos dependen de la historia del reforzamiento. Los elogios o críticas, los juicios sobre nuestro comportamiento, o el dinero, son consecuencias que pueden fortalecer o debilitar la ocurrencia de una conducta. Este tipo de eventos adquieren los efectos que producen debido a las experiencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace que la misma consecuencia pueda tener efectos distintos dependiendo de la experiencia personal del sujeto (por ejemplo para algunos el dinero es muy importante, pero para otros lo es menos) Como venimos señalando, un reforzador puede ser definido como un evento cuya entrega aumenta la frecuencia de una respuesta con la que es contingente. El componente critico es la influencia en la tasa de respuesta, no lo que el estímulo o evento es en realidad. Se puede producir el fenómeno del reforzamiento condicionado, también llamado reforzamiento secundario: un estímulo o evento que originalmente no es reforzante, como una luz o un sonido, puede adquirir capacidad de reforzamiento mediante la asociación repetida con otro que era previamente reforzante. Hablamos, entonces, de reforzamiento condicionado cuando una conducta se fortalece debido a sucesos que tienen un efecto que depende de la historia de reforzamiento de ese sujeto. Implica una correspondencia entre un evento arbitrario y un reforzador que es efectivo en el momento actual. Cuando este evento arbitrario es capaz de aumentar la frecuencia o la tasa de una respuesta, a este tipo de reforzamiento lo denominamos reforzamiento secundario o reforzamiento condicionado. Los resultados de laboratorio en el estudio del reforzamiento condicionado son contradictorios: en algunos la extinción hace que los reforzadores condicionados pierdan efectividad, mientras que en otro se mantienen en situaciones de muchas repeticiones. A pesar de estos resultados que no son concluyentes, la experiencia en la vida diaria sugiere que eventos de este tipo pueden reforzar gran cantidad de conductas sin extinguirse. 2.2. ACLARACIONES 2.2.1. Reforzador-reforzamiento El evento sería el reforzador, y el procedimiento o proceso el reforzamiento. El reforzamiento produce incrementos en la conducta, y los reforzadores son los eventos que hacen que el reforzamiento produzca esos efectos. Cuando el procedimiento disminuye la conducta se denomina castigo y los eventos utilizados cuando se presenta la conducta son de naturaleza aversiva. Hay que distinguir así entre consecuencia apetitiva (reforzador) y consecuencia aversiva (castigo) Psicología del aprendizaje Cristina Gil 5 2.2.2. Respuesta discreta-operante libre En los experimentos de ensayo discreto, la variable dependiente es la latencia de respuesta. En éstos el ensayo comienza cuando el sujeto es dispuesto en el aparato y éste puede únicamente emitir, y el investigador registrar, una respuesta en cada ensayo. Por ejemplo un laberinto en forma de T, se coloca al animal y se recoge a la salida del brazo una vez obtiene el reforzador correspondiente. Llevan mucho trabajo y tiempo y en un día solo se pueden llevar a cabo un pequeño número de ensayos. Los procedimientos de operante libre incluyen la novedad introducida por Skinner: la variable dependiente para medir el aprendizaje es la tasa de respuesta, y los sujetos pueden emitir la respuesta de forma constante y repetidamente sin que el investigador tenga que manipular al sujeto de ninguna forma entre ensayo y ensayo. 2.2.3. Topografía-función La topografía sería el punto de vista estructural de una conducta, la forma de respuesta, sus propiedades o características físicas de una respuesta, entendida como una secuencia de movimientos que ocurren en el tiempo. Por ejemplo para empujar una puerta podemos hacerlo con la mano con el codo o con el pie. Todo ello son diferentes formas de la misma respuesta de empujar la puerta. Desde el punto de vista del CO las consecuencias de una respuesta pueden modificar su topografía o forma. Si estamos en público es menos probable que abramos esa puerta dando una patada, o si queremos evitar hacer ruido será menos probable que la empujemos de golpe. Por esto la topografía es una función de las contingencias de reforzamiento. Sin embargola función es la relación de la respuesta con los estímulos antecedentes y las consecuencias de la misma. La conducta es por tanto la ejecución de una respuesta que sigue a un estímulo específico y que tiene como resultado algún tipo de consecuencia. Dos respuestas con la misma forma pueden tener función diferente, y dos respuestas con distinta topografía tener la misma función. El control que ejerce un reforzador sobre una conducta operante puede estar limitado por la topografía de la respuesta. Por ejemplo la comida como reforzador ejerce poco control en la conducta de rascarse el cuerpo en los hámsteres, pero mucho control sobre otra como alzarse sobre las patas traseras. En otros casos, las relaciones funcionales entre diferentes topografías de respuesta son similares entre ellas: por ejemplo las palomas tienen formas distintas de abrir el pico para beber que para comer. 2.2.4. Instancia de respuesta y clase de respuesta La conducta operante se define por las relaciones funcionales entre clases de respuestas y las consecuencias ambientales. Una clase de respuesta se refiere a todas las formas en las que la ejecución de la respuesta puede llevar a una función similar. Una instancia de respuesta es la unidad mínima de conducta y se refiere a la ocurrencia particular y especifica de una respuesta teniendo en cuenta además su topografía. Así, podemos especificar “la rata presiono la palanca de la caja de condicionamiento con la pata delantera derecha a las 10:50 p.m.” señalando una instancia de respuesta o utilizar la clase “presionar la palanca” independiente del momento concreto en el que ocurrió la instancia y sin tener en cuenta la topografía. 2.2.5. Interacciones clásicas y operantes en el control de la conducta Para llevar a cabo un condicionamiento operante, es necesario que el sujeto sea “activo” es decir, que emita algún tipo de respuesta. Para poder reforzar o castigar una conducta es necesario que la conducta ocurra, que se presente con una cierta probabilidad, ya que en ausencia de ella no se podrá establecer una Psicología del aprendizaje Cristina Gil 6 relación entre esa conducta y otro acontecimiento ambiental. Cuando la probabilidad de que ocurra la respuesta es muy baja (por ejemplo que una paloma picoteé una luz) hay ciertas soluciones para no tener que esperar a que se dé por casualidad, lo que nos llevaría mucho tiempo. Una de las soluciones es el automoldeamiento: hacer primero un procedimiento de CC que empareje el estímulo neutro, como la tecla iluminada, con algo apetitivo, como la comida. Como ya sabemos la luz pasaría tras varios ensayos a ser un EC que provoca una respuesta por sí misma al ser presentada en solitario. Una vez que la luz provoca la RC, podemos someterla a control operante haciendo que solo aparezca la comida cuando la paloma la picotea. De esta forma pasa de ser un EC a ser un estímulo discriminativo (Ed) que correlaciona con el reforzador (la comida) cuando el animal presiona la tecla (respuesta operante). La luz en este caso tiene doble función: es un Ed que señala la ocasión para el refuerzo, y es un EC porque elicita una conducta condicionada clásicamente. Hay que tener en cuenta que habitualmente se dan relaciones de interacción entre CC y CO porque Aunque analicemos de forma separada las respuestas condicionadas clásicamente de las respuestas operantes, la influencia de estas contingencias tiene lugar sobre todo el organismo. Diferenciar ambos tipos de aprendizaje puede entonces parecer algo artificial, pero ha sido necesaria la distinción práctica para el desarrollo de la investigación del aprendizaje, además se ha sugerido que a nivel neurobiológico ambos tipos de aprendizaje podrían estar mediados por diferentes mecanismos a nivel celular, lo que señala que el cerebro los procesaría de forma diferentes y por tanto serían fenómenos distintos (aunque esto aún se está discutiendo). 3. PROCEDIMIENTOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE Tenemos que saber que la conducta es un proceso dinámico y modificable en el tiempo, resultado de muchas variables que interrelacionan y que pueden incluso no estar presentes en el momento de su análisis, lo que dificulta su estudio. Los fenómenos conductuales que tienen un patrón temporal identificable bajo condiciones objetivamente especificadas y que son reproducibles en diferentes individuos pueden ser descritos como procesos conductuales reproducibles, y su comprensión depende de las relaciones entre los eventos que los configuran y de las condiciones bajo las cuales ocurren. Es muy importante tener claro el concepto de contingencia: una relación de dependencia funcional entre dos componentes de un condicionamiento, dicha relación se establece cuando uno de los componentes correlaciona con el otro. En CO hablamos de contingencia positiva cuando una respuesta es seguida de una consecuencia, y contingencia negativa cuando una respuesta elimina o previene la aparición de una consecuencia. Dependiendo del tipo de contingencia, y de la naturaleza apetitiva o aversiva de la consecuencia, se establecen cuatro procedimientos fundamentales de CO: unos encaminados a aumentar la conducta y otros a reducirla APETITIVO AVERSIVO CONTINGENCIA POSITIVA Refuerzo positivo: La conducta provoca consecuencias positivas La conducta Castigo positivo: La conducta provoca consecuencias negativas La conducta CONTINGENCIA NEGATIVA Entrenamiento de omisión o castigo negativo: La conducta provoca la omisión de algo bueno. Reforzamiento diferencial de otras conductas. La conducta Reforzamiento negativo: La conducta provoca la omisión de algo malo (entrenamiento de escape y evitación ) La conducta Psicología del aprendizaje Cristina Gil 7 3.1. DESTINADOS A AUMENTAR CONDUCTAS: REFORZAMIENTO POSITIVO, ESCAPE Y EVITACIÓN Reforzamiento positivo (entrenamiento de recompensa) El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el momento en el que una consecuencia apetitiva se presenta de forma contingente a una respuesta, lo que provoca un aumento de la fuerza de la respuesta: su intensidad, su frecuencia de aparición, etc. De esta forma cuando el sujeto emite la conducta se presenta un evento apetitivo, mientras que si no la emite no se presenta la consecuencia apetitiva. Estas consecuencias pueden ser reforzadores primarios como la comida o el sexo, o secundarios como elogios, dinero…. La comida es algo muy usado en reforzamiento positivo con animales, pero para que surja efecto el animal tiene que estar motivado a conseguirla, por ejemplo privándolo previamente de la comida. La motivación vendrá dada por el porcentaje de peso que ha perdido el animal respecto a su peso comiendo por libre, por ejemplo un 5% menos. También hay que tener en cuenta que en el repertorio natural del animal exista la respuesta que queremos medir. Si no es una conducta habitual en su medio natural, como presionar una palanca, se puede emplear el moldeamiento o método de aproximaciones sucesivas: reforzar respuestas o conductas que se vayan aproximando a la respuesta final que queremos medir, y dejar de reforzarlas, es decir extinguirlas, según vamos consiguiendo respuestas más parecidas a nuestro objetivo. Por ejemplo vamos dando comida primero por permanecer en la caja, luego por acercarse cada vez más a la zona de la palanca, y al final solo reforzaremos cuando el animal la presione. Escape y evitación Aquí eliminamos o detenemos un evento aversivo como resultado de una respuesta operante, por tanto la fuerza de la conducta o respuesta aumenta: es el procedimiento de escape. Cuando en un procedimiento similar, la respuesta impide que se presente el evento de naturaleza aversiva estamos hablando del procedimiento de evitación. En laboratorio es habitual que estos dos procedimientos funcionen de manera conjunta,y que en principio se aprenda una respuesta de escape y luego de evitación. Si por ejemplo al presionar una palanca se detiene una descarga, en primer momento el animal presionará la palanca cuando nota la descarga para detenerla (escape) y una vez aprenda ese comportamiento, la presionará continuamente para que la descarga no llegue (evitación). Los dos procesos son conocidos como reforzamiento negativo, y en ambos casos la contingencia negativa que se da, da lugar al fortalecimiento de la conducta. 3.2. DESTINADOS A DISMINUIR CONDUCTAS: CASTIGO Y ENTRENAMIENTO DE OMISIÓN Castigo o castigo positivo Es el procedimiento en el cual se aplica una consecuencia aversiva de forma contingente, es decir como consecuencia, de la respuesta o conducta, y tiene como resultado una disminución de la misma. Es decir la consecuencia aversiva se presenta cuando el sujeto emite la respuesta operante, y no se presenta si no la emite. En el análisis funcional de la conducta, el castigo se define por su función y esto implica que cuando el castigo no tiene efectos en la conducta se considera que este no ha ocurrido. Tenemos que señalar que para poder castigar una respuesta antes ha tenido que ser reforzada, es decir, si pretendemos castigar la presión de una palanca, para poder observar los efectos del castigo previamente debemos hacer que la respuesta de presión de palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo anteriormente un entrenamiento de recompensa de la presión de la palanca. De esta forma el castigo consistiría en la disminución de una respuesta previamente reforzada debido a la imposición de una contingencia de tipo aversivo sobre dicha respuesta. Psicología del aprendizaje Cristina Gil 8 Entrenamiento de omisión o castigo negativo Este procedimiento tiene como resultado también una disminución en la fuerza de la respuesta porque se elimina o previene una consecuencia apetitiva de forma contingente a la respuesta o conducta. Es decir, si un sujeto emite la respuesta operante, la consecuencia será la no presentación de un evento apetitivo que se presentaría en circunstancias similares si no se produjese dicha conducta. Es decir, no entregar una recompensa cuando se presenta la conducta no deseada. Los eventos o circunstancias eliminadas en el caso del castigo negativo se asume que son reforzantes. Efectos colaterales de los procedimientos aversivos Los procedimientos aversivos se refieren a los condicionamientos de escape, evitación y castigo. Además de las razones éticas en contra de su uso, los efectos colaterales hacen que se desaconseje su uso. En primer lugar la estimulación aversiva es posible que a su vez tenga efectos emocionales que aunque en primer momento eliminan la conducta indeseable, no impiden su reactivación en un futuro cuando se disipan. También puede pasar que la estimulación aversiva se asocie con otros estímulos presentes en esa situación, y que pueden dar lugar a que se inhiban otras conductas que si son deseables: por ejemplo un niño puede utilizar estrategias para evitar el castigo y usar esas mismas en entornos donde no están presentes las contingencias aversivas. Además tanto las personas como los animales cuando son castigados, asocian el castigo más con quién lo ejecuta que con la conducta realizada, esto puede dar luchar a evitación y rechazo hacia esa persona más que un cambio de conducta. 3.3. LA EXTINCIÓN EN EL REFORZAMIENTO POSITIVO La extinción en el CO es el procedimiento mediante el cual una respuesta que previamente se reforzaba, se deja de reforzar, es decir dejamos de presentar la consecuencia que le seguía al ser emitida. La extinción es tanto el procedimiento, como el proceso que da lugar a la disminución de la frecuencia o intensidad de la respuesta, causada por ausencia del reforzador, y lleva a una disminución gradual de su ejecución. Aun así la respuesta no se elimina de forma absoluta: si dejamos pasar cierto tiempo sin que el sujeto sea expuesto a sesiones de extinción observaremos cierta recuperación de la respuesta, esto es conocido como recuperación espontánea. Ej. A una rata le damos comida como recompensa por pulsar una palanca, le sometemos a extinción después no dándole la comida y acabará por no pulsar la palanca. Pero si la sacamos y dejamos pasar un tiempo, al volver a meterla en la caja, probablemente irá a pulsar la palanca. Otro efecto de la extinción sobre la conducta es el “estallido de extinción” Este fenómeno consiste en un aumento de la tasa de respuesta los primeros ensayos en los que dejamos de presentar el reforzador que antes se presentaba. Posteriormente la tasa de respuesta comienza a disminuir de forma gradual. Otro efecto que ocurre al comienzo de un procedimiento de extinción es el aumento de la variabilidad de la respuesta. Tiene una posible explicación adaptativa: la variación conductual aumenta las probabilidades de entrar de nuevo en contacto con el reforzador o con otras posibles fuentes de reforzamiento. Como consecuencia de la extinción es habitual encontrase con un estado emocional que se suele denominar frustración y que da lugar a que surjan respuestas emocionales incondicionadas como el aleteo en las palomas, el que las ratas muerdan la palanca o la agresión en humanos. Ej. Lo que hacemos cuando metemos una moneda y no nos sale la lata de refresco de la máquina. Estos efectos relacionados con la extinción tienen bastante sentido en condiciones naturales. Si una conducta anteriormente daba lugar a una consecuencia favorable para el organismo y en el momento actual ya no la produce, es decir, cuando algo funcionaba y ya no funciona, la selección natural parece haber favorecido que los organismos Psicología del aprendizaje Cristina Gil 9 repitan las conductas que funcionaron en el pasado y que además el rango de respuestas ante esa situación aumente así como que se presenten con más fuerza. En el laboratorio, cuando la extinción sigue su curso, las respuestas emocionales comienzan a desaparecer y la intensidad de la respuesta disminuye. Si el procedimiento es lo suficientemente largo la intensidad o la tasa de la respuesta suele volver al nivel registrado antes de que la conducta fuese reforzada. A veces se necesitan varias o muchas sesiones para llegar al nivel de la línea base. La tasa de respuesta mostrada por los sujetos durante la sesiones de extinción puede considerarse como un índice de la resistencia a la extinción. En contra de lo que cabría esperar, generalmente las respuestas operantes que han sido reforzadas en pocas ocasiones se extinguen de forma lenta, sin embargo cuando una respuesta ha sido reforzada en múltiples ocasiones muestra menor resistencia a la extinción, sobre todo cuando en la fase de adquisición se ha utilizado un programa de reforzamiento continuo. A este fenómeno se le ha denominado efecto del sobreentrenamiento en la extinción. Asimismo, la resistencia a la extinción aumenta de forma importante en el momento en que se utiliza un programa de reforzamiento parcial o intermitente. Se ha demostrado que con igual número de respuestas reforzadas durante la adquisición, el reforzamiento intermitente es más resistente a la extinción que el continuo. El efecto del reforzamiento parcial se ha tratado de explicar cómo el resultado de dos procesos básicos como son el reforzamiento y la discriminación: podría ser debido a que la discriminación entre el reforzamiento y la extinción es más fácil y rápida si el programa es de reforzamiento continuo que si es intermitente. Es decir, es más fácil discriminar la diferencia entre un programa con una tasa estable y alta de reforzamiento de un programa en el que el reforzamiento no existe (extinción), que entre un programa de tasa baja e intermitente de reforzamiento y la extinción. Otro factor que podría estar operando es la generalización dela situación de reforzamiento intermitente a la de extinción, dando esto también lugar a una mayor resistencia al cambio en los programas de reforzamiento intermitente. Por tanto, los factores de discriminación y generalización anularían el efecto producido por la mayor tasa de reforzamiento de los programas de reforzamiento continuo, que según la lógica nos llevaría a pensar que a mayor tasa de reforzamiento mayor resistencia al cambio, y no es así porque muestra una mayor resistencia al cambio los animales que han tenido reforzamiento intermitente durante la fase de adquisición. También hay que tener en cuenta el contacto con las contingencias: no es lo mismo darle a una rata por pulsar una palanca una bolita siempre que pulsa (reforzamiento continuo) que solo cada 50 veces que la pulse (reforzamiento parcial), porque en el primer caso con 10 pulsaciones ya tendría 10 bolitas de refuerzo mientras que en el segundo para tener esas mismas 10 bolitas necesitará 500 pulsaciones. Otras variables que influyen en la persistencia de la respuesta durante la extinción son la magnitud del reforzador y la inmediatez de la recompensa empleadas durante la fase de adquisición. En general, cuando la magnitud de la recompensa durante la adquisición es alta y se administra de forma continua durante los ensayos de adquisición, la resistencia a la extinción disminuye. Esto no ocurre así, sin embargo, cuando las recompensas grandes se administran intermitentemente, tal y como señalábamos anteriormente, como consecuencia del efecto del reforzamiento parcial. Así, la resistencia a la extinción será baja cuando las recompensas grandes son administradas de forma continua, pero será alta cuando las recompensas grandes se administran de forma intermitente. En cuanto a la inmediatez de la recompensa parece claramente demostrado que cuando la demora en la presentación del reforzador es baja, es decir, pasa poco tiempo entre la emisión de la respuesta y la obtención del reforzador, la resistencia a la extinción es mayor. Es muy importante señalar que la disminución de la respuesta que ocurre como resultado de la extinción es muy diferente a lo que sucede como consecuencia del olvido. La extinción es un procedimiento en el Psicología del aprendizaje Cristina Gil 10 que una respuesta anteriormente reforzada ya no produce reforzamiento pero la posibilidad de emitir la respuesta sigue disponible. Sin embargo, en el caso del olvido la disminución de la respuesta ocurre simplemente debido al paso del tiempo y la posibilidad de emitir la respuesta no está presente. La extinción no revierte lo ocurrido durante la adquisición, sino que implica un aprendizaje nuevo que de alguna forma se superpone al anterior. Además de la recuperación espontánea hay otros tres fenómenos que prueban que la extinción no es olvido ni desaprendizaje total. La renovación que en CO consiste en la recuperación de la respuesta extinguida en un contexto diferente al que se llevó a cabo el procedimiento de extinción. La restauración de la conducta que se da cuando se vuelve a situar los sujetos en el contexto original de la extinción. Y el restablecimiento que es un proceso en el que se puede ver como las respuestas extinguidas vuelven a aparecer. En este caso, después de extinguir la respuesta, el sujeto es expuesto de forma no contingente al reforzador, lo que hace que la respuesta vuelva a aparecer sin que esta dé lugar al reforzador. 4. FENOMENOS DEL CONDICIONAMIENTO OPERANTE 4.1. LA CONDUCTA SUPERSTICIOSA Skinner demostró con su “experimento de superstición” parte de las consecuencias que el reforzamiento accidental tiene en el proceso de aprendizaje. En el experimento ponía palomas en cajas independientes, y les daba una pequeña cantidad de comida cada 15 segundos independientemente de lo que hicieran, y registraba su comportamiento. Lo que observo es que los animales actuaban como si su comportamiento estuviera relacionado, como si controlara, la entrega del reforzador cuando en ningún caso era así. Skinner explico este comportamiento mediante la idea del reforzamiento accidental o adventicio, o dicho de otra forma, que si una respuesta ocurre cuando se entrega el reforzador esa conducta es reforzada. Si una de las palomas por ejemplo había levantado la cabeza antes de la comida, esa conducta se verá reforzada y tendrá más probabilidad de ocurrencia. Esta explicación fue puesta en duda por otro experimento de Staddon y Simmelhag en el que hicieron un registro de las conductas más minucioso. Encontraron que las respuestas emitidas por los animales se podían agrupar en dos categorías a las que llamaron conductas de ínterin y conductas terminales. Las conductas de ínterin fueron definidas como aquellas actividades del animal que tenían lugar en el medio del intervalo, cuando faltaba todavía bastante tiempo para la aparición del reforzador. Este tipo de conductas incluían moverse a lo largo de la pared frontal de la caja o dar vueltas sobre sí mismas. Las conductas terminales las definieron como aquellas que ocurrían al final del intervalo y próximas en el tiempo a la aparición del reforzador. Entre estas actividades o respuestas incluyeron, por ejemplo, que la paloma picotease en el comedero o en sus proximidades. Los autores observaron que este patrón de respuestas no variaba de forma significativa de unas palomas a otras y por ello argumentaron que no es el reforzamiento accidental lo que origina un aumento en la frecuencia de las conductas de ínterin, sino que estas conductas son simplemente respuestas que un sujeto emite de forma innata cuando la probabilidad de reforzamiento es baja. Por otro lado la entrega de comida parecía solo influir en las respuestas terminales, y su aparición no estaría relacionada con un reforzamiento accidental. En resumen, podríamos pensar que determinadas «conductas supersticiosas» estarían explicadas por el reforzamiento accidental propuesto por Skinner, y otras por mecanismos que tendrían que ver con conductas innatas relacionadas con la manera en que los organismos se relacionan con el paso del tiempo y la aparición de reforzadores en ambientes naturales. En humanos, las conductas supersticiosas ocurren frecuentemente en situaciones en las que no hay ningún tipo de control sobre las consecuencias de las acciones, como en juegos de azar. La conducta supersticiosa Psicología del aprendizaje Cristina Gil 11 también es habitual en los deportistas. Los comportamientos supersticiosos que muestran muchos deportistas de elite tienen, con frecuencia, su origen en algún tipo de éxito con el que esa conducta ha tenido relación en el pasado: como la prenda que llevaban cuando ganaron un título y que se ponen siempre desde entonces. Herrstein diferencio la forma en que se adquieren determinadas supersticiones humanas estableciendo principios diferentes para cada una de ellas: por una parte las supersticiones idiosincráticas que están motivadas por la experiencia propia anterior con situaciones de reforzamiento, y por otra las supersticiones sociales típicas mantenidas en el tiempo, que sugirió que eran un residuo de contingencias de reforzamiento previas que ya no eran efectivas, pero que en su momento eran de gran relevancia. 4.2. LA DERIVA INSTINTIVA Y EL CONCEPTO DE RELEVANCIA O PERTINENCIA En el CO existen situaciones en las que se observan relaciones de pertinencia o relevancia entre respuestas y reforzadores, es decir hay respuestas que son más difíciles de condicionar cuando se utilizan ciertos tipos de reforzamiento. Thorndike fue el primero en señalar la facilidad o dificultad para condicionar determinadas respuestas y propuso el término de pertinencia, que se refiere a que algunas respuestas se relacionarían de modo natural con el reforzador como consecuencia de la historia evolutiva del animal, por lo que serán más fáciles de condicionarque otras dependiendo del reforzador que usemos. Los Breland, dos estudiantes de Skinner que se dedicaron a entrenar animales, observaron que había ciertas respuestas naturales que se presentaban cuando el reforzador empleado era comida y que competían con las respuestas que requería el entrenador. Llamaron deriva instintiva al desarrollo de estas conductas relacionadas con la comida, que eran diferentes según el animal. Por ejemplo los mapaches tenían que introducir una moneda en una hucha para conseguir comida, pero los animales frotaban las monedas sin llegar a depositarla. 4.3. LOS CAMBIOS EN LA CANTIDAD Y CALIDAD DE LA RECOMPENSA: EL FENÓMENO DEL CONTRASTE CONDUCTUAL El contraste conductual es un fenómeno, relacionado con la motivación, que se basa en el hecho de que la efectividad de un reforzador para controlar una conducta puede verse modificada por la experiencia previa con el mismo reforzador cuando éste es de una magnitud o calidad diferente. Si aumenta o disminuye el reforzador, en relación a lo que percibíamos antes, tiene consecuencias en nuestra conducta y emociones. Los efectos que tienen los cambios en la eficacia del reforzador fueron ilustrados de forma clara por Mellgren. En su experimento utilizó cuatro grupos de ratas a las que midió la velocidad de la carrera en una recta. En la primera fase, al grupo A y al B les dio 2 bolitas de comida al llegar al final, mientras que los grupos C y D recibieron 22 bolitas. En la segunda fase, el grupo A seguía recibiendo 2 bolitas, mientras que el B pasó a recibir 22. De la misma forma el grupo C mantuvo su recompensa de 22 bolitas, pero el D pasó a obtener solo 2. Los resultados mostraron que los grupos a los que no se les varió la cantidad de comida mostraron la misma velocidad; a los que aumentaron la cantidad de comida aumentaron su velocidad; y los que pasaron de una recompensa grande a la recompensa pequeña disminuyeron significativamente su velocidad. Esto demuestra que los efectos de la recompensa dependen de la experiencia previa con otras recompensas, y no de su valor absoluto. Las ratas que experimentaron una recompensa más favorable que la anterior corrieron más rápido que las que tenían recompensa grande en ambas carreras, fenómeno conocido como contraste conductual positivo. Las que recibieron la recompensa desfavorable en la segunda fase respecto a la primera, corrían más lento que las que siempre habían tenido recompensa pequeña: contraste conductual negativo. Psicología del aprendizaje Cristina Gil 12 También se ha propuesto que el fenómeno de contraste puede depender del estado afectivo previo, y puede mostrarse de forma diferente dependiendo si es negativo o positivo. Por tanto la sensibilidad de un individuo hacia la ganancia o pérdida de recompensas también dependería del estado emocional en el que se encuentre. 4.4. LA CONTROLABILIDAD DE LAS CONSECUENCIAS AVERSIVAS Y EL EFECTO DE INDEFENSIÓN APRENDIDA Martin E. P. Seligman y sus colaboradores descubrieron que cuando los animales son sometidos a situaciones en las que tienen poco o ningún control, desarrollan una reacción emocional en la que manifiestan un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas, y se piensa que esta reacción es similar a la depresión humana. Este efecto conductual, denominado indefensión aprendida, ha sido confirmado en distintas ocasiones, por varios laboratorios y en diferentes especies, lo que indica lo robusto y general que es el fenómeno. En estos experimentos, en una primera fase (fase de preexposición al entrenamiento escape/evitación) asignaron grupos de perros a tres condiciones experimentales: en la primera, el grupo de control, si el animal emitía la respuesta requerida podía detener o impedir la presentación de una descarga, era un entrenamiento de escape/evitación. El segundo grupo, el experimental acoplado, recibía las mismas descargas que el grupo anterior pero en este caso la conducta del animal no tenía consecuencias sobre las descargas. Se utilizó un segundo grupo de control, que estaba confinado en la misma situación que los demás grupos, pero no recibía descargas en esta fase. En la segunda fase del experimento (fase de aprendizaje) todos los grupos de animales fueron sometidos a varios ensayos de entrenamiento escape/evitación. Observaron que el grupo acoplado, que había recibido descargas inescapables durante la preexposición, mostraba un aprendizaje escape/evitación mucho más lento que los otros grupos. También demostraron que no había diferencias entre los grupos de animales sometidos a descargas escapables y los que no recibieron descarga en la fase de preexposición. Psicología del aprendizaje Cristina Gil 13 Los investigadores concluyeron que el entrenamiento anterior con las descargas inescapables, generaba en los animales la expectativa de que su conducta no tenía ningún efecto sobre las consecuencias aversivas que experimentaba, ya que aprendían que la aparición de las descargas era independiente de su conducta. A esta explicación del fenómeno se la conoce como la hipótesis de la indefensión aprendida. Seligman sugirió que el mejor tratamiento para la indefensión es ubicar al sujeto en una situación en la que no fuese posible fallar dado que ello generara de nuevo la expectativa de que la conducta toma control sobre las consecuencias. Son también interesantes los estudios que demostraron que la indefensión aprendida se puede, de alguna manera, prevenir. Seligman llamo inmunización al proceso que se desarrolla cuando un sujeto tiene una primera experiencia con descargas escapables que bloquea el desarrollo de la indefensión aprendida cuando se presentan descargas inescapables en una fase posterior 4.5. LOS EFECTOS DE LA DEMORA DEL REFORZADOR: EL PROCEDIMIENTO DE MARCADO Una respuesta es difícil de reforzar cuando la entrega de la recompensa se demora en el tiempo, y muy fácil reforzar una respuesta o conducta cuando la recompensa o reforzador se entrega inmediatamente. La demora del reforzamiento ocurre cuando existe un periodo de tiempo entre la respuesta que da lugar al reforzador y la entrega posterior del mismo. En función de las circunstancias, la demora del reforzamiento puede disminuir o aumentar la conducta, o incluso no modificarla respecto al reforzamiento no demorado. Además, el mismo valor de demora puede tener diferentes efectos en función de otros parámetros, tanto de dicha demora como de las condiciones del mantenimiento del reforzamiento. Hay que obtener una línea base de respuesta estable a partir de la cual poder observar los efectos de la presentación demorada del reforzador. Cuando la línea base es estable y se impone una demora, normalmente esta da lugar a una reducción de la respuesta, sin embargo, incluso en estas condiciones no siempre eso es así, ya que en un primer momento incluso puede ocurrir un aumento. Se trata de un proceso dinámico resultado de las acciones directas o indirectas de distintas variables en la conducta. Una forma de evitar los efectos de la demora en la entrega del reforzador consiste en marcar la respuesta haciendo que esta pueda diferenciarse de otros eventos que ocurren durante el periodo de demora. La presentación de un estímulo contingente a la respuesta convierte esa respuesta en un evento significativo, es el procedimiento de marcado. En el experimento los animales se asignan a dos grupos por azar: grupo marcado (experimental) y grupo no marcado (control). Si los animales pasaban por el brazo lateral negro del dibujo inferior, recibían comida en la caja meta. En el momento en que elegían por qué brazo pasar, los animales del grupo marcado eran trasladados a la caja de demora, pero a los del grupo control se les abría la puerta del brazo y les dejaban pasar libremente. Los sujetos del grupo marcado mostraron un mayor número de eleccionescorrectas a lo largo de los ensayos. La explicación que dieron los autores a estos resultados es que la manipulación de los animales posterior a la respuesta de elección provoca un marcado de la respuesta de elección en la memoria de los sujetos y que esto hace más probable recuperar esta respuesta cuando los sujetos reciben la recompensa después de la demora. Psicología del aprendizaje Cristina Gil 14 4.6. DEVALUACIÓN DEL REFORZADOR El procedimiento de devaluación del reforzador demuestra que se aprenden asociaciones entre la respuesta y la consecuencia en un CO. Consiste en asociar al reforzador que se está utilizando (comida, por ejemplo) un estímulo o evento de naturaleza contraria (en experimentos con animales, podría ser una sustancia aversiva como el cloruro de litio). Se puede llevar a cabo en una caja de CO con dos palancas. En la primera fase del experimento, cualquiera de las dos palancas dará acceso a la comida, en la palanca A sabor a naranja y en la B a fresa. Los animales las presionan indistintamente. En una segunda fase, una de las bolitas de comida de uno de los sabores (por ejemplo, la de fresa) se empareja fuera de la caja con la sustancia aversiva. Finalmente en una tercera fase los animales vuelven a ser introducidos a la caja de CO para ver que palana pulsan más ahora, y por tanto que respuesta prefieren. El resultado es que la respuesta operante de la palanca que da al reforzador asociado a la sustancia aversiva, en este caso sería la palanca B, disminuye, aun cuando presionar esta palanca nunca ha sido contingente al estímulo aversivo. Otro experimento con ratas para demostrar la devaluación del reforzador. Los animales podían bien tirar de una cadena y les daban agua con azúcar, o bien dar una palanca y les daban comida. Posteriormente, sin estar disponibles ni la palanca ni la cadena (es decir, de forma no contingente) se les dispensó la comida y el agua y a la mitad les inyectaron litio para crearles malestar. Cuando les metieron de nuevo en la caja de condicionamiento, vieron que las ratas que había sufrido el malestar presionaron mucho menos los mecanismos para acceder a los reforzadores. Por tanto habían aprendido acerca de las consecuencias de su conducta durante el CO. Sin embargo, en determinadas ocasiones la ejecución de una respuesta instrumental puede llegar a automatizarse si se entrena o practica de forma masiva. En este sentido, algunos autores han diferenciado entre lo que sería la acción instrumental, relacionada con aquellas respuestas que son modificadas por el valor de sus consecuencias, de aquellas cuya ejecución no depende del valor actual del reforzador a las que se les daría el nombre de hábitos. En laboratorio se ha demostrado que la extensión de un entrenamiento puede hacer que una conducta se automatice y que no sea controlada por el valor de las consecuencias, tomando forma de hábito. Dos grupos de ratas presionando palancas utilizando como reforzador bolitas de sacarosa. Uno de los grupos el entrenamiento se limitó a 100 respuestas reforzadas, pero en otro llegó a 500. Después inyectaron cloruro de litio a la mitad de animales de cada grupo. En la fase de prueba se observó que la devaluación del reforzador solo tuvo un efecto claro en animales con entrenamiento corto, demostrando que la práctica prolongada da lugar a una ejecución de la conducta mucho más rígida, menos deliberada, y que no depende tanto de las consecuencias de la misma. Esto explicaría que determinadas conductas compulsivas, como la búsqueda de drogas, dependan de mecanismos de aprendizaje diferentes a los que se dan durante la adquisición de la conducta.
Compartir