Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE CONDICIONAMIENTO INSTRUMENTAL Anthony Dickinson Animal Learning and Cognition, 1994. Editado por N.J. Mackintosh, Academic Press. Capítulo 3 I. INTRODUCCIÓN La conducta instrumental se refiere a aquellas acciones cuya adquisición y manutención depende de las consecuencias que tiene para el animal o, en otras palabras, del hecho de que la acción es instrumental al causar ciertos resultados. La significancia funcional de la capacidad de realzar una acción instrumental es tan obvia que no necesita mayor comentario; es esta capacidad la que nos permite a nosotros y a los otros animales aprender a controlar nuestro ambiente al servicio de nuestras necesidades y deseos. Considere un animal exclusivamente Pavloviano, equipado solo con la capacidad para detectar y aprender respecto a las relaciones predictivas entre la señales y los eventos importantes del mundo, pero no respecto de las contingencias entre sus acciones y sus consecuencias. Este animal estará obligado a depender del proceso evolutivo que asegure que las respuestas elicitadas por determinada señal (estimulo condicionado) sean las apropiadas para enfrentarse al evento predicho, y estará, por lo tanto, a merced de un ambiente inestable en el cual las consecuencias de su conducta pueden variar. Este punto puede graficarse considerando el simple acercamiento a una fuente de comida. Por ejemplo, no es raro que un pollo hambriento aprenda rápidamente a acercarse a un bolo de comida tan pronto como se le presente. Un análisis instrumental diría que esta simple forma de condicionamiento surge de la sensibilidad del pollo a la relación entre su conducta de acercamiento y el acceso a la comida. Por el contrario, de acuerdo a una explicación Pavloviana es la relación predictiva entre el estimulo del bol y de la comida lo que es crucial; una vez establecido como señal de la comida, el ver el bol elicita la aproximación, independientemente de las consecuencias reales de esa acción. Mientras que esas dos explicaciones no pueden separarse en un ambiente normal y estable, el grado en el que el pollo puede adaptarse a los cambios en la estructura causal del ambiente depende de cual es la relación que controla la conducta. Considere un ambiente en el cual la relación normal entre la locomoción y el traslado espacial se revierte de tal modo que para tener acceso al bol de comida el pollo tiene que alejarse de el. Hershberger (1986) arreglo un mundo tal “en espejo” empleando un corredera poco común en el cual el bol de comida se alejaba el doble de rápido de lo que el pollo se acercaba a el y regresaba al doble de la velocidad con el que pollo corría lejos de este bol. En cambio, un animal exclusivamente Pavloviano, que fuese insensible a las consecuencias de sus actos, nunca seria capaz de adaptarse al mundo “en espejo”. Mientras el bol continuase siendo una señal de comida, el animal continuaría ejecutando la respuesta elicitada por tales señales, es decir, el intento de aproximación. Y en efecto este fue el patrón de conducta observado por Hershberger- los pollos mostraron poca evidencia de aprender a correr lejos del bol de comida después de 100 minutos de entrenamiento. De este modo, esta simple respuesta de aproximación no parecería estar controlada por su relación UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE instrumental con el resultado, haciendo que el pollo fuese incapaz de adaptarse al nuevo ambiente. Aunque ambos condicionamientos, el instrumental (Thorndike, 1911) y el Pavolviano (Pavlov, 1927) se estudiaron a comienzos de siglo, a los estudiantes de aprendizaje les toma un tiempo apreciar la diferencia critica entre las dos formas. Millar y Konorski (1969), normalmente tienen el crédito de ser los primeros en hacer la distinción en 1928. Ellos le doblaron pasivamente la pata a un perro en presencia de un estimulo y parearon esta situación compuesta con la presentación de comida. Después de varias de tales pareaciones, el perro comenzó a doblar su pierna espontáneamente cuando se le presentaba el estimulo, una respuesta condicionada contraria, según dijeron , al principio de Pavlov de substitución de estimulo de acuerdo a este principio, la exposición a las pareaciones estimulo-resultado otorga al estimulo la capacidad de actuar como sustituto o subrogado del resultado (o consecuencia) y elicitar, por lo tanto, la misma respuesta; sin embargo como destacan Miller y Konorski, la habilidad del estimulo de controlar la flexión de la pata no podía explicarse en términos de que este se convirtiese en sustituto para la comida.. Por esta razón ellos argumentaron una segunda forma de condicionamiento al cual ellos llamaron Tipo II, en general, por la misma razón, específicamente que el principio de Pavlov no podía explicar por que las ratas hambrientas aprenden a apretar una palanca, a libre disposición, para recibir comida. Aunque obviamente estos estudios fueron un desafío para la sustitución de estimulo como principio universal de condicionamiento, lo que no lograron demostrar fue el carácter instrumenta del condicionamientos Tipo II, es decir que esta controlado por la relación entre la acción condicionada y el resultado. El que la conducta puede ser controlada por esta relación fue demostrado por primera vez por Grindley en un artículo publicado en 1932. Grindley entreno a cerdos guinea, inmovilizados a girar sus cabezas a la izquierda o a la derecha y luego volverla nuevamente al centro cuando sonaba un timbre con el fin de obtener la oportunidad para morder una zanahoria. Lo que estableció que esta conducta esta bajo control de la relación acción – resultado fue el hecho de que los animales revertirían la dirección de giro de sus cabezas cuando la contingencia instrumental fuese invertida. En otras palabras, cuando la relación estimulo-resultado entre el timbre y la zanahoria se mantuviese constante (1), la conducta seria controlada por su relación con el resultado y, manteniendo las otras cosas iguales, este condicionamiento bidireccional puede tomarse como ensayo típico de control instrumental. Tradicionalmente los psicólogos conductuales han identificado los tipos de condicionamiento en términos de las contingencias ambientales más que en términos de las relaciones que realmente controlan la ejecución, y por esta razón la conducta espacial en los corredores y en los laberintos ha sido clasificada típicamente como instrumental. Sin embargo, como hemos visto, hay buenas razones para dudar de que tal conducta esté controlada, de hecho, por su relación instrumental con el resultado. También se han expresado preocupaciones similares respecto al estatus instrumental de otras conductas ampliamente estudiadas, tal como el picoteo a la clave de la paloma (Ej., Moore, 1973). De acuerdo a esto, la discusión actual se focalizará en el procedimiento operante-libre introducido por Skinner en 1932 en el cual las ratas aprenden a apretar una palanca a libre disposición que conduce, a un atractivo resultado, como es una bolita de alimento. Hay buena evidencia de que esta acción esta bajo el control de la relación UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE instrumental. En contraste con la conducta de aproximación de los pollos de Hershberger (1986), la operante-libre de apretar la palanca, ejecutada por las ratas, es sensible a la inversión de la relación acción-resultado. Después de haber entrenado a sus ratas a apretar la palanca para obtener comida, Davis y Bitterman (1971) cambiaron la contingencia de modo que, ahora, cada presión de palanca pospone la entrega de comida que de otro modo hubiese ocurrido. Esta contingencia de omisión redujo la respuesta, mas rápidamente que un programa simple de no contingenciabajo el cual, la comida se entregaba independientemente del apretar la palanca (revise Ej., Uhl, 1974). Sin embargo quizás la mejor evidencia de que la manipulación de una palanca, por parte de las ratas en un programa de operante-libre, esta bajo control Instrumental, proviene de un estudio de castigo realizado por Bolles, Holtz, Dunn y Hill (1980). Ellos entrenaron ratas para que presionaran la palanca, tanto hacia abajo como hacia arriba, para obtener bolitas de comida. El programa fue tal que, algunas veces se requería una presión para obtener la siguiente bolita y otras veces se requería levantar la palanca, esto estaba arreglado de tal manera que era impredecible para el animal, y por lo tanto las ratas aprendieron a intercalar el presionar y el levantar la palanca. Luego, Bolles et al. Intentaron castigar una de las categorías de esta conducta bidireccional haciendo que a la conducta de presionar o de levantar la palanca, le siguiese un choque eléctrico. Aunque la introducción de la contingencia de castigo suprimió ambas acciones en cierto grado, la categoría sobre la cual el choque fue contingente se ejecuto a un nivel significativamente mas bajo. Implementando este ensayo bidireccional, Bolles el al. (1980) fueron capaces de demostrar que estas acciones son sensibles a su relación instrumental con el resultado. Este experimento también ilustra el hecho de que las acciones pueden entrar en diferentes relaciones instrumentales con los resultados. El estudio original de Skinner (1980) implicaba una contingencia positiva entre la acción y el resultado en el que el apretar la palanca incrementaba la probabilidad de acceso a la bolita de comida. Dado que esta acción era fortalecida o se reforzaba a través de una contingencia positiva con el resultado, esta forma de condicionamiento es conocida como un ejemplo de reforzamiento positivo y el resultado es identificado como recompensa o como reforzador positivo. Por el contrario, el procedimiento de castigo de Bolles et al. (1980) era un caso en el cual una contingencia positiva entre la acción y el resultado llevaba a una reducción en la ejecución. En correspondencia a estos dos casos hay otros en los cuales se hace un arreglo de relación negativa entre la acción y el resultado de tal modo que la ejecución de la acción cause la omisión de un evento que de otro modo habría ocurrido (evitación) o la irrupción de un estimulo (escape). Cuando tal relación sirve para incrementar la probabilidad de la acción, entonces tenemos un ejemplo de reforzamiento negativo donde el evento suprimido (o terminado) se llama reforzador negativo. La evitación ha recibido una gran atención experimental (Ej., Sidman 1966) no solo por su importancia funcional obvia sino también por los problemas teóricos que genera (Ej., Hernstein 1969; Seligman y Johnston, 1973). Sin embargo, este asunto va mas allá del objetivo de este capitulo, el cual se dirigirá exclusivamente hacia lo que parece ser el caso menos problemático, es decir el condicionamiento por recompensa o reforzamiento positivo. II. ACCIONES Y HABITOS UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE Cuando Grindley (1932) desafió la ubicuidad del principio de sustitución de estimulo de Pavlov, atribuyó el desarrollo del conocimiento instrumental a la formación de una conexión estimulo-respuesta, como lo había hecho previamente Thorndike (1911) en la formulación de su “Ley del Efecto”. La presentación de un resultado efectivo después de una acción, decía Thorndike, refuerza una conexión entre los estímulos presentes cuando se ejecuta la acción y la acción misma, de modo que las presentaciones subsecuentes de esos estímulos elicitan la acción instrumental como una respuesta. El rasgo mas contradictorio de tales teorías estimulo respuesta (E-R) ha dado siempre la afirmación de que el conocimiento de la contingencia instrumental entre la acción y el resultado no juega ningún rol en la ejecución de la acción. De acuerdo a esta teoría de reforzamiento/estimulo- respuesta, una acción instrumental es simplemente una respuesta habitual gavillada por los estímulos de entrenamiento. Aunque nuestra psicología popular reconoce el rol de los hábitos, le da un matiz diferente a las acciones instrumentales dirigida-a-meta. En los discursos de cada día explicamos esas acciones en términos de procesos cognitivos o intencionales, es decir, se explica por la interacción de una creencia instrumental respecto a la relación causal entre una acción y su resultado posterior, y un deseo respecto a ese resultado. Así por ejemplo, la acción de operar el interruptor de la luz en una habitación oscura se explica por una creencia del sujeto de que la ejecución de esta acción producirá luz y por su deseo de luz. Es la interacción de estos dos estados mentales lo que produce el antecedente mental inmediato para la conducta, es decir la intención de operar el interruptor. En el apogeo de la teoría (E-R) (Gurthrie, 1952; Hull, 1943; Spence 1956), Tolman (1932–1959) defendió una posición parecida a aquella de la psicología popular. A una creencia instrumental respecto a las consecuencias de una acción, el la identifico como “disposición de medios y fines”, la cual cuando se activa en forma de “expectativa”, podría interactuar con el “valor” que el organismo le otorga al resultado para determinar la ejecución instrumental. Sin embargo hay dudas respecto al supuesto estatus ontológico de los conceptos de Tolman (Amundson 1986), cuando se interpreta, desde el punto de vista de un realista mental, su psicología de expectativa-valor en base a la explicación cognitiva “creencia-deseo” de la psicología popular. Tradicionalmente el conflicto entre las teorías cognitivas y de (E-R) se han discutido en el campo del aprendizaje latente. En un estudio de aprendizaje latente típico, el animal en un comienzo, es entrenado a ejecutar alguna acción instrumental para obtener un resultado. Entonces el valor de este resultado se cambia de algún modo sin permitirle al animal volver a experimentar la relación acción-resultado anterior, finalmente se evalúa la tendencia a ejecutar la acción. Si el entrenamiento inicial simplemente estableció un habito (E-R) reforzado por el resultado, un cambio posterior en el valor del resultado no tendría impacto en la ejecución, dado que no hubo ninguna experiencia posterior con l contingencia acción-resultado. Ya que la relación entre la acción y el resultado no es codificada o representada como un habito E-R, una vez que el resultado ha hecho la función de reforzar, durante el entrenamiento instrumental inicial, cualquier cambio posterior en sus propiedades no tendría efecto en la ejecución. Por el contrario, una explicación cognitiva o intencional esperaría un impacto inmediato en la ejecución producto de la revaloración del resultado; la acción instrumental, mediada por el deseo del animal por el resultado reflejaría, directamente, cualquier cambio en el valor del resultado. UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE Aunque el aprendizaje latente fe estudiado intensamente varios años atrás, estos estudios clásicos, casi sin excepción, emplearon tareas de aprendizaje espacial (ver MacCorquodale & Meehl, 1954, Thiestlewaite, 1951 para revisión) donde el estatus instrumental que hemos visto es ambiguo. Adams y Dickinson (1981) fueron los primeros en distinguir exitosamente entre las explicaciones E-R y las cognitivas en relación a la conducta de apretar la palanca de la rata usando un procedimiento de devaluación del resultado. La base de este procedimiento era similar a aquella que subyacía en los estudios de aprendizaje latente. Los animales fueron entrenados, inicialmente, a apretar la palanca usando dos tipos de bolitas de comida, bolitas de composición mixta estándar y bolitas de azúcar; un tipode bolita, el reforzador, se le entregaba contingentemente con el apretar de la palanca, mientras que la otra, se le entregaba de modo no-contingente (2). De acuerdo a la teoría cognitiva, este entrenamiento habría establecido la creencia de que el apretar la palanca causa la entrega de reforzador (pero no así en el caso de la bolita no-contingente), y por lo tanto, cualquier cambio posterior en el valor del reforzador se expresaría inmediatamente en la ejecución instrumental . La teoría del habito (E-R), por el contrario, vería el apretar la palanca como una respuesta elicitada por los estímulos contextuales de la situación de entrenamiento y por lo tanto, insensible a la revaloración del reforzador. Para probar estas contrastantes predicciones, se devaluó uno de los tipos de bolitas El procedimiento de devaluación se baso en el hecho de que si el consumo de un alimento saborizado es seguido por una enfermedad gástrica, inducida en este caso por una inyección de clorídeo de litio (Lic.), el animal desarrolla una aversión a la comida tal que esta ya no funciona como recompensa. De este modo, inmediatamente después del entrenamiento instrumental, se estableció una aversión al reforzador, para algunos de los animales y no para otros. La palanca no estuvo presente durante este condicionamiento aversivo y los dos tipos de bolitas fueron presentadas independientemente de cualquier acción instrumental en días alternados. Los animales del condicionamiento pareado que recibieron eyecciones de Lic. Después de la exposición al reforzador, en cambio, en el grupo no pareado, la inyección ocurrió después de la exposición a la comida no- contingente. De modo tal que este diseño implico cuatro grupos: P-A, P-E, NP-A, NP-E, donde el primer termino se refiere a si la inyección fue pareada (P) o no pareada (NP) con la exposición al reforzador durante el entrenamiento aversivo y el segundo termino a si el reforzador era la bolita azucarada (A) o la bolita estándar (E). Como muestra la figura A1, cuando el impacto de este tratamiento en la ejecución instrumental fue evaluado, dando acceso a la palanca nuevamente, los animales para los cuales el reforzador había sido devaluado, grupos P-A y P-E apretaron menos que los respectivos grupos de control, grupos NP-A y NP-E, para los cuales la aversión fue condicionada a la comida no-contingente y no al reforzador. Hay dos rasgos dignos de mención en este procedimiento de devaluación. El primero es que esta prueba fue llevada a cabo sin presentarse ningún resultado (esto es, en extinción). Si Adams y Dickinson realmente hubiesen presentado las bolitas de comida contingente con el apretar la palanca durante la prueba, esta conducta habría sido castigada con el resultado, ahora, aversivo. Sin embargo, haciendo la prueba en extinción, Adams y Dickinson aseguraron que la ejecución diferencial de los dos grupos reflejara la interacción del conocimiento adquirido durante el entrenamiento instrumental con los valores relativos de los dos resultados (consecuencias) después de la devaluación. UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE El segundo rasgo importante del diseño es que la única diferencia entre el tratamiento recibido por los dos grupos fue la relación entre el apretar la palanca durante el entrenamiento instrumental y las bolitas devaluadas y las no devaluadas. Así cualquier efecto diferencial del tratamiento de devaluación en los dos grupos, tiene que haber sido mediado por la experiencia con la contingencia entre el apretar la palanca y los resultados durante el entrenamiento inicial. Colwill y Rescorla (1985) verificaron el mismo punto entrenando a sus ratas a ejecutar dos acciones diferentes, apretar la palanca y tirar una cadena, para obtener consecuencias distintas, antes de devaluar una de las consecuencias. Cuando, posteriormente, a los animales se les dio la oportunidad de elegir entre la ejecución de las dos acciones, en extinción, mostraron una preferencia por aquella asociada con el resultado no devaluado durante el entrenamiento inicial. En conjunto, estas dos características del efecto de devaluación, apoyan claramente el rol de los procesos cognitivos en la acción instrumental. Sin embargo, Esto significa que los hábitos E-R no jueguen ningún rol en el comportamiento instrumental. Es curioso que en ambos estudios, Adams y Dickinson (1981) y Colwill y Rescorla (1985), observaron una ejecución residual de la acción asociada con el resultado del alimento devaluado, aún cuando los animales no comieran el alimento después del condicionamiento aversivo (observe la ejecución de los grupos P-A y P-E en el primer bloque de 5 minutos de la prueba de extinción en la figura 1). Es improbable que esta ejecución residual refleje un fracaso en producir una devaluación total de los resultados. Como muestra la figura 1B, cuando Adams y Dickinson intentaron restablecer la ejecución presentando, contingente al apretar la palanca, primero el reforzados inicial y luego el alimento no contingente, los resultados devaluados fallaron en actuar como reforzadores efectivos. De modo que, la respuesta residual, observada durante la prueba de extinción en la Fig. 1A, sugiere que el entrenamiento instrumental convierte al “apretar la palanca”, en parte , en una acción dirigida-a-meta, mediada por el conocimiento de la relación instrumental, e en parte, en un hábito E-R insensible a la devaluación del resultado. Y como veremos, hay razones para creer que la naturaleza de la contingencia acción-resultado podría bien determinar el carácter de la ejecución instrumental en este sentido. III CONOCIMIENTO INSTRUMENTAL Cualquiera sea la contribución de un mecanismo de hábito, el efecto de la devaluación del resultado demuestra que al apretar la palanca de la rata debe estar, al menos en parte, controlado por el tipo de expectativa instrumental o creencia, prevista por Tolman. Sin embargo, el problema con la teoría de Tolman es que nunca especificó el mecanismo psicológico por el cual las expectativas o creencias interactúan con los deseos o valores para causar la conducta instrumental, dejando así, el paso abierto para la famosa burla de Guthrie (1952, p. 143) de que las ratas de Tolman quedan “ensimismadas”. Se han propuesto dos mecanismos , los dos de naturaleza asociativa: el primero es la teoría direccional de Pavlov, mientras que el segundo, al cual yo me refiero como el modelo asociativo-cibernético, fue ofrecido por Thorndike (1931) como una alternativa a la Ley del Efecto. UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE A. La Teoría Bidireccional Sólo en parte dirigida por Pavlov (1932), la explicación bidireccional del condicionamiento instrumental, fue desarrollada y completada por sus estudiantes, como un ejemplo, Asratyan (1974; vea Gormezano & Tait, 1976, para una revisión). Cuando se traslada a términos asociativos, la idea básica es que la pareación de los dos eventos establece no sólo una conexión hacia delante desde la(s) unidad(es) representacional (es) activadas por el primer evento, E1, a la(s) unidad(es) activadas por el segundo evento, E2, (el cual media el comportamiento Pavloviano estándar), sino también una conexión hacia atrás desde E2 al E1. Y es esta conexión hacia atrás la que media el condicionamiento instrumental cuando E1 es la acción instrumental y E2 es el reforzador. Así, poner al animal en el contexto experimental, después del entrenamiento instrumental, excitará una unidad representacional correspondiente al reforzador a través de su asociación Pavloviana con los estímulos contextuales, y esta excitación a su vez activará la unidad de respuesta a través de la asociación hacia tras producida por la contingencia instrumental, produciendo así la ejecución de la respuesta. Cuando se interpreta en términos cognitivos,la excitación de la unidad del reforzador representa el valor asignado al resultado, y la activación de la conexión desde el reforzador hacia la unidad de respuesta, la expectativa del resultado dad la ejecución de la acción instrumental. Esta propuesta ubica al aprendizaje instrumental dentro de la afirmación general de que la pareación de dos eventos establece conexiones excitatorias bidireccionales entre sus unidades representacionales. Por otra parte, el hecho de que el comportamiento excitatorio hacia atrás puede observarse con procedimientos Pavlovianos (ver cap. 2 de Hall, de este volumen) podría ser mirado como evidencia independiente de las conexiones hacia atrás, las cuales son críticas en el condicionamiento instrumental. Sin embargo, desde destacarse que en esas demostraciones el E2 es un estímulo condicionado neutral en contraste con el evento reforzante empleado como E2 en el comportamiento instrumental. En la búsqueda de entregar evidencia independiente para las asociaciones hacia atrás, cuando E2 es un reforzador, Gormezano y Tait (1976) entrenaron a conejos deprivados de agua, precisamente con la entrega de agua, por vía intra-oral, como E2 y con un soplido de aire en la córnea, el cual elicitaba la respuesta de cerrar el ojo, como E1. Con este procedimiento las asociaciones hacia atrás se manifestarían por el desarrollo de la respuesta de cerrar el ojo frente a la entrega de agua. Sin embargo, Gormezano y Tait (1976) no observaron evidencia de condicionamiento hacia atrás, el porcentaje de respuestas de cerrar el ojo evocadas por as presentaciones de agua no fue mayor que el observado en el grupo control, en el cual los dos eventos no se pareaban y más aún, concretamente, el nivel de respuesta declinó a través del entrenamiento. No solamente es problemática la evidencia empírica de la explicación bidireccional, sino que también está lejos de claro cómo ésta teoría explicaría el castigo. En éste caso, la asociación desde la unidad representacional para E2, el evento punitivo, hacia el E1 la acción instrumental, no puede ser excitatorio, porque el efecto de la contingencia de castigo es suprimir la ejecución de la acción. Una solución obvia es asumir que cuando E2 es un evento aversivo la conexión hacia atrás es inhibitoria no excitatoria, de modo que activando la unidad que representa al evento punitivo se inhibe la unidad de respuesta, Sin embargo, en ausencia de evidencia empírica para las conexiones hacia atrás, tanto inhibitorias como UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE excitatorias, bajo condiciones análogas de contingencia instrumental efectiva, la explicación bidireccional no es una explicación plausible para el condicionamiento instrumental. B. El Modelo Asociativo-Cibernético Como alternativa a su Ley del Efecto, Thorndike elaboró lo que él llamó “la teoría ideacional o representativa”. En el contexto del aprendizaje de laberinto, Thorndike argumentó que: ….Esta Teoría… explicaría el aprendizaje del gato, quién evita la salida S de la cual recibió un choque moderado y favorece la salida F que lo lleva a la comida, por el supuesto de que la tendencia a acercarse y entrar a S evocaría, en la mente del gato, alguna imagen, idea o alucinación del desagradable choque, mientras que la tendencia a aproximarse y entrar en F, evocaría en la mente alguna representación de la comida, y estas representaciones a su vez, controlarían y favorecían esas tendencias (Thorndike, 1931, pp. 47-48) Esta exposición puede caracterizarse tanto como asociativa, porque implica la formación de una conexión entre una representación de la acción instrumental (aproximación y entrada a S y a F) y una representación del resultado (S o F), y como cibernética, ya que la activación de estas representaciones del resultado retroalimentan para modular la ejecución. Aunque Thorndike estaba preparado para considerar esta explicación para la conducta humana “deliberativa”, la descartó como explicación general de la ejecución instrumental; sin embargo, otros (Ej., Mowrer, 1960 a, b) posteriormente han argumentado a favor de esa teoría y, a demás, Sutton y Barto (1981) presentaron una simulación del funcionamiento de un modelo asociativo-cibernético, en el contexto de un procedimiento de aprendizaje latente clásico. La figura 2 muestra una caricatura de la posible arquitectura de un sistema asociativo-cibernético. Las acciones tienen su origen en lo que he llamado una memoria de hábito, la cual consiste en un arreglo de unidades detectoras de estímulo ligadas a un arreglo de unidades de respuesta correspondientes a las reacciones sin entrenamiento del animal (o de pre-entrenamiento) frente a esos estímulos. La activación de las unidades de respuesta, las cuales se cree que son mutuamente excluyentes, se transmite a las unidades correspondientes en el sistema motor cuya activación causa la salida (“output”) de las acciones relevantes. Los estudios de condicionamiento instrumental normalmente escogen acciones tales como el apretar la palanca, que tienen un nivel de línea base relativamente bajo antes del entrenamiento, de tal manera que puede observarse un incremento en la ejecución durante la contingencia. Este hecho se refleja en el modelo asegurando que la entrada desde una unidad de respuesta en la memoria de hábito, normalmente no es suficiente para gatillar confiablemente la unidad motora correspondiente. Sin embargo, dadas las fluctuaciones, ya sea en la fuerza de aquello que entra (“input”) como en el umbral de la unidad motora, la unidad será activada ocasionalmente, produciendo así, por ejemplo, un nivel de línea base de la conducta de apretar la palanca, al nivel de una respuesta no entrenada y espontánea. Si el animal puede detectar y representar la ocurrencia de la acción tiene una importante consecuencia. Dentro del modelo, la representación de la ejecución de una UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE acción, es iniciada por la activación de una unidad en la memoria asociativa del animal. Por consiguiente, la ejecución de esta acción producirá una excitación contigua y contingente de la unidad de respuesta en la memoria de hábito y en la correspondiente unidad de acción en la memoria asociativa. Si aceptamos que este patrón de gatillamiento en las dos unidades es suficiente para formar y fortalecer una conexión entre ellas, entonces, en ocasiones posteriores cuando se excite la unidad de respuesta de hábito, se activará la unidad de acción correspondiente en la memoria asociativa, incluso si no ocurre ninguna acción manifiesta. La presencia de una unidad de acción, en la memora asociativa es crucial para el aprendizaje instrumental acerca de las relaciones entre la acción y el resultado. En presencia de una relación instrumental efectiva, la ejecución de la acción y el consiguiente resultado llevará a la activación contigua y contingente de las unidades de acción y de resultado, en la memoria asociativa, lo cual, se cree, es suficiente para la formación de una conexión entre ellas. Es esta conexión la que representa el conocimiento del animal de la relación instrumental, en ella la activación de la unidad de resultado por parte de la unidad de acción corresponde a la expectativa de resultado propuesta por Tolman. El componente final del modelo, el sistema incentivo, está diseñado para tratar con la función cibernética que lleva a cabo el rol de los deseos o de los valores del resultado, en la acción instrumental. Cualquier unidad en la memoria asociativa activada por un evento de significancia motivacional tiene conexiones con las unidades en el sistema de incentivo. La conexión es con una unidad de recompensa si el evento es atractivo, como la presentación de comida para una rata hambrienta, o con una unidad de castigo si el evento es aversivoo nocivo, de modo que esas conexiones representan el valor o el deseo del animal, asignado a tales resultados. Diré que esas conexiones también se adquieren a través de un proceso llamado aprendizaje de incentivo (Dickinson y Balleine, 1994). Así, la experiencia del animal con el resultado “comida”, mientras está hambriento lo que establece una conexión entre la unidad representacional, para este resultado, en la memoria asociativa y la unidad de recompensa. Por consecuencia, el condicionamiento aversivo en un procedimiento de devaluación, establece una conexión desde la unidad de resultado a la unidad de castigo en el sistema de incentivo. La función de esas unidades de incentivo es ejercer una influencia general e indiscriminada en todas las unidades en el sistema motor, una influencia excitatoria en el caso de la unidad de recompensa y una influencia inhibitoria en el caso de la unidad de castigo (4). Es necesario destacar, sin embargo, que la actividad en la unidad de recompensa no es suficiente por sí misma para gatillar las unidades motoras. Para activar la unidad motora, la influencia de retroalimentación desde la unidad de recompensa se debe sumar a aquello que entra de modo contiguo, temporalmente, desde la memoria de hábito. Así, aún bajo la influencia del sistema de incentivo, la unidad motora particular que se activa, en cualquier momento, es determinada por aquello que entra desde la memoria. Por esta razón sería mejor pensar en la retroalimentación de incentivo como un evento que altera los umbrales de las unidades motoras, bajándolos en el caso de la retroalimentación de recompensa y elevándolos en el caso de la retroalimentación de castigo. En resumen, este modelo asociativo-cibernético explica el condicionamiento instrumental en términos de la formación de tres conexiones asociativas, las cuales sirven para abrir un ciclo de retroalimentación positivo a través de la memoria asociativa que UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE converge con la entrada desde la memoria de hábito en la unidad motora para la acción instrumental. La primera es la conexión desde la unidad de respuesta en la memoria de hábito a la unidad de acción correspondiente en la memoria asociativa formada por la habilidad del animal para detectar y representar su propia conducta. La segunda es aquella (conexión) entre las unidades de acción y de resultado en la memoria asociativa ocasionadas por la experiencia de la relación instrumental entre la acción y el resultado. Finalmente la experiencia con el resultado atractivo durante el entrenamiento establecerá la conexión entre la unidad de resultado en la memoria asociativa y la unidad de recompensa en el sistema de incentivo. Claramente, mientras estas conexiones se fortalecen durante el entrenamiento, lo mismo sucede con la retroalimentación positiva en las unidades motoras, mejorando así la confiabilidad con la cual el estímulo elicitador original gatilla la acción instrumental. La devaluación del modelo actúa contra esta influencia positiva abriendo un ciclo de retroalimentación negativa, paralelo, a través de la formación de una conexión entre la unidad de resultado en la memoria asociativa y la unidad de castigo en el sistema de incentivo. En el resto del capítulo, consideraré la evidencia relacionada con las conexiones asociativas comprendidas en el ciclo de la retroalimentación. Pero antes de hacer eso, es necesario destacar que la formación de hábito puede acomodarse a este modelo, aceptando que lo que sale de la unidad de recompensa no sólo afecta el sistema motor sino que también ejerce una influencia facilitadora en las conexiones entre el estímulo y las unidades de respuesta en la memoria de hábito (vea la fig.2). El efecto de esta influencia es incrementar la fuerza de una conexión cuando esta ocurre, al mismo tiempo que la actividad en la unidad de estímulo. Una vez que la actividad en la unidad del estímulo comienza a elicitar la acción instrumental, a través de la retroalimentación, esta actividad se pareará constantemente con la facilitación de la recompensa, fortaleciendo así la conexión en la memoria del hábito. Una vez que esta conexión se vuelve suficientemente fuerte como para permitir que el estímulo gatille la unidad motora independientemente de la influencia de retroalimentación, la acción instrumental se habrá convertido en un hábito insensible a la devaluación del resultado. Es este mecanismo de hábito que puede dar cuenta de la respuesta residual observada por Adams y Dickinson (1981) y Colwill y Rescorla (1985) después de la devaluación del resultado. IV. REPRESENTACIÓN DE LAS ACCIONES INSTRUMENTALES Un aspecto central para el ciclo de la retroalimentación es la unidad en la memoria asociativa que representa la acción instrumental. Es esta unidad la que intercepta al instigador de la acción, la entrada del estímulo a la memoria del hábito, con el conocimiento de la relación instrumental, es decir, la conexión entre las unidades de acción y de resultado en la memoria asociativa. Así, de acuerdo al modelo, la susceptibilidad de una actividad conductual al conocimiento instrumental dependerá de si el animal descubre y representa la ocurrencia de esa conducta. Shettleworth (1975) comparó la sensibilidad de distintos patrones de conducta al condicionamiento con una recompensa de comida en hamsters. Mientras que ciertas acciones, tales como levantar la cabeza, respondían a la contingencia instrumental, otras, como el lavarse la cara y rasguñar, eran más resistentes al UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE condicionamiento. Posteriormente Morgan y Nicholas (1979) confirmaron este patrón en las ratas y, aún más, entregaron evidencia de que éste podría reflejar una diferencia en el grado en el cual se descubre y se representa la ejecución de estas distintas acciones. Se introdujeron dos placas en la caja experimental en el momento en que las ratas, o bien levantaron la cabeza o bien se lavaron la cara, y el apretar una de las palancas se recompensaba después de un período de levantar la cabeza, y el apretar la otra se recompensaba después de un período de lavarse la cara. El hecho de que las ratas aprendieran a hacer esta discriminación indica que ellas podían representarse la ejecución de, al menos, una de las actividades, ya que sus elecciones estaban controladas por la conducta anterior. Por otra parte, para los animales fue mucho más difícil aprender a discriminar entre el rasguñar y lavarse la cara. Esta diferencia en la “discriminabilidad” del levantar la cabeza y del rasguñar, en contraste de lavarse la cara, ilustra claramente la sensibilidad relativa de estas acciones y la contingencia instrumental. Así, de acuerdo a los datos de Morgan y Nicholas (1979), las ratas no se representan fácilmente sus propias conductas de rasguño, lo cual es explicado por el modelo debido a la ausencia de una unidad en la memoria asociativa que se excite por esta actividad. Por esta razón, la figura 2 muestra una unidad de estímulo activada por una “picazón” conectada con una unidad de respuesta de la conducta de rascarse, en la memoria del hábito, la cual media la elicitación de esta actividad a través del sistema motor. Sin embargo, no hay una unidad que corresponda a esta actividad en la memoria asociativa. Para dar cabida a la última evidencia respecto del aprendizaje observacional de las relaciones instrumentales, el modelo tiene que aceptar que las unidades representacionales para las acciones pueden activarse no sólo por la ejecución de la acción sino también por la observación de un congénere ejecutando esa misma conducta. Heyes y sus colegas (Heyes y Dawson, 1990; Heyes, Dawson y Noker, 1992) permitieron que las ratas “observadoras” miraran a los modelos entrenados previamente, mientras empujabanuna barra que colgaba desde el techo de la jaula; en un caso a la izquierda y en el otro caso a la derecha, para obtener comida. Cuando, posteriormente, a los observadores se les permitió el acceso a la barra, tendieron a empujarla en la misma dirección que sus modelos, aún cuando ellos ganarían la comida cualquiera fuese la dirección en que empujasen. Aún así llamativo es el hecho de que este sesgo direccional se mantuvo aún cuando la barra, en el período de prueba, fue puesta en una posición distinta, dentro de la jaula, a la que ocupaba en el período de observación, lo que sugiere que los observadores estaban reproduciendo la acción específica ejecutada por el modelo. Dada la naturaleza bidireccional de la acción, no resulta claro explicar este ejemplo de aprendizaje observacional sin aceptar que el observador codifica la relación instrumental entre la acción y el resultado durante la exposición al modelo. Y para que este modelo pueda abarcar, con su explicación, a este resultado, se tiene que asumir que el observar una acción es suficiente para excitar la correspondiente unidad representacional de modo que ésta pueda asociarse con la unidad de resultado. V. APRENDIZAJE INSTRUMENTAL Al describir el modelo asociativo-cibernético, se atribuyó la formación de la conexión acción-resultado en la memoria asociativa al hecho de haber experimentado una UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE relación contigua y contingente, o casual, entre la acción y el resultado, simplemente porque en un procedimiento de condicionamiento instrumental estándar, la ejecución de la acción, efectivamente, causa la presentación inmediata del resultado. Sin embargo, hay una buena evidencia empírica de que ambas variables (contigüidad y contingencia) determinan la adquisición instrumental y la ejecución. A. Contigüidad Desde una perspectiva puramente funcional, la sensibilidad del condicionamiento instrumental a la contigüidad acción-resultado es sorprendente dado que es la relación causal y no la relación de contigüidad entre la acción y el resultado, la que es crucial en términos de permitir el control sobre el ambiente. Sin embargo, no hay duda de que, retrasar el resultado después de la acción que lo causa (provoca) tiene un profundo efecto en la adquisición instrumental. Dickinson, Watt y Griffiths (1992), por ejemplo, estudiaron la adquisición de la conducta de apretar la palanca de ratas, cuando cada resultado se retrasó, con respecto a la conducta que lo causaba, por intervalos que iban más allá de los 64 segundos. Con este procedimiento cada apretada de palanca causó la entrega de bolitas de comida sólo después de un retraso determinado. La fig.3 muestra el rango promedio del apretar la palanca en la décima sesión, de 20 minutos, como una función del retraso promedio entre la entrega del resultado y la conducta (apretar la palanca) inmediatamente anterior (la cual puede no haber sido la acción que realmente causó el resultado). Como puede apreciarse, la ejecución decreció sistemáticamente con el retraso experimental. Aunque ciertamente estos datos indican que la ejecución se empeora con la demora de la recompensa, también sugieren que una contigüidad estricta entre la acción y el resultado no es necesaria para el condicionamiento donde se observó una adquisición, aún cuando había retrasos medios. Sin embargo, dado el procedimiento usado por Dickinson y al no poder estar seguros de que la adquisición con estos retrasos intermedios no fuese el resultado de contigüidades fortuitas entre la presión de palanca y una recompensa causada por la presión anterior. Para controlar estas contigüidades fortuitas, Lattal y Gleeson (1990) emplearon un procedimiento en el cual cada presión de palanca que ocurría en un período de demora posponía la entrega de la siguiente recompensa, de modo que el intervalo real entre el resultado y la última apretada de palanca fue siempre igual a la demora programada. Con este procedimiento Lattal y Gleeson informaron que hubo adquisición con retrasos sobre los 30 segundos. B. Contingencia Aunque el estudio de Lattal y Gleeson (1990) entregó evidencia convincente de que los animales pueden detectar una contingencia instrumental a través de una demora, aún queda el caso en el cual, la adquisición empeora por el alargue del intervalo acción- resultado. La razón funcional de esta sensibilidad a la contigüidad, bien podría encontrarse analizando el problema que los animales enfrentan al discriminar una relación causal entre la acción y el resultado en un programa no contingente, en el cual un resultado ocurre de modo relativamente frecuente pero independiente de su conducta. Un manera en la cual esa discriminación podría lograrse es comparando, de algún modo, la probabilidad de que UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE ocurra el resultado en los períodos en que la acción “meta” se ejecuta con la probabilidad de que ocurra el resultado en períodos en los que el animal no emite esta conducta. En la medida en que los resultados sean más probables en períodos en que la acción es ejecutada, los animales tienen un control causal sobre el resultado. Sin embargo, tal comparación depende de la discriminación de resultados que ocurren durante períodos de acción, en relación a aquellos resultados que ocurren en ausencia de acción, discriminación que se puede basar sólo en las relaciones temporales entre la acción y el resultado. El hecho de que los animales hagan tal discriminación se demuestra en un estudio clásico de Hammond (1980). Hammond desarrolló un programa en el cual él, podía manipular independientemente la probabilidad de un resultado dado que ha ocurrido una acción en el segundo anterior en el segundo anterior [P(O/A)] y la probabilidad de un resultado en ausencia de una acción en el segundo previo [P(O/-A]. Así, P(O/A) se refiere a la probabilidad de un resultado contiguo y P(O/-A) a la probabilidad de un resultado no contiguo. La figura 4 ilustra los niveles terminales de la ejecución observada por Hammond bajo distintas combinaciones de P(O/A) y P(O/-A) cuando la acción de ratas sedientas era apretar la palanca y el resultado era la entrega de agua. El primer punto a destacar es que la ejecución incrementó con la probabilidad de un resultado contiguo en ausencia de cualquiera de los resultados no contiguos (Cf. Mazur, 1983). Con P(O/-A) puesta en cero, las ratas apretaron a una tasa más alta cuando P(=/A) era 0,12 que cuando era 0,05. Este hallazgo, por supuesto, concuerda con las predicciones de un proceso de aprendizaje basado-en-la-contigüidad; mientras más alta sea la probabilidad, más grande será la proporción de acciones que son inmediatamente seguidas por un resultado. Sin embargo, para esta discusión es más importante, el efecto de variar la probabilidad de los resultados no contingentes. A menos que el animal pueda descontar el efecto de los resultados no contiguos de alguna manera, el incrementar su frecuencia elevando la P(O/A), si fuese posible, debería aumentar la ejecución instrumental, actuando como una fuente de reforzamiento retardado. En lo concreto, se observó exactamente el efecto opuesto; cuando P(O/A) era 0.12, el elevar la probabilidad de los resultados no contiguos [P(O/-A)] redujo la ejecución hasta cuando la P(O/A), se igualó a la P(O/-A) las ratas presionaron de modo, relativamente, poco frecuente. Este bajo nivel de ejecución, por supuesto, es completamente adecuado desde una perspectiva causal, debido a que bajo tal programa de contingencia, apretar la palanca no tenía efecto en la probabilidad del resultado promedio, los animales ganarían exactamente el mismo número de presentaciones de agua si ellos apretaban cada segundo o si no apretaban nunca. Aunque es tentador explicar este efecto de contingenciaen términos de alguna forma de sensibilidad directa hacia la relación causal entre acción y resultado, se puede dar cuenta de ella en términos de un simple proceso de aprendizaje basado en la contigüidad. Necesariamente, la presentación de los resultados no contingentes deben haber sido pareados con la acción de aproximación a la fuente de agua, y por lo tanto, podrían haber servido para fortalecer la ejecución de esta conducta a expensas de la de presionar la palanca. En otras palabras, el decremento en la conducta de apretar la palanca bajo un programa no contingente podría deberse, simplemente, a la competencia conductual o interferencia con la conducta de aproximarse a la fuente de agua, la cual es reforzada por los resultados no contingentes. UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE En un intento por dar cuenta de esta experiencia conductual, Dickinson y Mulatero (1989) hicieron un seguimiento de un estudio original de Colwill y Rescorla (1986), donde entrenaron a unas ratas hambrientas a apretar dos palancas, una de las cuales entregaba bolitas de comida y la, otra una solución de azúcar, en la misma fuente. Luego se destruyó la contingencia instrumental, programando presentaciones no contiguas de uno de los tipos de resultados, ya sea de las bolitas de alimento o de la solución de azúcar, esto, después de cualquier segundo en el cual el animal no presionara ninguna palanca. De acuerdo a la postura de la competencia, no existe ninguna razón para que cualquier conducta de competencia, establecida por los resultados no contiguos, hubiese interferido más con una acción que con otra. Aún así, Dickinson y Mulatero (1989); ver también Williams, 1989) encontraron que los resultados no contiguos producían una mayor reducción en la conducta de apretar aquella palanca asociada al resultado. Más aún, esta diferencia no se debió a la saciedad selectiva del resultado contingente, porque persistió en una sesión de prueba donde no se presentaba ningún resultado. Desde una perspectiva casual este hallazgo es inesperado. Es cierto que, los animales no pueden afectar la frecuencia global de los resultados presionando las palancas que están bajo este programa. Por ejemplo, en el caso en que el resultado no contingente es “bolitas de comida”, si el animal no presiona ninguna palanca recibirá solamente este tipo de resultado; entrega que no está afectada por el acto de apretar la palanca de bolitas. Sin embargo, apretando la palanca de la solución de azúcar, el animal puede sustituir las distribuciones de azúcar por las presentaciones de bolitas, y tener a sí el control sobre la frecuencia relativa de los dos resultados. Lo que muestran los resultados de Dickinson y Mulatero (1989) es que las ratas son sensibles a esta contingencia, sensibilidad que no puede explicarse en términos de simple competencia conductual. C. Sorpresa y Aprendizaje Como sea, esta sensibilidad respecto a la causalidad no requiere que nosotros abandonemos la afirmación de que la principal característica de una relación instrumental efectiva es la contigüidad acción-resultado ya que el patrón general de los resultados observados durante las variaciones en los parámetros temporales y de contingencia, es aquel esperado por las teorías contemporáneas de aprendizaje asociativo durante el condicionamiento Pavloviano (ver Hall, cap.2; Shanks, cap. 12 de este volumen). Como punto central de estas teorías está la afirmación de que la eficacia del resultado contiguo depende del grado en que se prediga la ocurrencia, ya se deba a algún proceso de corrección-del-error (Ej., Rescorla y Wagner, 1972) o a la modulación del aprendizaje, sea por procesos atencionales y de asociabilidad (Ej., Mackintosh, 1975; Pearce y Hall, 1980) o por generalización (Pearce, 1987; cap. 5 en este volumen). Los resultados predichos (señalados) son menos efectivos que los inesperados sorprendentes en producir la formación de una conexión asociativa con un evento previo. La extensión de este principio general al condicionamiento instrumental entrega una posible explicación del efecto de contingencia observado por Hammond. La presentación de resultados no contiguos en el programa no contingente produce un condicionamiento a las claves contextuales de modo que el animal aprende a esperar el resultado del contexto. En consecuencia, la ocurrencia de un resultado contiguo, evento que UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE es responsable del aprendizaje instrumental, se predice por las claves contextuales y por lo tanto, no llega a comprometer el proceso de aprendizaje que se requiere para adquirir y mantener la(s) conexión(es) asociativa(s) que media(n) la ejecución instrumental. Sin embargo, no ocurre, una atenuación del mismo tipo, cuando no hay resultados no contiguos, al menos, en parte, debido a que el número total de resultados presentados en el contexto es menor, de modo que el menor condicionamiento corresponde al contexto. No hay duda de quien esta formulación tiene mucho mérito; no solamente conserva un proceso de aprendizaje basado en la contigüidad sino que también predice las condiciones bajo las cuales podríamos ser capaces de inducir una “ilusión de control” en un programa contingente. Dado que el impacto nocivo de los resultados se atribuye al condicionamiento contextual, si de algún modo pudiésemos prevenir o minimizar este condicionamiento, seríamos capaces de mantener la efectividad de los resultados contiguos así como también la ejecución realizaba bajo un programa no contingente. Una manera de hacerlo es aprovechar el fenómeno “ensombrecimiento” (overshadowing). Pavlov (1927) observó que el condicionamiento hacia un estímulo se reducía o sombreaba, cuando éste se reforzaba al estar compuesto con otro estímulo. De este modo, si se señala cada resultado no contiguo por un estímulo discreto, digamos una luz breve, entonces el monto de condicionamiento a las claves contextuales se reduciría. A su vez, esto tendría el efecto de mantener la naturaleza sorprendente de los resultados pareados con la acción y por lo tanto de su habilidad para dar lugar para el aprendizaje instrumental. Tanto Hammond y Weinberg (1984) como Dickinson y Charnock (1985) informaron precisamente acerca de este efecto; el señalar cada resultado no contiguo elevó la tasa de conducta de apretar la palanca, en un programa no contingente, aún cuando esta acción no tenía efecto causal en la frecuencia de los resultados. D. Programas de Intervalo En resumen, hemos visto que un simple proceso de aprendizaje basado en la contigüidad puede dar cuenta de la sensibilidad de la ejecución instrumental a las variaciones en la efectividad causal de una acción. Todo lo que necesitamos aceptar es que la ocurrencia de cada resultado contiguo e inesperado, fortalece las conexiones asociativas subyacentes, mientras que la ejecución de la acción, en ausencia de un resultado real y contiguo, debilita estas conexiones. En consecuencia, el determinante principal de la ejecución sería la probabilidad de un resultado o, en otras palabras. La probabilidad de reforzamiento. Sin embargo, lo que está menos claro es si acaso ese proceso puede también dar cuenta del efecto de otro importante determinante de la relación ejecución instrumental- resultado o, dicho de otro modo, tasa de reforzamiento. El punto central en este sentido puede mostrarse considerando dos fuentes distintas de resultados. Hace un rato, discutimos una fuente inagotable e inextinguible; cada ejecución de la acción tiene la probabilidad fija de causar un resultado. A este tipo de fuente, generalmente, se le conoce como un programa de razón, en el cual la contingencia mantiene, en promedio, una proporción constante entre el número de acciones ejecutadas y el número de resultados generados.Los programas de razón se caracterizan por una función lineal entre la tasa de ejecución de la conducta y la tasa de ocurrencia de los resultados. El ejemplo específico que se muestra en la figura 5 tiene el valor de razón de 20, de modo que la probabilidad de reforzamiento es de 0,005. UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE Aunque muchos recursos importantes en el mundo se adaptan a una razón de contingencia, hay otra clase que se acaba y luego, con el tiempo, se regenera. Las fuentes de alimento orgánico son, típicamente de esta clase. Estas fuentes se pueden manejar asumiendo que un resultado se vuelve disponible, con cierta probabilidad fija, durante un intervalo de tiempo. De este modo, cada fuente puede caracterizarse por un intervalo temporal promedio entre los resultados disponibles sucesivamente y, por esta razón, la contingencia se conoce como un programa de intervalo. La función de retroalimentación para el programa de intervalo representado en la figura 5, produce una entrega de resultado, una vez cada 17,5 segundos, en promedio, de modo que esas tasas de acción suficientemente alta, producen una tasa de resultado de 3.4 por minuto, aproximadamente. Las funciones de retroalimentación que aparecen en la figura 5, muestran que las contingencias de intervalo y de razón determinan diferentes relaciones causales entre la tasa de trabajo y la tasa de pago. Mientras que un sujeto puede generar una tasa más alta de ganancias trabajando más rápido, en un programa de razón, hay escasa o ninguna ganancia por realizar la acción más rápido bajo la contingencia de intervalo una vez que la tasa de acción es lo suficientemente alta como para recoger todos los resultados disponibles en un período de tiempo dado. Por consiguiente, si los animales son sensibles a estas diferentes funciones de retroalimentación, uno podría esperar que ejecutasen la acción más rápido en un programa de razón que en el caso de un programa (o contingencia) de intervalo análogo, predicción que ha sido confirmada en numerosos estudios. Dawson y Dickinson (1990), por ejemplo, entrenaron a ratas hambrientas a tirar de una cadena para obtener comida en un programa de razón, bajo el cual la probabilidad de reforzamiento por cada tirón de cadena era 0.005. Sus tasas promedio de tirar de la cadena, en las últimas cinco sesiones de entrenamiento, cuando la ejecución era estable, se muestra en la figura 5. A cada uno de esos animales del programa de razón, le correspondía una rata “igual”, entrenada en un programa de intervalo que entregaba la misma tasa de refuerzo o de resultado. Por razones teóricas, que escapan del objetivo de esta discusión, Dawson y Dickinson, implementaron el programa de intervalo haciendo una grabación de la tasa de conducta de tirar la cadena del animal, esto con las últimas 50 conductas y luego estableciendo la probabilidad de reforzamiento para la siguiente conducta de tirar la cadena, con un valor que asegurase la tasa de resultado adecuada si el animal continuaba ejecutando la conducta a la misma tasa. Como puede verse en la figura 5, el procedimiento fue un éxito en lo que se refiere a igualar las tasas de reforzamiento en los programas de razón y de intervalo. Sin embargo, el hallazgo importante de este estudio fue que los animales ejecutaron la conducta, el doble más rápido en el programa de razón y no en el programa con contingencia de intervalo (ver figura 5). Esta diferencia es completamente razonable dada la naturaleza de las funciones de retroalimentación de los dos programas –si las ratas del programa de razón hubiesen jalado de la cadena, con la misma tasa de respuesta que los animales del programa de intervalo, habrían ganado sólo la mitad de los resultados, mientras que los animales del programa de intervalo no habrían podido incrementar su tasa de resultado, sin importar cuan rápido hubiesen tirado de la cadena. Sin embargo, este resultado es problemático para un simple proceso de aprendizaje basado en la contigüidad, el cual, como hemos visto, predice que la fuerza de la acción se incrementaría con la probabilidad de reforzamiento. En contraposición a esta predicción está el hecho de que UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE este programa de intervalo mantuvo una tasa de acción más baja, aún, cuando la posibilidad e reforzamiento era cerca del doble que en el de contingencia de razón. De acuerdo a Baum (1973) podríamos decir que los animales son sensibles al modo en el cual el número de resultados generados en ciertos espacios de tiempo relativamente breves (Ej., de 10 segundos similares) varía de acuerdo a los cambios en el número de acciones ejecutadas en cada espacio de tiempo, permitiéndoles, de ese modo, evaluar la contingencia o la correlación entre las tasas de acción y las de resultado, durante esos espacios de tiempo. El proceso de aprendizaje, previsto por este planteamiento, es sensible no a la contigüidad entre las acciones individuales y los resultados, sino a la contingencia o correlación entre las tasas locales de ejecución y los resultados. Loa programas de intervalo generan contingencias relativamente bajas y por lo tanto, tasas bajas de ejecución, como lo hacen los programas de razón con los resultados contiguos. Más aún, este planteamiento también predice el efecto dañino de los resultados con demora; mientras más larga la demora más probable es que el resultado entregado en un espacio de tiempo posterior y diferente a aquel que contenía la acción que lo causó, con el efecto de reducir la contingencia local. El problema en esta teoría correlacional, es explicar por qué los programas de intervalo mantienen una tasa de ejecución tan alta, como efectivamente sucede, dado la baja correlación con la tasa de resultado. Si aceptamos que esta correlación determina el conocimiento instrumental o, en términos del modelo asociativo-cibernético (ver Fig. 2), la fuerza de la conexión entre las unidades de acción y de resultado en la memoria asociativa, esta conexión se debilitaría bajo la contingencia de intervalo, dejando que la ejecución quedase determinada primariamente por los procesos de hábitos, los cuales están representados en el modelo por el fortalecimiento de la conexión entre las unidades de estímulo y de respuesta en la memoria del hábito. Esto significa que, a diferencia de la ejecución de razón, la conducta instrumental en un programa de intervalo sería previamente un habito E-R y no una acción basada en el conocimiento de la relación acción-resultado. Una predicción obvia de este análisis es que la ejecución establecida por un programa de intervalo sería relativamente insensible a la devaluación del resultado. Dickinson, Nicholas y Adams (1983) evaluaron esta predicción comparando el efecto de la devaluación del resultado en un programa de intervalo y en uno de razón, después de un entrenamiento comparable, en ambos. Mientras que se observó un efecto de devaluación estándar después de un entrenamiento de razón, un condicionamiento aversivo al resultado no tuvo un efecto detectable en la ejecución instrumental durante las posteriores pruebas de extinción cuando las ratas habían sido entrenadas inicialmente a apretar la palanca en un programa de intervalo. Aunque este resultado concuerda con la idea de que la ejecución de intervalo puede estar controlada primariamente por un proceso de hábito E-R, lo que este argumento no explica es por qué esa ejecución es una función ordenada de la tasa a la cual ocurren los resultados. Hermstein (Ej., de Villiers & Hermstein, (1976) estableció que la tasa de respuesta en los programas de intervalo es una función acelerada negativamente de la tasa de reforzamiento expresada como: B = aR / (b + R) UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍAUSO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE donde B es la tasa de respuesta, R la tasa de reforzamiento y a y b son parámetros. A la base de la educación de Hermstein, existe el argumento de que la tasa de reforzamiento ejerce un efecto directo en la ejecución instrumental. De acuerdo a Killeen (1982), por ejemplo, los resultados no sólo refuerzan las acciones inmediatamente precedentes sino que también mejoran la ejecución, en general, por un período después de la presentación. Por supuesto, de acuerdo a esto, mientras más alta sea la frecuencia de los resultados más grande será el nivel total de esta influencia motivacional. VI. INTERACCIONES PAVLOVIANA-INSTRUMENTAL Killeen también sugirió que esta influencia motivacional puede ser condicionada a las claves contextuales a través de pareaciones de éstas con el resultado. El rol potencial de este condicionamiento ya se discutió cuando se hizo el análisis del efecto de los resultados no contiguos, donde este condicionamiento actuó atenuando el impacto de los resultados contiguos en el aprendizaje instrumental, a través del condicionamiento contextual. Además, el condicionamiento contextual ejerce una influencia de potenciación en la ejecución, idea que, de hecho, tiene una respetada historia bajo el nombre de teoría de los dos procesos (Rescorla y Solomon), (1967). Dentro de una versión de esta teoría, los resultados contiguos se aceptan no sólo como eventos que refuerzan acciones inmediatamente precedentes sino que también como eventos que pueden condicionar una influencia motivacional en los estímulos acompañantes, de modo que tales estímulos aumentarán el “output” conductual. La evidencia para la teoría de los dos procesos viene de los estudios de transferencia pavloviana-instrumental. Lovibond (1983), por ejemplo, entrenó a conejos hambrientos a levantar una palanca para la entrega de solución de azúcar directamente en sus bocas a través de una fístula oral. Entonces se les sacaba la palanca y comenzaba la segunda etapa pavloviana, en la cual un estímulo de 10 segundos se pareaba con las entregas de azúcar. Finalmente, Lovibond evaluó el efecto de presentar el estímulo pavloviano mientras los animales estaban concentrados en la tarea instrumental. Si el condicionamiento pavloviano reviste al estímulo con propiedades motivacionales, la tasa de levantamiento de la palanca se elevaría durante la presentación del estímulo, y esto es lo que Lovibond observó. Sin embargo, el que este efecto de transferencia entregue o no, realmente, evidencia contundente para la versión motivacional de la teoría de los dos procesos, es materia de controversia. Una alternativa favorecida, en cambio, por Trapold y Overmier (1972), dice que los estímulos pavlovianos actúan reintegrando las condiciones que son más parecidas a aquellas en las cuales se entrenó la acción instrumental. Esta idea, quizá quede mejor ilustrada considerando otro estudio de transferencia pavloviano-instrumental, esta vez conducido por Colwill y Rescorla (1988). En el comienzo de la etapa pavloviana, es estableció un estímulo como señal de un resultado en particular; para la mitad de las ratas hambrientas el resultado fue una bolita de comida, mientras que el resto recibió una solución de azúcar como resultado. Luego, cada rata recibió el entrenamiento instrumental en el cual el apretar la palanca producía uno de los resultados y el tirar la cadena producía el otro en sesiones separadas. El diseño de la parte relevante de este estudio para la presente discusión, se muestra en la mitad superior de la Tabla 1; los animales que recibieron las bolitas por apretar la palanca y aquellos que recibieron el azúcar por tirar la UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE cadena (al resto de los animales se les asignó la relación acción-resultado opuesta durante el entrenamiento). (5) Como consecuencia de este entrenamiento los animales aprendieron a presionar la palanca en el momento en que las claves contextuales se asociaban con las bolitas y a tirar la cadena cuando esas claves se pareaban con la solución de azúcar. En la prueba posterior a los animales se les dio, por primera vez, la oportunidad de ejecutar ambas conductas, presionar la palanca y tirar la cadena en presencia del estímulo pero sin recibir ningún resultado (extinción). Para los animales probados con el estímulo que había sido pareado con las bolitas, esta condición sería más parecida a aquella en la cual se entrenó a apretar la palanca, por lo tanto si los estímulos pavlovianos controlan la ejecución instrumental reintegrando las condiciones de entrenamiento, las ratas apretarían más la palanca de lo que tirarían la cadena. Por el contrario, se observaría el patrón opuesto cuando el estímulo se parease con la solución de azúcar. Este es el resultado entregado por Colwill y Rescorla (1988, ver Tabla 1). Aunque quedan pocas dudas de que los estímulos pavlovianos pueden controlar las acciones instrumentales entrenadas con un resultado común, esto no significa que abandonemos la hipótesis de motivación. Dickinson y Dawson (1987) también realizaron un experimento de transferencia pavloviana-instrumental usando bolitas de comida y solución de azúcar como resultados, pero en este caso cada uno fue pareado con un estímulo pavloviano diferente durante el entrenamiento (ver mitad inferior de la Tabla 1). Además, a todas las ratas se les enseñó a apretar la palanca en ausencia de cualquier estímulo, pero en este caso, sólo se entregaba bolitas de comida. Aunque a todos los animales se les entrenó estando hambrientos, sólo la mitad de ellos fueron probados en este estado. Esta prueba evaluó la tasa de apretar la palanca en presencia de los dos estímulos, nuevamente sin recibir ningún resultado. De acuerdo al patrón observado por Colwill y Rescorla (1988), el estímulo asociado con el mismo resultado para la acción –las bolitas- controlaron las tasas más altas de apretar la palanca cuando los animales estaban hambrientos durante la prueba. El grupo crítico, sin embargo, estuvo compuesto de animales probados mientras estaban sedientos en lugar de hambrientos. El objetivo de cambiar desde un entrenamiento en estado de hambre a una prueba en un estado de sed fue alterar la relevancia motivacional de los dos resultados. Mientras que los dos resultados son relevantes para el estado de hambre, la solución de azúcar actúa como un resultado más efectivo que las bolitas de comida cuando los animales están sedientos. De acuerdo a esto, podríamos esperar que un estímulo pareado con la solución y no con las bolitas ejerza un efecto motivador mayor cuando los animales están sedientos. Así, en la prueba bajo el estado de sed se opuso este efecto motivante del estímulo pavloviano contra la reintegración de las condiciones de entrenamiento. En este caso la influencia motivacional triunfó ya que los animales sedientos apretaron más cuando estaba el estímulo pareado con la solución de azúcar. Dickinson y Balleine (1990) observaron un efecto similar después de un cambio desde un estado de sed a un estado de hambre. Por lo tanto, parece claro que los estímulos pavlovianos ejercen una influencia en la ejecución instrumental por dos procesos. El primero funciona cuando el estímulo y la acción comparten resultados y operan reintegrando las condiciones en las cuales la acción fue condicionada. Por el contrario, el segundo depende de la relevancia del resultado UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE Pavloviano para el estado motivacional del organismo y se manifiesta como una influencia potenciadora general en la conducta instrumental (6). VII. CONTROL DISCRIMINATORIO El hecho de que los estímulos contextuales con los cuales se entrena una acción instrumental pueden ejercer control sobre la ejecuciónde esa acción es un ejemplo del fenómeno general de control discriminatorio. Si al apretar la palanca entrega comida en presencia de un estímulo pero no en su ausencia, las ratas aprenden rápidamente a apretar sólo cuando está presente el estímulo. Dado que los animales usan el estímulo para discriminar los períodos en los cuales hay una contingencia instrumental, entre la acción y el resultado, de los períodos en los cuales no hay contingencia, a éste se le llama estímulo discriminatorio. Dado que los estímulos asociados con el resultado pueden potenciar la ejecución instrumental, el control discriminativo puede representar la operación de una asociación Pavloviana directa entre el estímulo discriminativo y el resultado. De modo alternativo, un estímulo puede adquirir control sobre una respuesta instrumental a través de los mecanismos de hábito previstos por la Ley del Efecto. Así, en términos del modelo asociativo-cibernético (ver fig 2), reforzar la respuesta en presencia del estímulo actuaría para fortalecer una conexión entre la unidad de entrada, activada por el estímulo en la memoria del hábito, y la unidad de respuesta. Sin embargo, un reciente estudio de devaluación del resultado hecho por Colwill y Rescorla (1990), deja en claro que el control discriminativo puede implicar procesos que trascienden ambos mecanismo. El diseño de su estudio se muestra en la Tabla 2. En la primera etapa de entrenamiento de discriminación, se entrenó a las ratas a ejecutar dos acciones, apretar la palanca o tirar la cadena, obteniendo así dos resultados; una solución de azúcar y unas bolitas de comida, conjuntamente con la presencia de dos estímulos, un ruido y una luz. En un estímulo el apretar la palanca produjo la solución de azúcar y el tirar la cadena las bolitas de comida, mientras que esta relación acción-resultado se revirtió para el segundo estímulo. En la segunda etapa, uno de los resultados (O2 en la tabla 2) fue devaluado pareando su consumo con la inducción de un malestar gástrico hasta que la ingesta fue suprimida. Finalmente, a los animales se les dio una elección entre las dos acciones durante las presentaciones, por separado, de ambos estímulos en una prueba de extinción. La tesis Pavloviana predice que el tratamiento de devaluación no tendría efecto en la ejecución relativa de apretar la palanca y de tirar la cadena durante la presentación de ambos estímulos; se parearon con la solución de azúcar y con las bolitas de comida, el devaluar uno de esos resultados tendría un efecto equivalente en la ejecución durante la presentación de los dos estímulos. Al contrario de estas predicciones, durante la prueba, los animales fueron renuentes a ejecutar la acción entrenada con el resultado evaluado; en presencia de E1 ellos ejecutaron menos A2 que A1, mientras que se observó el patrón opuesto durante la prueba del E2 (ver Tabla 2). A la base de este resultado, Colwill y Rescorla (1990) dijeron que el control discriminativo puede reflejar la codificación de una relación de tres-términos entre el estímulo discriminativo, la acción instrumental, y el resultado. Dentro de esta teoría asociativa un modo de representar esta relación es apelar a una unidad configuracional, la UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE cual se excita, idealmente, por el conjunto de dos de los términos de la tríada (ver Pearce, cap, 5, en este volumen). De este modo, podríamos reemplazar la unidad de acción en la memoria asociativa del modelo asociativo-cibernético (ver fig.2) por una que se excite por el conjunto de un estímulo discriminativo y de un “input” de acción, asegurando así que la acción se ejecute en presencia de un estímulo (7). De acuerdo a este análisis, el entrenamiento de discriminación dado por Colwill y Rescorla (1990) habría implicado cuatro unidades configuracionales (ver Tabla 2): las unidades E1A1 y E2A2, cada una conectada a la unidad O1 y las unidades E1A2 y E2A1, cada una conectada a la unidad O2. Por consiguiente, devaluar la O2 significaría que la activación de cualquiera de las unidades E1A2 o E2A1 indirectamente excitarían la unidad de castigo reduciendo así la ejecución de A2 en E1 y de A1 en E2. Como alternativa a esta propuesta configuracional del control discriminativo, Rescorla (1990) señaló que otra forma de analizar la relación triádica entre un estímulo discriminativo, la acción instrumental y el resultado, es visualizar el estímulo como señal de que la contingencia acción-resultado está operando. En este análisis, el control discriminativo puede reflejar el aprendizaje de la relación condicional entre el estímulo y la relación binaria acción-resultado. En un intento por entregar evidencia para esta tesis condicional, Rescorla (1990) estudió el efecto que producía el destruir la contingencia instrumental después del entrenamiento de discriminación. Sin entrar en detalles del diseño de control y de contrabalanceo (el cual es demasiado complejo), él utilizó un procedimiento de entrenamiento similar a aquél mostrado en la Tabla 2; una acción que produjo un resultado en presencia de un estímulo (E1: A--- O1) y un resultado diferente en presencia de otro estímulo (E2: A ---- O2). Además, a los animales también se les entrenó para ejecutar esta acción y obtener así uno de los resultados, digamos O1, en presencia de un tercer estímulo (E3: A------ O1). El propósito de este tercer estímulo era entregar un contexto con el cual, posteriormente, se pudiese interrumpir la contingencia entre la acción y el primer resultado, O1. De este modo, después del entrenamiento de discriminación, Rescorla permitió que las ratas ejecutaran al acción en presencia del tercer estímulo, pero en ausencia de cualquier resultado (E3: A-), hasta que la ejecución se extinguió La pregunta central es si el tratamiento de interrupción tendrá algún efecto en la ejecución en presencia del primer (E1) y del segundo (E2) estímulo discriminativo. De acuerdo a la simple propuesta configuracional esto no ocurriría. Aunque destruye la conexión entre la unidad configuracional E3A y la unidad O1, aquellas conexiones entre las unidades E1 y E2A y las unidades de resultado permanecerían intactas. De hecho, Rescorla (1990) encontró que este tratamiento de extinción produjo una reducción relativa en la ejecución durante la presencia del estímulo discriminativo que señalaba la misma contingencia acción-resultado, específicamente en E1. Este hallazgo se sigue directamente de la teoría condicional. Durante el entrenamiento los animales habrían aprendido tres relaciones condicionales implicadas en la acción: E1 --- (A----O1); E2----(A—O2); y E3--- (A---O1). El ejecutar la acción en la ausencia de cualquier resultado, frente al E3, llevará al animal a creer que la acción, en general, ya no causa más el primer resultado, O1, mientras que deja su representación de la contingencia acción-O2 intacta. Por consiguiente, cuando el animal es expuesto nuevamente a los estímulos discriminativos, éste continuaría ejecutando la acción frente al E2 pero no frente al E1. De este modo este estudio sugiere UNIVERSIDAD DE CHILE DEPARTAMENTO DE PSICOLOGÍA USO EXCLUSIVO DE LA CÁTEDRA PSICOLOGÍA DEL APRENDIZAJE que el control discriminativo puede ser mediado por la codificación de la relación condicional entre el estímulo discriminativo y la contingencia acción-resultado (8). Relacionando el modelo asociativo-cibernético (ver fig 2) con la afirmación cognitiva o intencional de la acción instrumental, se plantea la conexión entre las unidades de acción y de resultado en la memoria asociativa corresponde a la creencia de que la acción produce el resultado, y la discusión se ha concentrado primariamente en la naturaleza de los procesos de aprendizaje subyacentes a la adquisición de esta creencia binaria. Lo que sugiere el análisis del control discriminativo de Rescorla es que la
Compartir