Texto Condicionamiento Instrumental - A Dickinson

•
Outros

Aprendiendo Juntos
13/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Psicología

249.338 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
 
CONDICIONAMIENTO INSTRUMENTAL 
Anthony Dickinson 
 
Animal Learning and Cognition, 1994. Editado por N.J. Mackintosh, Academic Press. 
Capítulo 3 
 
 
I. INTRODUCCIÓN 
 
La conducta instrumental se refiere a aquellas acciones cuya adquisición y 
manutención depende de las consecuencias que tiene para el animal o, en otras palabras, del 
hecho de que la acción es instrumental al causar ciertos resultados. La significancia 
funcional de la capacidad de realzar una acción instrumental es tan obvia que no necesita 
mayor comentario; es esta capacidad la que nos permite a nosotros y a los otros animales 
aprender a controlar nuestro ambiente al servicio de nuestras necesidades y deseos. 
Considere un animal exclusivamente Pavloviano, equipado solo con la capacidad para 
detectar y aprender respecto a las relaciones predictivas entre la señales y los eventos 
importantes del mundo, pero no respecto de las contingencias entre sus acciones y sus 
consecuencias. Este animal estará obligado a depender del proceso evolutivo que asegure 
que las respuestas elicitadas por determinada señal (estimulo condicionado) sean las 
apropiadas para enfrentarse al evento predicho, y estará, por lo tanto, a merced de un 
ambiente inestable en el cual las consecuencias de su conducta pueden variar. 
Este punto puede graficarse considerando el simple acercamiento a una fuente de 
comida. Por ejemplo, no es raro que un pollo hambriento aprenda rápidamente a acercarse a 
un bolo de comida tan pronto como se le presente. Un análisis instrumental diría que esta 
simple forma de condicionamiento surge de la sensibilidad del pollo a la relación entre su 
conducta de acercamiento y el acceso a la comida. Por el contrario, de acuerdo a una 
explicación Pavloviana es la relación predictiva entre el estimulo del bol y de la comida lo 
que es crucial; una vez establecido como señal de la comida, el ver el bol elicita la 
aproximación, independientemente de las consecuencias reales de esa acción. Mientras que 
esas dos explicaciones no pueden separarse en un ambiente normal y estable, el grado en el 
que el pollo puede adaptarse a los cambios en la estructura causal del ambiente depende de 
cual es la relación que controla la conducta. 
Considere un ambiente en el cual la relación normal entre la locomoción y el 
traslado espacial se revierte de tal modo que para tener acceso al bol de comida el pollo 
tiene que alejarse de el. Hershberger (1986) arreglo un mundo tal “en espejo” empleando 
un corredera poco común en el cual el bol de comida se alejaba el doble de rápido de lo que 
el pollo se acercaba a el y regresaba al doble de la velocidad con el que pollo corría lejos de 
este bol. En cambio, un animal exclusivamente Pavloviano, que fuese insensible a las 
consecuencias de sus actos, nunca seria capaz de adaptarse al mundo “en espejo”. Mientras 
el bol continuase siendo una señal de comida, el animal continuaría ejecutando la respuesta 
elicitada por tales señales, es decir, el intento de aproximación. Y en efecto este fue el 
patrón de conducta observado por Hershberger- los pollos mostraron poca evidencia de 
aprender a correr lejos del bol de comida después de 100 minutos de entrenamiento. De este 
modo, esta simple respuesta de aproximación no parecería estar controlada por su relación 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
instrumental con el resultado, haciendo que el pollo fuese incapaz de adaptarse al nuevo 
ambiente. 
Aunque ambos condicionamientos, el instrumental (Thorndike, 1911) y el 
Pavolviano (Pavlov, 1927) se estudiaron a comienzos de siglo, a los estudiantes de 
aprendizaje les toma un tiempo apreciar la diferencia critica entre las dos formas. Millar y 
Konorski (1969), normalmente tienen el crédito de ser los primeros en hacer la distinción 
en 1928. Ellos le doblaron pasivamente la pata a un perro en presencia de un estimulo y 
parearon esta situación compuesta con la presentación de comida. Después de varias de 
tales pareaciones, el perro comenzó a doblar su pierna espontáneamente cuando se le 
presentaba el estimulo, una respuesta condicionada contraria, según dijeron , al principio de 
Pavlov de substitución de estimulo de acuerdo a este principio, la exposición a las 
pareaciones estimulo-resultado otorga al estimulo la capacidad de actuar como sustituto o 
subrogado del resultado (o consecuencia) y elicitar, por lo tanto, la misma respuesta; sin 
embargo como destacan Miller y Konorski, la habilidad del estimulo de controlar la flexión 
de la pata no podía explicarse en términos de que este se convirtiese en sustituto para la 
comida.. Por esta razón ellos argumentaron una segunda forma de condicionamiento al cual 
ellos llamaron Tipo II, en general, por la misma razón, específicamente que el principio de 
Pavlov no podía explicar por que las ratas hambrientas aprenden a apretar una palanca, a 
libre disposición, para recibir comida. 
Aunque obviamente estos estudios fueron un desafío para la sustitución de estimulo 
como principio universal de condicionamiento, lo que no lograron demostrar fue el carácter 
instrumenta del condicionamientos Tipo II, es decir que esta controlado por la relación 
entre la acción condicionada y el resultado. El que la conducta puede ser controlada por 
esta relación fue demostrado por primera vez por Grindley en un artículo publicado en 
1932. Grindley entreno a cerdos guinea, inmovilizados a girar sus cabezas a la izquierda o a 
la derecha y luego volverla nuevamente al centro cuando sonaba un timbre con el fin de 
obtener la oportunidad para morder una zanahoria. Lo que estableció que esta conducta esta 
bajo control de la relación acción – resultado fue el hecho de que los animales revertirían la 
dirección de giro de sus cabezas cuando la contingencia instrumental fuese invertida. En 
otras palabras, cuando la relación estimulo-resultado entre el timbre y la zanahoria se 
mantuviese constante (1), la conducta seria controlada por su relación con el resultado y, 
manteniendo las otras cosas iguales, este condicionamiento bidireccional puede tomarse 
como ensayo típico de control instrumental. 
Tradicionalmente los psicólogos conductuales han identificado los tipos de 
condicionamiento en términos de las contingencias ambientales más que en términos de las 
relaciones que realmente controlan la ejecución, y por esta razón la conducta espacial en los 
corredores y en los laberintos ha sido clasificada típicamente como instrumental. Sin 
embargo, como hemos visto, hay buenas razones para dudar de que tal conducta esté 
controlada, de hecho, por su relación instrumental con el resultado. 
También se han expresado preocupaciones similares respecto al estatus instrumental 
de otras conductas ampliamente estudiadas, tal como el picoteo a la clave de la paloma (Ej., 
Moore, 1973). De acuerdo a esto, la discusión actual se focalizará en el procedimiento 
operante-libre introducido por Skinner en 1932 en el cual las ratas aprenden a apretar una 
palanca a libre disposición que conduce, a un atractivo resultado, como es una bolita de 
alimento. Hay buena evidencia de que esta acción esta bajo el control de la relación 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
instrumental. En contraste con la conducta de aproximación de los pollos de Hershberger 
(1986), la operante-libre de apretar la palanca, ejecutada por las ratas, es sensible a la 
inversión de la relación acción-resultado. Después de haber entrenado a sus ratas a apretar 
la palanca para obtener comida, Davis y Bitterman (1971) cambiaron la contingencia de 
modo que, ahora, cada presión de palanca pospone la entrega de comida que de otro modo 
hubiese ocurrido. Esta contingencia de omisión redujo la respuesta, mas rápidamente que 
un programa simple de no contingenciabajo el cual, la comida se entregaba 
independientemente del apretar la palanca (revise Ej., Uhl, 1974). Sin embargo quizás la 
mejor evidencia de que la manipulación de una palanca, por parte de las ratas en un 
programa de operante-libre, esta bajo control Instrumental, proviene de un estudio de 
castigo realizado por Bolles, Holtz, Dunn y Hill (1980). Ellos entrenaron ratas para que 
presionaran la palanca, tanto hacia abajo como hacia arriba, para obtener bolitas de comida. 
El programa fue tal que, algunas veces se requería una presión para obtener la siguiente 
bolita y otras veces se requería levantar la palanca, esto estaba arreglado de tal manera que 
era impredecible para el animal, y por lo tanto las ratas aprendieron a intercalar el presionar 
y el levantar la palanca. Luego, Bolles et al. Intentaron castigar una de las categorías de esta 
conducta bidireccional haciendo que a la conducta de presionar o de levantar la palanca, le 
siguiese un choque eléctrico. Aunque la introducción de la contingencia de castigo 
suprimió ambas acciones en cierto grado, la categoría sobre la cual el choque fue 
contingente se ejecuto a un nivel significativamente mas bajo. Implementando este ensayo 
bidireccional, Bolles el al. (1980) fueron capaces de demostrar que estas acciones son 
sensibles a su relación instrumental con el resultado. 
Este experimento también ilustra el hecho de que las acciones pueden entrar en 
diferentes relaciones instrumentales con los resultados. El estudio original de Skinner 
(1980) implicaba una contingencia positiva entre la acción y el resultado en el que el 
apretar la palanca incrementaba la probabilidad de acceso a la bolita de comida. Dado que 
esta acción era fortalecida o se reforzaba a través de una contingencia positiva con el 
resultado, esta forma de condicionamiento es conocida como un ejemplo de reforzamiento 
positivo y el resultado es identificado como recompensa o como reforzador positivo. Por el 
contrario, el procedimiento de castigo de Bolles et al. (1980) era un caso en el cual una 
contingencia positiva entre la acción y el resultado llevaba a una reducción en la ejecución. 
En correspondencia a estos dos casos hay otros en los cuales se hace un arreglo de relación 
negativa entre la acción y el resultado de tal modo que la ejecución de la acción cause la 
omisión de un evento que de otro modo habría ocurrido (evitación) o la irrupción de un 
estimulo (escape). Cuando tal relación sirve para incrementar la probabilidad de la acción, 
entonces tenemos un ejemplo de reforzamiento negativo donde el evento suprimido (o 
terminado) se llama reforzador negativo. La evitación ha recibido una gran atención 
experimental (Ej., Sidman 1966) no solo por su importancia funcional obvia sino también 
por los problemas teóricos que genera (Ej., Hernstein 1969; Seligman y Johnston, 1973). 
Sin embargo, este asunto va mas allá del objetivo de este capitulo, el cual se dirigirá 
exclusivamente hacia lo que parece ser el caso menos problemático, es decir el 
condicionamiento por recompensa o reforzamiento positivo. 
 
II. ACCIONES Y HABITOS 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
Cuando Grindley (1932) desafió la ubicuidad del principio de sustitución de 
estimulo de Pavlov, atribuyó el desarrollo del conocimiento instrumental a la formación de 
una conexión estimulo-respuesta, como lo había hecho previamente Thorndike (1911) en la 
formulación de su “Ley del Efecto”. La presentación de un resultado efectivo después de 
una acción, decía Thorndike, refuerza una conexión entre los estímulos presentes cuando se 
ejecuta la acción y la acción misma, de modo que las presentaciones subsecuentes de esos 
estímulos elicitan la acción instrumental como una respuesta. El rasgo mas contradictorio 
de tales teorías estimulo respuesta (E-R) ha dado siempre la afirmación de que el 
conocimiento de la contingencia instrumental entre la acción y el resultado no juega ningún 
rol en la ejecución de la acción. De acuerdo a esta teoría de reforzamiento/estimulo-
respuesta, una acción instrumental es simplemente una respuesta habitual gavillada por los 
estímulos de entrenamiento. 
Aunque nuestra psicología popular reconoce el rol de los hábitos, le da un matiz 
diferente a las acciones instrumentales dirigida-a-meta. En los discursos de cada día 
explicamos esas acciones en términos de procesos cognitivos o intencionales, es decir, se 
explica por la interacción de una creencia instrumental respecto a la relación causal entre 
una acción y su resultado posterior, y un deseo respecto a ese resultado. Así por ejemplo, la 
acción de operar el interruptor de la luz en una habitación oscura se explica por una 
creencia del sujeto de que la ejecución de esta acción producirá luz y por su deseo de luz. 
Es la interacción de estos dos estados mentales lo que produce el antecedente mental 
inmediato para la conducta, es decir la intención de operar el interruptor. En el apogeo de la 
teoría (E-R) (Gurthrie, 1952; Hull, 1943; Spence 1956), Tolman (1932–1959) defendió una 
posición parecida a aquella de la psicología popular. A una creencia instrumental respecto a 
las consecuencias de una acción, el la identifico como “disposición de medios y fines”, la 
cual cuando se activa en forma de “expectativa”, podría interactuar con el “valor” que el 
organismo le otorga al resultado para determinar la ejecución instrumental. Sin embargo 
hay dudas respecto al supuesto estatus ontológico de los conceptos de Tolman (Amundson 
1986), cuando se interpreta, desde el punto de vista de un realista mental, su psicología de 
expectativa-valor en base a la explicación cognitiva “creencia-deseo” de la psicología 
popular. 
Tradicionalmente el conflicto entre las teorías cognitivas y de (E-R) se han 
discutido en el campo del aprendizaje latente. En un estudio de aprendizaje latente típico, el 
animal en un comienzo, es entrenado a ejecutar alguna acción instrumental para obtener un 
resultado. Entonces el valor de este resultado se cambia de algún modo sin permitirle al 
animal volver a experimentar la relación acción-resultado anterior, finalmente se evalúa la 
tendencia a ejecutar la acción. Si el entrenamiento inicial simplemente estableció un habito 
(E-R) reforzado por el resultado, un cambio posterior en el valor del resultado no tendría 
impacto en la ejecución, dado que no hubo ninguna experiencia posterior con l contingencia 
acción-resultado. Ya que la relación entre la acción y el resultado no es codificada o 
representada como un habito E-R, una vez que el resultado ha hecho la función de reforzar, 
durante el entrenamiento instrumental inicial, cualquier cambio posterior en sus 
propiedades no tendría efecto en la ejecución. Por el contrario, una explicación cognitiva o 
intencional esperaría un impacto inmediato en la ejecución producto de la revaloración del 
resultado; la acción instrumental, mediada por el deseo del animal por el resultado 
reflejaría, directamente, cualquier cambio en el valor del resultado. 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
 Aunque el aprendizaje latente fe estudiado intensamente varios años atrás, estos 
estudios clásicos, casi sin excepción, emplearon tareas de aprendizaje espacial (ver 
MacCorquodale & Meehl, 1954, Thiestlewaite, 1951 para revisión) donde el estatus 
instrumental que hemos visto es ambiguo. Adams y Dickinson (1981) fueron los primeros 
en distinguir exitosamente entre las explicaciones E-R y las cognitivas en relación a la 
conducta de apretar la palanca de la rata usando un procedimiento de devaluación del 
resultado. La base de este procedimiento era similar a aquella que subyacía en los estudios 
de aprendizaje latente. Los animales fueron entrenados, inicialmente, a apretar la palanca 
usando dos tipos de bolitas de comida, bolitas de composición mixta estándar y bolitas de 
azúcar; un tipode bolita, el reforzador, se le entregaba contingentemente con el apretar de 
la palanca, mientras que la otra, se le entregaba de modo no-contingente (2). De acuerdo a 
la teoría cognitiva, este entrenamiento habría establecido la creencia de que el apretar la 
palanca causa la entrega de reforzador (pero no así en el caso de la bolita no-contingente), y 
por lo tanto, cualquier cambio posterior en el valor del reforzador se expresaría 
inmediatamente en la ejecución instrumental . La teoría del habito (E-R), por el contrario, 
vería el apretar la palanca como una respuesta elicitada por los estímulos contextuales de la 
situación de entrenamiento y por lo tanto, insensible a la revaloración del reforzador. 
Para probar estas contrastantes predicciones, se devaluó uno de los tipos de bolitas 
El procedimiento de devaluación se baso en el hecho de que si el consumo de un alimento 
saborizado es seguido por una enfermedad gástrica, inducida en este caso por una 
inyección de clorídeo de litio (Lic.), el animal desarrolla una aversión a la comida tal que 
esta ya no funciona como recompensa. De este modo, inmediatamente después del 
entrenamiento instrumental, se estableció una aversión al reforzador, para algunos de los 
animales y no para otros. La palanca no estuvo presente durante este condicionamiento 
aversivo y los dos tipos de bolitas fueron presentadas independientemente de cualquier 
acción instrumental en días alternados. Los animales del condicionamiento pareado que 
recibieron eyecciones de Lic. Después de la exposición al reforzador, en cambio, en el 
grupo no pareado, la inyección ocurrió después de la exposición a la comida no-
contingente. De modo tal que este diseño implico cuatro grupos: P-A, P-E, NP-A, NP-E, 
donde el primer termino se refiere a si la inyección fue pareada (P) o no pareada (NP) con 
la exposición al reforzador durante el entrenamiento aversivo y el segundo termino a si el 
reforzador era la bolita azucarada (A) o la bolita estándar (E). 
Como muestra la figura A1, cuando el impacto de este tratamiento en la ejecución 
instrumental fue evaluado, dando acceso a la palanca nuevamente, los animales para los 
cuales el reforzador había sido devaluado, grupos P-A y P-E apretaron menos que los 
respectivos grupos de control, grupos NP-A y NP-E, para los cuales la aversión fue 
condicionada a la comida no-contingente y no al reforzador. Hay dos rasgos dignos de 
mención en este procedimiento de devaluación. El primero es que esta prueba fue llevada a 
cabo sin presentarse ningún resultado (esto es, en extinción). Si Adams y Dickinson 
realmente hubiesen presentado las bolitas de comida contingente con el apretar la palanca 
durante la prueba, esta conducta habría sido castigada con el resultado, ahora, aversivo. Sin 
embargo, haciendo la prueba en extinción, Adams y Dickinson aseguraron que la ejecución 
diferencial de los dos grupos reflejara la interacción del conocimiento adquirido durante el 
entrenamiento instrumental con los valores relativos de los dos resultados (consecuencias) 
después de la devaluación. 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
El segundo rasgo importante del diseño es que la única diferencia entre el 
tratamiento recibido por los dos grupos fue la relación entre el apretar la palanca durante el 
entrenamiento instrumental y las bolitas devaluadas y las no devaluadas. Así cualquier 
efecto diferencial del tratamiento de devaluación en los dos grupos, tiene que haber sido 
mediado por la experiencia con la contingencia entre el apretar la palanca y los resultados 
durante el entrenamiento inicial. Colwill y Rescorla (1985) verificaron el mismo punto 
entrenando a sus ratas a ejecutar dos acciones diferentes, apretar la palanca y tirar una 
cadena, para obtener consecuencias distintas, antes de devaluar una de las consecuencias. 
Cuando, posteriormente, a los animales se les dio la oportunidad de elegir entre la ejecución 
de las dos acciones, en extinción, mostraron una preferencia por aquella asociada con el 
resultado no devaluado durante el entrenamiento inicial. 
En conjunto, estas dos características del efecto de devaluación, apoyan claramente 
el rol de los procesos cognitivos en la acción instrumental. Sin embargo, Esto significa que 
los hábitos E-R no jueguen ningún rol en el comportamiento instrumental. Es curioso que 
en ambos estudios, Adams y Dickinson (1981) y Colwill y Rescorla (1985), observaron una 
ejecución residual de la acción asociada con el resultado del alimento devaluado, aún 
cuando los animales no comieran el alimento después del condicionamiento aversivo 
(observe la ejecución de los grupos P-A y P-E en el primer bloque de 5 minutos de la 
prueba de extinción en la figura 1). Es improbable que esta ejecución residual refleje un 
fracaso en producir una devaluación total de los resultados. Como muestra la figura 1B, 
cuando Adams y Dickinson intentaron restablecer la ejecución presentando, contingente al 
apretar la palanca, primero el reforzados inicial y luego el alimento no contingente, los 
resultados devaluados fallaron en actuar como reforzadores efectivos. De modo que, la 
respuesta residual, observada durante la prueba de extinción en la Fig. 1A, sugiere que el 
entrenamiento instrumental convierte al “apretar la palanca”, en parte , en una acción 
dirigida-a-meta, mediada por el conocimiento de la relación instrumental, e en parte, en un 
hábito E-R insensible a la devaluación del resultado. Y como veremos, hay razones para 
creer que la naturaleza de la contingencia acción-resultado podría bien determinar el 
carácter de la ejecución instrumental en este sentido. 
 
III CONOCIMIENTO INSTRUMENTAL 
 
Cualquiera sea la contribución de un mecanismo de hábito, el efecto de la 
devaluación del resultado demuestra que al apretar la palanca de la rata debe estar, al menos 
en parte, controlado por el tipo de expectativa instrumental o creencia, prevista por Tolman. 
Sin embargo, el problema con la teoría de Tolman es que nunca especificó el mecanismo 
psicológico por el cual las expectativas o creencias interactúan con los deseos o valores 
para causar la conducta instrumental, dejando así, el paso abierto para la famosa burla de 
Guthrie (1952, p. 143) de que las ratas de Tolman quedan “ensimismadas”. Se han 
propuesto dos mecanismos , los dos de naturaleza asociativa: el primero es la teoría 
direccional de Pavlov, mientras que el segundo, al cual yo me refiero como el modelo 
asociativo-cibernético, fue ofrecido por Thorndike (1931) como una alternativa a la Ley del 
Efecto. 
 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
A. La Teoría Bidireccional 
 
Sólo en parte dirigida por Pavlov (1932), la explicación bidireccional del 
condicionamiento instrumental, fue desarrollada y completada por sus estudiantes, como un 
ejemplo, Asratyan (1974; vea Gormezano & Tait, 1976, para una revisión). Cuando se 
traslada a términos asociativos, la idea básica es que la pareación de los dos eventos 
establece no sólo una conexión hacia delante desde la(s) unidad(es) representacional (es) 
activadas por el primer evento, E1, a la(s) unidad(es) activadas por el segundo evento, E2, 
(el cual media el comportamiento Pavloviano estándar), sino también una conexión hacia 
atrás desde E2 al E1. Y es esta conexión hacia atrás la que media el condicionamiento 
instrumental cuando E1 es la acción instrumental y E2 es el reforzador. Así, poner al 
animal en el contexto experimental, después del entrenamiento instrumental, excitará una 
unidad representacional correspondiente al reforzador a través de su asociación Pavloviana 
con los estímulos contextuales, y esta excitación a su vez activará la unidad de respuesta a 
través de la asociación hacia tras producida por la contingencia instrumental, produciendo 
así la ejecución de la respuesta. Cuando se interpreta en términos cognitivos,la excitación 
de la unidad del reforzador representa el valor asignado al resultado, y la activación de la 
conexión desde el reforzador hacia la unidad de respuesta, la expectativa del resultado dad 
la ejecución de la acción instrumental. 
Esta propuesta ubica al aprendizaje instrumental dentro de la afirmación general de 
que la pareación de dos eventos establece conexiones excitatorias bidireccionales entre sus 
unidades representacionales. Por otra parte, el hecho de que el comportamiento excitatorio 
hacia atrás puede observarse con procedimientos Pavlovianos (ver cap. 2 de Hall, de este 
volumen) podría ser mirado como evidencia independiente de las conexiones hacia atrás, 
las cuales son críticas en el condicionamiento instrumental. Sin embargo, desde destacarse 
que en esas demostraciones el E2 es un estímulo condicionado neutral en contraste con el 
evento reforzante empleado como E2 en el comportamiento instrumental. En la búsqueda 
de entregar evidencia independiente para las asociaciones hacia atrás, cuando E2 es un 
reforzador, Gormezano y Tait (1976) entrenaron a conejos deprivados de agua, 
precisamente con la entrega de agua, por vía intra-oral, como E2 y con un soplido de aire 
en la córnea, el cual elicitaba la respuesta de cerrar el ojo, como E1. Con este 
procedimiento las asociaciones hacia atrás se manifestarían por el desarrollo de la respuesta 
de cerrar el ojo frente a la entrega de agua. Sin embargo, Gormezano y Tait (1976) no 
observaron evidencia de condicionamiento hacia atrás, el porcentaje de respuestas de cerrar 
el ojo evocadas por as presentaciones de agua no fue mayor que el observado en el grupo 
control, en el cual los dos eventos no se pareaban y más aún, concretamente, el nivel de 
respuesta declinó a través del entrenamiento. 
No solamente es problemática la evidencia empírica de la explicación bidireccional, 
sino que también está lejos de claro cómo ésta teoría explicaría el castigo. En éste caso, la 
asociación desde la unidad representacional para E2, el evento punitivo, hacia el E1 la 
acción instrumental, no puede ser excitatorio, porque el efecto de la contingencia de castigo 
es suprimir la ejecución de la acción. Una solución obvia es asumir que cuando E2 es un 
evento aversivo la conexión hacia atrás es inhibitoria no excitatoria, de modo que activando 
la unidad que representa al evento punitivo se inhibe la unidad de respuesta, Sin embargo, 
en ausencia de evidencia empírica para las conexiones hacia atrás, tanto inhibitorias como 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
excitatorias, bajo condiciones análogas de contingencia instrumental efectiva, la 
explicación bidireccional no es una explicación plausible para el condicionamiento 
instrumental. 
 
B. El Modelo Asociativo-Cibernético 
 
Como alternativa a su Ley del Efecto, Thorndike elaboró lo que él llamó “la teoría 
ideacional o representativa”. En el contexto del aprendizaje de laberinto, Thorndike 
argumentó que: 
 
….Esta Teoría… explicaría el aprendizaje del gato, quién evita la salida S de la cual recibió un 
choque moderado y favorece la salida F que lo lleva a la comida, por el supuesto de que la 
tendencia a acercarse y entrar a S evocaría, en la mente del gato, alguna imagen, idea o alucinación 
del desagradable choque, mientras que la tendencia a aproximarse y entrar en F, evocaría en la 
mente alguna representación de la comida, y estas representaciones a su vez, controlarían y 
favorecían esas tendencias (Thorndike, 1931, pp. 47-48) 
Esta exposición puede caracterizarse tanto como asociativa, porque implica la 
formación de una conexión entre una representación de la acción instrumental 
(aproximación y entrada a S y a F) y una representación del resultado (S o F), y como 
cibernética, ya que la activación de estas representaciones del resultado retroalimentan para 
modular la ejecución. Aunque Thorndike estaba preparado para considerar esta explicación 
para la conducta humana “deliberativa”, la descartó como explicación general de la 
ejecución instrumental; sin embargo, otros (Ej., Mowrer, 1960 a, b) posteriormente han 
argumentado a favor de esa teoría y, a demás, Sutton y Barto (1981) presentaron una 
simulación del funcionamiento de un modelo asociativo-cibernético, en el contexto de un 
procedimiento de aprendizaje latente clásico. 
La figura 2 muestra una caricatura de la posible arquitectura de un sistema 
asociativo-cibernético. Las acciones tienen su origen en lo que he llamado una memoria de 
hábito, la cual consiste en un arreglo de unidades detectoras de estímulo ligadas a un 
arreglo de unidades de respuesta correspondientes a las reacciones sin entrenamiento del 
animal (o de pre-entrenamiento) frente a esos estímulos. La activación de las unidades de 
respuesta, las cuales se cree que son mutuamente excluyentes, se transmite a las unidades 
correspondientes en el sistema motor cuya activación causa la salida (“output”) de las 
acciones relevantes. Los estudios de condicionamiento instrumental normalmente escogen 
acciones tales como el apretar la palanca, que tienen un nivel de línea base relativamente 
bajo antes del entrenamiento, de tal manera que puede observarse un incremento en la 
ejecución durante la contingencia. Este hecho se refleja en el modelo asegurando que la 
entrada desde una unidad de respuesta en la memoria de hábito, normalmente no es 
suficiente para gatillar confiablemente la unidad motora correspondiente. Sin embargo, 
dadas las fluctuaciones, ya sea en la fuerza de aquello que entra (“input”) como en el 
umbral de la unidad motora, la unidad será activada ocasionalmente, produciendo así, por 
ejemplo, un nivel de línea base de la conducta de apretar la palanca, al nivel de una 
respuesta no entrenada y espontánea. 
Si el animal puede detectar y representar la ocurrencia de la acción tiene una 
importante consecuencia. Dentro del modelo, la representación de la ejecución de una 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
acción, es iniciada por la activación de una unidad en la memoria asociativa del animal. Por 
consiguiente, la ejecución de esta acción producirá una excitación contigua y contingente 
de la unidad de respuesta en la memoria de hábito y en la correspondiente unidad de acción 
en la memoria asociativa. Si aceptamos que este patrón de gatillamiento en las dos unidades 
es suficiente para formar y fortalecer una conexión entre ellas, entonces, en ocasiones 
posteriores cuando se excite la unidad de respuesta de hábito, se activará la unidad de 
acción correspondiente en la memoria asociativa, incluso si no ocurre ninguna acción 
manifiesta. 
La presencia de una unidad de acción, en la memora asociativa es crucial para el 
aprendizaje instrumental acerca de las relaciones entre la acción y el resultado. En 
presencia de una relación instrumental efectiva, la ejecución de la acción y el consiguiente 
resultado llevará a la activación contigua y contingente de las unidades de acción y de 
resultado, en la memoria asociativa, lo cual, se cree, es suficiente para la formación de una 
conexión entre ellas. Es esta conexión la que representa el conocimiento del animal de la 
relación instrumental, en ella la activación de la unidad de resultado por parte de la unidad 
de acción corresponde a la expectativa de resultado propuesta por Tolman. 
El componente final del modelo, el sistema incentivo, está diseñado para tratar con 
la función cibernética que lleva a cabo el rol de los deseos o de los valores del resultado, en 
la acción instrumental. Cualquier unidad en la memoria asociativa activada por un evento 
de significancia motivacional tiene conexiones con las unidades en el sistema de incentivo. 
La conexión es con una unidad de recompensa si el evento es atractivo, como la 
presentación de comida para una rata hambrienta, o con una unidad de castigo si el evento 
es aversivoo nocivo, de modo que esas conexiones representan el valor o el deseo del 
animal, asignado a tales resultados. Diré que esas conexiones también se adquieren a través 
de un proceso llamado aprendizaje de incentivo (Dickinson y Balleine, 1994). Así, la 
experiencia del animal con el resultado “comida”, mientras está hambriento lo que 
establece una conexión entre la unidad representacional, para este resultado, en la memoria 
asociativa y la unidad de recompensa. Por consecuencia, el condicionamiento aversivo en 
un procedimiento de devaluación, establece una conexión desde la unidad de resultado a la 
unidad de castigo en el sistema de incentivo. 
La función de esas unidades de incentivo es ejercer una influencia general e 
indiscriminada en todas las unidades en el sistema motor, una influencia excitatoria en el 
caso de la unidad de recompensa y una influencia inhibitoria en el caso de la unidad de 
castigo (4). Es necesario destacar, sin embargo, que la actividad en la unidad de 
recompensa no es suficiente por sí misma para gatillar las unidades motoras. Para activar la 
unidad motora, la influencia de retroalimentación desde la unidad de recompensa se debe 
sumar a aquello que entra de modo contiguo, temporalmente, desde la memoria de hábito. 
Así, aún bajo la influencia del sistema de incentivo, la unidad motora particular que se 
activa, en cualquier momento, es determinada por aquello que entra desde la memoria. Por 
esta razón sería mejor pensar en la retroalimentación de incentivo como un evento que 
altera los umbrales de las unidades motoras, bajándolos en el caso de la retroalimentación 
de recompensa y elevándolos en el caso de la retroalimentación de castigo. 
En resumen, este modelo asociativo-cibernético explica el condicionamiento 
instrumental en términos de la formación de tres conexiones asociativas, las cuales sirven 
para abrir un ciclo de retroalimentación positivo a través de la memoria asociativa que 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
converge con la entrada desde la memoria de hábito en la unidad motora para la acción 
instrumental. La primera es la conexión desde la unidad de respuesta en la memoria de 
hábito a la unidad de acción correspondiente en la memoria asociativa formada por la 
habilidad del animal para detectar y representar su propia conducta. La segunda es aquella 
(conexión) entre las unidades de acción y de resultado en la memoria asociativa 
ocasionadas por la experiencia de la relación instrumental entre la acción y el resultado. 
Finalmente la experiencia con el resultado atractivo durante el entrenamiento establecerá la 
conexión entre la unidad de resultado en la memoria asociativa y la unidad de recompensa 
en el sistema de incentivo. Claramente, mientras estas conexiones se fortalecen durante el 
entrenamiento, lo mismo sucede con la retroalimentación positiva en las unidades motoras, 
mejorando así la confiabilidad con la cual el estímulo elicitador original gatilla la acción 
instrumental. La devaluación del modelo actúa contra esta influencia positiva abriendo un 
ciclo de retroalimentación negativa, paralelo, a través de la formación de una conexión 
entre la unidad de resultado en la memoria asociativa y la unidad de castigo en el sistema 
de incentivo. 
En el resto del capítulo, consideraré la evidencia relacionada con las conexiones 
asociativas comprendidas en el ciclo de la retroalimentación. Pero antes de hacer eso, es 
necesario destacar que la formación de hábito puede acomodarse a este modelo, aceptando 
que lo que sale de la unidad de recompensa no sólo afecta el sistema motor sino que 
también ejerce una influencia facilitadora en las conexiones entre el estímulo y las unidades 
de respuesta en la memoria de hábito (vea la fig.2). El efecto de esta influencia es 
incrementar la fuerza de una conexión cuando esta ocurre, al mismo tiempo que la 
actividad en la unidad de estímulo. Una vez que la actividad en la unidad del estímulo 
comienza a elicitar la acción instrumental, a través de la retroalimentación, esta actividad se 
pareará constantemente con la facilitación de la recompensa, fortaleciendo así la conexión 
en la memoria del hábito. Una vez que esta conexión se vuelve suficientemente fuerte como 
para permitir que el estímulo gatille la unidad motora independientemente de la influencia 
de retroalimentación, la acción instrumental se habrá convertido en un hábito insensible a la 
devaluación del resultado. Es este mecanismo de hábito que puede dar cuenta de la 
respuesta residual observada por Adams y Dickinson (1981) y Colwill y Rescorla (1985) 
después de la devaluación del resultado. 
 
 
IV. REPRESENTACIÓN DE LAS ACCIONES INSTRUMENTALES 
 
Un aspecto central para el ciclo de la retroalimentación es la unidad en la memoria 
asociativa que representa la acción instrumental. Es esta unidad la que intercepta al 
instigador de la acción, la entrada del estímulo a la memoria del hábito, con el 
conocimiento de la relación instrumental, es decir, la conexión entre las unidades de acción 
y de resultado en la memoria asociativa. Así, de acuerdo al modelo, la susceptibilidad de 
una actividad conductual al conocimiento instrumental dependerá de si el animal descubre 
y representa la ocurrencia de esa conducta. Shettleworth (1975) comparó la sensibilidad de 
distintos patrones de conducta al condicionamiento con una recompensa de comida en 
hamsters. Mientras que ciertas acciones, tales como levantar la cabeza, respondían a la 
contingencia instrumental, otras, como el lavarse la cara y rasguñar, eran más resistentes al 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
condicionamiento. Posteriormente Morgan y Nicholas (1979) confirmaron este patrón en 
las ratas y, aún más, entregaron evidencia de que éste podría reflejar una diferencia en el 
grado en el cual se descubre y se representa la ejecución de estas distintas acciones. Se 
introdujeron dos placas en la caja experimental en el momento en que las ratas, o bien 
levantaron la cabeza o bien se lavaron la cara, y el apretar una de las palancas se 
recompensaba después de un período de levantar la cabeza, y el apretar la otra se 
recompensaba después de un período de lavarse la cara. El hecho de que las ratas 
aprendieran a hacer esta discriminación indica que ellas podían representarse la ejecución 
de, al menos, una de las actividades, ya que sus elecciones estaban controladas por la 
conducta anterior. Por otra parte, para los animales fue mucho más difícil aprender a 
discriminar entre el rasguñar y lavarse la cara. Esta diferencia en la “discriminabilidad” del 
levantar la cabeza y del rasguñar, en contraste de lavarse la cara, ilustra claramente la 
sensibilidad relativa de estas acciones y la contingencia instrumental. Así, de acuerdo a los 
datos de Morgan y Nicholas (1979), las ratas no se representan fácilmente sus propias 
conductas de rasguño, lo cual es explicado por el modelo debido a la ausencia de una 
unidad en la memoria asociativa que se excite por esta actividad. Por esta razón, la figura 2 
muestra una unidad de estímulo activada por una “picazón” conectada con una unidad de 
respuesta de la conducta de rascarse, en la memoria del hábito, la cual media la elicitación 
de esta actividad a través del sistema motor. Sin embargo, no hay una unidad que 
corresponda a esta actividad en la memoria asociativa. 
Para dar cabida a la última evidencia respecto del aprendizaje observacional de las 
relaciones instrumentales, el modelo tiene que aceptar que las unidades representacionales 
para las acciones pueden activarse no sólo por la ejecución de la acción sino también por la 
observación de un congénere ejecutando esa misma conducta. Heyes y sus colegas (Heyes 
y Dawson, 1990; Heyes, Dawson y Noker, 1992) permitieron que las ratas “observadoras” 
miraran a los modelos entrenados previamente, mientras empujabanuna barra que colgaba 
desde el techo de la jaula; en un caso a la izquierda y en el otro caso a la derecha, para 
obtener comida. Cuando, posteriormente, a los observadores se les permitió el acceso a la 
barra, tendieron a empujarla en la misma dirección que sus modelos, aún cuando ellos 
ganarían la comida cualquiera fuese la dirección en que empujasen. Aún así llamativo es el 
hecho de que este sesgo direccional se mantuvo aún cuando la barra, en el período de 
prueba, fue puesta en una posición distinta, dentro de la jaula, a la que ocupaba en el 
período de observación, lo que sugiere que los observadores estaban reproduciendo la 
acción específica ejecutada por el modelo. Dada la naturaleza bidireccional de la acción, no 
resulta claro explicar este ejemplo de aprendizaje observacional sin aceptar que el 
observador codifica la relación instrumental entre la acción y el resultado durante la 
exposición al modelo. Y para que este modelo pueda abarcar, con su explicación, a este 
resultado, se tiene que asumir que el observar una acción es suficiente para excitar la 
correspondiente unidad representacional de modo que ésta pueda asociarse con la unidad de 
resultado. 
 
V. APRENDIZAJE INSTRUMENTAL 
 
Al describir el modelo asociativo-cibernético, se atribuyó la formación de la 
conexión acción-resultado en la memoria asociativa al hecho de haber experimentado una 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
relación contigua y contingente, o casual, entre la acción y el resultado, simplemente 
porque en un procedimiento de condicionamiento instrumental estándar, la ejecución de la 
acción, efectivamente, causa la presentación inmediata del resultado. Sin embargo, hay una 
buena evidencia empírica de que ambas variables (contigüidad y contingencia) determinan 
la adquisición instrumental y la ejecución. 
 
A. Contigüidad 
 
Desde una perspectiva puramente funcional, la sensibilidad del condicionamiento 
instrumental a la contigüidad acción-resultado es sorprendente dado que es la relación 
causal y no la relación de contigüidad entre la acción y el resultado, la que es crucial en 
términos de permitir el control sobre el ambiente. Sin embargo, no hay duda de que, 
retrasar el resultado después de la acción que lo causa (provoca) tiene un profundo efecto 
en la adquisición instrumental. Dickinson, Watt y Griffiths (1992), por ejemplo, estudiaron 
la adquisición de la conducta de apretar la palanca de ratas, cuando cada resultado se 
retrasó, con respecto a la conducta que lo causaba, por intervalos que iban más allá de los 
64 segundos. Con este procedimiento cada apretada de palanca causó la entrega de bolitas 
de comida sólo después de un retraso determinado. La fig.3 muestra el rango promedio del 
apretar la palanca en la décima sesión, de 20 minutos, como una función del retraso 
promedio entre la entrega del resultado y la conducta (apretar la palanca) inmediatamente 
anterior (la cual puede no haber sido la acción que realmente causó el resultado). Como 
puede apreciarse, la ejecución decreció sistemáticamente con el retraso experimental. 
Aunque ciertamente estos datos indican que la ejecución se empeora con la demora 
de la recompensa, también sugieren que una contigüidad estricta entre la acción y el 
resultado no es necesaria para el condicionamiento donde se observó una adquisición, aún 
cuando había retrasos medios. Sin embargo, dado el procedimiento usado por Dickinson y 
al no poder estar seguros de que la adquisición con estos retrasos intermedios no fuese el 
resultado de contigüidades fortuitas entre la presión de palanca y una recompensa causada 
por la presión anterior. Para controlar estas contigüidades fortuitas, Lattal y Gleeson 
(1990) emplearon un procedimiento en el cual cada presión de palanca que ocurría en un 
período de demora posponía la entrega de la siguiente recompensa, de modo que el 
intervalo real entre el resultado y la última apretada de palanca fue siempre igual a la 
demora programada. Con este procedimiento Lattal y Gleeson informaron que hubo 
adquisición con retrasos sobre los 30 segundos. 
 
B. Contingencia 
 
Aunque el estudio de Lattal y Gleeson (1990) entregó evidencia convincente de que 
los animales pueden detectar una contingencia instrumental a través de una demora, aún 
queda el caso en el cual, la adquisición empeora por el alargue del intervalo acción-
resultado. La razón funcional de esta sensibilidad a la contigüidad, bien podría encontrarse 
analizando el problema que los animales enfrentan al discriminar una relación causal entre 
la acción y el resultado en un programa no contingente, en el cual un resultado ocurre de 
modo relativamente frecuente pero independiente de su conducta. Un manera en la cual esa 
discriminación podría lograrse es comparando, de algún modo, la probabilidad de que 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
ocurra el resultado en los períodos en que la acción “meta” se ejecuta con la probabilidad 
de que ocurra el resultado en períodos en los que el animal no emite esta conducta. En la 
medida en que los resultados sean más probables en períodos en que la acción es ejecutada, 
los animales tienen un control causal sobre el resultado. Sin embargo, tal comparación 
depende de la discriminación de resultados que ocurren durante períodos de acción, en 
relación a aquellos resultados que ocurren en ausencia de acción, discriminación que se 
puede basar sólo en las relaciones temporales entre la acción y el resultado. 
El hecho de que los animales hagan tal discriminación se demuestra en un estudio 
clásico de Hammond (1980). Hammond desarrolló un programa en el cual él, podía 
manipular independientemente la probabilidad de un resultado dado que ha ocurrido una 
acción en el segundo anterior en el segundo anterior [P(O/A)] y la probabilidad de un 
resultado en ausencia de una acción en el segundo previo [P(O/-A]. Así, P(O/A) se refiere a 
la probabilidad de un resultado contiguo y P(O/-A) a la probabilidad de un resultado no 
contiguo. La figura 4 ilustra los niveles terminales de la ejecución observada por Hammond 
bajo distintas combinaciones de P(O/A) y P(O/-A) cuando la acción de ratas sedientas era 
apretar la palanca y el resultado era la entrega de agua. 
El primer punto a destacar es que la ejecución incrementó con la probabilidad de un 
resultado contiguo en ausencia de cualquiera de los resultados no contiguos (Cf. Mazur, 
1983). Con P(O/-A) puesta en cero, las ratas apretaron a una tasa más alta cuando P(=/A) 
era 0,12 que cuando era 0,05. Este hallazgo, por supuesto, concuerda con las predicciones 
de un proceso de aprendizaje basado-en-la-contigüidad; mientras más alta sea la 
probabilidad, más grande será la proporción de acciones que son inmediatamente seguidas 
por un resultado. Sin embargo, para esta discusión es más importante, el efecto de variar la 
probabilidad de los resultados no contingentes. A menos que el animal pueda descontar el 
efecto de los resultados no contiguos de alguna manera, el incrementar su frecuencia 
elevando la P(O/A), si fuese posible, debería aumentar la ejecución instrumental, actuando 
como una fuente de reforzamiento retardado. En lo concreto, se observó exactamente el 
efecto opuesto; cuando P(O/A) era 0.12, el elevar la probabilidad de los resultados no 
contiguos [P(O/-A)] redujo la ejecución hasta cuando la P(O/A), se igualó a la P(O/-A) las 
ratas presionaron de modo, relativamente, poco frecuente. Este bajo nivel de ejecución, por 
supuesto, es completamente adecuado desde una perspectiva causal, debido a que bajo tal 
programa de contingencia, apretar la palanca no tenía efecto en la probabilidad del 
resultado promedio, los animales ganarían exactamente el mismo número de presentaciones 
de agua si ellos apretaban cada segundo o si no apretaban nunca. 
Aunque es tentador explicar este efecto de contingenciaen términos de alguna 
forma de sensibilidad directa hacia la relación causal entre acción y resultado, se puede dar 
cuenta de ella en términos de un simple proceso de aprendizaje basado en la contigüidad. 
Necesariamente, la presentación de los resultados no contingentes deben haber sido 
pareados con la acción de aproximación a la fuente de agua, y por lo tanto, podrían haber 
servido para fortalecer la ejecución de esta conducta a expensas de la de presionar la 
palanca. En otras palabras, el decremento en la conducta de apretar la palanca bajo un 
programa no contingente podría deberse, simplemente, a la competencia conductual o 
interferencia con la conducta de aproximarse a la fuente de agua, la cual es reforzada por 
los resultados no contingentes. 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
En un intento por dar cuenta de esta experiencia conductual, Dickinson y Mulatero 
(1989) hicieron un seguimiento de un estudio original de Colwill y Rescorla (1986), donde 
entrenaron a unas ratas hambrientas a apretar dos palancas, una de las cuales entregaba 
bolitas de comida y la, otra una solución de azúcar, en la misma fuente. Luego se destruyó 
la contingencia instrumental, programando presentaciones no contiguas de uno de los tipos 
de resultados, ya sea de las bolitas de alimento o de la solución de azúcar, esto, después de 
cualquier segundo en el cual el animal no presionara ninguna palanca. De acuerdo a la 
postura de la competencia, no existe ninguna razón para que cualquier conducta de 
competencia, establecida por los resultados no contiguos, hubiese interferido más con una 
acción que con otra. Aún así, Dickinson y Mulatero (1989); ver también Williams, 1989) 
encontraron que los resultados no contiguos producían una mayor reducción en la conducta 
de apretar aquella palanca asociada al resultado. Más aún, esta diferencia no se debió a la 
saciedad selectiva del resultado contingente, porque persistió en una sesión de prueba 
donde no se presentaba ningún resultado. 
Desde una perspectiva casual este hallazgo es inesperado. Es cierto que, los 
animales no pueden afectar la frecuencia global de los resultados presionando las palancas 
que están bajo este programa. Por ejemplo, en el caso en que el resultado no contingente es 
“bolitas de comida”, si el animal no presiona ninguna palanca recibirá solamente este tipo 
de resultado; entrega que no está afectada por el acto de apretar la palanca de bolitas. Sin 
embargo, apretando la palanca de la solución de azúcar, el animal puede sustituir las 
distribuciones de azúcar por las presentaciones de bolitas, y tener a sí el control sobre la 
frecuencia relativa de los dos resultados. Lo que muestran los resultados de Dickinson y 
Mulatero (1989) es que las ratas son sensibles a esta contingencia, sensibilidad que no 
puede explicarse en términos de simple competencia conductual. 
 
C. Sorpresa y Aprendizaje 
 
Como sea, esta sensibilidad respecto a la causalidad no requiere que nosotros 
abandonemos la afirmación de que la principal característica de una relación instrumental 
efectiva es la contigüidad acción-resultado ya que el patrón general de los resultados 
observados durante las variaciones en los parámetros temporales y de contingencia, es 
aquel esperado por las teorías contemporáneas de aprendizaje asociativo durante el 
condicionamiento Pavloviano (ver Hall, cap.2; Shanks, cap. 12 de este volumen). Como 
punto central de estas teorías está la afirmación de que la eficacia del resultado contiguo 
depende del grado en que se prediga la ocurrencia, ya se deba a algún proceso de 
corrección-del-error (Ej., Rescorla y Wagner, 1972) o a la modulación del aprendizaje, sea 
por procesos atencionales y de asociabilidad (Ej., Mackintosh, 1975; Pearce y Hall, 1980) o 
por generalización (Pearce, 1987; cap. 5 en este volumen). Los resultados predichos 
(señalados) son menos efectivos que los inesperados sorprendentes en producir la 
formación de una conexión asociativa con un evento previo. 
La extensión de este principio general al condicionamiento instrumental entrega 
una posible explicación del efecto de contingencia observado por Hammond. La 
presentación de resultados no contiguos en el programa no contingente produce un 
condicionamiento a las claves contextuales de modo que el animal aprende a esperar el 
resultado del contexto. En consecuencia, la ocurrencia de un resultado contiguo, evento que 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
es responsable del aprendizaje instrumental, se predice por las claves contextuales y por lo 
tanto, no llega a comprometer el proceso de aprendizaje que se requiere para adquirir y 
mantener la(s) conexión(es) asociativa(s) que media(n) la ejecución instrumental. Sin 
embargo, no ocurre, una atenuación del mismo tipo, cuando no hay resultados no 
contiguos, al menos, en parte, debido a que el número total de resultados presentados en el 
contexto es menor, de modo que el menor condicionamiento corresponde al contexto. 
 No hay duda de quien esta formulación tiene mucho mérito; no solamente conserva 
un proceso de aprendizaje basado en la contigüidad sino que también predice las 
condiciones bajo las cuales podríamos ser capaces de inducir una “ilusión de control” en un 
programa contingente. Dado que el impacto nocivo de los resultados se atribuye al 
condicionamiento contextual, si de algún modo pudiésemos prevenir o minimizar este 
condicionamiento, seríamos capaces de mantener la efectividad de los resultados contiguos 
así como también la ejecución realizaba bajo un programa no contingente. Una manera de 
hacerlo es aprovechar el fenómeno “ensombrecimiento” (overshadowing). Pavlov (1927) 
observó que el condicionamiento hacia un estímulo se reducía o sombreaba, cuando éste se 
reforzaba al estar compuesto con otro estímulo. De este modo, si se señala cada resultado 
no contiguo por un estímulo discreto, digamos una luz breve, entonces el monto de 
condicionamiento a las claves contextuales se reduciría. A su vez, esto tendría el efecto de 
mantener la naturaleza sorprendente de los resultados pareados con la acción y por lo tanto 
de su habilidad para dar lugar para el aprendizaje instrumental. Tanto Hammond y 
Weinberg (1984) como Dickinson y Charnock (1985) informaron precisamente acerca de 
este efecto; el señalar cada resultado no contiguo elevó la tasa de conducta de apretar la 
palanca, en un programa no contingente, aún cuando esta acción no tenía efecto causal en la 
frecuencia de los resultados. 
D. Programas de Intervalo 
 
En resumen, hemos visto que un simple proceso de aprendizaje basado en la 
contigüidad puede dar cuenta de la sensibilidad de la ejecución instrumental a las 
variaciones en la efectividad causal de una acción. Todo lo que necesitamos aceptar es que 
la ocurrencia de cada resultado contiguo e inesperado, fortalece las conexiones asociativas 
subyacentes, mientras que la ejecución de la acción, en ausencia de un resultado real y 
contiguo, debilita estas conexiones. En consecuencia, el determinante principal de la 
ejecución sería la probabilidad de un resultado o, en otras palabras. La probabilidad de 
reforzamiento. Sin embargo, lo que está menos claro es si acaso ese proceso puede también 
dar cuenta del efecto de otro importante determinante de la relación ejecución instrumental-
resultado o, dicho de otro modo, tasa de reforzamiento. El punto central en este sentido 
puede mostrarse considerando dos fuentes distintas de resultados. Hace un rato, discutimos 
una fuente inagotable e inextinguible; cada ejecución de la acción tiene la probabilidad fija 
de causar un resultado. A este tipo de fuente, generalmente, se le conoce como un programa 
de razón, en el cual la contingencia mantiene, en promedio, una proporción constante entre 
el número de acciones ejecutadas y el número de resultados generados.Los programas de 
razón se caracterizan por una función lineal entre la tasa de ejecución de la conducta y la 
tasa de ocurrencia de los resultados. El ejemplo específico que se muestra en la figura 5 
tiene el valor de razón de 20, de modo que la probabilidad de reforzamiento es de 0,005. 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
Aunque muchos recursos importantes en el mundo se adaptan a una razón de 
contingencia, hay otra clase que se acaba y luego, con el tiempo, se regenera. Las fuentes 
de alimento orgánico son, típicamente de esta clase. Estas fuentes se pueden manejar 
asumiendo que un resultado se vuelve disponible, con cierta probabilidad fija, durante un 
intervalo de tiempo. De este modo, cada fuente puede caracterizarse por un intervalo 
temporal promedio entre los resultados disponibles sucesivamente y, por esta razón, la 
contingencia se conoce como un programa de intervalo. La función de retroalimentación 
para el programa de intervalo representado en la figura 5, produce una entrega de resultado, 
una vez cada 17,5 segundos, en promedio, de modo que esas tasas de acción 
suficientemente alta, producen una tasa de resultado de 3.4 por minuto, aproximadamente. 
Las funciones de retroalimentación que aparecen en la figura 5, muestran que las 
contingencias de intervalo y de razón determinan diferentes relaciones causales entre la tasa 
de trabajo y la tasa de pago. Mientras que un sujeto puede generar una tasa más alta de 
ganancias trabajando más rápido, en un programa de razón, hay escasa o ninguna ganancia 
por realizar la acción más rápido bajo la contingencia de intervalo una vez que la tasa de 
acción es lo suficientemente alta como para recoger todos los resultados disponibles en un 
período de tiempo dado. Por consiguiente, si los animales son sensibles a estas diferentes 
funciones de retroalimentación, uno podría esperar que ejecutasen la acción más rápido en 
un programa de razón que en el caso de un programa (o contingencia) de intervalo análogo, 
predicción que ha sido confirmada en numerosos estudios. Dawson y Dickinson (1990), por 
ejemplo, entrenaron a ratas hambrientas a tirar de una cadena para obtener comida en un 
programa de razón, bajo el cual la probabilidad de reforzamiento por cada tirón de cadena 
era 0.005. Sus tasas promedio de tirar de la cadena, en las últimas cinco sesiones de 
entrenamiento, cuando la ejecución era estable, se muestra en la figura 5. A cada uno de 
esos animales del programa de razón, le correspondía una rata “igual”, entrenada en un 
programa de intervalo que entregaba la misma tasa de refuerzo o de resultado. Por razones 
teóricas, que escapan del objetivo de esta discusión, Dawson y Dickinson, implementaron 
el programa de intervalo haciendo una grabación de la tasa de conducta de tirar la cadena 
del animal, esto con las últimas 50 conductas y luego estableciendo la probabilidad de 
reforzamiento para la siguiente conducta de tirar la cadena, con un valor que asegurase la 
tasa de resultado adecuada si el animal continuaba ejecutando la conducta a la misma tasa. 
Como puede verse en la figura 5, el procedimiento fue un éxito en lo que se refiere a 
igualar las tasas de reforzamiento en los programas de razón y de intervalo. 
Sin embargo, el hallazgo importante de este estudio fue que los animales ejecutaron 
la conducta, el doble más rápido en el programa de razón y no en el programa con 
contingencia de intervalo (ver figura 5). Esta diferencia es completamente razonable dada 
la naturaleza de las funciones de retroalimentación de los dos programas –si las ratas del 
programa de razón hubiesen jalado de la cadena, con la misma tasa de respuesta que los 
animales del programa de intervalo, habrían ganado sólo la mitad de los resultados, 
mientras que los animales del programa de intervalo no habrían podido incrementar su tasa 
de resultado, sin importar cuan rápido hubiesen tirado de la cadena. Sin embargo, este 
resultado es problemático para un simple proceso de aprendizaje basado en la contigüidad, 
el cual, como hemos visto, predice que la fuerza de la acción se incrementaría con la 
probabilidad de reforzamiento. En contraposición a esta predicción está el hecho de que 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
este programa de intervalo mantuvo una tasa de acción más baja, aún, cuando la posibilidad 
e reforzamiento era cerca del doble que en el de contingencia de razón. 
De acuerdo a Baum (1973) podríamos decir que los animales son sensibles al modo 
en el cual el número de resultados generados en ciertos espacios de tiempo relativamente 
breves (Ej., de 10 segundos similares) varía de acuerdo a los cambios en el número de 
acciones ejecutadas en cada espacio de tiempo, permitiéndoles, de ese modo, evaluar la 
contingencia o la correlación entre las tasas de acción y las de resultado, durante esos 
espacios de tiempo. El proceso de aprendizaje, previsto por este planteamiento, es sensible 
no a la contigüidad entre las acciones individuales y los resultados, sino a la contingencia o 
correlación entre las tasas locales de ejecución y los resultados. Loa programas de intervalo 
generan contingencias relativamente bajas y por lo tanto, tasas bajas de ejecución, como lo 
hacen los programas de razón con los resultados contiguos. Más aún, este planteamiento 
también predice el efecto dañino de los resultados con demora; mientras más larga la 
demora más probable es que el resultado entregado en un espacio de tiempo posterior y 
diferente a aquel que contenía la acción que lo causó, con el efecto de reducir la 
contingencia local. 
El problema en esta teoría correlacional, es explicar por qué los programas de 
intervalo mantienen una tasa de ejecución tan alta, como efectivamente sucede, dado la baja 
correlación con la tasa de resultado. Si aceptamos que esta correlación determina el 
conocimiento instrumental o, en términos del modelo asociativo-cibernético (ver Fig. 2), la 
fuerza de la conexión entre las unidades de acción y de resultado en la memoria asociativa, 
esta conexión se debilitaría bajo la contingencia de intervalo, dejando que la ejecución 
quedase determinada primariamente por los procesos de hábitos, los cuales están 
representados en el modelo por el fortalecimiento de la conexión entre las unidades de 
estímulo y de respuesta en la memoria del hábito. Esto significa que, a diferencia de la 
ejecución de razón, la conducta instrumental en un programa de intervalo sería previamente 
un habito E-R y no una acción basada en el conocimiento de la relación acción-resultado. 
Una predicción obvia de este análisis es que la ejecución establecida por un programa de 
intervalo sería relativamente insensible a la devaluación del resultado. Dickinson, Nicholas 
y Adams (1983) evaluaron esta predicción comparando el efecto de la devaluación del 
resultado en un programa de intervalo y en uno de razón, después de un entrenamiento 
comparable, en ambos. Mientras que se observó un efecto de devaluación estándar después 
de un entrenamiento de razón, un condicionamiento aversivo al resultado no tuvo un efecto 
detectable en la ejecución instrumental durante las posteriores pruebas de extinción cuando 
las ratas habían sido entrenadas inicialmente a apretar la palanca en un programa de 
intervalo. 
Aunque este resultado concuerda con la idea de que la ejecución de intervalo puede 
estar controlada primariamente por un proceso de hábito E-R, lo que este argumento no 
explica es por qué esa ejecución es una función ordenada de la tasa a la cual ocurren los 
resultados. Hermstein (Ej., de Villiers & Hermstein, (1976) estableció que la tasa de 
respuesta en los programas de intervalo es una función acelerada negativamente de la tasa 
de reforzamiento expresada como: 
 
 B = aR / (b + R) 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍAUSO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
donde B es la tasa de respuesta, R la tasa de reforzamiento y a y b son parámetros. A la 
base de la educación de Hermstein, existe el argumento de que la tasa de reforzamiento 
ejerce un efecto directo en la ejecución instrumental. De acuerdo a Killeen (1982), por 
ejemplo, los resultados no sólo refuerzan las acciones inmediatamente precedentes sino 
que también mejoran la ejecución, en general, por un período después de la presentación. 
Por supuesto, de acuerdo a esto, mientras más alta sea la frecuencia de los resultados más 
grande será el nivel total de esta influencia motivacional. 
 
VI. INTERACCIONES PAVLOVIANA-INSTRUMENTAL 
 
Killeen también sugirió que esta influencia motivacional puede ser condicionada a 
las claves contextuales a través de pareaciones de éstas con el resultado. El rol potencial de 
este condicionamiento ya se discutió cuando se hizo el análisis del efecto de los resultados 
no contiguos, donde este condicionamiento actuó atenuando el impacto de los resultados 
contiguos en el aprendizaje instrumental, a través del condicionamiento contextual. 
Además, el condicionamiento contextual ejerce una influencia de potenciación en la 
ejecución, idea que, de hecho, tiene una respetada historia bajo el nombre de teoría de los 
dos procesos (Rescorla y Solomon), (1967). Dentro de una versión de esta teoría, los 
resultados contiguos se aceptan no sólo como eventos que refuerzan acciones 
inmediatamente precedentes sino que también como eventos que pueden condicionar una 
influencia motivacional en los estímulos acompañantes, de modo que tales estímulos 
aumentarán el “output” conductual. 
La evidencia para la teoría de los dos procesos viene de los estudios de transferencia 
pavloviana-instrumental. Lovibond (1983), por ejemplo, entrenó a conejos hambrientos a 
levantar una palanca para la entrega de solución de azúcar directamente en sus bocas a 
través de una fístula oral. Entonces se les sacaba la palanca y comenzaba la segunda etapa 
pavloviana, en la cual un estímulo de 10 segundos se pareaba con las entregas de azúcar. 
Finalmente, Lovibond evaluó el efecto de presentar el estímulo pavloviano mientras los 
animales estaban concentrados en la tarea instrumental. Si el condicionamiento pavloviano 
reviste al estímulo con propiedades motivacionales, la tasa de levantamiento de la palanca 
se elevaría durante la presentación del estímulo, y esto es lo que Lovibond observó. 
Sin embargo, el que este efecto de transferencia entregue o no, realmente, evidencia 
contundente para la versión motivacional de la teoría de los dos procesos, es materia de 
controversia. Una alternativa favorecida, en cambio, por Trapold y Overmier (1972), dice 
que los estímulos pavlovianos actúan reintegrando las condiciones que son más parecidas a 
aquellas en las cuales se entrenó la acción instrumental. Esta idea, quizá quede mejor 
ilustrada considerando otro estudio de transferencia pavloviano-instrumental, esta vez 
conducido por Colwill y Rescorla (1988). En el comienzo de la etapa pavloviana, es 
estableció un estímulo como señal de un resultado en particular; para la mitad de las ratas 
hambrientas el resultado fue una bolita de comida, mientras que el resto recibió una 
solución de azúcar como resultado. Luego, cada rata recibió el entrenamiento instrumental 
en el cual el apretar la palanca producía uno de los resultados y el tirar la cadena producía 
el otro en sesiones separadas. El diseño de la parte relevante de este estudio para la 
presente discusión, se muestra en la mitad superior de la Tabla 1; los animales que 
recibieron las bolitas por apretar la palanca y aquellos que recibieron el azúcar por tirar la 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
cadena (al resto de los animales se les asignó la relación acción-resultado opuesta durante el 
entrenamiento). (5) 
Como consecuencia de este entrenamiento los animales aprendieron a presionar la 
palanca en el momento en que las claves contextuales se asociaban con las bolitas y a tirar 
la cadena cuando esas claves se pareaban con la solución de azúcar. En la prueba posterior 
a los animales se les dio, por primera vez, la oportunidad de ejecutar ambas conductas, 
presionar la palanca y tirar la cadena en presencia del estímulo pero sin recibir ningún 
resultado (extinción). Para los animales probados con el estímulo que había sido pareado 
con las bolitas, esta condición sería más parecida a aquella en la cual se entrenó a apretar la 
palanca, por lo tanto si los estímulos pavlovianos controlan la ejecución instrumental 
reintegrando las condiciones de entrenamiento, las ratas apretarían más la palanca de lo que 
tirarían la cadena. Por el contrario, se observaría el patrón opuesto cuando el estímulo se 
parease con la solución de azúcar. Este es el resultado entregado por Colwill y Rescorla 
(1988, ver Tabla 1). 
Aunque quedan pocas dudas de que los estímulos pavlovianos pueden controlar las 
acciones instrumentales entrenadas con un resultado común, esto no significa que 
abandonemos la hipótesis de motivación. Dickinson y Dawson (1987) también realizaron 
un experimento de transferencia pavloviana-instrumental usando bolitas de comida y 
solución de azúcar como resultados, pero en este caso cada uno fue pareado con un 
estímulo pavloviano diferente durante el entrenamiento (ver mitad inferior de la Tabla 1). 
Además, a todas las ratas se les enseñó a apretar la palanca en ausencia de cualquier 
estímulo, pero en este caso, sólo se entregaba bolitas de comida. Aunque a todos los 
animales se les entrenó estando hambrientos, sólo la mitad de ellos fueron probados en este 
estado. Esta prueba evaluó la tasa de apretar la palanca en presencia de los dos estímulos, 
nuevamente sin recibir ningún resultado. De acuerdo al patrón observado por Colwill y 
Rescorla (1988), el estímulo asociado con el mismo resultado para la acción –las bolitas- 
controlaron las tasas más altas de apretar la palanca cuando los animales estaban 
hambrientos durante la prueba. 
El grupo crítico, sin embargo, estuvo compuesto de animales probados mientras 
estaban sedientos en lugar de hambrientos. El objetivo de cambiar desde un entrenamiento 
en estado de hambre a una prueba en un estado de sed fue alterar la relevancia motivacional 
de los dos resultados. Mientras que los dos resultados son relevantes para el estado de 
hambre, la solución de azúcar actúa como un resultado más efectivo que las bolitas de 
comida cuando los animales están sedientos. De acuerdo a esto, podríamos esperar que un 
estímulo pareado con la solución y no con las bolitas ejerza un efecto motivador mayor 
cuando los animales están sedientos. Así, en la prueba bajo el estado de sed se opuso este 
efecto motivante del estímulo pavloviano contra la reintegración de las condiciones de 
entrenamiento. En este caso la influencia motivacional triunfó ya que los animales 
sedientos apretaron más cuando estaba el estímulo pareado con la solución de azúcar. 
Dickinson y Balleine (1990) observaron un efecto similar después de un cambio desde un 
estado de sed a un estado de hambre. 
Por lo tanto, parece claro que los estímulos pavlovianos ejercen una influencia en la 
ejecución instrumental por dos procesos. El primero funciona cuando el estímulo y la 
acción comparten resultados y operan reintegrando las condiciones en las cuales la acción 
fue condicionada. Por el contrario, el segundo depende de la relevancia del resultado 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
Pavloviano para el estado motivacional del organismo y se manifiesta como una influencia 
potenciadora general en la conducta instrumental (6). 
 
VII. CONTROL DISCRIMINATORIO 
 
El hecho de que los estímulos contextuales con los cuales se entrena una acción 
instrumental pueden ejercer control sobre la ejecuciónde esa acción es un ejemplo del 
fenómeno general de control discriminatorio. Si al apretar la palanca entrega comida en 
presencia de un estímulo pero no en su ausencia, las ratas aprenden rápidamente a apretar 
sólo cuando está presente el estímulo. Dado que los animales usan el estímulo para 
discriminar los períodos en los cuales hay una contingencia instrumental, entre la acción y 
el resultado, de los períodos en los cuales no hay contingencia, a éste se le llama estímulo 
discriminatorio. 
 Dado que los estímulos asociados con el resultado pueden potenciar la ejecución 
instrumental, el control discriminativo puede representar la operación de una asociación 
Pavloviana directa entre el estímulo discriminativo y el resultado. De modo alternativo, un 
estímulo puede adquirir control sobre una respuesta instrumental a través de los 
mecanismos de hábito previstos por la Ley del Efecto. Así, en términos del modelo 
asociativo-cibernético (ver fig 2), reforzar la respuesta en presencia del estímulo actuaría 
para fortalecer una conexión entre la unidad de entrada, activada por el estímulo en la 
memoria del hábito, y la unidad de respuesta. Sin embargo, un reciente estudio de 
devaluación del resultado hecho por Colwill y Rescorla (1990), deja en claro que el control 
discriminativo puede implicar procesos que trascienden ambos mecanismo. 
 El diseño de su estudio se muestra en la Tabla 2. En la primera etapa de 
entrenamiento de discriminación, se entrenó a las ratas a ejecutar dos acciones, apretar la 
palanca o tirar la cadena, obteniendo así dos resultados; una solución de azúcar y unas 
bolitas de comida, conjuntamente con la presencia de dos estímulos, un ruido y una luz. En 
un estímulo el apretar la palanca produjo la solución de azúcar y el tirar la cadena las 
bolitas de comida, mientras que esta relación acción-resultado se revirtió para el segundo 
estímulo. En la segunda etapa, uno de los resultados (O2 en la tabla 2) fue devaluado 
pareando su consumo con la inducción de un malestar gástrico hasta que la ingesta fue 
suprimida. Finalmente, a los animales se les dio una elección entre las dos acciones durante 
las presentaciones, por separado, de ambos estímulos en una prueba de extinción. La tesis 
Pavloviana predice que el tratamiento de devaluación no tendría efecto en la ejecución 
relativa de apretar la palanca y de tirar la cadena durante la presentación de ambos 
estímulos; se parearon con la solución de azúcar y con las bolitas de comida, el devaluar 
uno de esos resultados tendría un efecto equivalente en la ejecución durante la presentación 
de los dos estímulos. 
Al contrario de estas predicciones, durante la prueba, los animales fueron renuentes 
a ejecutar la acción entrenada con el resultado evaluado; en presencia de E1 ellos 
ejecutaron menos A2 que A1, mientras que se observó el patrón opuesto durante la prueba 
del E2 (ver Tabla 2). A la base de este resultado, Colwill y Rescorla (1990) dijeron que el 
control discriminativo puede reflejar la codificación de una relación de tres-términos entre 
el estímulo discriminativo, la acción instrumental, y el resultado. Dentro de esta teoría 
asociativa un modo de representar esta relación es apelar a una unidad configuracional, la 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
cual se excita, idealmente, por el conjunto de dos de los términos de la tríada (ver Pearce, 
cap, 5, en este volumen). De este modo, podríamos reemplazar la unidad de acción en la 
memoria asociativa del modelo asociativo-cibernético (ver fig.2) por una que se excite por 
el conjunto de un estímulo discriminativo y de un “input” de acción, asegurando así que la 
acción se ejecute en presencia de un estímulo (7). De acuerdo a este análisis, el 
entrenamiento de discriminación dado por Colwill y Rescorla (1990) habría implicado 
cuatro unidades configuracionales (ver Tabla 2): las unidades E1A1 y E2A2, cada una 
conectada a la unidad O1 y las unidades E1A2 y E2A1, cada una conectada a la unidad O2. 
Por consiguiente, devaluar la O2 significaría que la activación de cualquiera de las 
unidades E1A2 o E2A1 indirectamente excitarían la unidad de castigo reduciendo así la 
ejecución de A2 en E1 y de A1 en E2. 
 Como alternativa a esta propuesta configuracional del control discriminativo, 
Rescorla (1990) señaló que otra forma de analizar la relación triádica entre un estímulo 
discriminativo, la acción instrumental y el resultado, es visualizar el estímulo como señal 
de que la contingencia acción-resultado está operando. En este análisis, el control 
discriminativo puede reflejar el aprendizaje de la relación condicional entre el estímulo y la 
relación binaria acción-resultado. En un intento por entregar evidencia para esta tesis 
condicional, Rescorla (1990) estudió el efecto que producía el destruir la contingencia 
instrumental después del entrenamiento de discriminación. Sin entrar en detalles del diseño 
de control y de contrabalanceo (el cual es demasiado complejo), él utilizó un 
procedimiento de entrenamiento similar a aquél mostrado en la Tabla 2; una acción que 
produjo un resultado en presencia de un estímulo (E1: A--- O1) y un resultado diferente en 
presencia de otro estímulo (E2: A ---- O2). Además, a los animales también se les entrenó 
para ejecutar esta acción y obtener así uno de los resultados, digamos O1, en presencia de 
un tercer estímulo (E3: A------ O1). El propósito de este tercer estímulo era entregar un 
contexto con el cual, posteriormente, se pudiese interrumpir la contingencia entre la acción 
y el primer resultado, O1. De este modo, después del entrenamiento de discriminación, 
Rescorla permitió que las ratas ejecutaran al acción en presencia del tercer estímulo, pero 
en ausencia de cualquier resultado (E3: A-), hasta que la ejecución se extinguió 
 La pregunta central es si el tratamiento de interrupción tendrá algún efecto en la 
ejecución en presencia del primer (E1) y del segundo (E2) estímulo discriminativo. De 
acuerdo a la simple propuesta configuracional esto no ocurriría. Aunque destruye la 
conexión entre la unidad configuracional E3A y la unidad O1, aquellas conexiones entre las 
unidades E1 y E2A y las unidades de resultado permanecerían intactas. De hecho, Rescorla 
(1990) encontró que este tratamiento de extinción produjo una reducción relativa en la 
ejecución durante la presencia del estímulo discriminativo que señalaba la misma 
contingencia acción-resultado, específicamente en E1. Este hallazgo se sigue directamente 
de la teoría condicional. Durante el entrenamiento los animales habrían aprendido tres 
relaciones condicionales implicadas en la acción: E1 --- (A----O1); E2----(A—O2); y E3---
(A---O1). El ejecutar la acción en la ausencia de cualquier resultado, frente al E3, llevará al 
animal a creer que la acción, en general, ya no causa más el primer resultado, O1, mientras 
que deja su representación de la contingencia acción-O2 intacta. Por consiguiente, cuando 
el animal es expuesto nuevamente a los estímulos discriminativos, éste continuaría 
ejecutando la acción frente al E2 pero no frente al E1. De este modo este estudio sugiere 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
que el control discriminativo puede ser mediado por la codificación de la relación 
condicional entre el estímulo discriminativo y la contingencia acción-resultado (8). 
 Relacionando el modelo asociativo-cibernético (ver fig 2) con la afirmación 
cognitiva o intencional de la acción instrumental, se plantea la conexión entre las unidades 
de acción y de resultado en la memoria asociativa corresponde a la creencia de que la 
acción produce el resultado, y la discusión se ha concentrado primariamente en la 
naturaleza de los procesos de aprendizaje subyacentes a la adquisición de esta creencia 
binaria. Lo que sugiere el análisis del control discriminativo de Rescorla es que la