Logo Studenta

aprendizaje TEMA 4

¡Este material tiene más páginas!

Vista previa del material en texto

Psicología del aprendizaje Cristina Gil 
1 
 
TEMA 4: PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 
1. ANTECEDENTES HISTORICOS 
De nuevo la teoría de la evolución de Darwin tiene mucha influencia. Skinner en su obra The Behavior of 
Organisms relaciona los mecanismos de selección que expuso Darwin con la conducta, donde el reforzador 
es lo que actuaría como elemento seleccionador de las respuestas más apropiadas en una determinada 
ocasión. 
1.1. THORNDIKE Y LA LEY DEL EFECTO 
Los trabajos de Thorndike son el comienzo del estudio científico del condicionamiento instrumental, tanto 
teórico como metodológico. Él denominó el condicionamiento instrumental como aprendizaje por ensayo y 
error, y centró en cómo los aciertos y los fracasos afectaban a la conducta de los organismos. Para este 
autor el aprendizaje ocurre porque se fortalecen las conexiones que se forman entre los estímulos y las 
respuestas cuando dan lugar a un estado de satisfacción para el animal. Denominó a esto conexionismo. 
Sus experimentos más conocidos eran con gatos metidos en diferentes “cajas problema”, una especie de 
jaulas de las que podían salir al activar algún tipo de resorte desde el interior, y al salir el investigador les 
daba una cierta cantidad de comida. En los primeros intentos, tardaban un tiempo considerable y se movía 
por la caja de forma “azarosa”, explorando hasta dar por casualidad con el mecanismo de apertura. Según 
transcurrían los ensayos y repetían la tarea, el tiempo que tardaban en accionar el mecanismo y el tiempo 
en salir de la caja era mucho menor. 
Este tiempo que pasaba desde que comenzaba el 
ensayo hasta que el sujeto salía de la caja, 
llamado latencia de escape, era la medida que 
Thorndike utilizó para la evaluación de la 
ejecución del aprendizaje. Observó que disminuía 
de forma muy notable a lo largo de los ensayos 
 
A partir de estos resultados, Thorndike estableció que la entrega de comida fortalecía la conexión entre la 
situación (en este caso los estímulos en el entorno de la caja) y la respuesta del animal. Lo denominó Ley 
del efecto: De las muchas respuestas dadas en la misma situación, las que vayan acompañadas o 
inmediatamente seguidas de satisfacción para el animal, en igualdad de condiciones, se conectaran más 
firmemente con la situación; de manera que cuando esta vuelva a presentarse, volverán a presentarse con 
gran probabilidad. 
Es una explicación sencilla de este tipo de aprendizajes: cuando en una determinada situación, una 
conducta va seguida de algo agradable, al volver de nuevo a esa misma situación será más probable que la 
conducta se vuelva a repetir. Las conductas con resultado placentero serían por tanto fortalecidas, y las 
conductas cuyo resultado fuese algo desagradable serían eliminadas. 
1.2. EL ANÁLISIS EXPERIMENTAL DEL COMPORTAMIENTO DE SKINNER 
Skinner, considerado por muchos el autor más relevante de este tipo de aprendizaje, realizó una extensa 
investigación sobre los fundamentos del condicionamiento operante, lo que dio lugar a la formación de un 
gran número de investigaciones posteriores que lo siguieron desarrollando. En The Behavior of Organisms 
desarrolla la idea de que los reflejos podrían ser estudiados como conducta más que como un reflejo del 
sistema nervioso o de la mente: Skinner distingue entre el condicionamiento de los reflejos de Pavlov y el 
Psicología del aprendizaje Cristina Gil 
2 
 
tipo de aprendizaje que había propuesto Thorndike, lo que le llevo a formular que la conducta se regula 
tanto por el condicionamiento de los reflejos o condicionamiento respondiente como por el operante. 
Skinner se centró en las relaciones funcionales entre la conducta y sus consecuencias. Para el, tanto el 
condicionamiento operante como el respondiente debían solo prestar atención al estudio de las relaciones 
entre los eventos observables y la conducta. 
Para describir los procedimientos utilizó los términos condicionamiento operante y condicionamiento 
instrumental. El termino operante refleja la capacidad que tiene el individuo para operar sobre su 
ambiente, mientras que el termino instrumental tiene en cuenta el hecho de que la conducta del sujeto es 
el instrumento para obtener el reforzador. La innovación de los experimentos de Skinner fue utilizar en 
ellos una respuesta que el sujeto podía ejecutar repetidamente sin intervención del experimentador (en 
ratas era presionar una palanca, en palomas picotear una tecla). 
 
Este tipo de procedimientos son conocidos como 
de operante libre: en ellos la respuesta puede 
ocurrir en cualquier momento y de forma 
repetida mientras el sujeto siga en la caja de 
condicionamiento. La variable dependiente 
medida es la tasa de respuesta, o número de 
respuestas por unidad de tiempo, en lugar de la 
latencia que utilizaba Thorndike como medida. 
 
2. DEFINICIÓN DEL CONDICIONAMIENTO OPERANTE 
Por condicionamiento operante (CO) entendemos el proceso que da lugar a que la probabilidad de una 
respuesta se vea modificada por sus consecuencias, es decir, por los efectos que tiene el ambiente sobre 
ella. 
 El ejemplo más común: una rata en una caja de Skinner, que dispone de una palanca que está conectada al 
contenedor de comida. Para el animal, la caja será las circunstancias o el ambiente. Si la rata cuando está 
explorando da por casualidad a la palanca, se liberará una bolita de comida, lo que hace que aumente la 
probabilidad de que el animal accione de nuevo la palanca para conseguir una nueva bolita de comida. 
Por tanto el condicionamiento operante dispone al sujeto en unas circunstancias en las que alguna de sus 
conductas da lugar a la aparición de un evento, lo que produce un cambio de la probabilidad de emisión de 
esa conducta en el futuro. El término “operante” se utiliza porque a diferencia de lo que ocurría en el CC el 
sujeto interviene u “opera” en el medio. 
Si el resultado del comportamiento es beneficioso para el animal la conducta se fortalecerá, siendo más 
probable que se emita de nuevo en circunstancias parecidas. Si el resultado es perjudicial, dicha conducta 
tenderá a desaparecer del repertorio del sujeto. 
Con el condicionamiento operante, los organismos aprenden a obtener consecuencias favorables y a 
eliminar consecuencias desfavorables del ambiente Este condicionamiento hace que los sujetos, no sólo 
aprendan a responder ante una nueva circunstancia con una respuesta que formaba parte de su 
repertorio, sino que además puede dar lugar a la aparición de respuestas nuevas. 
 
Psicología del aprendizaje Cristina Gil 
3 
 
2.1. LA CONTINGENCIA DE TRES TÉRMINOS 
La descripción de la conducta operante requiere habitualmente de tres términos elementales y sus 
interrelaciones funcionales. Estos tres términos fundamentales son el estímulo discriminativo, la respuesta 
y la consecuencia o reforzador. De este modo la contingencia se define como: en presencia de un estímulo 
específico, el reforzador se presentará si y solo si la respuesta operante sucede. La contingencia de estos 
tres términos constituye la unidad fundamental de análisis en el estudio de la conducta operante. 
2.1.1. El estímulo discriminativo 
Debemos considerar la conducta como la ejecución que ocurre después de un estímulo que en un 
momento determinado tiene como resultado una consecuencia específica. Esto nos viene a señalar que los 
estímulos antecedentes también tienen una gran importancia en el condicionamiento operante. Las claves 
contextuales en el CO reciben el nombre de estímulos discriminativos (Eds) y señalan la ocasión para que 
si la conducta se presenta sea seguida por una consecuencia. Es decir, un estímulo, en principio neutro, 
puede indicar si el reforzador está disponible, y por tanto indica al sujeto cuándo ha de responder. Esto 
implica reforzar una respuesta en una situación pero no en otra, la probabilidad de emitir una operante en 
presencia de un Edpuede ser muy alta, esto quiere decir que el estímulo ejerce un control sobre esa 
respuesta, pero no es que el Ed provoqué la respuesta. 
Las consecuencias de las respuestas operantes establecen el control que ejercen los Eds. Cuando un Ed va 
seguido de una respuesta cuya consecuencia es apetitiva, se ve como ya hemos dicho reforzada, y por 
tanto la probabilidad de que ocurra aumenta si dicho estímulo está presente posteriormente. Cuando una 
respuesta operante no es seguida de una conducta reforzante, el estímulo que precede la respuesta se 
conoce como estímulo delta (EΔ), y en su presencia la probabilidad de emitir la operante disminuye. El 
termino control por el estímulo se refiere a cómo los estímulos que preceden una conducta pueden 
controlar la ocurrencia de ésta. 
 Pensemos en una maquina dispensadora de bebidas en la que introducimos una moneda para comprar un 
refresco. Una luz verde nos indica que el refresco que queremos seleccionar está disponible y una luz roja nos 
indica que está agotado. La respuesta operante en este caso es apretar el botón de selección de la bebida. La 
probabilidad de que pulsemos el botón con la luz verde encendida será mucho más alta que la probabilidad de 
que pulsemos ese mismo botón si la luz roja está encendida. En este caso la luz verde actúa como un Ed porque 
señala la disponibilidad del reforzador en el caso de que se emita la respuesta operante y la luz roja como un EΔ 
porque señala la ausencia del reforzador en el caso de que la operante ocurra. 
 
2.1.2. La respuesta 
La respuesta operante en este condicionamiento se define por los efectos que provoca en el ambiente. 
Cuando una respuesta produce el mismo efecto que otra respuesta (aunque sean diferentes) estaremos 
hablando de la misma operante, porque producen los mismos efectos sobre el ambiente. La operante se 
define por tanto por su función, y no por su forma. 
 En el caso de presionar la palanca, la ratita puede hacerlo con la pata o con el morro, pero ambas respuestas dan 
una bolita de comida, por ello son ejemplos de una misma operante. 
Skinner señaló que “El término enfatiza el hecho de que la conducta opera sobre el ambiente para generar 
consecuencias. Las consecuencias definen las propiedades en función de las cuales las respuestas se 
consideran similares. El término se usara como adjetivo (conducta operante) y como sustantivo que designa 
la conducta definida por una consecuencia dada” 
Psicología del aprendizaje Cristina Gil 
4 
 
Cuando hablamos de la conducta, esta puede ser muy compleja y adoptar distintas formas (topografía) 
teniendo la misma función. Cuando hablamos de clase de respuesta nos estamos refiriendo a cualquier 
forma de ejecutar una conducta con una función similar, en el ejemplo anterior la función sería obtener 
comida. Estas respuestas pueden ser físicamente parecidas pero no siempre tiene que ser así: por ejemplo 
podemos hacer algo nosotros mismos o pedirle a otro que lo haga. Ambas sería la misma clase de 
respuesta pero con una topografía o forma muy diferente. 
2.1.3. El reforzador 
Para el CO el término reforzador debe dar cabida a la gran variedad de estímulos y eventos que poseen la 
capacidad de reforzamiento de una conducta. Se define por tanto en función de los efectos que tiene 
sobre la conducta. Según esta definición funcional un reforzador es cualquier suceso o evento que al 
hacerse contingente con una respuesta cambia la probabilidad de aparición de esa respuesta en el futuro. 
 Reforzamiento condicionado 
La conducta humana muchas veces no es controlada por reforzadores primarios como puede ser la 
comida, sino por eventos cuyos efectos dependen de la historia del reforzamiento. Los elogios o críticas, 
los juicios sobre nuestro comportamiento, o el dinero, son consecuencias que pueden fortalecer o debilitar 
la ocurrencia de una conducta. Este tipo de eventos adquieren los efectos que producen debido a las 
experiencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace que la misma consecuencia 
pueda tener efectos distintos dependiendo de la experiencia personal del sujeto (por ejemplo para algunos 
el dinero es muy importante, pero para otros lo es menos) 
Como venimos señalando, un reforzador puede ser definido como un evento cuya entrega aumenta la 
frecuencia de una respuesta con la que es contingente. El componente critico es la influencia en la tasa de 
respuesta, no lo que el estímulo o evento es en realidad. Se puede producir el fenómeno del 
reforzamiento condicionado, también llamado reforzamiento secundario: un estímulo o evento que 
originalmente no es reforzante, como una luz o un sonido, puede adquirir capacidad de reforzamiento 
mediante la asociación repetida con otro que era previamente reforzante. Hablamos, entonces, de 
reforzamiento condicionado cuando una conducta se fortalece debido a sucesos que tienen un efecto que 
depende de la historia de reforzamiento de ese sujeto. Implica una correspondencia entre un evento 
arbitrario y un reforzador que es efectivo en el momento actual. Cuando este evento arbitrario es capaz de 
aumentar la frecuencia o la tasa de una respuesta, a este tipo de reforzamiento lo denominamos 
reforzamiento secundario o reforzamiento condicionado. 
Los resultados de laboratorio en el estudio del reforzamiento condicionado son contradictorios: en algunos 
la extinción hace que los reforzadores condicionados pierdan efectividad, mientras que en otro se 
mantienen en situaciones de muchas repeticiones. A pesar de estos resultados que no son concluyentes, la 
experiencia en la vida diaria sugiere que eventos de este tipo pueden reforzar gran cantidad de conductas 
sin extinguirse. 
2.2. ACLARACIONES 
2.2.1. Reforzador-reforzamiento 
El evento sería el reforzador, y el procedimiento o proceso el reforzamiento. El reforzamiento produce 
incrementos en la conducta, y los reforzadores son los eventos que hacen que el reforzamiento produzca 
esos efectos. Cuando el procedimiento disminuye la conducta se denomina castigo y los eventos utilizados 
cuando se presenta la conducta son de naturaleza aversiva. Hay que distinguir así entre consecuencia 
apetitiva (reforzador) y consecuencia aversiva (castigo) 
Psicología del aprendizaje Cristina Gil 
5 
 
2.2.2. Respuesta discreta-operante libre 
En los experimentos de ensayo discreto, la variable dependiente es la latencia de respuesta. En éstos el 
ensayo comienza cuando el sujeto es dispuesto en el aparato y éste puede únicamente emitir, y el 
investigador registrar, una respuesta en cada ensayo. Por ejemplo un laberinto en forma de T, se coloca al 
animal y se recoge a la salida del brazo una vez obtiene el reforzador correspondiente. Llevan mucho 
trabajo y tiempo y en un día solo se pueden llevar a cabo un pequeño número de ensayos. 
Los procedimientos de operante libre incluyen la novedad introducida por Skinner: la variable dependiente 
para medir el aprendizaje es la tasa de respuesta, y los sujetos pueden emitir la respuesta de forma 
constante y repetidamente sin que el investigador tenga que manipular al sujeto de ninguna forma entre 
ensayo y ensayo. 
2.2.3. Topografía-función 
La topografía sería el punto de vista estructural de una conducta, la forma de respuesta, sus propiedades o 
características físicas de una respuesta, entendida como una secuencia de movimientos que ocurren en el 
tiempo. Por ejemplo para empujar una puerta podemos hacerlo con la mano con el codo o con el pie. Todo 
ello son diferentes formas de la misma respuesta de empujar la puerta. Desde el punto de vista del CO las 
consecuencias de una respuesta pueden modificar su topografía o forma. Si estamos en público es menos 
probable que abramos esa puerta dando una patada, o si queremos evitar hacer ruido será menos 
probable que la empujemos de golpe. Por esto la topografía es una función de las contingencias de 
reforzamiento. 
Sin embargola función es la relación de la respuesta con los estímulos antecedentes y las consecuencias de 
la misma. La conducta es por tanto la ejecución de una respuesta que sigue a un estímulo específico y que 
tiene como resultado algún tipo de consecuencia. Dos respuestas con la misma forma pueden tener 
función diferente, y dos respuestas con distinta topografía tener la misma función. 
El control que ejerce un reforzador sobre una conducta operante puede estar limitado por la topografía de 
la respuesta. Por ejemplo la comida como reforzador ejerce poco control en la conducta de rascarse el 
cuerpo en los hámsteres, pero mucho control sobre otra como alzarse sobre las patas traseras. En otros 
casos, las relaciones funcionales entre diferentes topografías de respuesta son similares entre ellas: por 
ejemplo las palomas tienen formas distintas de abrir el pico para beber que para comer. 
2.2.4. Instancia de respuesta y clase de respuesta 
La conducta operante se define por las relaciones funcionales entre clases de respuestas y las 
consecuencias ambientales. Una clase de respuesta se refiere a todas las formas en las que la ejecución de 
la respuesta puede llevar a una función similar. Una instancia de respuesta es la unidad mínima de 
conducta y se refiere a la ocurrencia particular y especifica de una respuesta teniendo en cuenta además 
su topografía. Así, podemos especificar “la rata presiono la palanca de la caja de condicionamiento con la 
pata delantera derecha a las 10:50 p.m.” señalando una instancia de respuesta o utilizar la clase “presionar 
la palanca” independiente del momento concreto en el que ocurrió la instancia y sin tener en cuenta la 
topografía. 
2.2.5. Interacciones clásicas y operantes en el control de la conducta 
Para llevar a cabo un condicionamiento operante, es necesario que el sujeto sea “activo” es decir, que 
emita algún tipo de respuesta. Para poder reforzar o castigar una conducta es necesario que la conducta 
ocurra, que se presente con una cierta probabilidad, ya que en ausencia de ella no se podrá establecer una 
Psicología del aprendizaje Cristina Gil 
6 
 
relación entre esa conducta y otro acontecimiento ambiental. Cuando la probabilidad de que ocurra la 
respuesta es muy baja (por ejemplo que una paloma picoteé una luz) hay ciertas soluciones para no tener 
que esperar a que se dé por casualidad, lo que nos llevaría mucho tiempo. Una de las soluciones es el 
automoldeamiento: hacer primero un procedimiento de CC que empareje el estímulo neutro, como la 
tecla iluminada, con algo apetitivo, como la comida. Como ya sabemos la luz pasaría tras varios ensayos a 
ser un EC que provoca una respuesta por sí misma al ser presentada en solitario. Una vez que la luz 
provoca la RC, podemos someterla a control operante haciendo que solo aparezca la comida cuando la 
paloma la picotea. De esta forma pasa de ser un EC a ser un estímulo discriminativo (Ed) que correlaciona 
con el reforzador (la comida) cuando el animal presiona la tecla (respuesta operante). La luz en este caso 
tiene doble función: es un Ed que señala la ocasión para el refuerzo, y es un EC porque elicita una conducta 
condicionada clásicamente. 
Hay que tener en cuenta que habitualmente se dan relaciones de interacción entre CC y CO porque 
Aunque analicemos de forma separada las respuestas condicionadas clásicamente de las respuestas 
operantes, la influencia de estas contingencias tiene lugar sobre todo el organismo. Diferenciar ambos 
tipos de aprendizaje puede entonces parecer algo artificial, pero ha sido necesaria la distinción práctica 
para el desarrollo de la investigación del aprendizaje, además se ha sugerido que a nivel neurobiológico 
ambos tipos de aprendizaje podrían estar mediados por diferentes mecanismos a nivel celular, lo que 
señala que el cerebro los procesaría de forma diferentes y por tanto serían fenómenos distintos (aunque 
esto aún se está discutiendo). 
3. PROCEDIMIENTOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 
Tenemos que saber que la conducta es un proceso dinámico y modificable en el tiempo, resultado de 
muchas variables que interrelacionan y que pueden incluso no estar presentes en el momento de su 
análisis, lo que dificulta su estudio. Los fenómenos conductuales que tienen un patrón temporal 
identificable bajo condiciones objetivamente especificadas y que son reproducibles en diferentes 
individuos pueden ser descritos como procesos conductuales reproducibles, y su comprensión depende de 
las relaciones entre los eventos que los configuran y de las condiciones bajo las cuales ocurren. 
Es muy importante tener claro el concepto de contingencia: una relación de dependencia funcional entre 
dos componentes de un condicionamiento, dicha relación se establece cuando uno de los componentes 
correlaciona con el otro. En CO hablamos de contingencia positiva cuando una respuesta es seguida de 
una consecuencia, y contingencia negativa cuando una respuesta elimina o previene la aparición de una 
consecuencia. Dependiendo del tipo de contingencia, y de la naturaleza apetitiva o aversiva de la 
consecuencia, se establecen cuatro procedimientos fundamentales de CO: unos encaminados a aumentar 
la conducta y otros a reducirla 
 APETITIVO AVERSIVO 
 
CONTINGENCIA 
POSITIVA 
Refuerzo positivo: 
La conducta provoca consecuencias positivas 
La conducta 
Castigo positivo: 
La conducta provoca consecuencias negativas 
La conducta 
 
 
CONTINGENCIA 
NEGATIVA 
Entrenamiento de omisión o castigo 
negativo: 
La conducta provoca la omisión de algo 
bueno. 
Reforzamiento diferencial de otras conductas. 
 
La conducta 
 Reforzamiento negativo: 
La conducta provoca la omisión de algo malo 
(entrenamiento de escape y evitación ) 
 
La conducta 
 
Psicología del aprendizaje Cristina Gil 
7 
 
3.1. DESTINADOS A AUMENTAR CONDUCTAS: REFORZAMIENTO POSITIVO, ESCAPE Y EVITACIÓN 
 Reforzamiento positivo (entrenamiento de recompensa) 
El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el momento en el que una 
consecuencia apetitiva se presenta de forma contingente a una respuesta, lo que provoca un aumento de 
la fuerza de la respuesta: su intensidad, su frecuencia de aparición, etc. De esta forma cuando el sujeto 
emite la conducta se presenta un evento apetitivo, mientras que si no la emite no se presenta la 
consecuencia apetitiva. Estas consecuencias pueden ser reforzadores primarios como la comida o el sexo, 
o secundarios como elogios, dinero…. 
 La comida es algo muy usado en reforzamiento positivo con animales, pero para que surja efecto el animal 
tiene que estar motivado a conseguirla, por ejemplo privándolo previamente de la comida. La motivación 
vendrá dada por el porcentaje de peso que ha perdido el animal respecto a su peso comiendo por libre, por 
ejemplo un 5% menos. 
También hay que tener en cuenta que en el repertorio natural del animal exista la respuesta que queremos 
medir. Si no es una conducta habitual en su medio natural, como presionar una palanca, se puede emplear 
el moldeamiento o método de aproximaciones sucesivas: reforzar respuestas o conductas que se vayan 
aproximando a la respuesta final que queremos medir, y dejar de reforzarlas, es decir extinguirlas, según 
vamos consiguiendo respuestas más parecidas a nuestro objetivo. Por ejemplo vamos dando comida 
primero por permanecer en la caja, luego por acercarse cada vez más a la zona de la palanca, y al final solo 
reforzaremos cuando el animal la presione. 
 Escape y evitación 
Aquí eliminamos o detenemos un evento aversivo como resultado de una respuesta operante, por tanto la 
fuerza de la conducta o respuesta aumenta: es el procedimiento de escape. Cuando en un procedimiento 
similar, la respuesta impide que se presente el evento de naturaleza aversiva estamos hablando del 
procedimiento de evitación. En laboratorio es habitual que estos dos procedimientos funcionen de manera 
conjunta,y que en principio se aprenda una respuesta de escape y luego de evitación. 
 Si por ejemplo al presionar una palanca se detiene una descarga, en primer momento el animal presionará la 
palanca cuando nota la descarga para detenerla (escape) y una vez aprenda ese comportamiento, la presionará 
continuamente para que la descarga no llegue (evitación). 
Los dos procesos son conocidos como reforzamiento negativo, y en ambos casos la contingencia negativa 
que se da, da lugar al fortalecimiento de la conducta. 
3.2. DESTINADOS A DISMINUIR CONDUCTAS: CASTIGO Y ENTRENAMIENTO DE OMISIÓN 
 Castigo o castigo positivo 
Es el procedimiento en el cual se aplica una consecuencia aversiva de forma contingente, es decir como 
consecuencia, de la respuesta o conducta, y tiene como resultado una disminución de la misma. Es decir la 
consecuencia aversiva se presenta cuando el sujeto emite la respuesta operante, y no se presenta si no la 
emite. En el análisis funcional de la conducta, el castigo se define por su función y esto implica que cuando 
el castigo no tiene efectos en la conducta se considera que este no ha ocurrido. Tenemos que señalar que 
para poder castigar una respuesta antes ha tenido que ser reforzada, es decir, si pretendemos castigar la 
presión de una palanca, para poder observar los efectos del castigo previamente debemos hacer que la 
respuesta de presión de palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo 
anteriormente un entrenamiento de recompensa de la presión de la palanca. De esta forma el castigo 
consistiría en la disminución de una respuesta previamente reforzada debido a la imposición de una 
contingencia de tipo aversivo sobre dicha respuesta. 
Psicología del aprendizaje Cristina Gil 
8 
 
 Entrenamiento de omisión o castigo negativo 
Este procedimiento tiene como resultado también una disminución en la fuerza de la respuesta porque se 
elimina o previene una consecuencia apetitiva de forma contingente a la respuesta o conducta. Es decir, si 
un sujeto emite la respuesta operante, la consecuencia será la no presentación de un evento apetitivo que 
se presentaría en circunstancias similares si no se produjese dicha conducta. Es decir, no entregar una 
recompensa cuando se presenta la conducta no deseada. Los eventos o circunstancias eliminadas en el 
caso del castigo negativo se asume que son reforzantes. 
 Efectos colaterales de los procedimientos aversivos 
Los procedimientos aversivos se refieren a los condicionamientos de escape, evitación y castigo. Además 
de las razones éticas en contra de su uso, los efectos colaterales hacen que se desaconseje su uso. En 
primer lugar la estimulación aversiva es posible que a su vez tenga efectos emocionales que aunque en 
primer momento eliminan la conducta indeseable, no impiden su reactivación en un futuro cuando se 
disipan. También puede pasar que la estimulación aversiva se asocie con otros estímulos presentes en esa 
situación, y que pueden dar lugar a que se inhiban otras conductas que si son deseables: por ejemplo un 
niño puede utilizar estrategias para evitar el castigo y usar esas mismas en entornos donde no están 
presentes las contingencias aversivas. Además tanto las personas como los animales cuando son 
castigados, asocian el castigo más con quién lo ejecuta que con la conducta realizada, esto puede dar 
luchar a evitación y rechazo hacia esa persona más que un cambio de conducta. 
3.3. LA EXTINCIÓN EN EL REFORZAMIENTO POSITIVO 
La extinción en el CO es el procedimiento mediante el cual una respuesta que previamente se reforzaba, se 
deja de reforzar, es decir dejamos de presentar la consecuencia que le seguía al ser emitida. La extinción es 
tanto el procedimiento, como el proceso que da lugar a la disminución de la frecuencia o intensidad de la 
respuesta, causada por ausencia del reforzador, y lleva a una disminución gradual de su ejecución. 
Aun así la respuesta no se elimina de forma absoluta: si dejamos pasar cierto tiempo sin que el sujeto sea 
expuesto a sesiones de extinción observaremos cierta recuperación de la respuesta, esto es conocido 
como recuperación espontánea. Ej. A una rata le damos comida como recompensa por pulsar una palanca, 
le sometemos a extinción después no dándole la comida y acabará por no pulsar la palanca. Pero si la 
sacamos y dejamos pasar un tiempo, al volver a meterla en la caja, probablemente irá a pulsar la palanca. 
Otro efecto de la extinción sobre la conducta es el “estallido de extinción” Este fenómeno consiste en un 
aumento de la tasa de respuesta los primeros ensayos en los que dejamos de presentar el reforzador que 
antes se presentaba. Posteriormente la tasa de respuesta comienza a disminuir de forma gradual. Otro 
efecto que ocurre al comienzo de un procedimiento de extinción es el aumento de la variabilidad de la 
respuesta. Tiene una posible explicación adaptativa: la variación conductual aumenta las probabilidades de 
entrar de nuevo en contacto con el reforzador o con otras posibles fuentes de reforzamiento. 
Como consecuencia de la extinción es habitual encontrase con un estado emocional que se suele 
denominar frustración y que da lugar a que surjan respuestas emocionales incondicionadas como el 
aleteo en las palomas, el que las ratas muerdan la palanca o la agresión en humanos. Ej. Lo que hacemos 
cuando metemos una moneda y no nos sale la lata de refresco de la máquina. Estos efectos relacionados 
con la extinción tienen bastante sentido en condiciones naturales. Si una conducta anteriormente daba 
lugar a una consecuencia favorable para el organismo y en el momento actual ya no la produce, es decir, 
cuando algo funcionaba y ya no funciona, la selección natural parece haber favorecido que los organismos 
Psicología del aprendizaje Cristina Gil 
9 
 
repitan las conductas que funcionaron en el pasado y que además el rango de respuestas ante esa 
situación aumente así como que se presenten con más fuerza. 
En el laboratorio, cuando la extinción sigue su curso, las respuestas emocionales comienzan a desaparecer 
y la intensidad de la respuesta disminuye. Si el procedimiento es lo suficientemente largo la intensidad o la 
tasa de la respuesta suele volver al nivel registrado antes de que la conducta fuese reforzada. A veces se 
necesitan varias o muchas sesiones para llegar al nivel de la línea base. La tasa de respuesta mostrada por 
los sujetos durante la sesiones de extinción puede considerarse como un índice de la resistencia a la 
extinción. En contra de lo que cabría esperar, generalmente las respuestas operantes que han sido 
reforzadas en pocas ocasiones se extinguen de forma lenta, sin embargo cuando una respuesta ha sido 
reforzada en múltiples ocasiones muestra menor resistencia a la extinción, sobre todo cuando en la fase de 
adquisición se ha utilizado un programa de reforzamiento continuo. A este fenómeno se le ha denominado 
efecto del sobreentrenamiento en la extinción. Asimismo, la resistencia a la extinción aumenta de forma 
importante en el momento en que se utiliza un programa de reforzamiento parcial o intermitente. Se ha 
demostrado que con igual número de respuestas reforzadas durante la adquisición, el reforzamiento 
intermitente es más resistente a la extinción que el continuo. 
El efecto del reforzamiento parcial se ha tratado de explicar cómo el resultado de dos procesos básicos 
como son el reforzamiento y la discriminación: podría ser debido a que la discriminación entre el 
reforzamiento y la extinción es más fácil y rápida si el programa es de reforzamiento continuo que si es 
intermitente. Es decir, es más fácil discriminar la diferencia entre un programa con una tasa estable y alta 
de reforzamiento de un programa en el que el reforzamiento no existe (extinción), que entre un programa 
de tasa baja e intermitente de reforzamiento y la extinción. Otro factor que podría estar operando es la 
generalización dela situación de reforzamiento intermitente a la de extinción, dando esto también lugar a 
una mayor resistencia al cambio en los programas de reforzamiento intermitente. Por tanto, los factores 
de discriminación y generalización anularían el efecto producido por la mayor tasa de reforzamiento de los 
programas de reforzamiento continuo, que según la lógica nos llevaría a pensar que a mayor tasa de 
reforzamiento mayor resistencia al cambio, y no es así porque muestra una mayor resistencia al cambio los 
animales que han tenido reforzamiento intermitente durante la fase de adquisición. También hay que 
tener en cuenta el contacto con las contingencias: no es lo mismo darle a una rata por pulsar una palanca 
una bolita siempre que pulsa (reforzamiento continuo) que solo cada 50 veces que la pulse (reforzamiento 
parcial), porque en el primer caso con 10 pulsaciones ya tendría 10 bolitas de refuerzo mientras que en el 
segundo para tener esas mismas 10 bolitas necesitará 500 pulsaciones. 
Otras variables que influyen en la persistencia de la respuesta durante la extinción son la magnitud del 
reforzador y la inmediatez de la recompensa empleadas durante la fase de adquisición. En general, 
cuando la magnitud de la recompensa durante la adquisición es alta y se administra de forma continua 
durante los ensayos de adquisición, la resistencia a la extinción disminuye. Esto no ocurre así, sin embargo, 
cuando las recompensas grandes se administran intermitentemente, tal y como señalábamos 
anteriormente, como consecuencia del efecto del reforzamiento parcial. Así, la resistencia a la extinción 
será baja cuando las recompensas grandes son administradas de forma continua, pero será alta cuando las 
recompensas grandes se administran de forma intermitente. En cuanto a la inmediatez de la recompensa 
parece claramente demostrado que cuando la demora en la presentación del reforzador es baja, es decir, 
pasa poco tiempo entre la emisión de la respuesta y la obtención del reforzador, la resistencia a la 
extinción es mayor. 
Es muy importante señalar que la disminución de la respuesta que ocurre como resultado de la extinción 
es muy diferente a lo que sucede como consecuencia del olvido. La extinción es un procedimiento en el 
Psicología del aprendizaje Cristina Gil 
10 
 
que una respuesta anteriormente reforzada ya no produce reforzamiento pero la posibilidad de emitir la 
respuesta sigue disponible. Sin embargo, en el caso del olvido la disminución de la respuesta ocurre 
simplemente debido al paso del tiempo y la posibilidad de emitir la respuesta no está presente. La 
extinción no revierte lo ocurrido durante la adquisición, sino que implica un aprendizaje nuevo que de 
alguna forma se superpone al anterior. 
Además de la recuperación espontánea hay otros tres fenómenos que prueban que la extinción no es 
olvido ni desaprendizaje total. La renovación que en CO consiste en la recuperación de la respuesta 
extinguida en un contexto diferente al que se llevó a cabo el procedimiento de extinción. La restauración 
de la conducta que se da cuando se vuelve a situar los sujetos en el contexto original de la extinción. Y el 
restablecimiento que es un proceso en el que se puede ver como las respuestas extinguidas vuelven a 
aparecer. En este caso, después de extinguir la respuesta, el sujeto es expuesto de forma no contingente al 
reforzador, lo que hace que la respuesta vuelva a aparecer sin que esta dé lugar al reforzador. 
4. FENOMENOS DEL CONDICIONAMIENTO OPERANTE 
4.1. LA CONDUCTA SUPERSTICIOSA 
Skinner demostró con su “experimento de superstición” parte de las consecuencias que el reforzamiento 
accidental tiene en el proceso de aprendizaje. En el experimento ponía palomas en cajas independientes, y 
les daba una pequeña cantidad de comida cada 15 segundos independientemente de lo que hicieran, y 
registraba su comportamiento. Lo que observo es que los animales actuaban como si su comportamiento 
estuviera relacionado, como si controlara, la entrega del reforzador cuando en ningún caso era así. Skinner 
explico este comportamiento mediante la idea del reforzamiento accidental o adventicio, o dicho de otra 
forma, que si una respuesta ocurre cuando se entrega el reforzador esa conducta es reforzada. Si una de 
las palomas por ejemplo había levantado la cabeza antes de la comida, esa conducta se verá reforzada y 
tendrá más probabilidad de ocurrencia. 
Esta explicación fue puesta en duda por otro experimento de Staddon y Simmelhag en el que hicieron un 
registro de las conductas más minucioso. Encontraron que las respuestas emitidas por los animales se 
podían agrupar en dos categorías a las que llamaron conductas de ínterin y conductas terminales. Las 
conductas de ínterin fueron definidas como aquellas actividades del animal que tenían lugar en el medio 
del intervalo, cuando faltaba todavía bastante tiempo para la aparición del reforzador. Este tipo de 
conductas incluían moverse a lo largo de la pared frontal de la caja o dar vueltas sobre sí mismas. Las 
conductas terminales las definieron como aquellas que ocurrían al final del intervalo y próximas en el 
tiempo a la aparición del reforzador. Entre estas actividades o respuestas incluyeron, por ejemplo, que la 
paloma picotease en el comedero o en sus proximidades. Los autores observaron que este patrón de 
respuestas no variaba de forma significativa de unas palomas a otras y por ello argumentaron que no es el 
reforzamiento accidental lo que origina un aumento en la frecuencia de las conductas de ínterin, sino que 
estas conductas son simplemente respuestas que un sujeto emite de forma innata cuando la probabilidad 
de reforzamiento es baja. Por otro lado la entrega de comida parecía solo influir en las respuestas 
terminales, y su aparición no estaría relacionada con un reforzamiento accidental. En resumen, podríamos 
pensar que determinadas «conductas supersticiosas» estarían explicadas por el reforzamiento accidental 
propuesto por Skinner, y otras por mecanismos que tendrían que ver con conductas innatas relacionadas 
con la manera en que los organismos se relacionan con el paso del tiempo y la aparición de reforzadores 
en ambientes naturales. 
En humanos, las conductas supersticiosas ocurren frecuentemente en situaciones en las que no hay ningún 
tipo de control sobre las consecuencias de las acciones, como en juegos de azar. La conducta supersticiosa 
Psicología del aprendizaje Cristina Gil 
11 
 
también es habitual en los deportistas. Los comportamientos supersticiosos que muestran muchos 
deportistas de elite tienen, con frecuencia, su origen en algún tipo de éxito con el que esa conducta ha 
tenido relación en el pasado: como la prenda que llevaban cuando ganaron un título y que se ponen 
siempre desde entonces. 
Herrstein diferencio la forma en que se adquieren determinadas supersticiones humanas estableciendo 
principios diferentes para cada una de ellas: por una parte las supersticiones idiosincráticas que están 
motivadas por la experiencia propia anterior con situaciones de reforzamiento, y por otra las 
supersticiones sociales típicas mantenidas en el tiempo, que sugirió que eran un residuo de contingencias 
de reforzamiento previas que ya no eran efectivas, pero que en su momento eran de gran relevancia. 
4.2. LA DERIVA INSTINTIVA Y EL CONCEPTO DE RELEVANCIA O PERTINENCIA 
En el CO existen situaciones en las que se observan relaciones de pertinencia o relevancia entre respuestas 
y reforzadores, es decir hay respuestas que son más difíciles de condicionar cuando se utilizan ciertos tipos 
de reforzamiento. Thorndike fue el primero en señalar la facilidad o dificultad para condicionar 
determinadas respuestas y propuso el término de pertinencia, que se refiere a que algunas respuestas se 
relacionarían de modo natural con el reforzador como consecuencia de la historia evolutiva del animal, por 
lo que serán más fáciles de condicionarque otras dependiendo del reforzador que usemos. 
Los Breland, dos estudiantes de Skinner que se dedicaron a entrenar animales, observaron que había 
ciertas respuestas naturales que se presentaban cuando el reforzador empleado era comida y que 
competían con las respuestas que requería el entrenador. Llamaron deriva instintiva al desarrollo de estas 
conductas relacionadas con la comida, que eran diferentes según el animal. Por ejemplo los mapaches 
tenían que introducir una moneda en una hucha para conseguir comida, pero los animales frotaban las 
monedas sin llegar a depositarla. 
4.3. LOS CAMBIOS EN LA CANTIDAD Y CALIDAD DE LA RECOMPENSA: EL FENÓMENO DEL CONTRASTE 
CONDUCTUAL 
El contraste conductual es un fenómeno, relacionado con la motivación, que se basa en el hecho de que la 
efectividad de un reforzador para controlar una conducta puede verse modificada por la experiencia previa 
con el mismo reforzador cuando éste es de una magnitud o calidad diferente. Si aumenta o disminuye el 
reforzador, en relación a lo que percibíamos antes, tiene consecuencias en nuestra conducta y emociones. 
Los efectos que tienen los cambios en la eficacia del reforzador fueron ilustrados de forma clara por 
Mellgren. En su experimento utilizó cuatro grupos de ratas a las que midió la velocidad de la carrera en una 
recta. En la primera fase, al grupo A y al B les dio 2 bolitas de comida al llegar al final, mientras que los 
grupos C y D recibieron 22 bolitas. En la segunda fase, el grupo A seguía recibiendo 2 bolitas, mientras que 
el B pasó a recibir 22. De la misma forma el grupo C mantuvo su recompensa de 22 bolitas, pero el D pasó a 
obtener solo 2. Los resultados mostraron que los grupos a los que no se les varió la cantidad de comida 
mostraron la misma velocidad; a los que aumentaron la cantidad de comida aumentaron su velocidad; y 
los que pasaron de una recompensa grande a la recompensa pequeña disminuyeron significativamente su 
velocidad. Esto demuestra que los efectos de la recompensa dependen de la experiencia previa con otras 
recompensas, y no de su valor absoluto. Las ratas que experimentaron una recompensa más favorable que 
la anterior corrieron más rápido que las que tenían recompensa grande en ambas carreras, fenómeno 
conocido como contraste conductual positivo. Las que recibieron la recompensa desfavorable en la 
segunda fase respecto a la primera, corrían más lento que las que siempre habían tenido recompensa 
pequeña: contraste conductual negativo. 
Psicología del aprendizaje Cristina Gil 
12 
 
 
También se ha propuesto que el fenómeno de contraste puede depender del estado afectivo previo, y 
puede mostrarse de forma diferente dependiendo si es negativo o positivo. Por tanto la sensibilidad de un 
individuo hacia la ganancia o pérdida de recompensas también dependería del estado emocional en el que 
se encuentre. 
4.4. LA CONTROLABILIDAD DE LAS CONSECUENCIAS AVERSIVAS Y EL EFECTO DE INDEFENSIÓN 
APRENDIDA 
Martin E. P. Seligman y sus colaboradores descubrieron que cuando los animales son sometidos a 
situaciones en las que tienen poco o ningún control, desarrollan una reacción emocional en la que 
manifiestan un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas, y se piensa 
que esta reacción es similar a la depresión humana. Este efecto conductual, denominado indefensión 
aprendida, ha sido confirmado en distintas ocasiones, por varios laboratorios y en diferentes especies, lo 
que indica lo robusto y general que es el fenómeno. 
En estos experimentos, en una primera fase (fase de preexposición al entrenamiento escape/evitación) 
asignaron grupos de perros a tres condiciones experimentales: en la primera, el grupo de control, si el 
animal emitía la respuesta requerida podía detener o impedir la presentación de una descarga, era un 
entrenamiento de escape/evitación. El segundo grupo, el experimental acoplado, recibía las mismas 
descargas que el grupo anterior pero en este caso la conducta del animal no tenía consecuencias sobre las 
descargas. Se utilizó un segundo grupo de control, que estaba confinado en la misma situación que los 
demás grupos, pero no recibía descargas en esta fase. En la segunda fase del experimento (fase de 
aprendizaje) todos los grupos de animales fueron sometidos a varios ensayos de entrenamiento 
escape/evitación. Observaron que el grupo acoplado, que había recibido descargas inescapables durante la 
preexposición, mostraba un aprendizaje escape/evitación mucho más lento que los otros grupos. También 
demostraron que no había diferencias entre los grupos de animales sometidos a descargas escapables y los 
que no recibieron descarga en la fase de preexposición. 
 
Psicología del aprendizaje Cristina Gil 
13 
 
Los investigadores concluyeron que el entrenamiento anterior con las descargas inescapables, generaba en 
los animales la expectativa de que su conducta no tenía ningún efecto sobre las consecuencias aversivas 
que experimentaba, ya que aprendían que la aparición de las descargas era independiente de su conducta. 
A esta explicación del fenómeno se la conoce como la hipótesis de la indefensión aprendida. 
Seligman sugirió que el mejor tratamiento para la indefensión es ubicar al sujeto en una situación en la que 
no fuese posible fallar dado que ello generara de nuevo la expectativa de que la conducta toma control 
sobre las consecuencias. Son también interesantes los estudios que demostraron que la indefensión 
aprendida se puede, de alguna manera, prevenir. Seligman llamo inmunización al proceso que se 
desarrolla cuando un sujeto tiene una primera experiencia con descargas escapables que bloquea el 
desarrollo de la indefensión aprendida cuando se presentan descargas inescapables en una fase posterior 
4.5. LOS EFECTOS DE LA DEMORA DEL REFORZADOR: EL PROCEDIMIENTO DE MARCADO 
Una respuesta es difícil de reforzar cuando la entrega de la recompensa se demora en el tiempo, y muy 
fácil reforzar una respuesta o conducta cuando la recompensa o reforzador se entrega inmediatamente. La 
demora del reforzamiento ocurre cuando existe un periodo de tiempo entre la respuesta que da lugar al 
reforzador y la entrega posterior del mismo. En función de las circunstancias, la demora del reforzamiento 
puede disminuir o aumentar la conducta, o incluso no modificarla respecto al reforzamiento no demorado. 
Además, el mismo valor de demora puede tener diferentes efectos en función de otros parámetros, tanto 
de dicha demora como de las condiciones del mantenimiento del reforzamiento. Hay que obtener una 
línea base de respuesta estable a partir de la cual poder observar los efectos de la presentación demorada 
del reforzador. Cuando la línea base es estable y se impone una demora, normalmente esta da lugar a una 
reducción de la respuesta, sin embargo, incluso en estas condiciones no siempre eso es así, ya que en un 
primer momento incluso puede ocurrir un aumento. Se trata de un proceso dinámico resultado de las 
acciones directas o indirectas de distintas variables en la conducta. Una forma de evitar los efectos de la 
demora en la entrega del reforzador consiste en marcar la respuesta haciendo que esta pueda 
diferenciarse de otros eventos que ocurren durante el periodo de demora. La presentación de un estímulo 
contingente a la respuesta convierte esa respuesta en un evento significativo, es el procedimiento de 
marcado. 
 En el experimento los animales se asignan a dos grupos por azar: grupo marcado (experimental) y grupo no 
marcado (control). Si los animales pasaban por el brazo lateral negro del dibujo inferior, recibían comida en la 
caja meta. En el momento en que elegían por qué brazo pasar, los animales del grupo marcado eran trasladados 
a la caja de demora, pero a los del grupo control se les abría la puerta del brazo y les dejaban pasar libremente. 
Los sujetos del grupo marcado mostraron un mayor número de eleccionescorrectas a lo largo de los ensayos. 
 
La explicación que dieron los autores a estos resultados es que la manipulación de los animales posterior a 
la respuesta de elección provoca un marcado de la respuesta de elección en la memoria de los sujetos y 
que esto hace más probable recuperar esta respuesta cuando los sujetos reciben la recompensa después 
de la demora. 
Psicología del aprendizaje Cristina Gil 
14 
 
4.6. DEVALUACIÓN DEL REFORZADOR 
El procedimiento de devaluación del reforzador demuestra que se aprenden asociaciones entre la 
respuesta y la consecuencia en un CO. Consiste en asociar al reforzador que se está utilizando (comida, por 
ejemplo) un estímulo o evento de naturaleza contraria (en experimentos con animales, podría ser una 
sustancia aversiva como el cloruro de litio). 
 Se puede llevar a cabo en una caja de CO con dos palancas. En la primera fase del experimento, 
cualquiera de las dos palancas dará acceso a la comida, en la palanca A sabor a naranja y en la B a fresa. 
Los animales las presionan indistintamente. En una segunda fase, una de las bolitas de comida de uno 
de los sabores (por ejemplo, la de fresa) se empareja fuera de la caja con la sustancia aversiva. 
Finalmente en una tercera fase los animales vuelven a ser introducidos a la caja de CO para ver que 
palana pulsan más ahora, y por tanto que respuesta prefieren. El resultado es que la respuesta 
operante de la palanca que da al reforzador asociado a la sustancia aversiva, en este caso sería la 
palanca B, disminuye, aun cuando presionar esta palanca nunca ha sido contingente al estímulo 
aversivo. 
 Otro experimento con ratas para demostrar la devaluación del reforzador. Los animales podían bien 
tirar de una cadena y les daban agua con azúcar, o bien dar una palanca y les daban comida. 
Posteriormente, sin estar disponibles ni la palanca ni la cadena (es decir, de forma no contingente) se 
les dispensó la comida y el agua y a la mitad les inyectaron litio para crearles malestar. Cuando les 
metieron de nuevo en la caja de condicionamiento, vieron que las ratas que había sufrido el malestar 
presionaron mucho menos los mecanismos para acceder a los reforzadores. Por tanto habían 
aprendido acerca de las consecuencias de su conducta durante el CO. 
Sin embargo, en determinadas ocasiones la ejecución de una respuesta instrumental puede llegar a 
automatizarse si se entrena o practica de forma masiva. En este sentido, algunos autores han diferenciado 
entre lo que sería la acción instrumental, relacionada con aquellas respuestas que son modificadas por el 
valor de sus consecuencias, de aquellas cuya ejecución no depende del valor actual del reforzador a las que 
se les daría el nombre de hábitos. En laboratorio se ha demostrado que la extensión de un entrenamiento 
puede hacer que una conducta se automatice y que no sea controlada por el valor de las consecuencias, 
tomando forma de hábito. 
 Dos grupos de ratas presionando palancas utilizando como reforzador bolitas de sacarosa. Uno de los 
grupos el entrenamiento se limitó a 100 respuestas reforzadas, pero en otro llegó a 500. Después 
inyectaron cloruro de litio a la mitad de animales de cada grupo. En la fase de prueba se observó que la 
devaluación del reforzador solo tuvo un efecto claro en animales con entrenamiento corto, 
demostrando que la práctica prolongada da lugar a una ejecución de la conducta mucho más rígida, 
menos deliberada, y que no depende tanto de las consecuencias de la misma. 
Esto explicaría que determinadas conductas compulsivas, como la búsqueda de drogas, dependan de 
mecanismos de aprendizaje diferentes a los que se dan durante la adquisición de la conducta.

Continuar navegando