aprendizaje TEMA 4

•

Humanas / Sociais

Angelo Aguero

3/4/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Psicología

254.220 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Psicología del aprendizaje Cristina Gil
1

TEMA 4: PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE
1. ANTECEDENTES HISTORICOS
De nuevo la teoría de la evolución de Darwin tiene mucha influencia. Skinner en su obra The Behavior of
Organisms relaciona los mecanismos de selección que expuso Darwin con la conducta, donde el reforzador
es lo que actuaría como elemento seleccionador de las respuestas más apropiadas en una determinada
ocasión.
1.1. THORNDIKE Y LA LEY DEL EFECTO
Los trabajos de Thorndike son el comienzo del estudio científico del condicionamiento instrumental, tanto
teórico como metodológico. Él denominó el condicionamiento instrumental como aprendizaje por ensayo y
error, y centró en cómo los aciertos y los fracasos afectaban a la conducta de los organismos. Para este
autor el aprendizaje ocurre porque se fortalecen las conexiones que se forman entre los estímulos y las
respuestas cuando dan lugar a un estado de satisfacción para el animal. Denominó a esto conexionismo.
Sus experimentos más conocidos eran con gatos metidos en diferentes “cajas problema”, una especie de
jaulas de las que podían salir al activar algún tipo de resorte desde el interior, y al salir el investigador les
daba una cierta cantidad de comida. En los primeros intentos, tardaban un tiempo considerable y se movía
por la caja de forma “azarosa”, explorando hasta dar por casualidad con el mecanismo de apertura. Según
transcurrían los ensayos y repetían la tarea, el tiempo que tardaban en accionar el mecanismo y el tiempo
en salir de la caja era mucho menor.
Este tiempo que pasaba desde que comenzaba el
ensayo hasta que el sujeto salía de la caja,
llamado latencia de escape, era la medida que
Thorndike utilizó para la evaluación de la
ejecución del aprendizaje. Observó que disminuía
de forma muy notable a lo largo de los ensayos

A partir de estos resultados, Thorndike estableció que la entrega de comida fortalecía la conexión entre la
situación (en este caso los estímulos en el entorno de la caja) y la respuesta del animal. Lo denominó Ley
del efecto: De las muchas respuestas dadas en la misma situación, las que vayan acompañadas o
inmediatamente seguidas de satisfacción para el animal, en igualdad de condiciones, se conectaran más
firmemente con la situación; de manera que cuando esta vuelva a presentarse, volverán a presentarse con
gran probabilidad.
Es una explicación sencilla de este tipo de aprendizajes: cuando en una determinada situación, una
conducta va seguida de algo agradable, al volver de nuevo a esa misma situación será más probable que la
conducta se vuelva a repetir. Las conductas con resultado placentero serían por tanto fortalecidas, y las
conductas cuyo resultado fuese algo desagradable serían eliminadas.
1.2. EL ANÁLISIS EXPERIMENTAL DEL COMPORTAMIENTO DE SKINNER
Skinner, considerado por muchos el autor más relevante de este tipo de aprendizaje, realizó una extensa
investigación sobre los fundamentos del condicionamiento operante, lo que dio lugar a la formación de un
gran número de investigaciones posteriores que lo siguieron desarrollando. En The Behavior of Organisms
desarrolla la idea de que los reflejos podrían ser estudiados como conducta más que como un reflejo del
sistema nervioso o de la mente: Skinner distingue entre el condicionamiento de los reflejos de Pavlov y el
Psicología del aprendizaje Cristina Gil
2

tipo de aprendizaje que había propuesto Thorndike, lo que le llevo a formular que la conducta se regula
tanto por el condicionamiento de los reflejos o condicionamiento respondiente como por el operante.
Skinner se centró en las relaciones funcionales entre la conducta y sus consecuencias. Para el, tanto el
condicionamiento operante como el respondiente debían solo prestar atención al estudio de las relaciones
entre los eventos observables y la conducta.
Para describir los procedimientos utilizó los términos condicionamiento operante y condicionamiento
instrumental. El termino operante refleja la capacidad que tiene el individuo para operar sobre su
ambiente, mientras que el termino instrumental tiene en cuenta el hecho de que la conducta del sujeto es
el instrumento para obtener el reforzador. La innovación de los experimentos de Skinner fue utilizar en
ellos una respuesta que el sujeto podía ejecutar repetidamente sin intervención del experimentador (en
ratas era presionar una palanca, en palomas picotear una tecla).

Este tipo de procedimientos son conocidos como
de operante libre: en ellos la respuesta puede
ocurrir en cualquier momento y de forma
repetida mientras el sujeto siga en la caja de
condicionamiento. La variable dependiente
medida es la tasa de respuesta, o número de
respuestas por unidad de tiempo, en lugar de la
latencia que utilizaba Thorndike como medida.

2. DEFINICIÓN DEL CONDICIONAMIENTO OPERANTE
Por condicionamiento operante (CO) entendemos el proceso que da lugar a que la probabilidad de una
respuesta se vea modificada por sus consecuencias, es decir, por los efectos que tiene el ambiente sobre
ella.
 El ejemplo más común: una rata en una caja de Skinner, que dispone de una palanca que está conectada al
contenedor de comida. Para el animal, la caja será las circunstancias o el ambiente. Si la rata cuando está
explorando da por casualidad a la palanca, se liberará una bolita de comida, lo que hace que aumente la
probabilidad de que el animal accione de nuevo la palanca para conseguir una nueva bolita de comida.
Por tanto el condicionamiento operante dispone al sujeto en unas circunstancias en las que alguna de sus
conductas da lugar a la aparición de un evento, lo que produce un cambio de la probabilidad de emisión de
esa conducta en el futuro. El término “operante” se utiliza porque a diferencia de lo que ocurría en el CC el
sujeto interviene u “opera” en el medio.
Si el resultado del comportamiento es beneficioso para el animal la conducta se fortalecerá, siendo más
probable que se emita de nuevo en circunstancias parecidas. Si el resultado es perjudicial, dicha conducta
tenderá a desaparecer del repertorio del sujeto.
Con el condicionamiento operante, los organismos aprenden a obtener consecuencias favorables y a
eliminar consecuencias desfavorables del ambiente Este condicionamiento hace que los sujetos, no sólo
aprendan a responder ante una nueva circunstancia con una respuesta que formaba parte de su
repertorio, sino que además puede dar lugar a la aparición de respuestas nuevas.

Psicología del aprendizaje Cristina Gil
3

2.1. LA CONTINGENCIA DE TRES TÉRMINOS
La descripción de la conducta operante requiere habitualmente de tres términos elementales y sus
interrelaciones funcionales. Estos tres términos fundamentales son el estímulo discriminativo, la respuesta
y la consecuencia o reforzador. De este modo la contingencia se define como: en presencia de un estímulo
específico, el reforzador se presentará si y solo si la respuesta operante sucede. La contingencia de estos
tres términos constituye la unidad fundamental de análisis en el estudio de la conducta operante.
2.1.1. El estímulo discriminativo
Debemos considerar la conducta como la ejecución que ocurre después de un estímulo que en un
momento determinado tiene como resultado una consecuencia específica. Esto nos viene a señalar que los
estímulos antecedentes también tienen una gran importancia en el condicionamiento operante. Las claves
contextuales en el CO reciben el nombre de estímulos discriminativos (Eds) y señalan la ocasión para que
si la conducta se presenta sea seguida por una consecuencia. Es decir, un estímulo, en principio neutro,
puede indicar si el reforzador está disponible, y por tanto indica al sujeto cuándo ha de responder. Esto
implica reforzar una respuesta en una situación pero no en otra, la probabilidad de emitir una operante en
presencia de un Edpuede ser muy alta, esto quiere decir que el estímulo ejerce un control sobre esa
respuesta, pero no es que el Ed provoqué la respuesta.
Las consecuencias de las respuestas operantes establecen el control que ejercen los Eds. Cuando un Ed va
seguido de una respuesta cuya consecuencia es apetitiva, se ve como ya hemos dicho reforzada, y por
tanto la probabilidad de que ocurra aumenta si dicho estímulo está presente posteriormente. Cuando una
respuesta operante no es seguida de una conducta reforzante, el estímulo que precede la respuesta se
conoce como estímulo delta (EΔ), y en su presencia la probabilidad de emitir la operante disminuye. El
termino control por el estímulo se refiere a cómo los estímulos que preceden una conducta pueden
controlar la ocurrencia de ésta.
 Pensemos en una maquina dispensadora de bebidas en la que introducimos una moneda para comprar un
refresco. Una luz verde nos indica que el refresco que queremos seleccionar está disponible y una luz roja nos
indica que está agotado. La respuesta operante en este caso es apretar el botón de selección de la bebida. La
probabilidad de que pulsemos el botón con la luz verde encendida será mucho más alta que la probabilidad de
que pulsemos ese mismo botón si la luz roja está encendida. En este caso la luz verde actúa como un Ed porque
señala la disponibilidad del reforzador en el caso de que se emita la respuesta operante y la luz roja como un EΔ
porque señala la ausencia del reforzador en el caso de que la operante ocurra.

2.1.2. La respuesta
La respuesta operante en este condicionamiento se define por los efectos que provoca en el ambiente.
Cuando una respuesta produce el mismo efecto que otra respuesta (aunque sean diferentes) estaremos
hablando de la misma operante, porque producen los mismos efectos sobre el ambiente. La operante se
define por tanto por su función, y no por su forma.
 En el caso de presionar la palanca, la ratita puede hacerlo con la pata o con el morro, pero ambas respuestas dan
una bolita de comida, por ello son ejemplos de una misma operante.
Skinner señaló que “El término enfatiza el hecho de que la conducta opera sobre el ambiente para generar
consecuencias. Las consecuencias definen las propiedades en función de las cuales las respuestas se
consideran similares. El término se usara como adjetivo (conducta operante) y como sustantivo que designa
la conducta definida por una consecuencia dada”
Psicología del aprendizaje Cristina Gil
4

Cuando hablamos de la conducta, esta puede ser muy compleja y adoptar distintas formas (topografía)
teniendo la misma función. Cuando hablamos de clase de respuesta nos estamos refiriendo a cualquier
forma de ejecutar una conducta con una función similar, en el ejemplo anterior la función sería obtener
comida. Estas respuestas pueden ser físicamente parecidas pero no siempre tiene que ser así: por ejemplo
podemos hacer algo nosotros mismos o pedirle a otro que lo haga. Ambas sería la misma clase de
respuesta pero con una topografía o forma muy diferente.
2.1.3. El reforzador
Para el CO el término reforzador debe dar cabida a la gran variedad de estímulos y eventos que poseen la
capacidad de reforzamiento de una conducta. Se define por tanto en función de los efectos que tiene
sobre la conducta. Según esta definición funcional un reforzador es cualquier suceso o evento que al
hacerse contingente con una respuesta cambia la probabilidad de aparición de esa respuesta en el futuro.
 Reforzamiento condicionado
La conducta humana muchas veces no es controlada por reforzadores primarios como puede ser la
comida, sino por eventos cuyos efectos dependen de la historia del reforzamiento. Los elogios o críticas,
los juicios sobre nuestro comportamiento, o el dinero, son consecuencias que pueden fortalecer o debilitar
la ocurrencia de una conducta. Este tipo de eventos adquieren los efectos que producen debido a las
experiencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace que la misma consecuencia
pueda tener efectos distintos dependiendo de la experiencia personal del sujeto (por ejemplo para algunos
el dinero es muy importante, pero para otros lo es menos)
Como venimos señalando, un reforzador puede ser definido como un evento cuya entrega aumenta la
frecuencia de una respuesta con la que es contingente. El componente critico es la influencia en la tasa de
respuesta, no lo que el estímulo o evento es en realidad. Se puede producir el fenómeno del
reforzamiento condicionado, también llamado reforzamiento secundario: un estímulo o evento que
originalmente no es reforzante, como una luz o un sonido, puede adquirir capacidad de reforzamiento
mediante la asociación repetida con otro que era previamente reforzante. Hablamos, entonces, de
reforzamiento condicionado cuando una conducta se fortalece debido a sucesos que tienen un efecto que
depende de la historia de reforzamiento de ese sujeto. Implica una correspondencia entre un evento
arbitrario y un reforzador que es efectivo en el momento actual. Cuando este evento arbitrario es capaz de
aumentar la frecuencia o la tasa de una respuesta, a este tipo de reforzamiento lo denominamos
reforzamiento secundario o reforzamiento condicionado.
Los resultados de laboratorio en el estudio del reforzamiento condicionado son contradictorios: en algunos
la extinción hace que los reforzadores condicionados pierdan efectividad, mientras que en otro se
mantienen en situaciones de muchas repeticiones. A pesar de estos resultados que no son concluyentes, la
experiencia en la vida diaria sugiere que eventos de este tipo pueden reforzar gran cantidad de conductas
sin extinguirse.
2.2. ACLARACIONES
2.2.1. Reforzador-reforzamiento
El evento sería el reforzador, y el procedimiento o proceso el reforzamiento. El reforzamiento produce
incrementos en la conducta, y los reforzadores son los eventos que hacen que el reforzamiento produzca
esos efectos. Cuando el procedimiento disminuye la conducta se denomina castigo y los eventos utilizados
cuando se presenta la conducta son de naturaleza aversiva. Hay que distinguir así entre consecuencia
apetitiva (reforzador) y consecuencia aversiva (castigo)
Psicología del aprendizaje Cristina Gil
5

2.2.2. Respuesta discreta-operante libre
En los experimentos de ensayo discreto, la variable dependiente es la latencia de respuesta. En éstos el
ensayo comienza cuando el sujeto es dispuesto en el aparato y éste puede únicamente emitir, y el
investigador registrar, una respuesta en cada ensayo. Por ejemplo un laberinto en forma de T, se coloca al
animal y se recoge a la salida del brazo una vez obtiene el reforzador correspondiente. Llevan mucho
trabajo y tiempo y en un día solo se pueden llevar a cabo un pequeño número de ensayos.
Los procedimientos de operante libre incluyen la novedad introducida por Skinner: la variable dependiente
para medir el aprendizaje es la tasa de respuesta, y los sujetos pueden emitir la respuesta de forma
constante y repetidamente sin que el investigador tenga que manipular al sujeto de ninguna forma entre
ensayo y ensayo.
2.2.3. Topografía-función
La topografía sería el punto de vista estructural de una conducta, la forma de respuesta, sus propiedades o
características físicas de una respuesta, entendida como una secuencia de movimientos que ocurren en el
tiempo. Por ejemplo para empujar una puerta podemos hacerlo con la mano con el codo o con el pie. Todo
ello son diferentes formas de la misma respuesta de empujar la puerta. Desde el punto de vista del CO las
consecuencias de una respuesta pueden modificar su topografía o forma. Si estamos en público es menos
probable que abramos esa puerta dando una patada, o si queremos evitar hacer ruido será menos
probable que la empujemos de golpe. Por esto la topografía es una función de las contingencias de
reforzamiento.
Sin embargola función es la relación de la respuesta con los estímulos antecedentes y las consecuencias de
la misma. La conducta es por tanto la ejecución de una respuesta que sigue a un estímulo específico y que
tiene como resultado algún tipo de consecuencia. Dos respuestas con la misma forma pueden tener
función diferente, y dos respuestas con distinta topografía tener la misma función.
El control que ejerce un reforzador sobre una conducta operante puede estar limitado por la topografía de
la respuesta. Por ejemplo la comida como reforzador ejerce poco control en la conducta de rascarse el
cuerpo en los hámsteres, pero mucho control sobre otra como alzarse sobre las patas traseras. En otros
casos, las relaciones funcionales entre diferentes topografías de respuesta son similares entre ellas: por
ejemplo las palomas tienen formas distintas de abrir el pico para beber que para comer.
2.2.4. Instancia de respuesta y clase de respuesta
La conducta operante se define por las relaciones funcionales entre clases de respuestas y las
consecuencias ambientales. Una clase de respuesta se refiere a todas las formas en las que la ejecución de
la respuesta puede llevar a una función similar. Una instancia de respuesta es la unidad mínima de
conducta y se refiere a la ocurrencia particular y especifica de una respuesta teniendo en cuenta además
su topografía. Así, podemos especificar “la rata presiono la palanca de la caja de condicionamiento con la
pata delantera derecha a las 10:50 p.m.” señalando una instancia de respuesta o utilizar la clase “presionar
la palanca” independiente del momento concreto en el que ocurrió la instancia y sin tener en cuenta la
topografía.
2.2.5. Interacciones clásicas y operantes en el control de la conducta
Para llevar a cabo un condicionamiento operante, es necesario que el sujeto sea “activo” es decir, que
emita algún tipo de respuesta. Para poder reforzar o castigar una conducta es necesario que la conducta
ocurra, que se presente con una cierta probabilidad, ya que en ausencia de ella no se podrá establecer una
Psicología del aprendizaje Cristina Gil
6

relación entre esa conducta y otro acontecimiento ambiental. Cuando la probabilidad de que ocurra la
respuesta es muy baja (por ejemplo que una paloma picoteé una luz) hay ciertas soluciones para no tener
que esperar a que se dé por casualidad, lo que nos llevaría mucho tiempo. Una de las soluciones es el
automoldeamiento: hacer primero un procedimiento de CC que empareje el estímulo neutro, como la
tecla iluminada, con algo apetitivo, como la comida. Como ya sabemos la luz pasaría tras varios ensayos a
ser un EC que provoca una respuesta por sí misma al ser presentada en solitario. Una vez que la luz
provoca la RC, podemos someterla a control operante haciendo que solo aparezca la comida cuando la
paloma la picotea. De esta forma pasa de ser un EC a ser un estímulo discriminativo (Ed) que correlaciona
con el reforzador (la comida) cuando el animal presiona la tecla (respuesta operante). La luz en este caso
tiene doble función: es un Ed que señala la ocasión para el refuerzo, y es un EC porque elicita una conducta
condicionada clásicamente.
Hay que tener en cuenta que habitualmente se dan relaciones de interacción entre CC y CO porque
Aunque analicemos de forma separada las respuestas condicionadas clásicamente de las respuestas
operantes, la influencia de estas contingencias tiene lugar sobre todo el organismo. Diferenciar ambos
tipos de aprendizaje puede entonces parecer algo artificial, pero ha sido necesaria la distinción práctica
para el desarrollo de la investigación del aprendizaje, además se ha sugerido que a nivel neurobiológico
ambos tipos de aprendizaje podrían estar mediados por diferentes mecanismos a nivel celular, lo que
señala que el cerebro los procesaría de forma diferentes y por tanto serían fenómenos distintos (aunque
esto aún se está discutiendo).
3. PROCEDIMIENTOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE
Tenemos que saber que la conducta es un proceso dinámico y modificable en el tiempo, resultado de
muchas variables que interrelacionan y que pueden incluso no estar presentes en el momento de su
análisis, lo que dificulta su estudio. Los fenómenos conductuales que tienen un patrón temporal
identificable bajo condiciones objetivamente especificadas y que son reproducibles en diferentes
individuos pueden ser descritos como procesos conductuales reproducibles, y su comprensión depende de
las relaciones entre los eventos que los configuran y de las condiciones bajo las cuales ocurren.
Es muy importante tener claro el concepto de contingencia: una relación de dependencia funcional entre
dos componentes de un condicionamiento, dicha relación se establece cuando uno de los componentes
correlaciona con el otro. En CO hablamos de contingencia positiva cuando una respuesta es seguida de
una consecuencia, y contingencia negativa cuando una respuesta elimina o previene la aparición de una
consecuencia. Dependiendo del tipo de contingencia, y de la naturaleza apetitiva o aversiva de la
consecuencia, se establecen cuatro procedimientos fundamentales de CO: unos encaminados a aumentar
la conducta y otros a reducirla
APETITIVO AVERSIVO

CONTINGENCIA
POSITIVA
Refuerzo positivo:
La conducta provoca consecuencias positivas
La conducta
Castigo positivo:
La conducta provoca consecuencias negativas
La conducta

CONTINGENCIA
NEGATIVA
Entrenamiento de omisión o castigo
negativo:
La conducta provoca la omisión de algo
bueno.
Reforzamiento diferencial de otras conductas.

La conducta
Reforzamiento negativo:
La conducta provoca la omisión de algo malo
(entrenamiento de escape y evitación )

La conducta

Psicología del aprendizaje Cristina Gil
7

3.1. DESTINADOS A AUMENTAR CONDUCTAS: REFORZAMIENTO POSITIVO, ESCAPE Y EVITACIÓN
 Reforzamiento positivo (entrenamiento de recompensa)
El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el momento en el que una
consecuencia apetitiva se presenta de forma contingente a una respuesta, lo que provoca un aumento de
la fuerza de la respuesta: su intensidad, su frecuencia de aparición, etc. De esta forma cuando el sujeto
emite la conducta se presenta un evento apetitivo, mientras que si no la emite no se presenta la
consecuencia apetitiva. Estas consecuencias pueden ser reforzadores primarios como la comida o el sexo,
o secundarios como elogios, dinero….
 La comida es algo muy usado en reforzamiento positivo con animales, pero para que surja efecto el animal
tiene que estar motivado a conseguirla, por ejemplo privándolo previamente de la comida. La motivación
vendrá dada por el porcentaje de peso que ha perdido el animal respecto a su peso comiendo por libre, por
ejemplo un 5% menos.
También hay que tener en cuenta que en el repertorio natural del animal exista la respuesta que queremos
medir. Si no es una conducta habitual en su medio natural, como presionar una palanca, se puede emplear
el moldeamiento o método de aproximaciones sucesivas: reforzar respuestas o conductas que se vayan
aproximando a la respuesta final que queremos medir, y dejar de reforzarlas, es decir extinguirlas, según
vamos consiguiendo respuestas más parecidas a nuestro objetivo. Por ejemplo vamos dando comida
primero por permanecer en la caja, luego por acercarse cada vez más a la zona de la palanca, y al final solo
reforzaremos cuando el animal la presione.
 Escape y evitación
Aquí eliminamos o detenemos un evento aversivo como resultado de una respuesta operante, por tanto la
fuerza de la conducta o respuesta aumenta: es el procedimiento de escape. Cuando en un procedimiento
similar, la respuesta impide que se presente el evento de naturaleza aversiva estamos hablando del
procedimiento de evitación. En laboratorio es habitual que estos dos procedimientos funcionen de manera
conjunta,y que en principio se aprenda una respuesta de escape y luego de evitación.
 Si por ejemplo al presionar una palanca se detiene una descarga, en primer momento el animal presionará la
palanca cuando nota la descarga para detenerla (escape) y una vez aprenda ese comportamiento, la presionará
continuamente para que la descarga no llegue (evitación).
Los dos procesos son conocidos como reforzamiento negativo, y en ambos casos la contingencia negativa
que se da, da lugar al fortalecimiento de la conducta.
3.2. DESTINADOS A DISMINUIR CONDUCTAS: CASTIGO Y ENTRENAMIENTO DE OMISIÓN
 Castigo o castigo positivo
Es el procedimiento en el cual se aplica una consecuencia aversiva de forma contingente, es decir como
consecuencia, de la respuesta o conducta, y tiene como resultado una disminución de la misma. Es decir la
consecuencia aversiva se presenta cuando el sujeto emite la respuesta operante, y no se presenta si no la
emite. En el análisis funcional de la conducta, el castigo se define por su función y esto implica que cuando
el castigo no tiene efectos en la conducta se considera que este no ha ocurrido. Tenemos que señalar que
para poder castigar una respuesta antes ha tenido que ser reforzada, es decir, si pretendemos castigar la
presión de una palanca, para poder observar los efectos del castigo previamente debemos hacer que la
respuesta de presión de palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo
anteriormente un entrenamiento de recompensa de la presión de la palanca. De esta forma el castigo
consistiría en la disminución de una respuesta previamente reforzada debido a la imposición de una
contingencia de tipo aversivo sobre dicha respuesta.
Psicología del aprendizaje Cristina Gil
8

 Entrenamiento de omisión o castigo negativo
Este procedimiento tiene como resultado también una disminución en la fuerza de la respuesta porque se
elimina o previene una consecuencia apetitiva de forma contingente a la respuesta o conducta. Es decir, si
un sujeto emite la respuesta operante, la consecuencia será la no presentación de un evento apetitivo que
se presentaría en circunstancias similares si no se produjese dicha conducta. Es decir, no entregar una
recompensa cuando se presenta la conducta no deseada. Los eventos o circunstancias eliminadas en el
caso del castigo negativo se asume que son reforzantes.
 Efectos colaterales de los procedimientos aversivos
Los procedimientos aversivos se refieren a los condicionamientos de escape, evitación y castigo. Además
de las razones éticas en contra de su uso, los efectos colaterales hacen que se desaconseje su uso. En
primer lugar la estimulación aversiva es posible que a su vez tenga efectos emocionales que aunque en
primer momento eliminan la conducta indeseable, no impiden su reactivación en un futuro cuando se
disipan. También puede pasar que la estimulación aversiva se asocie con otros estímulos presentes en esa
situación, y que pueden dar lugar a que se inhiban otras conductas que si son deseables: por ejemplo un
niño puede utilizar estrategias para evitar el castigo y usar esas mismas en entornos donde no están
presentes las contingencias aversivas. Además tanto las personas como los animales cuando son
castigados, asocian el castigo más con quién lo ejecuta que con la conducta realizada, esto puede dar
luchar a evitación y rechazo hacia esa persona más que un cambio de conducta.
3.3. LA EXTINCIÓN EN EL REFORZAMIENTO POSITIVO
La extinción en el CO es el procedimiento mediante el cual una respuesta que previamente se reforzaba, se
deja de reforzar, es decir dejamos de presentar la consecuencia que le seguía al ser emitida. La extinción es
tanto el procedimiento, como el proceso que da lugar a la disminución de la frecuencia o intensidad de la
respuesta, causada por ausencia del reforzador, y lleva a una disminución gradual de su ejecución.
Aun así la respuesta no se elimina de forma absoluta: si dejamos pasar cierto tiempo sin que el sujeto sea
expuesto a sesiones de extinción observaremos cierta recuperación de la respuesta, esto es conocido
como recuperación espontánea. Ej. A una rata le damos comida como recompensa por pulsar una palanca,
le sometemos a extinción después no dándole la comida y acabará por no pulsar la palanca. Pero si la
sacamos y dejamos pasar un tiempo, al volver a meterla en la caja, probablemente irá a pulsar la palanca.
Otro efecto de la extinción sobre la conducta es el “estallido de extinción” Este fenómeno consiste en un
aumento de la tasa de respuesta los primeros ensayos en los que dejamos de presentar el reforzador que
antes se presentaba. Posteriormente la tasa de respuesta comienza a disminuir de forma gradual. Otro
efecto que ocurre al comienzo de un procedimiento de extinción es el aumento de la variabilidad de la
respuesta. Tiene una posible explicación adaptativa: la variación conductual aumenta las probabilidades de
entrar de nuevo en contacto con el reforzador o con otras posibles fuentes de reforzamiento.
Como consecuencia de la extinción es habitual encontrase con un estado emocional que se suele
denominar frustración y que da lugar a que surjan respuestas emocionales incondicionadas como el
aleteo en las palomas, el que las ratas muerdan la palanca o la agresión en humanos. Ej. Lo que hacemos
cuando metemos una moneda y no nos sale la lata de refresco de la máquina. Estos efectos relacionados
con la extinción tienen bastante sentido en condiciones naturales. Si una conducta anteriormente daba
lugar a una consecuencia favorable para el organismo y en el momento actual ya no la produce, es decir,
cuando algo funcionaba y ya no funciona, la selección natural parece haber favorecido que los organismos
Psicología del aprendizaje Cristina Gil
9

repitan las conductas que funcionaron en el pasado y que además el rango de respuestas ante esa
situación aumente así como que se presenten con más fuerza.
En el laboratorio, cuando la extinción sigue su curso, las respuestas emocionales comienzan a desaparecer
y la intensidad de la respuesta disminuye. Si el procedimiento es lo suficientemente largo la intensidad o la
tasa de la respuesta suele volver al nivel registrado antes de que la conducta fuese reforzada. A veces se
necesitan varias o muchas sesiones para llegar al nivel de la línea base. La tasa de respuesta mostrada por
los sujetos durante la sesiones de extinción puede considerarse como un índice de la resistencia a la
extinción. En contra de lo que cabría esperar, generalmente las respuestas operantes que han sido
reforzadas en pocas ocasiones se extinguen de forma lenta, sin embargo cuando una respuesta ha sido
reforzada en múltiples ocasiones muestra menor resistencia a la extinción, sobre todo cuando en la fase de
adquisición se ha utilizado un programa de reforzamiento continuo. A este fenómeno se le ha denominado
efecto del sobreentrenamiento en la extinción. Asimismo, la resistencia a la extinción aumenta de forma
importante en el momento en que se utiliza un programa de reforzamiento parcial o intermitente. Se ha
demostrado que con igual número de respuestas reforzadas durante la adquisición, el reforzamiento
intermitente es más resistente a la extinción que el continuo.
El efecto del reforzamiento parcial se ha tratado de explicar cómo el resultado de dos procesos básicos
como son el reforzamiento y la discriminación: podría ser debido a que la discriminación entre el
reforzamiento y la extinción es más fácil y rápida si el programa es de reforzamiento continuo que si es
intermitente. Es decir, es más fácil discriminar la diferencia entre un programa con una tasa estable y alta
de reforzamiento de un programa en el que el reforzamiento no existe (extinción), que entre un programa
de tasa baja e intermitente de reforzamiento y la extinción. Otro factor que podría estar operando es la
generalización dela situación de reforzamiento intermitente a la de extinción, dando esto también lugar a
una mayor resistencia al cambio en los programas de reforzamiento intermitente. Por tanto, los factores
de discriminación y generalización anularían el efecto producido por la mayor tasa de reforzamiento de los
programas de reforzamiento continuo, que según la lógica nos llevaría a pensar que a mayor tasa de
reforzamiento mayor resistencia al cambio, y no es así porque muestra una mayor resistencia al cambio los
animales que han tenido reforzamiento intermitente durante la fase de adquisición. También hay que
tener en cuenta el contacto con las contingencias: no es lo mismo darle a una rata por pulsar una palanca
una bolita siempre que pulsa (reforzamiento continuo) que solo cada 50 veces que la pulse (reforzamiento
parcial), porque en el primer caso con 10 pulsaciones ya tendría 10 bolitas de refuerzo mientras que en el
segundo para tener esas mismas 10 bolitas necesitará 500 pulsaciones.
Otras variables que influyen en la persistencia de la respuesta durante la extinción son la magnitud del
reforzador y la inmediatez de la recompensa empleadas durante la fase de adquisición. En general,
cuando la magnitud de la recompensa durante la adquisición es alta y se administra de forma continua
durante los ensayos de adquisición, la resistencia a la extinción disminuye. Esto no ocurre así, sin embargo,
cuando las recompensas grandes se administran intermitentemente, tal y como señalábamos
anteriormente, como consecuencia del efecto del reforzamiento parcial. Así, la resistencia a la extinción
será baja cuando las recompensas grandes son administradas de forma continua, pero será alta cuando las
recompensas grandes se administran de forma intermitente. En cuanto a la inmediatez de la recompensa
parece claramente demostrado que cuando la demora en la presentación del reforzador es baja, es decir,
pasa poco tiempo entre la emisión de la respuesta y la obtención del reforzador, la resistencia a la
extinción es mayor.
Es muy importante señalar que la disminución de la respuesta que ocurre como resultado de la extinción
es muy diferente a lo que sucede como consecuencia del olvido. La extinción es un procedimiento en el
Psicología del aprendizaje Cristina Gil
10

que una respuesta anteriormente reforzada ya no produce reforzamiento pero la posibilidad de emitir la
respuesta sigue disponible. Sin embargo, en el caso del olvido la disminución de la respuesta ocurre
simplemente debido al paso del tiempo y la posibilidad de emitir la respuesta no está presente. La
extinción no revierte lo ocurrido durante la adquisición, sino que implica un aprendizaje nuevo que de
alguna forma se superpone al anterior.
Además de la recuperación espontánea hay otros tres fenómenos que prueban que la extinción no es
olvido ni desaprendizaje total. La renovación que en CO consiste en la recuperación de la respuesta
extinguida en un contexto diferente al que se llevó a cabo el procedimiento de extinción. La restauración
de la conducta que se da cuando se vuelve a situar los sujetos en el contexto original de la extinción. Y el
restablecimiento que es un proceso en el que se puede ver como las respuestas extinguidas vuelven a
aparecer. En este caso, después de extinguir la respuesta, el sujeto es expuesto de forma no contingente al
reforzador, lo que hace que la respuesta vuelva a aparecer sin que esta dé lugar al reforzador.
4. FENOMENOS DEL CONDICIONAMIENTO OPERANTE
4.1. LA CONDUCTA SUPERSTICIOSA
Skinner demostró con su “experimento de superstición” parte de las consecuencias que el reforzamiento
accidental tiene en el proceso de aprendizaje. En el experimento ponía palomas en cajas independientes, y
les daba una pequeña cantidad de comida cada 15 segundos independientemente de lo que hicieran, y
registraba su comportamiento. Lo que observo es que los animales actuaban como si su comportamiento
estuviera relacionado, como si controlara, la entrega del reforzador cuando en ningún caso era así. Skinner
explico este comportamiento mediante la idea del reforzamiento accidental o adventicio, o dicho de otra
forma, que si una respuesta ocurre cuando se entrega el reforzador esa conducta es reforzada. Si una de
las palomas por ejemplo había levantado la cabeza antes de la comida, esa conducta se verá reforzada y
tendrá más probabilidad de ocurrencia.
Esta explicación fue puesta en duda por otro experimento de Staddon y Simmelhag en el que hicieron un
registro de las conductas más minucioso. Encontraron que las respuestas emitidas por los animales se
podían agrupar en dos categorías a las que llamaron conductas de ínterin y conductas terminales. Las
conductas de ínterin fueron definidas como aquellas actividades del animal que tenían lugar en el medio
del intervalo, cuando faltaba todavía bastante tiempo para la aparición del reforzador. Este tipo de
conductas incluían moverse a lo largo de la pared frontal de la caja o dar vueltas sobre sí mismas. Las
conductas terminales las definieron como aquellas que ocurrían al final del intervalo y próximas en el
tiempo a la aparición del reforzador. Entre estas actividades o respuestas incluyeron, por ejemplo, que la
paloma picotease en el comedero o en sus proximidades. Los autores observaron que este patrón de
respuestas no variaba de forma significativa de unas palomas a otras y por ello argumentaron que no es el
reforzamiento accidental lo que origina un aumento en la frecuencia de las conductas de ínterin, sino que
estas conductas son simplemente respuestas que un sujeto emite de forma innata cuando la probabilidad
de reforzamiento es baja. Por otro lado la entrega de comida parecía solo influir en las respuestas
terminales, y su aparición no estaría relacionada con un reforzamiento accidental. En resumen, podríamos
pensar que determinadas «conductas supersticiosas» estarían explicadas por el reforzamiento accidental
propuesto por Skinner, y otras por mecanismos que tendrían que ver con conductas innatas relacionadas
con la manera en que los organismos se relacionan con el paso del tiempo y la aparición de reforzadores
en ambientes naturales.
En humanos, las conductas supersticiosas ocurren frecuentemente en situaciones en las que no hay ningún
tipo de control sobre las consecuencias de las acciones, como en juegos de azar. La conducta supersticiosa
Psicología del aprendizaje Cristina Gil
11

también es habitual en los deportistas. Los comportamientos supersticiosos que muestran muchos
deportistas de elite tienen, con frecuencia, su origen en algún tipo de éxito con el que esa conducta ha
tenido relación en el pasado: como la prenda que llevaban cuando ganaron un título y que se ponen
siempre desde entonces.
Herrstein diferencio la forma en que se adquieren determinadas supersticiones humanas estableciendo
principios diferentes para cada una de ellas: por una parte las supersticiones idiosincráticas que están
motivadas por la experiencia propia anterior con situaciones de reforzamiento, y por otra las
supersticiones sociales típicas mantenidas en el tiempo, que sugirió que eran un residuo de contingencias
de reforzamiento previas que ya no eran efectivas, pero que en su momento eran de gran relevancia.
4.2. LA DERIVA INSTINTIVA Y EL CONCEPTO DE RELEVANCIA O PERTINENCIA
En el CO existen situaciones en las que se observan relaciones de pertinencia o relevancia entre respuestas
y reforzadores, es decir hay respuestas que son más difíciles de condicionar cuando se utilizan ciertos tipos
de reforzamiento. Thorndike fue el primero en señalar la facilidad o dificultad para condicionar
determinadas respuestas y propuso el término de pertinencia, que se refiere a que algunas respuestas se
relacionarían de modo natural con el reforzador como consecuencia de la historia evolutiva del animal, por
lo que serán más fáciles de condicionarque otras dependiendo del reforzador que usemos.
Los Breland, dos estudiantes de Skinner que se dedicaron a entrenar animales, observaron que había
ciertas respuestas naturales que se presentaban cuando el reforzador empleado era comida y que
competían con las respuestas que requería el entrenador. Llamaron deriva instintiva al desarrollo de estas
conductas relacionadas con la comida, que eran diferentes según el animal. Por ejemplo los mapaches
tenían que introducir una moneda en una hucha para conseguir comida, pero los animales frotaban las
monedas sin llegar a depositarla.
4.3. LOS CAMBIOS EN LA CANTIDAD Y CALIDAD DE LA RECOMPENSA: EL FENÓMENO DEL CONTRASTE
CONDUCTUAL
El contraste conductual es un fenómeno, relacionado con la motivación, que se basa en el hecho de que la
efectividad de un reforzador para controlar una conducta puede verse modificada por la experiencia previa
con el mismo reforzador cuando éste es de una magnitud o calidad diferente. Si aumenta o disminuye el
reforzador, en relación a lo que percibíamos antes, tiene consecuencias en nuestra conducta y emociones.
Los efectos que tienen los cambios en la eficacia del reforzador fueron ilustrados de forma clara por
Mellgren. En su experimento utilizó cuatro grupos de ratas a las que midió la velocidad de la carrera en una
recta. En la primera fase, al grupo A y al B les dio 2 bolitas de comida al llegar al final, mientras que los
grupos C y D recibieron 22 bolitas. En la segunda fase, el grupo A seguía recibiendo 2 bolitas, mientras que
el B pasó a recibir 22. De la misma forma el grupo C mantuvo su recompensa de 22 bolitas, pero el D pasó a
obtener solo 2. Los resultados mostraron que los grupos a los que no se les varió la cantidad de comida
mostraron la misma velocidad; a los que aumentaron la cantidad de comida aumentaron su velocidad; y
los que pasaron de una recompensa grande a la recompensa pequeña disminuyeron significativamente su
velocidad. Esto demuestra que los efectos de la recompensa dependen de la experiencia previa con otras
recompensas, y no de su valor absoluto. Las ratas que experimentaron una recompensa más favorable que
la anterior corrieron más rápido que las que tenían recompensa grande en ambas carreras, fenómeno
conocido como contraste conductual positivo. Las que recibieron la recompensa desfavorable en la
segunda fase respecto a la primera, corrían más lento que las que siempre habían tenido recompensa
pequeña: contraste conductual negativo.
Psicología del aprendizaje Cristina Gil
12

También se ha propuesto que el fenómeno de contraste puede depender del estado afectivo previo, y
puede mostrarse de forma diferente dependiendo si es negativo o positivo. Por tanto la sensibilidad de un
individuo hacia la ganancia o pérdida de recompensas también dependería del estado emocional en el que
se encuentre.
4.4. LA CONTROLABILIDAD DE LAS CONSECUENCIAS AVERSIVAS Y EL EFECTO DE INDEFENSIÓN
APRENDIDA
Martin E. P. Seligman y sus colaboradores descubrieron que cuando los animales son sometidos a
situaciones en las que tienen poco o ningún control, desarrollan una reacción emocional en la que
manifiestan un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas, y se piensa
que esta reacción es similar a la depresión humana. Este efecto conductual, denominado indefensión
aprendida, ha sido confirmado en distintas ocasiones, por varios laboratorios y en diferentes especies, lo
que indica lo robusto y general que es el fenómeno.
En estos experimentos, en una primera fase (fase de preexposición al entrenamiento escape/evitación)
asignaron grupos de perros a tres condiciones experimentales: en la primera, el grupo de control, si el
animal emitía la respuesta requerida podía detener o impedir la presentación de una descarga, era un
entrenamiento de escape/evitación. El segundo grupo, el experimental acoplado, recibía las mismas
descargas que el grupo anterior pero en este caso la conducta del animal no tenía consecuencias sobre las
descargas. Se utilizó un segundo grupo de control, que estaba confinado en la misma situación que los
demás grupos, pero no recibía descargas en esta fase. En la segunda fase del experimento (fase de
aprendizaje) todos los grupos de animales fueron sometidos a varios ensayos de entrenamiento
escape/evitación. Observaron que el grupo acoplado, que había recibido descargas inescapables durante la
preexposición, mostraba un aprendizaje escape/evitación mucho más lento que los otros grupos. También
demostraron que no había diferencias entre los grupos de animales sometidos a descargas escapables y los
que no recibieron descarga en la fase de preexposición.

Psicología del aprendizaje Cristina Gil
13

Los investigadores concluyeron que el entrenamiento anterior con las descargas inescapables, generaba en
los animales la expectativa de que su conducta no tenía ningún efecto sobre las consecuencias aversivas
que experimentaba, ya que aprendían que la aparición de las descargas era independiente de su conducta.
A esta explicación del fenómeno se la conoce como la hipótesis de la indefensión aprendida.
Seligman sugirió que el mejor tratamiento para la indefensión es ubicar al sujeto en una situación en la que
no fuese posible fallar dado que ello generara de nuevo la expectativa de que la conducta toma control
sobre las consecuencias. Son también interesantes los estudios que demostraron que la indefensión
aprendida se puede, de alguna manera, prevenir. Seligman llamo inmunización al proceso que se
desarrolla cuando un sujeto tiene una primera experiencia con descargas escapables que bloquea el
desarrollo de la indefensión aprendida cuando se presentan descargas inescapables en una fase posterior
4.5. LOS EFECTOS DE LA DEMORA DEL REFORZADOR: EL PROCEDIMIENTO DE MARCADO
Una respuesta es difícil de reforzar cuando la entrega de la recompensa se demora en el tiempo, y muy
fácil reforzar una respuesta o conducta cuando la recompensa o reforzador se entrega inmediatamente. La
demora del reforzamiento ocurre cuando existe un periodo de tiempo entre la respuesta que da lugar al
reforzador y la entrega posterior del mismo. En función de las circunstancias, la demora del reforzamiento
puede disminuir o aumentar la conducta, o incluso no modificarla respecto al reforzamiento no demorado.
Además, el mismo valor de demora puede tener diferentes efectos en función de otros parámetros, tanto
de dicha demora como de las condiciones del mantenimiento del reforzamiento. Hay que obtener una
línea base de respuesta estable a partir de la cual poder observar los efectos de la presentación demorada
del reforzador. Cuando la línea base es estable y se impone una demora, normalmente esta da lugar a una
reducción de la respuesta, sin embargo, incluso en estas condiciones no siempre eso es así, ya que en un
primer momento incluso puede ocurrir un aumento. Se trata de un proceso dinámico resultado de las
acciones directas o indirectas de distintas variables en la conducta. Una forma de evitar los efectos de la
demora en la entrega del reforzador consiste en marcar la respuesta haciendo que esta pueda
diferenciarse de otros eventos que ocurren durante el periodo de demora. La presentación de un estímulo
contingente a la respuesta convierte esa respuesta en un evento significativo, es el procedimiento de
marcado.
 En el experimento los animales se asignan a dos grupos por azar: grupo marcado (experimental) y grupo no
marcado (control). Si los animales pasaban por el brazo lateral negro del dibujo inferior, recibían comida en la
caja meta. En el momento en que elegían por qué brazo pasar, los animales del grupo marcado eran trasladados
a la caja de demora, pero a los del grupo control se les abría la puerta del brazo y les dejaban pasar libremente.
Los sujetos del grupo marcado mostraron un mayor número de eleccionescorrectas a lo largo de los ensayos.

La explicación que dieron los autores a estos resultados es que la manipulación de los animales posterior a
la respuesta de elección provoca un marcado de la respuesta de elección en la memoria de los sujetos y
que esto hace más probable recuperar esta respuesta cuando los sujetos reciben la recompensa después
de la demora.
Psicología del aprendizaje Cristina Gil
14

4.6. DEVALUACIÓN DEL REFORZADOR
El procedimiento de devaluación del reforzador demuestra que se aprenden asociaciones entre la
respuesta y la consecuencia en un CO. Consiste en asociar al reforzador que se está utilizando (comida, por
ejemplo) un estímulo o evento de naturaleza contraria (en experimentos con animales, podría ser una
sustancia aversiva como el cloruro de litio).
 Se puede llevar a cabo en una caja de CO con dos palancas. En la primera fase del experimento,
cualquiera de las dos palancas dará acceso a la comida, en la palanca A sabor a naranja y en la B a fresa.
Los animales las presionan indistintamente. En una segunda fase, una de las bolitas de comida de uno
de los sabores (por ejemplo, la de fresa) se empareja fuera de la caja con la sustancia aversiva.
Finalmente en una tercera fase los animales vuelven a ser introducidos a la caja de CO para ver que
palana pulsan más ahora, y por tanto que respuesta prefieren. El resultado es que la respuesta
operante de la palanca que da al reforzador asociado a la sustancia aversiva, en este caso sería la
palanca B, disminuye, aun cuando presionar esta palanca nunca ha sido contingente al estímulo
aversivo.
 Otro experimento con ratas para demostrar la devaluación del reforzador. Los animales podían bien
tirar de una cadena y les daban agua con azúcar, o bien dar una palanca y les daban comida.
Posteriormente, sin estar disponibles ni la palanca ni la cadena (es decir, de forma no contingente) se
les dispensó la comida y el agua y a la mitad les inyectaron litio para crearles malestar. Cuando les
metieron de nuevo en la caja de condicionamiento, vieron que las ratas que había sufrido el malestar
presionaron mucho menos los mecanismos para acceder a los reforzadores. Por tanto habían
aprendido acerca de las consecuencias de su conducta durante el CO.
Sin embargo, en determinadas ocasiones la ejecución de una respuesta instrumental puede llegar a
automatizarse si se entrena o practica de forma masiva. En este sentido, algunos autores han diferenciado
entre lo que sería la acción instrumental, relacionada con aquellas respuestas que son modificadas por el
valor de sus consecuencias, de aquellas cuya ejecución no depende del valor actual del reforzador a las que
se les daría el nombre de hábitos. En laboratorio se ha demostrado que la extensión de un entrenamiento
puede hacer que una conducta se automatice y que no sea controlada por el valor de las consecuencias,
tomando forma de hábito.
 Dos grupos de ratas presionando palancas utilizando como reforzador bolitas de sacarosa. Uno de los
grupos el entrenamiento se limitó a 100 respuestas reforzadas, pero en otro llegó a 500. Después
inyectaron cloruro de litio a la mitad de animales de cada grupo. En la fase de prueba se observó que la
devaluación del reforzador solo tuvo un efecto claro en animales con entrenamiento corto,
demostrando que la práctica prolongada da lugar a una ejecución de la conducta mucho más rígida,
menos deliberada, y que no depende tanto de las consecuencias de la misma.
Esto explicaría que determinadas conductas compulsivas, como la búsqueda de drogas, dependan de
mecanismos de aprendizaje diferentes a los que se dan durante la adquisición de la conducta.