Logo Studenta

TEMA-3-EL-CONDICIONAMIENTO-OPERANTE

¡Este material tiene más páginas!

Vista previa del material en texto

1 
 
 
 
 
 
 
fusty
Texto escrito a máquina
DOCENCIA PROGRAMA 13
fusty
Texto escrito a máquina
Tema 3 Aprendizaje conductual: el condicionamiento operante. Thorndike y la ley del efecto. Análisis experimental de la conducta. Skinner y el condicionamiento operante. Programas de refuerzo. Tipos de condicionamiento operante. Aplicaciones del condicionamiento operante.
EL CONDICIONAMIENTO OPERANTE. 
 
El condicionamiento operante o condicionamiento instrumental es un tipo de 
aprendizaje donde el comportamiento se controla con las consecuencias. 
Se basa en la idea de que los comportamientos que se refuerzan tienden a mostrarse en 
más ocasiones, mientras que los comportamientos que son castigados se extinguen. 
 
¿Cuál es la diferencia entre el condicionamiento operante y el condicionamiento clásico? 
En el condicionamiento operante, una respuesta voluntaria es seguida por un 
reforzador. De esta manera, la respuesta voluntaria (por ejemplo, estudiar para un 
examen) es más probable que se realice en el futuro. Al contrario, en el 
condicionamiento clásico un estímulo activa automáticamente una respuesta 
involuntaria. 
El condicionamiento operante puede describirse como un proceso que intenta modificar 
el comportamiento mediante el uso del refuerzo positivo y negativo. A través del 
condicionamiento operante, un individuo hace una asociación entre un 
comportamiento particular y una consecuencia. Ejemplos: 
Los padres recompensan las buenas calificaciones de un niño con dulces o algún otro 
premio. 
Un maestro premia a aquellos estudiantes que son tranquilos y educados. Los 
estudiantes se dan cuenta que al comportarse así reciben más puntos. 
Un alimento se da a un animal cada vez que presiona una palanca. 
B.F. Skinner (1938) acuñó el término acondicionamiento operante. Skinner identificó 
tres tipos de respuestas o operantes que pueden seguir el comportamiento: 
1
Operantes neutrales: respuestas del entorno que no aumentan ni disminuyen la 
probabilidad de que se repita un comportamiento. 
Reforzadores: respuestas del entorno que incrementan la probabilidad de repetición de 
un comportamiento. Los reforzadores pueden ser positivos o negativos. 
Castigos: respuestas del entorno que disminuyen la probabilidad de que se repita un 
comportamiento. El castigo debilita el comportamiento. 
Antecedentes del condicionamiento operante 
Thorndike fue el primero en reconocer que este condicionamiento incluye algo más que 
una respuesta y un reforzador. La respuesta se da en presencia de unos estímulos 
determinados, considerándose tres sucesos: el estímulo, la respuesta y la consecuencia 
de la respuesta o reforzador. 
Esta estructura facilita el desarrollo de diferentes vinculaciones como sería la asociación 
entre el estímulo y la respuesta, la cual fue para Thorndike clave para la formulación de 
la ley del efecto. A través de ésta afirmó que las respuestas que vayan seguidas de 
consecuencias reforzantes, tendrán mayor probabilidad de ocurrencia cuando el 
estímulo vuelva a aparecer. 
Por el contrario, aquellas respuestas que son seguidas de consecuencias negativas, 
tendrán una menor probabilidad de ocurrencia cuando el estímulo vuelva a aparecer. La 
ley del efecto es el antecedente del condicionamiento operante o condicionamiento 
instrumental, como era nombrado por Thorndike. 
Pero para Skinner, psicólogo del conductismo, el condicionamiento era el 
fortalecimiento de las conductas según las consecuencias que anteriormente se 
hubieran obtenido. 
En esta línea, existen dos formas de condicionamiento: 
El clásico o pavloviano: se basa en la asociación de estímulos incondicionados y 
condicionados, siendo las respuestas controladas por los estímulos antecedentes. 
El condicionamiento operante: los estímulos consecuentes o reforzadores hacen que se 
emita una conducta determinada. Skinner explica que si la conducta es seguida de un 
reforzador positivo, aumentaría la probabilidad de emisión de dicha conducta en un 
futuro. Al contrario, si una respuesta no va seguida de un reforzador o ese reforzador es 
negativo, la probabilidad de emitir dicha conducta en un futuro será menor. 
Conceptos básicos del condicionamiento operante 
2
 
Refuerzo 
Es el responsable de la emisión de respuestas, es decir, de la probabilidad de que 
sucedan, sea mayor o menor en un futuro. Es un estímulo reforzante y consecuente, ya 
que se da una vez se ha producido la respuesta. 
Es imposible saber si un reforzador determinado influye en la conducta hasta que no se 
presenta de manera contingente con una respuesta y se comprueba que el 
comportamiento cambia a consecuencia del reforzador. 
Existen dos tipos de refuerzo: positivo y negativo. Ambos tienen la misma finalidad de 
aumentar la probabilidad de que la respuesta se emita en situaciones futuras. Además, 
para Skinner los reforzadores se definen por medio de las conductas que son 
observables y medibles. 
Refuerzo positivo 
El refuerzo positivo refuerza un comportamiento proporcionando una consecuencia que 
un individuo encuentra gratificante. 
Refuerzo negativo 
La eliminación de un reforzador desagradable también puede fortalecer un 
comportamiento. Esto se conoce como refuerzo negativo porque es la eliminación de 
un estímulo adverso que es «gratificante» para el animal o la persona. El refuerzo 
negativo refuerza el comportamiento porque detiene o elimina una experiencia 
desagradable. 
Reforzadores primarios 
Serían todos aquellos reforzadores básicos que no necesitan de ninguna historia de 
condicionamiento previa para funcionar como tales. Algunos ejemplos serían el agua, la 
comida y el sexo. 
Reforzadores secundarios 
3
Los reforzadores secundarios si estarían basados en historias previas de 
condicionamiento gracias a la asociación con estímulos incondicionados. Algunos 
ejemplos serían el dinero y las calificaciones. 
Contingencia de tres términos 
Es el modelo básico del condicionamiento operante y está formado por tres 
componentes: el estímulo discriminativo, la respuesta y el estímulo reforzador. 
Un estímulo discriminativo sería aquel que va a indicar al sujeto que el reforzador está 
disponible, señalando que si lleva a cabo una determinada conducta podrá obtener 
dicho reforzador. En contraposición tenemos el estímulo delta o estímulos que indican 
que la conducta no va a llevar a la obtención de ningún tipo de reforzador. 
La respuesta sería la conducta que realizará el sujeto, cuya ejecución le llevará o no a la 
obtención del estímulo reforzador. 
Un estímulo reforzador, como se ha mencionado anteriormente, es el responsable de la 
emisión de la conducta ya que gracias a su aparición la probabilidad de emisión de una 
respuesta aumentará o disminuirá en el futuro. 
Conceptos a conocer del condicionamiento operante 
Castigo 
El castigo también se mide por sus efectos en la conducta del sujeto. En cambio, a 
diferencia del refuerzo, lo que se pretende es la disminución o supresión de una 
determinada conducta. 
Un castigo reduce la probabilidad de emisión de una conducta en situaciones 
posteriores. No obstante, no elimina la respuesta ya que si la amenaza de castigo 
disminuye, la conducta puede volver a aparecer. 
En el castigo también existen dos tipos o procedimientos diferentes, castigo positivo y 
castigo negativo. 
Castigo positivo 
Este implica la presentación de un estímulo aversivo tras la realización de un 
determinado comportamiento. Es dado de manera contingente a la respuesta dada por 
el sujeto. 
Castigo negativo 
Consiste en la eliminación de un estímulo como consecuencia de un determinado 
comportamiento, es decir, consiste en la retirada de un estímulo positivo tras la 
realización de una determinada conducta. 
Extinción 
En la extinción se deja de emitir una respuesta debido a que el reforzador ya no aparece. 
Este proceso se basa en dejar de proporcionar el reforzador correspondiente que se4
espera conseguir y que ha hecho que ese comportamiento se mantenga a lo largo del 
tiempo. 
Cuando una respuesta se extingue, el estímulo discriminativo pasa a ser estímulo de 
extinción. Este proceso no debe confundirse con el olvido, que es dado cuando la fuerza 
de un comportamiento disminuye al no haber sido emitido en un período de tiempo. 
Generalización 
Ante una situación o estímulo determinado se condiciona una respuesta, que puede 
aparecer ante otros estímulos o situaciones parecidas. 
Discriminación 
Este proceso es el opuesto al de generalización, en él se responde de manera diferente 
según el estímulo y el contexto. 
Programas de refuerzo 
Skinner también estableció gracias a sus investigaciones diversos programas de 
refuerzo, entre los que están los programas de reforzamiento continuo y los programas 
de reforzamiento intermitente. 
Programas de refuerzo continuo 
Están basados en el reforzamiento constante de la respuesta cada vez que se presente, 
es decir, cada vez que el sujeto ejecute la conducta deseada obtendrá un estímulo 
reforzador o positivo. 
Programas de refuerzo intermitente 
En cambio, aquí el sujeto no siempre obtiene el reforzador al realizar la conducta 
deseada. Estos se definen en base al número de respuestas dadas o al intervalo de 
tiempo transcurrido entre respuestas, dando lugar a diferentes procedimientos. 
Programas de razón fija 
En estos programas el reforzador se proporciona cuando el sujeto genera respuestas 
fijas y constantes. Por ejemplo, en un programa de razón 10 la persona obtiene el 
reforzador tras haber realizado diez respuestas cuando se presenta el estímulo. 
Programas de razón variable 
Éste se construye igual que el anterior, pero en este caso el número de respuestas que 
el sujeto debe dar para obtener el reforzador es variable. 
El reforzador seguiría dependiendo del número de respuestas emitidas por el sujeto 
pero con una razón variable, gracias a la cual se evita que el sujeto llegue a predecir 
cuándo obtendrá el reforzador. 
Programas de intervalo fijo 
5
En los programas de intervalo la obtención del reforzador no depende del número de 
respuestas que el sujeto dé, sino que está determinado por el tiempo transcurrido. En 
consecuencia se refuerza la primera respuesta producida después de haber pasado un 
periodo de tiempo determinado. 
En los programas de intervalo fijo el tiempo entre reforzador y reforzador es siempre el 
mismo. 
Programas de intervalo variable 
En estos programas el reforzador se obtiene después de un tiempo, aunque el tiempo 
es distinto para cada reforzador recibido. 
Cambio conductual 
Aproximaciones sucesivas o moldeamiento 
El moldeamiento consiste en el cambio conductual a través del moldeamiento de 
conductas o el refuerzo diferencial de aproximaciones sucesivas. 
Para moldear una conducta concreta se siguen una serie de pasos. En primer lugar se 
identifica cuál es la conducta inicial que se pretende moldear para saber a cuál se quiere 
llegar. 
Después, se delimitan los posibles reforzadores que se van a emplear y se separa en 
pasos o etapas el proceso para llegar a la conducta final, reforzando cada etapa o 
aproximación sucesiva hasta llegar a la última. 
Con este procedimiento dinámico se van transformando tanto las conductas como sus 
consecuencias. En este sentido, se refuerzan las aproximaciones sucesivas hacia una 
conducta objetivo. 
No obstante, para que se pueda llevar a cabo, es necesario partir de una conducta previa 
que ya realice el sujeto, para así ir reforzando poco a poco sus conductas hasta llegar a 
la meta. 
Encadenamiento 
Con él se forma una nueva conducta a partir de la descomposición en pasos o secuencias 
más sencillas, reforzando cada respuesta dada en cada uno de los pasos para así llevar 
al establecimiento de una respuesta más compleja en el repertorio conductual del 
sujeto. 
Se pueden llegar a formar cadenas largas de respuestas utilizando reforzadores 
condicionados, adoptando una unidad funcional y cuyo establecimiento lleva a la 
adquisición y definición de una destreza particular. 
 
THORNDIKE Y LA LEY DEL EFECTO. 
 
6
 
1. DESCRIPCIÓN DEL EXPERIMENTO DE THORNDIKE: CÓMO CUANTIFICÓ EL 
APRENDIZAJE 
Uno de los experimentos más conocidos de Thorndike consistía en encerrar a gatos que 
habían sido privados de comida en una caja diseñada para tal efecto, depositando la 
comida fuera de la caja a la vista del animal. Una vez encerrado en la caja, el gato 
realizaba multitud de movimientos desordenados hasta que conseguía desactivar el 
cierre de la puerta y acceder a la comida situada en el exterior de la caja. 
De los movimientos realizados por el gato durante el encierro, iba eliminando 
progresivamente aquellos que le resultaban inútiles para escapar, realizando tan sólo 
los que le permitían salir. 
El aprendizaje fue cuantificado en función de la disminución del tiempo desde que 
el animal era introducido en la caja hasta que se registraba la respuesta eficaz de 
accionar el mecanismo y poder escapar. El tiempo que el animal tardaba en salir de la 
caja, se denominó técnicamente, latencia de respuesta. 
2. QUÉ ES LA CURVA DE APRENDIZAJE EN EL EXPERIMENTO DE THORNDIKE 
La curva de aprendizaje en el experimento de Thorndike se refiere a la gráfica que 
representa el nivel de éxito alcanzado por el animal durante el aprendizaje. Es decir, a 
la disminución de la latencia de respuesta de un ensayo a otro. 
 
3. FORMULACIÓN DE LA LEY DEL EFECTO DE THORNDIKE EN TÉRMINOS EMPÍRICOS 
Según Thorndike, de varias respuestas dadas en una misma situación, las que van 
acompañadas o seguidas de cerca por la satisfacción del animal quedarán, en igualdad 
de condiciones, más sólidamente conectadas con la situación. Por ello, cuando ésta 
vuelva a ocurrir, tendrá más probabilidades de volver a producirse. Por otro lado, 
cuando la conducta vaya seguida por insatisfacción, el animal tenderá a no emitirla. 
4. CIRCULARIDAD DE LA LEY DEL EFECTO 
Thorndike señaló que la conducta se define por su efecto sobre las consecuencias y las 
consecuencias se definen por su efecto sobre la conducta. Thorndike pensaba que las 
acciones tienen efecto sobre el ambiente y que este cambio ambiental actúa de forma 
retroactiva sobre la conducta, así, si las consecuencias son negativas, la conducta 
tenderá a disminuir mientras que si las consecuencias son positivas, la conducta tenderá 
7
a repetirse en un futuro. Esto es a lo que nos referimos cuando hablamos de circularidad 
de la ley del efecto. 
Para superar los problemas de circularidad, Hull y Skinner propusieron teorías 
alternativas basadas en la introducción de variables motivacionales, en el caso de Hull, 
y en la selección de conductas operantes, en el de Skinner. 
5. PROPUESTA ALTERNATIVA DE HULL: LA TEORÍA DE LA REDUCCIÓN DEL IMPULSO 
Clark L. Hull desarrolló propuso, con su teoría de la reducción del impulso, una 
alternativa para salvar el problema de la circularidad de la ley del efecto de Thorndike. 
Según su teoría, las consecuencias de la conducta no fortalecían la conducta misma sino 
que actuaban a través de un mecanismo motivacional interpuesto que denominó la 
reducción del impulso. 
 Así, el impulso o necesidad es el motor de la conducta y la conducta se fortalece sin las 
consecuencias son capaces de reducir, al menos en parte, ese estado de necesidad. 
Cuanto mayor sea la reducción del impulso o necesidad, mayor será el aprendizaje. 
 
 
La introducción de variables motivacionales eliminó la naturaleza circular en la 
definición de la ley del efecto, pero trasladó la explicación del reforzamiento a 
constructos alejados de la relación de la conducta con el reforzador. 
6. PROPUESTA DE SKINNER 
Skinner defendió la idea de que la circularidad no constituía un problema en la 
formulación de leyes del comportamiento, señalando que todas las leyes psicológicasdeberían encerrar algún tipo de circularidad. 
En la misma línea que Thorndike, postuló que la conducta operante es una conducta 
emitida de forma voluntaria por los organismos y con efectos sobre el ambiente. 
Toda conducta operante debe ser modificable por sus consecuencias, por tanto, de no 
poder ser modificada, no podría considerarse una conducta operante. Así, las conductas 
que no son modificables por sus consecuencias, no pueden considerarse sujetas a la 
ley del efecto. 
Se trataría, por tanto, de seleccionar aquellas conductas consideradas como 
modificables de las que no lo son, no obstante, su análisis no permite hacer esta 
distinción. 
 
8
7. LÍMITES PARA APLICAR LA LEY DEL EFECTO: DEFINICIÓN DE UNA OPERANTE 
 La conducta operante debe ser, por definición, modificable por sus consecuencias. Si 
una conducta no lo es, no puede conceptualizarse como una operante y, por tanto, 
sujeta a la ley del efecto. 
A partir de los años 60, algunos autores estudiaron la posibilidad de saber de antemano 
si una conducta es una operante, concluyendo que la explicación debía buscarse en las 
relaciones de la conducta con sus consecuencias, no en la intervención de otros procesos 
psicológicos. 
8. ENFOQUE E-R DE THORNDIKE DE LA LEY DEL EFECTO 
Para Thorndike, las consecuencias reforzantes actúan fortaleciendo las conexiones entre 
la situación y la respuesta. Concebía la conducta como meramente refleja de la situación 
ambiental. 
 
 
 
Las respuestas que inicialmente se activarán con mayor intensidad, serán las que 
prevalezcan por la filogenia y la especie animal estudiada en un orden jerárquico. Esta 
prevalencia puede ser modificada por la experiencia a través de la historia ontogenética 
de reforzamiento. 
Es la interacción entre filogenia y ontogenia la clave para entender por qué las conductas 
pueden ser diferencialmente afectadas por la ley del efecto. 
9. ENFOQUE R-CONSECUENCIA DE SKINNER DE LA LEY DEL EFECTO (EXPERIMENTO DE 
DEVALUACIÓN DEL REFORZADOR) 
Skinner discrepó de Thorndike en sus planteamientos, al considerar que el ambiente no 
provoca la respuesta sino que más bien indica la ocasión en la que una conducta llevará 
a consecuencias reforzantes. Por tanto, según Skinner, podríamos decir que el 
9
mecanismo teórico implicado en la ley del efecto es el aprendizaje de relaciones entre 
la conducta y sus consecuencias, es decir, un mecanismo Respuesta- Consecuencia. 
Supongamos una situación experimental en la que en presencia de un sonido, las 
presiones a una palanca eran reforzadas con comida azucarada. Si posteriormente esta 
comida azucarada se empareja con un malestar gástrico inducido por una inyección de 
cloruro de litio, encontraremos que los animales dejan de consumir esta comida 
azucarada. 
Cuando los animales son llevados nuevamente a la situación experimental con el 
sonido y la palanca, se producen menos presiones a la palanca que antes del 
tratamiento de devaluación del reforzador. Estos resultados no pueden ser explicados 
desde la perspectiva teórica de Estímulo-Respuesta, pero sí desde la aportada por 
Skinner de Respuesta-Consecuencia. 
 
ANÁLISIS EXPERIMENTAL DE LA CONDUCTA. 
A principios del siglo XX, psicólogos formados en los laboratorios de psicología 
experimental de Alemania, se integraron a diferentes universidades de los EU y 
rápidamente desarrollaron grupos de estudiantes para los cuales la psicología era una 
disciplina que nada tenía que ver con la filosofía. 
Un personaje emblemático de esta nueva generación de psicólogos fue Watson. Su 
manifiesto de 1913 dejaba muy en claro que al menos una parte de la psicología de esos 
años rechazaba a la mente metafísica como objeto de estudio legítimo. Se proponía en 
cambio a la conducta como el objeto de interés de la psicología (de ahí el nombre del 
nuevo enfoque propuesto por Watson, “conductismo”). 
Hacer de la conducta el objeto de estudio de la psicología tenía como ventaja adicional 
eliminar a la introspección como herramienta de recopilación de datos y sustituirla por 
la observación directa (herramienta más objetiva y acorde con el método de la ciencia). 
Watson dedicó su vida a popularizar y difundir la corriente conductista en los EU; sus 
dotes como divulgador de la ciencia hicieron que el conductismo fuera identificado y 
reconocido dentro y fuera del mundo universitario y académico. A pesar de su éxito 
como divulgador, su aproximación etológica al comportamiento humano y su fe en el 
condicionamiento clásico de Pavlov como modelo de construcción de la conducta 
compleja, resultaron insuficientes para desarrollar un entendimiento cabal del 
comportamiento humano. 
A pesar de su relativo fracaso, Watson sembró una semilla epistemológica que germinó 
de formas diversas. Así pues surgieron durante la primera mitad del siglo XX diferentes 
conductismos (entre otros el de Hull, Tolman, Lashley, Weiss y Holt); sin embargo, el 
conductismo que más adeptos recogió y cuyo desarrollo tecnológico ha resultado más 
amplio, fue el Análisis Experimental de la Conducta de B. F. Skinner. 
10
En el enfoque de Skinner, el objeto de estudio lo constituyen las consecuencias 
medioambientales de la conducta operante; es decir, la conducta de los organismos se 
“esculpe y moldea” a partir de las consecuencias que éstas tienen sobre su medio. 
Aquellas conductas que favorecen la adaptación y supervivencia del organismo en el 
medio ambiente, tienden a aumentar en frecuencia; por el contrario, aquellas que 
tienen efectos nocivos para el sujeto tienden a desaparecer. Así pues, desde este punto 
de vista, el comportamiento de los organismos se puede entender como un proceso de 
selección por consecuencias, análogo al desarrollo de nuevas especies por mecanismos 
de selección natural. Los repertorios conductuales adaptativos permanecen y aquéllos 
que tienen efectos nocivos sobre el sujeto desaparecen. 
Las ideas de Skinner acerca de los orígenes del comportamiento en los organismos, se 
acompañaron de desarrollos tecnológicos que permitieron el estudio de las 
correlaciones entre el comportamiento y sus consecuencias de forma automatizada. 
El sujeto experimental era colocado en una cámara experimental con un manipulandum 
cuya operación producía la caída de una plumilla sobre un rollo de papel giratorio (y 
adicionalmente la entrega de una bola de alimento). De esta forma Skinner evaluaba sus 
hipótesis de selección por consecuencias y adicionalmente medía objetivamente el 
comportamiento del sujeto. 
Skinner rápidamente aprendió dos cosas a lo largo de sus investigaciones. En primer 
lugar se dio cuenta de que la cantidad de variantes que era posible utilizar para estudiar 
los efectos de las consecuencias sobre la conducta era virtualmente infinita. 
En segundo lugar, descubrió que la ejecución de diferentes especies animales en los 
diferentes procedimientos experimentales que empleaba, era muy similar. Por ejemplo, 
al comparar la ejecución de ratas y palomas en programas de intervalo fijo, encontró 
que en ambas especies, se observa una tasa de respuesta que incrementa de manera 
cada vez más acelerada, conforme se aproxima el vencimiento del tiempo de la duración 
del intervalo. Skinner denominó al patrón festón; este patrón ha sido replicado por 
numerosos autores y en diferentes especies animales. 
Algunos de los estudiantes de Skinner emplearon el enfoque del Análisis Experimental 
de la Conducta para estudiar la conducta humana. Por ejemplo, Bijou encontró que el 
comportamiento de los niños pequeños es enormemente sensible a las manipulaciones 
en las consecuencias. 
Por su parte, Wolf encontró que niños autistas y/o con retraso mental, pueden aprender 
nuevos repertorios conductuales mediante el empleo del reforzamiento positivo. Así 
pues, no toda la psicología se ocupa del estudio de la mente metafísica, 
complementariamente, no toda la psicología empleaa la introspección y a los estudios 
de caso como herramientas de recopilación de datos. 
Al menos una parte de la psicología estudia el mundo físico y sus herramientas de 
trabajo son la experimentación rigurosa y la medición de la variable dependiente 
mediante métodos automatizados. Complementariamente, al menos una parte de la 
11
psicología produce resultados sistemáticos, replicables y de gran generalidad entre 
especies. A continuación se presentarán algunos arreglos experimentales que han sido 
ampliamente explorados por el Análisis Experimental de la Conducta y que pueden 
resultar de interés para las neurociencias. Los arreglos experimentales pueden resultar 
atractivos para éstas como variables dependientes para sus manipulaciones 
experimentales; complementariamente pueden resultar interesantes por sí mismos 
como modelos de trabajo para el desarrollo teórico y la evaluación de hipótesis 
científicas. 
MODELOS EXPERIMENTALES EMPLEADOS 
Adquisición con demora 
En los párrafos anteriores se presentó el modelo general de trabajo del Análisis 
Experimental de la Conducta. En síntesis se trata de cubículos pequeños donde se puede 
introducir un animal pequeño (roedor, ave o mono), el cubículo tiene un manipulandum 
de metal cuya activación produce la entrega de un reforzador (usualmente alimento). 
Durante muchos años, la operación del manipulandum fue moldeada directamente por 
el investigador a través de la técnica de aproximaciones sucesivas; sin embargo, en los 
años noventas se descubrió que los roedores y las palomas pueden aprender a operar 
el manipulandum razonablemente rápido y aun bajo condiciones de reforzamiento 
demorado, es decir bajo condiciones en las cuales la respuesta se encuentra separada 
temporalmente del reforzador. 
Estudios posteriores han mostrado que la adquisición con demora es posible en peces y 
en monos. Otros estudios han demostrado que la adquisición de la respuesta de 
palanqueo puede ocurrir incluso con demoras de hasta 60 s y aun después de largas 
historias de entrega de alimento no contingente. 
Inicialmente el hallazgo parecía importante exclusivamente porque llevaba a reevaluar 
las capacidades asociativas de aves, roedores y otros animales; sin embargo, el modelo 
es interesante porque ofrece a las neurociencias una alternativa a los modelos de 
adquisición basados en el empleo de laberintos. 
Desde inicios del siglo XX, la adquisición de nuevas conductas ha sido evaluada, 
principalmente, a través de laberintos de diferente índole. 
El uso de laberintos para estudiar adquisición representa diferentes problemas 
relacionados con variables extrañas, ya que generalmente es necesario manipular al 
sujeto para iniciar cada ensayo (lo cual puede resultar aversivo tanto al sujeto como al 
investigador); de manera complementaria, resulta complicado interpretar los 
resultados, ya que los tiempos y ensayos de cada sesión dependen en gran medida de 
cuán fácil o difícil fue reiniciar el ensayo en cada caso. 
Obviamente el modelo de operante libre aquí propuesto limita considerablemente la 
interacción entre el científico y el sujeto; además el inicio de cada ensayo depende 
exclusivamente del sujeto experimental y así sus respuestas y los tiempos de sesión no 
se ven contaminados por las interacciones entre ensayos. El equipo para llevar a cabo 
12
este tipo de investigación puede adquirirse de diferentes proveedores especializados 
(desafortunadamente muchos de ellos fuera del país). Sin embargo, para este trabajo se 
utilizaron materiales fácilmente asequibles en el país (acrílico, bancos de relevadores, 
tarjeta industrial y computadoras 486 descartadas por su obsolescencia). 
El modelo de adquisición con demora permitiría a las neurociencias, estudiar procesos 
asociativos (respuesta-consecuencia) evitando los problemas ya mencionados de las 
preparaciones de laberintos. 
La preparación también podría resultar interesante para estudiar procesos mnémicos 
(específicamente la capacidad del sujeto para recordar el evento que produjo una 
consecuencia particular). 
De hecho ya existe al menos un estudio publicado en el cual la preparación ha sido 
empleada para evaluar el efecto de sustancias, que se sospecha, tienen efectos que 
favorecen el aprendizaje. 
Elección bajo 
programas concurrentes 
Una de las estrategias más empleadas para estudiar la elección en organismos no 
humanos consiste en exponer a una paloma a un programa concurrente con dos 
alternativas de respuesta. 
En un programa concurrente dos o más programas independientes están vigentes 
simultáneamente a un organismo. El sujeto puede obtener reforzamiento en una de las 
dos opciones o alternar entre las opciones de respuesta; en la investigación sobre 
elección es frecuente que el investigador varíe la tasa de reforzamiento que produce 
cada opción o el tipo de programa vigente en cada alternativa. 
Generalmente el cambio de una opción a otra se logra mediante un manipulandum 
(tecla o palanca) que permite al organismo obtener reforzamiento en otra opción de 
respuesta. Programar una demora de cambio (DDC) mediante una tecla o una palanca, 
evita que alternar entre las opciones pueda ser reforzado supersticiosamente por la 
aparición inmediata de un reforzador al cambiar de opción (tómese en cuenta que una 
parte importante de la investigación en elección se lleva a cabo utilizando programa de 
intervalo variable; así pues, la DDC, evita que se entregue un reforzador inmediatamente 
después de que se operó el manipulandum que inicia la DDC. 
El hallazgo más frecuente en la investigación con programas concurrentes es que la tasa 
relativa de respuesta en cualquiera de las opciones, es igual a la tasa de reforzamiento 
en cada una de ellas. 
La relación de igualdad entre la tasa relativa de respuesta y la tasa relativa de 
reforzamiento, fue descrita originalmente de acuerdo con la ecuación 1: 
B1/(B1 + B2) = R1/(R1 +R2) 
13
En la ecuación, B1 (behavior) es la tasa relativa de respuesta para la opción B1; 
complementariamente, R1 (reinforcement) es la tasa relativa de reforzamiento en la 
opción R1. Aunque la ecuación 1 se diseñó originalmente para describir el 
comportamiento de palomas en programas concurrentes de IV que producen grano 
como reforzador, su generalidad entre especies ha sido ampliamente demostrada (en 
humanos, peces, monos, ratas) y tipos de reforzadores (dinero, estimulación cerebral, 
cocaína, aceptación verbal). 
A pesar de la generalidad de la llamada Ley de igualación, algunos investigadores han 
mostrado que la tasa relativa de respuesta puede ser menor a la tasa relativa de 
reforzamiento (subigualación) o más elevada que la tasa relativa de reforzamiento 
(sobre igualación). Precisamente para describir estas desviaciones de la ley de 
igualación, se propuso la llamada Ley de igualación generalizada, que se describe en la 
ecuación 2: 
32 B1/B2 = b (R1/R2)s 
En la ley de igualación generalizada se agregan dos parámetros adicionales a la ecuación 
1. El parámetro b tiene que ver con desviaciones relacionadas con el tipo de alternativas 
de respuesta que recibe el sujeto (por ejemplo, la alternativa 1 es picoteo y la alternativa 
2 es pisar un pedal). Por otro lado, el parámetros refiere la sensibilidad del organismo a 
las diferentes frecuencias de reforzamiento. Así pues, valores de s de uno o cercanas a 
uno acercan al sujeto a la igualación estricta; de forma complementaria, valores 
menores a uno describen comportamiento de subigualación (y valores mayores a uno 
describen comportamiento de sobreigualación). 
Los programas concurrentes pueden ser de interés para las neurociencias por varios 
motivos, uno de estos tiene que ver con la descripción cuantitativa de sus efectos. La 
descripción en cuestión facilita evaluar objetivamente los efectos de las manipulaciones 
experimentales realizadas; complementariamente permite identificarlos parámetros 
específicos de la ecuación que se ven afectados por las variables independientes. Los 
programas concurrentes también pueden resultar interesantes para las neurociencias, 
ya que permiten evaluar un mecanismo adaptativo fundamental para los seres vivos, la 
capacidad para discriminar entre fuentes de reforzamiento que difieren en su 
frecuencia. 
Poder identificar variables anatómicas, farmacológicas, genéticas o ambientales que 
modulen el funcionamiento de este mecanismo puede tener implicaciones terapéuticas 
y médicas relevantes. De hecho en el ámbito de las manipulaciones ambientales,33 
demostraron que las desviaciones de la igualación descritas en la literatura del área (en 
especial la subigualación) podrían deberse a la falta de experiencia de los sujetos con los 
programas de reforzamiento empleados. 
De manera complementaria, un estudio realizado mostró que la igualación en 
programas concurrentes se pierde en pacientes que padecen Alzheimer. 
“Timing” utilizando programas de intervalo fijo 
14
En un programa de intervalo fijo (IF) un organismo puede producir reforzamiento si 
emite una respuesta después de que ha transcurrido un intervalo de duración 
determinada. Típicamente, una vez que la respuesta ha ocurrido, el organismo recibe 
alimento y reinicia el intervalo una vez más. Aunque el organismo puede responder a lo 
largo de todo el intervalo, el hallazgo más frecuente es que una vez que se ha entregado 
el reforzador, el organismo deja de responder, las respuestas son relativamente 
infrecuentes durante la primera parte del intervalo; sin embargo, conforme se acerca 
nuevamente el vencimiento del intervalo el animal comienza a responder a una tasa 
cada vez más elevada, llegando a un máximo muy cerca del momento en que termina el 
IF. Este patrón recibe el nombre de festón y ha sido considerado como evidencia 
conductual de que para los organismos el transcurso del tiempo es una propiedad 
discriminable del medio ambiente. 
De hecho, en organismos que han sido expuestos durante muchos meses a programas 
de IF, eventualmente se observa que emiten solamente unas cuantas respuestas, justo 
antes de que termine el intervalo, recuperan el reforzador obtenido y no vuelven a 
emitir respuestas hasta que el nuevo intervalo está a punto de terminar. 
Este tipo de observaciones ha llevado a algunos científicos interesados en el estudio de 
la discriminación temporal a diseñar un método de investigación que se conoce como 
metodología de cambio. En este método, el organismo es expuesto durante algún 
tiempo a un programa IF, posteriormente, el organismo es expuesto a un programa de 
tiempo fijo (TF) en el cual el alimento se entrega de manera gratuita de manera periódica 
y usualmente empleando la misma duración de tiempo del programa IF. La evidencia de 
la discriminación temporal ocurre cuando el organismo sigue alcanzando la cima de su 
festón cerca del momento de la entrega del reforzador. 
Otro método empleado para estudiar discriminación temporal consiste en utilizar 
programas de Reforzamiento Diferencial de tasas Bajas (RDB). En estos programas, la 
entrega del reforzamiento ocurre si el organismo responde, respetando un tiempo 
mínimo entre respuestas, por ejemplo no responder de nuevo antes de que hayan 
transcurrido 5 s. Si el organismo responde antes del tiempo preestablecido, entonces 
pierde el reforzador; generalmente la capacidad del organismo para evitar perder 
reforzadores, se toma como evidencia de que ha ocurrido la discriminación temporal. 
Al igual que con el caso de los fenómenos de elección, dentro del Análisis Experimental 
de la Conducta también se han diseñado modelos para explicar la discriminación 
temporal; sin embargo, la mayor parte de ellos comparte los siguientes elementos: 
• En los organismos existe un sistema de marcapasos que emite pulsos a intervalos más 
o menos regulares. 
• En los organismos existen capacidades mnémicas que permiten determinar cuántos 
pulsos ha emitido el marcapasos. 
• Los organismos poseen la capacidad de comparar los valores acumulados en la 
memoria con la meta de tiempo planteada. 
15
Aunque la mayor parte de los modelos de discriminación temporal comparten estos 
elementos, difieren en múltiples detalles, algunos de los cuales probablemente podrían 
ser evaluados y matizados desde las neurociencias. 
SÍNTESIS ARGUMENTATIVA 
En síntesis, el Análisis Experimental de la Conducta puede resultar de interés para las 
neurociencias debido a que comparte con ella elementos epistemológicos 
fundamentales tales como un interés por el estudio del mundo fáctico y una 
metodología objetiva y experimental. Adicionalmente, el Análisis Experimental de la 
Conducta ha desarrollado preparaciones experimentales que permiten contestar 
preguntas fundamentales para las neurociencias. En este trabajo se presentan tres de 
estas preparaciones; la primera presentada aquí permite estudiar los mecanismos 
fundamentales del aprendizaje asociativo y la memoria; la segunda permite estudiar la 
adaptación de los sujetos a su medio ambiente a través de procesos de elección óptima; 
la tercera permite estudiar los procesos de discriminación temporal. 
Estos procedimientos experimentales son tan sólo tres ejemplos del extenso legado 
científico de B. F. Skinner. Como se mencionó previamente, tanto en EU como en 
Europa, ha sido posible para las neurociencias aprovechar los desarrollos del análisis 
experimental de la conducta, de formas diversas y fructíferas. Se espera que este trabajo 
sirva para interesar a los neurocientíficos mexicanos en el legado de Skinner y que, al 
igual que sus contrapartes en otros países, puedan emplearlo para el desarrollo de su 
disciplina. 
 
SKINNER Y EL CONDICIONAMIENTO OPERANTE 
Nació en 1904 en Susquehanna, Pennsylvania.  Luego de fallar en sus intentos de ser 
escritor cambió a la psicología, de lo cual sólo tenía una vaga idea.  Escribió en 1938 el 
libro titulado “La Conducta de los Organismos”, en la cual introdujo sus estudios sobre 
el condicionamiento operante, luego escribió Walden II en 1948, si intento era describir 
la utilización de un diseño para la buena vida en una comunidad regida por los principios 
del conocimiento operante.  Entre sus libros más conocidos están: La conducta de los 
organismos, Conducta verbal, Más allá de la libertad y la dignidad y Walden dos. Burrhus 
Frederic Skinner 
Entre los experimentos más célebres de Skinner cabe citar el adiestramiento de unas 
palomas para jugar al pimpón, la llamada caja de Skinner, todavía hoy utilizada para el 
condicionamiento de animales, o el diseño de un entorno artificial específicamente 
pensado para los primeros años de vida de las personas. 
Teoría de Skinner  Condicionamiento operante 
llamado también instrumental y hoy en día análisis experimental de la conducta (AEC), 
se puede definir de la siguiente forma: Es la teoría psicológica del aprendizaje que 
16
explica la conducta voluntaria del cuerpo, en su relación con el medio ambiente, basados 
en un método experimental. 
Es decir, que ante un estímulo, se produce una respuesta voluntaria, la cual, puede ser 
reforzada de manera positiva o negativa provocando que la conducta operante se 
fortalezca o debilite. 
Skinner afirma que cuando los alumnos están dominados por una atmósfera de 
depresión, lo que quieren es salir del aprieto y no propiamente aprender o mejorarse. 
Se sabe que para que tenga efecto el aprendizaje, los estímulos reforzadores deben 
seguir a las respuestas inmediatas.  Como el maestro tiene demasiados alumnos y no 
cuenta con el tiempo para ocuparse de las respuestas de ellos, uno a uno tiene que 
reforzar la conducta deseada aprovechando grupos de respuestas. Skinner considera 
que la finalidad de la psicología es predecir y controlar la conducta de los organismos 
individuales. En el condicionamiento operante se considera a los profesorescomo 
modeladores de la conducta de los alumnos. Influencia de la teoría con el aprendizaje 
El condicionamiento operante de Skinner 
El trabajo de Skinner está basado en la ley del efecto de Thorndike. Skinner introdujo un 
nuevo término en la ley del efecto: el refuerzo. La conducta que es reforzada tiende a 
repetirse; la conducta que no es reforzada tiende a extinguirse (se debilita). Skinner 
acuñó el término “condicionamiento operante”, que implica cambiar una conducta 
utilizando refuerzos dados después de la respuesta deseada.  Skinner estudió el 
condicionamiento operante conduciendo experimentos con animales, que colocaba en 
una “caja de Skinner”, similar a la caja-puzzle de Thorndike. 
Todos hemos experimentado ejemplos de conductas que han sido afectadas por 
refuerzos y castigos. Cuando éramos niños, por ejemplo, si hablábamos durante una 
clase, el profesor nos mandaba callar. Esta respuesta por parte del profesor constituye 
un castigo que, al menos supuestamente, debería debilitar la conducta de hablar con el 
compañero durante la clase. 
Durante la adolescencia, por ejemplo, llevar un determinado estilo o marca de ropa 
podría ser reforzado positivamente por los compañeros de misma edad mediante 
halagos, aceptación social o simplemente algún gesto amable. Esto refuerza y hace que 
sea más probable que se repita la conducta de llevar puesta una ropa de marca 
determinada. 
Aplicaciones y ejemplos de la teoría 
Generalización Es cuando al reforzar una respuesta se produce un incremento en otra 
respuesta parecida. 
Discriminación Es cuando un organismo se comporta de manera diferente en presencia 
de dos estímulos. 
Extinción Es un procedimiento en el cual una conducta operante que ha sido deja de ser 
reforzada y produce el fin de la respuesta. 
17
• Aprendizaje por reforzamiento 
• Aprendizaje por evitación 
• Aprendizaje supersticioso 
• Aprendizaje por castigo 
• Olvido Principios del condicionamiento operante 
Skinner propone que el administrador solo necesita entender la relación entre las 
conductas y sus consecuencias para poder crear condiciones de trabajo que alienten las 
conductas deseables y desalientes las indeseables. 
El comportamiento se aprende mediante sus consecuencias positivas o negativas. El 
reforzamiento en la teoría Tipos de reforzamiento 
• Positivo 
• Negativo 
• Extinción 
• Castigo 
• Múltiple 
• Compuesto 
• Concurrente 
 
PROGRAMAS DE REFUERZO 
Programas de razón frente a programas de intervalo: funciones de retroalimentación 
La forma en que se programan los reforzadores en contingencia con la emisión de una 
respuesta operante constituyen los programas de reforzamiento. Cada uno de ellos 
especifica una regla que determina las condiciones en las que una respuesta puede ser 
reforzada. Hablamos de reforzamiento intermitente o parcial cuando tan sólo se 
refuerzan algunas de las respuestas que emite el sujeto y no todas, y es lo que 
generalmente mantiene todo comportamiento condicionado de forma operante. El 
reforzamiento parcial en comparación con el reforzamiento continuo, produce un 
aprendizaje más duradero y más difícil de extinguir. 
Se han investigado muchas formas diferentes de programar los reforzadores de manera 
intermitente, los principales y más básicos programas de reforzamiento positivo 
intermitente se pueden clasificar en dos bloques: programas de razón y programas de 
intervalo. Los programas de razón estipulan que se debe emitir un número determinado 
de respuestas antes de que la última de ellas sea reforzada. Los programas de intervalo 
establecen que debe pasar un determinado tiempo desde la consecución del reforzador 
anterior antes de que la respuesta requerida sea de nuevo reforzada. El requisito del 
18
número de respuestas en los programas de razón o el tiempo transcurrido en los 
programas de intervalo, es a partir de la presencia del reforzador anterior. 
Los programas de razón y de intervalo pueden a su vez, clasificarse en programas fijos y 
programas variables. De la combinación de estas divisiones surgen cuatro programas 
básicos de reforzamiento: razón fija, razón variable, intervalo fijo e intervalo variable. 
Cita de Ferster y Skinner: “Un programa de reforzamiento puede definirse sin referencia 
a sus efectos sobre la conducta. De esta manera, una respuesta puede ser reforzada en 
base al tiempo que ha transcurrido desde que se administró el reforzador precedente, 
o en base al número de respuestas que han sido emitidas desde que se administró el 
anterior reforzador. Un programa dado puede ser fijo o puede variar, ya sea al azar, ya 
sea de acuerdo con un plan. Estas dos posibilidades suministran cuatro programas 
básicos: intervalo fijo, intervalo variable, razón fija y razón variable. Pero otras 
posibilidades existen, así como muchas combinaciones de tales programas” 
En un programa de razón fija el número de respuestas requerido para que se administre 
el reforzador es siempre el mismo, siempre se tiene que dar el mismo número de 
respuestas para conseguir cada reforzador. Se abrevia RF seguida de un número que 
indica el valor del número de respuestas requerida, por ejemplo RF-50. El programa RF-
1 sería lo que antes hemos denominado reforzamiento continuo, puesto que sería 
reforzada cada respuesta. 
Un programa de razón variable requiere en cambio un número de respuestas que varía 
de una ocasión a la siguiente, de manera irregular, alrededor de un número promedio 
de respuestas por cada reforzador. Se abrevia RV, de manera que en un programa RV-
100 se conseguirá el reforzador si en promedio se han emitido cien respuestas, en unas 
ocasiones más y en otras menos, teniendo 100 como valor medio. 
Los programas de intervalo fijo son aquellos que, al mantener constante el tiempo 
requerido para el siguiente reforzador, reforzarán la primera respuesta que ocurra una 
vez haya transcurrido un tiempo siempre igual desde que se dispensó el último 
reforzador. En cambio los de intervalo variable son aquellos donde varía la cantidad de 
tiempo a transcurrir entre un reforzador y el siguiente antes de que la respuesta sea 
reforzada, dando lugar a un valor promedio de intervalo entre reforzadores. 
Estos programas también se abrevian IF e IV seguidos del valor numérico de la cantidad 
de tiempo que debe transcurrir. 
Cada uno de estos cuatro programas básicos produce una ejecución conductual 
característica y diferente, que se puede apreciar solo con ver la forma cómo se 
distribuyen las respuestas a lo largo del tiempo. Una forma de registrar las respuestas 
en un registrador acumulativo, que es un rollo de papel que va girando a velocidad 
constante y sobre el que se apoyan dos plumillas que van dibujando, una cuando el 
sujeto da respuestas, indicando también qué respuestas son reforzadas, y otra que 
marca cuando se presenta el estímulo discriminativo. 
 
19
Se puede medir así tanto el número de respuestas, como el número de pausas, el tiempo 
transcurrido entre ellas (TER: tiempo entre respuestas) o el tiempo total sin responder.... 
El resultado es una curva acumulativa continua que refleja las tasas de respuesta. 
La observación de cómo se distribuyen las respuestas en un registro acumulativo 
permite una lectura fácil de la tasa de respuesta y de los cambios asociados a ella que 
ocurren en el tiempo. Cómo el papel avanza a una velocidad constante, cuando se 
responde rápidamente (tasa alta de respuesta) el registro será muy inclinado. Si la tasa 
de respuesta fuera baja, el registro sería más plano, y de la misma forma ante una tasa 
de respuesta de valor medio el registro será una pendiente intermedia. Esta técnica de 
medida con el registro acumulativo tiene varias ventajas: se pueden medir todas las 
respuestas aun cuando ocurran muy rápidamente, y registrar las estructuras de 
comportamiento sin perder detalles. Permite hacer una medición no contaminada de 
lasrespuestas de los sujetos experimentales durante periodos prolongados de tiempo. 
Los programas de RV (panel b) proporcionan tasas de respuesta muy altas y constantes, 
que a veces se aproxíman a los límites de capacidad física de los organismos. Los 
programas de IV (panel d) tambien dan tasas constantes de respuesta, aunque 
normalmente de un valor inferior a las producidas en un RV. Ambos proporcionan un 
índice de perseverancia muy elevado. (vertical: no respuestas, horizontal: segundos). 
 
En cambio la tasa de ejecución en un programa de RF (panel a) se caracteriza 
inicialmente por una tasas elevada de respuesta, que se mantienen desde la primera 
respuesta después de haber obtenido el reforzador hasta la siguiente respuesta 
reforzada. Esta ejecución alta y estable de conducta se desarrolla rápidamente cuando 
la razón es relativamente pequeña. 
Sin embargo cuando la razón es mayor, como por ejemplo RF-50 (la representada aqui) 
se observa una pausa post-reforzamiento que se sigue de una transición casi instantánea 
a una tasa alta de respuesta posterior (la carrera de la razón). La duración de la pausa 
post-reforzamiento en los programas de RF depende, principalmente, del valor de la 
razón. Si el requisito de la razón fuese muy elevado, se puede dejar de responder por 
completo, lo que se denomina tensión de la razón. 
20
 
La ejecución en un programa de IF (panel c) se caracteriza por una pausa post-
reforzamiento más o menos prolongada en función de la duración del intervalo, y por 
una progresiva aceleración posterior de la tasa de respuesta en cada uno de los 
intervalos, de manera que la tasa mayor de respuesta se produce cerca del final del 
intervalo. Esta pauta de conducta, como la representada en la gráfica de abajo para un 
programa de IF-60 seg, es frecuentemente referida como festoneado, para resaltar así 
la existencia de cambios sistemáticos en la tasa de respuesta. En los programas de IF, la 
tasa global de respuesta no parece ser el mejor indicador de la ejecución conductual en 
estos programas de reforzamiento 
Como se ha señalado, la tasa de respuesta aumenta progresivamente en cada uno de 
los intervalos a medida que avanza el tiempo, y estos cambios son lo genuinamente 
característico de los programas de IF. El patrón de respuestas en un programa de IF 
refleja un proceso de discriminación temporal, de manera que los animales responden 
cuando «subjetivamente» consideran que es altamente probable la consecución del 
reforzador. 
 
La diferencia fundamental entre los programas fijos (RF e IF) y los variables (RV e IV) es 
que en los primeros, de forma contraria a los segundos, suele aparecer una pausa tras 
cada reforzamiento. La diferencia fundamental entre un programa de RF y uno de IF es 
que en la ejecución del primero se pasa de la pausa post-reforzamiento a una tasa alta 
y estable de respuesta, mientras que en IF se pasa de la pausa post-reforzamiento a una 
21
aceleración gradual en la tasa de respuesta hasta alcanzar una tasa alta al final del 
intervalo. 
En los programas de intervalo, una vez que la respuesta está disponible, el sujeto puede 
recibirla en cualquier momento a partir de entonces (porque ya ha pasado el intervalo 
de tiempo estipulado) con tal de que dé la respuesta requerida. En muchas ocasiones 
esta disponibilidad del reforzador se limita en el tiempo, estipulando un tiempo límite 
para conseguir el reforzador. Esta clase de restricción se llama duración limitada y se 
puede aplicar tanto a IF como a IV. 
La duración de la pausa post-reforzamiento que ocurre en los programas de RF se 
incrementa sistemáticamente a medida que aumenta el requisito de la razón. De la 
misma forma, la pausa post- reforzamiento está directamente relacionada con la 
longitud del programa de IF, de forma que a mayor duración del intervalo mayor será la 
respuesta. En los programas de razón, a medida que se aumenta el requisito del número 
de respuestas, se aumenta también el intervalo entre reforzadores, dado que se tarda 
más en completar las respuestas necesarias para conseguir el reforzador. Killeen mostró 
que la duración de la pausa post-reforzamiento en los programas de RF depende más 
de la frecuencia de reforzamiento (que viene determinada por el intervalo temporal 
entre los reforzadores) que del propio requisito del programa en cuanto al número de 
respuestas a realizar. 
En los programas de razón, la duración de la pausa está determinada más por el 
programa que se va a completar que por el que ha ocurrido inmediatamente antes. Los 
programas se pueden disponer en cuatro series secuenciales distintas en base a la 
longitud corta o larga de la razón. Así, las transiciones de uno a otro programa de RF 
pueden ser:, larga-larga, corta-larga, corta-corta, larga-corta. Si el programa que va a 
ocurrir es el responsable de la longitud de la pausa, se esperan pausas más largas en los 
dos primeros casos, en los que el programa que viene después es una RF larga, que en 
los dos últimos. Y de forma contraria, si el programa que ya ha ocurrido es el responsable 
de la pausa siguiente, las pausas más largas deberían ocurrir cuando el programa 
precedente hubiera sido una RF larga, es decir en secuencias larga-larga y larga-corta. 
Los resultados parecen indicar que la longitud de la pausa está mejor predicha por el 
programa de RF que va a ocurrir que por el que ya ha ocurrido, puede ser debido a que 
las RF más largas aumentan la separación entre las respuestas iniciales y el reforzador 
que ocurre al final de la serie, de manera que es más contiguo a las últimas respuestas 
que a las primeras. 
Programas de razón frente a programas de intervalo: funciones de retroalimentación 
Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser 
mayor en los programas de razón que en los de intervalo. Esto se ha investigado por un 
procedimiento que asigna un valor de intervalo a un programa de reforzamiento en 
función de lo que hayan tardado los animales previamente en completar un programa 
de razón (midiendo el tiempo que les lleva realizar todas las respuestas). De esta manera 
22
los programas de intervalo y de razón se igualan en cuanto al número de reforzadores 
obtenidos y la distribución de los mismos. 
 
En la figura se representan registros típicos de programas de RV e IV acoplados de esta 
manera (las líneas discontinuas verticales indican el momento de ocurrencia de los 
reforzadores, que como se puede ver coinciden en los dos programas) y, como se puede 
apreciar, el programa de RV generó una tasa de respuesta mucho más alta que el 
programa de IV. 
En los programas de intervalo, la tasa de respuesta no influye directamente sobre la 
frecuencia de administración de los reforzadores (la tasa de reforzamiento), mientras 
que la tasa de reforzamiento varía de manera directa con los cambios en la tasa de 
respuesta en los programas de razón (comparar las líneas verticales que interseccionan 
con el eje de abscisas en los paneles c y d de la Figura 5.2., con las líneas horizontales 
que interseccionan con el eje de ordenadas en los paneles a y b). 
Una explicación de estas diferencias es que los programas de intervalo (particularmente 
IV) tienden a reforzar TER largos, porque el mero paso del tiempo lleva a un incremento 
en la probabilidad de reforzamiento. Dado que en los programas de IV se generan TER 
largos, éstos se reforzarán y llegarán a predominar, reduciendo así la tasa de respuesta. 
Los programas de razón (particularmente RV) no presentan la tendencia de reforzar 
diferencialmente un TER particular y, por tanto, no favorecen la ocurrencia de TER 
largos. 
Es más, dada la tendencia a responder en ráfagas de respuestas se hace más probable 
que el reforzador actúe sobre TER cortos. Baum ha denominado este tipo de explicación 
como molecular, porque un acontecimiento que puede ocurrir en un determinado 
momento,en este caso el reforzamiento de un TER, es suficiente para producir un 
efecto. El mecanismo explicativo implicado sería las variaciones momento a momento 
en la contigüidad respuesta-reforzador. 
 
23
Una segunda forma de explicar las diferentes tasas de respuesta entre los programas de 
razón y de intervalo parte de que en los programas de RV existe una correlación directa 
entre la tasa de respuesta y la tasa de reforzamiento. La tasa de respuesta tenderá a 
aumentar para maximizar la tasa de reforzamiento.En los programas de IV, sin embargo, 
no existe virtualmente ninguna relación entre la tasa de respuesta y la tasa de 
reforzamiento: por mucho que se incremente la primera, no variará la segunda. Baum 
ha denominado este tipo de explicación como molar, porque las variables efectivas —la 
tasa de reforzamiento y su dependencia de la tasa de respuesta— son fenómenos 
temporalmente extensos, haciendo énfasis en la correlación frente a la contigüidad. Las 
correlaciones entre la tasa de respuesta y la tasa de reforzamiento han sido 
denominadas funciones de retroalimentación 
Una función de retroalimentación es una descripción de la forma en que actúa el 
ambiente, como la frecuencia de reforzamiento, la magnitud del reforzador, o la demora 
al reforzador, en función de algún aspecto de la ejecución conductual. Las funciones de 
retroalimentación no asumen que la conducta esté bajo el control de una variable 
independiente, simplemente que la conducta afectará a algún aspecto del ambiente. Los 
aspectos de la conducta y del reforzamiento son variables dependientes, que se 
relacionan por funciones de retroalimentación, pero que no necesariamente tienen por 
qué mantener una relación causal. En el condicionamiento operante, la obtención de los 
reforzadores programados depende de la emisión de la respuesta criterio, y así la tasa 
de reforzamiento obtenida es también una medida de una ejecución eficiente. 
La función de retroalimentación de la tasa de reforzamiento para la tasa de respuesta 
en un programa de RF que requiera N respuestas por reforzador es R = B/N, donde R es 
la tasa de reforzamiento obtenido y B es la tasa de respuesta emitida. 
El resultado de esta ecuación aplicada a diferentes programas de RF sería este panel, 
dónde la tasa de reforzamiento que obtiene el sujeto es proporcional a la tasa de 
respuesta realizada y la proporcionalidad es el requisito de la razón. Cuando más rápido 
se responda, mayor tasa de reforzamiento, y el número de respuestas requeridas para 
producir incrementos en la tasa de reforzamiento debe aumentar conforme se 
incrementa el requisito de la razón. La misma ecuación puede aplicarse para programas 
de RV. 
 
24
Las funciones de retroalimentación que relacionan la tasa de respuesta y la tasa de 
reforzamiento son más difíciles de calcular para los programas de intervalo. En los 
programas de IV (y también en los de IF) la forma de la función es hiperbólica 
Los cambios en la tasa de respuesta a tasas bajas de respuesta afectarán mucho a las 
tasas de reforzamiento, pero cuando las tasas de respuesta sean altas, los cambios en la 
tasa de respuesta tendrán poco efecto sobre la tasa de reforzamiento. Cuanto más corto 
es el programa de IV existe un mayor margen para que pequeños incrementos en las 
tasas bajas de respuesta produzcan incrementos sustanciales en la tasa de 
reforzamiento. Las funciones se aplanan a partir de una tasa de respuesta, porque por 
mucho que se responda la tasa máxima de reforzamiento no puede aumentar más que 
el valor especificado por el programa de intervalo. 
 
El que en los programas de intervalo existan áreas aplanadas en las funciones de 
retroalimentación indica que el control diferencial de la conducta es bastante débil, las 
contingencias de reforzamiento no empujan la conducta en ninguna dirección. Esta es 
la diferencia fundamental entre los programas de intervalo y los programas de razón. 
El ejemplo paradigmático de una función de retroalimentación plana es el experimento 
de superstición (Capítulo 4), donde no hay contingencia programada entre la ocurrencia 
o no de la respuesta y la presentación del reforzador, ni por supuesto entre la tasa de 
respuesta y la tasa de reforzamiento. 
Programas de reforzamiento diferencial de tiempos entre respuestas 
Para probar que el reforzamiento diferencial de los TER es posible se diseñaron 
programas de reforzamiento específicos a tal fin, reforzando específicamente TER cortos 
y TER largos. El diseño básico de estos programas es elegir un tiempo determinado y 
reforzar únicamente los TER que sean más largos que ese tiempo, lo que viene a definir 
los programas de Reforzamiento Diferencial de tasas Bajas de respuesta (RDB), o los TER 
más cortos que el tiempo elegido, lo que viene a definir los programas de Reforzamiento 
Diferencial de tasas Altas de respuesta (RDA). 
 
25
La diferencia entre RDB y IF, es que en los programas de RBD sólo se refuerza la 
respuesta si ha transcurrido un tiempo especificado desde la anterior respuesta (un 
TER), mientras que en los programas de IF la respuesta es reforzada si ha transcurrido 
un tiempo determinado desde el anterior reforzador. Por tanto en los RDB se añade una 
contingencia de castigo para las respuestas que ocurren antes del tiempo especificado 
por el programa, ya que cualquier respuesta prematura reinicia el intervalo de tiempo 
requerido. La manera de obtener el reforzador es, por tanto, refrenar la respuesta por 
un tiempo y emitirla cuando ha transcurrido dicho intervalo temporal. Esta pequeña 
modificación da como resultado una ejecución operante muy diferente a la que se 
obtiene en un IF, porque la contingencia añadida para las respuestas que ocurren antes 
de transcurrir el tiempo especificado, debe ser considerada como un castigo, porque la 
consecuencia de la respuesta es la presentación de un tiempo-fuera de reforzamiento 
positivo. 
El RDA se define porque el reforzador se hace contingente con la respuesta si esta ocurre 
antes de que haya transcurrido un tiempo determinado, reforzando especialmente los 
TER cortos. En este programa el reforzador se obtiene si se responde antes del tiempo 
especificado, y las respuestas que ocurran después de ese intervalo temporal 
simplemente reinician el intervalo. Por eso se obtienen tasas altas de respuesta.La 
ejecución en los programas RDA es más fácil que en los RDB porque es difícil reforzar 
específicamente una respuesta pero que no se haga de forma repetida. La dificultad 
puede deberse a la inducción de respuestas por el reforzamiento espaciado y/o a la 
degradación del valor del reforzador por encontrarse demorado desde la emisión de la 
respuesta criterio. 
Teoría del reforzamiento diferencial de los tiempos entre respuestas 
La teoría del reforzamiento diferencial de los TER se basa en que los reforzadores no 
sólo refuerzan ejecutar una determinada respuesta, sino que también refuerzan el 
hacerlo a un determinado ritmo, con un determinado espaciamiento entre respuestas. 
Afirma así que en todos los programas de CO se refuerzan específicamente TER de una 
duración determinada, concretamente se reforzaría el TER que ocurre antes de la 
administración del reforzador. 
Los programas RDB y RDA están específicamente diseñados para reforzar, 
respectivamente, TER de duración larga y de duración corta. También cambia la 
ejecución del sujeto dependiendo de si los reforzadores se dan de acuerdo a programas 
de razón o intervalo, y también según si son fijos o variables. 
Los programas RV e IV consiguen una tasa de respuesta muy constante, esto es, sin 
pausas post- reforzamiento, con lo que la duración de los TER es muy homogénea y es 
fácil atribuir su ejecución al reforzamiento diferencial de los TER de una duración 
determinada 
 
26
La ejecución en los programas de RF e IF, sin embargo, no es tan homogénea como en 
los programas variables y normalmentese obtienen acusadas pausas post-
reforzamiento. De acuerdo con la aplicación estricta de la teoría de reforzamiento 
diferencial de los TER, los TER reforzados en los programas de RF e IF deberían ser 
siempre muy cortos, puesto que los reforzadores se presentan al final cuando los sujetos 
están respondiendo a una tasa alta. No se tendría por qué esperar que los sujetos 
dejaran de responder inmediatamente después de haber conseguido el reforzador (la 
pausa post-reforzamiento) puesto que este intervalo no es otra cosa que un TER de muy 
larga duración. Para solventar esta dificultad se han ideado diferentes alternativas que 
lo que hacen es considerar mecanismos adicionales que se combinen con el 
reforzamiento diferencial de los TER y así explicar tanto la constancia en los programas 
variables como las variaciones en tasas de respuesta observadas en los programas fijos. 
Se puede añadir por ejemplo un mecanismo de discriminación temporal para explicar 
que las pausas post-reforzamiento en programas de RF e IF son debidos a que los sujetos 
experimentales son capaces de discriminar eficazmente el momento de entrega del 
reforzador, y saben que después de entregar el último es improbable conseguir uno 
nuevo después. 
Programas compuestos de reforzamiento 
Los programas compuestos resultan de la aplicación de dos o más programas básicos de 
reforzamiento y pueden dividirse en dos grandes bloques, aquellos donde la 
presentación de los programas componentes es secuencial y aquellos donde los 
componentes se presentan de forma simultánea. 
Programas alternantes y secuenciales: el control por el estímulo y reforzamiento 
condicionado 
Los programas secuenciales son cuatro: programa mixto, programa múltiple, programa 
tándem y programa encadenado, siendo los dos primeros alternantes y los dos últimos 
estrictamente secuenciales. 
 
En un programa mixto se presentan dos o más programas básicos alternándose al azar. 
El cambio de uno a otro de los programas es independiente de la conducta del sujeto, 
depende de la duración de un tiempo establecido con anterioridad por el 
experimentador. Si por ejemplo cada componente dura diez minutos, durante los diez 
primeros puede estar en funcionamiento un programa IF-60seg (le damos comida 
cuando dé una respuesta después de transcurridos 60 seg desde el anterior reforzador)- 
Los siguientes diez minutos va a funcionar el segundo programa, por ejemplo RF-50 
(reforzaremos cada vez que emita 50 respuestas consecutivas) y al terminar sus 10 
minutos, volverá a empezar el programa IF 60 seg... así sucesivamente hasta un número 
de veces determinado también previamente por el experimentador. 
27
 
El programa múltiple es exactamente igual que el mixto con la diferencia de que cada 
componente se señala con una clave discriminativa distinta, (luz, sonido, cualquier 
estimulación ambiental...) y el sujeto es informado en todo momento en qué parte del 
programa múltiple se encuentra. Por ejemplo el encendido de la luz podría marcar la 
presencia del programa IF 60-seg y cuando la luz se apaga el programa RF 50. Si un 
estímulo discriminativo indica que las respuestas pueden ser reforzadas de acuerdo a 
reforzamiento positivo, y un estímulo diferente señala la imposibilidad de conseguir 
dicho reforzamiento, nos encontramos ante un programa múltiple donde se establece 
una discriminación entre un estímulo discriminativo positivo (E+ o Ed) y un estímulo 
discriminativo negativo (E- o EΔ). El aprendizaje consistiría en emitir respuestas en 
presencia del E+ y omitirlas en presencia del E-, lo que permite estudiar el grado de 
control ejercido por los Eds sobre la respuesta instrumental. 
Un programa tándem consta al menos de dos programas simples que se presentan 
siempre en el mismo orden. Los sujetos experimentales deben completar el primer 
programa para poder iniciar el segundo, al final del cual consiguen la administración del 
reforzador. En este programa, al contrario que en los anteriores, solo es posible 
conseguir el reforzador si se cumplen en sucesión todo los programas componentes. 
Cumplir uno de ellos (y por extensión, sus anteriores) sólo da lugar a la posibilidad de 
realizar el siguiente, y el reforzador se conseguirá al terminar de completar todos. Por 
ejemplo, un programa tándem IF 60-seg RF-50 se inicia con el programa de IF 60- seg, 
de forma que la primera respuesta después de transcurridos 60 segundos da acceso al 
programa de RF-50. Al emitir 50 respuestas se obtendrá el reforzador, lo que de nuevo 
puede permitir comenzar el primer programa y repetir el tándem durante un número 
determinado de veces o un periodo de tiempo establecido con anterioridad. 
El programa encadenado es exactamente igual que el tándem, pero en este caso cada 
uno de los dos programas simples está señalado de manera diferente, de forma que el 
sujeto experimental conoce en qué componente del programa se encuentra en cada 
momento. Habitualmente la terminación del primer programa se acompaña del 
encendido de una luz o de la presentación de un sonido, que permanece en 
funcionamiento durante el segundo programa hasta el momento de la consecución del 
reforzador. Ej. en un programa encadenado IF 60-seg RF-50, la primera respuesta una 
vez transcurridos 60 segundos inicia el programa de RF-50, al tiempo que provoca el 
encendido de una luz de la caja experimental, que permanecerá encendida hasta que se 
complete la respuesta número cincuenta y se consiga el reforzador. 
Los programas encadenados se han utilizado para estudiar el reforzamiento 
condicionado, que se refiere al hecho de que algunos estímulos adquieren capacidades 
reforzantes por su asociación con los reforzadores primarios. En los programas 
encadenados, el cambio en el ambiente producto de la finalización del primer programa 
adquiere propiedades de reforzador por su asociación con el reforzador que se consigue 
al finalizar el segundo programa. Las propiedades reforzantes de estos estímulos se 
miden por su capacidad para encadenar respuestas, de manera que los sujetos 
28
experimentales responden para conseguir dichos cambios en el ambiente. Esta técnica 
del encadenamiento ha permitido estudiar en los estímulos capacidades reforzantes de 
segundo orden, de tercer orden, e incluso de órdenes superiores 
Programas simultáneos: programas concurrentes y programas combinados 
Los más importantes y conocidos son los programas concurrentes, que se caracterizan 
por disponer simultáneamente de al menos dos programas básicos de reforzamiento. 
En los programas concurrentes se puede cambiar de un programa a otro sin que 
normalmente haya sido necesario haber completado un tiempo o un número de 
respuestas en cada uno de los programas. Los sujetos experimentales, como 
consecuencia, deben elegir entre responder a uno u otro de los programas que 
componen el programa concurrente. Por ejemplo, en una caja de condicionamiento 
podemos disponer de dos palancas de respuesta, una a la derecha asociada a un 
programa IV 60-seg y otra a la izquierda asociada a uno IV 30seg. 
Se mide el número de respuestas en cada una de las palancas y se calcula la proporción 
por la que se distribuyen las respuestas entre una y otra. 
Otros programas compuestos simultáneos consisten en combinaciones de un programa 
de razón y otro de intervalo, y existen al menos tres combinaciones que deben 
distinguirse: 
En un programa alternativo se refuerza una respuesta cada vez que se cumple con el 
requisito del programa de razón o el del intervalo, existiendo así dos formas de 
conseguir el reforzamiento. 
En un programa conjuntivo se refuerza una respuesta cada vez que se cumple al mismo 
tiempo con el requisito de la razón y del intervalo. 
En un programa entrelazado la respuesta que se refuerza viene determinada por dos 
programas, pero la disposición de uno de ellos se altera por el desarrollo del otro. otro. 
Una posibilidad esque cierta suma de respuestas y de tiempo (ej. 10 respuestas o 6 
respuestas en 4 seg, ó 3 respuestas en 7 seg o 10 seg) debe darse antes de que la 
respuesta sea reforzada, o bien que algún valor recogido en un programa de razón 
determine las características de un programa de intervalo. 
 
TIPOS DE CONDICIONAMIENTO OPERANTE. 
Aprendizaje por reforzamiento: es el aprendizaje en el cuál la conducta es nueva para el 
organismo aumenta su frecuencia de aparición luego de recibir algún estímulo 
reforzante. 
Aprendizaje por evitación: es el aprendizaje donde el organismo aprende una conducta 
nueva que termina o impide la aplicación de algún estímulo aversivo(desagradable), y 
aumenta la frecuencia de aparición de esa conducta para que no regrese. 
29
Aprendizaje supersticioso: es el aprendizaje donde alguna consecuencia casualmente 
reforzante o aversiva aumenta la frecuencia de aparición de alguna conducta. 
Aprendizaje por castigo: es el aprendizaje donde un organismo aumenta la frecuencia 
de aparición de las conductas que no fueron seguidas o que no recibieron ningún 
estímulo aversivo o desagradable. 
Olvido: todas las conductas que no reciben o que dejan de recibir reforzamiento tienden 
a disminuir su frecuencia de aparición y a desaparecer. 
Primero que todo, el condicionamiento operante, llamado también instrumental y hoy 
en día; análisis experimental de la conducta(AEC) desarrollado por el psicólogo 
neoconductista B.F Skinner, se puede definir de la siguiente forma: Es la teoría 
psicológica del aprendizaje que explica la conducta voluntaria del cuerpo, en su relación 
con el medio ambiente, basados en un método experimental. Es decir, que ante un 
estimulo, se produce una respuesta voluntaria, la cual, puede ser reforzada de manera 
positiva o negativa provocando que la conducta operante se fortalezca o debilite. Es la 
operación que incrementa la probabilidad de la respuesta o conducta en relación a un 
Estímulo discriminativo y a otro llamado estimulo reforzador: 
Es siempre una relación de contingencia. Skinner también considera al aprendizaje por 
castigo y por extinción de los refuerzos, como influyentes en la conducta. 
 
APLICACIONES DE CONDICIONAMIENTO OPERANTE. 
Los psicólogos han usado técnicas de condicionamiento operante para modificar la 
conducta- 
Programas de economía de fichas: 
 La aplicación clásica es la economía de fichas en el primer estudio se trato a mas de 40 
pacientes psicóticos recluidos en la sala de un hospital psiquiátrico como si fuera una 
gigantesca caja de Skinner. Los resultados eran impresionantes los pacientes se valían 
por si mismos, pero los resultados no serían fuera de la institución,- 
Programa de modifcación de conducta: 
 Las técnicas del condicionamiento operante han sido aplicadas a distintas industrias, 
estas han disminuido los retrasos, absentismo " el abuso de los permisos por 
enfermedad " mejoraron el desempleo " seguridad en el trabajo… 
Castigo y reforzamiento negativo: 
Casi todas la aplicaciones del condicionamiento operante se usaban como 
reforzamiento positivo en lugar de castigo, porque el castigo solo tenia resultados 
inmediatos y no a largo plazo, Un reforzamiento negativo no es un castigo, un 
reforzamiento negativo es un estímulo aversivo cuya supresión es recompensarte. 
30

Continuar navegando