Logo Studenta

Apunte Cátedra Texto Punishment, R L Solomon

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
PUNISHMENT 
Richard L. Solomon 
 
American Psychologist, 1964, 19, 239-253. 
 
 
El artículo tiene tres objetivos: 
 
1. Resumir algunas generalizaciones empíricas y problemas que conciernen los efectos 
del castigo en la conducta. 
2. Dar algunas demostraciones de las ventajas de una teoría biproceso del aprendizaje, 
sugiriendo nuevos procedimientos a ensayar en experimentos de castigo. 
3. Finalmente, desacreditar algunas leyendas no científicas sobre castigo. 
 
Definición operacional de castigo: La definición de castigo no es operacionalmente 
simple, pero algunos de sus atributos están claros. Un castigo es un estímulo nocivo y que 
favorecerá, por su terminación u omisión, el desarrollo de nuevas respuestas de escape o 
evitación. Es un estímulo que el sujeto rechazará, si se le da a elegir entre ser castigado o no 
recibir estímulo alguno. 
 
Experimentos de muestra (Sample Experiments) 
 
1. Entrenamiento de escape: Se usa pista tradicional de 6 pies con caja meta y piso con 
parrilla electrificable. La rata recibe shock eléctrico en la caja de partida y en la 
pista, y no recibe shock en la caja meta. Se adiestra rápidamente la rata a correr si el 
shock comienza al levantarse la puerta de la caja de partida y persiste hasta que la 
rata entre a la caja meta. 
2. Entrenamiento de evitación: Se da a la rata 5 segundos para llegar a la caja meta 
antes de recibir el shock. La conducta resultante es aprendizaje de evitación activo. 
3. Procedimiento de castigo: Se entrena a la rata hambrienta a correr por la pista para 
obtener alimento. En cuanto la ejecución es asintótica, se introduce el shock en la 
pista y en la caja meta y no se da alimento. Este procedimiento se llama 
procedimiento de castigo y el aprendizaje resultante (quedarse en la caja de partida) 
se llama aprendizaje pasivo de evitación. 
 
En el experimento 1 y 2 la rata aprende que debe hacer y en el tercero, que no debe 
hacer. En todos los casos, el criterio de aprendizaje estaba correlacionado con que la rata no 
recibiera shocks, en contraste con una experiencia previa de recibir varios shocks en el 
mismo diseño experimental. No se puede pensar adecuadamente sobre castigo sin 
considerar lo que se conoce sobre los resultados de ambos procedimientos (activo y 
pasivo). Sin embargo, muchas revisiones del control aversivo de la conducta ponen énfasis 
en el aprendizaje de evitación activo e ignoran el aprendizaje de evitación pasivo. Yo 
pondré énfasis más bien en las similitudes que en las diferencias entre aprendizaje de 
evitación activo y pasivo. 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
A fin de revisar algunas de las generalidades empíricas que describen los resultados de 
los experimentos sobre castigo de aprendizaje de evitación pasivo, dividiré la evidencia en 
5 clases: 
 
a) Efectos del castigo en la conducta previamente establecida por recompensas o 
refuerzos positivos. 
b) Efectos del castigo en respuestas consumatorias. 
c) Efectos del castigo en reflejos discretos (discrete reflexes) 
d) Efectos del castigo en respuestas previamente establecidas mediante castigo, o sea, 
los efectos del castigo en respuestas de escape y evitación activos. 
 
La efectividad del castigo difiere en estos 5 casos. He llamado efectividad al grado en el 
cual un procedimiento de castigo produce supresión de o facilita la extinción de patrones de 
respuestas existentes. 
 
Caso a). Los resultados de los castigos están fuertemente relacionados con la intensidad 
del agente punitivo. A veces la intensidad se define y se mide independientemente como en 
el caso del shock eléctrico. A veces hay evaluaciones cualitativas (Ej. Rata que se da de 
narices contra una puerta cerrada, mi perro que recibe un golpe con el diario enrollado, etc.) 
A medida que aumenta la intensidad de un shock desde 0.1 a 4 miliamperes, se obtienen los 
siguientes resultados: 
 
1. Detección y “arousal”, donde el castigador puede ser usado como una clave, un 
estímulo discriminativo e incluso como un reforzador secundario. 
2. Supresión temporal, donde el castigo resulta en la supresión de la respuesta 
castigada, seguida de completa recuperación, de modo que el sujeto aparece después 
inalterado (tal como estaba antes del castigo). 
3. Supresión parcial, donde el sujeto muestra una supresión duradera de la respuesta 
castigada, sin recuperación total. 
4. Supresión total, sin recuperación observable. 
 
Se pueden obtener todos estos resultados, con solo variar la intensidad del estímulo 
nocivo que se usa, cuando castigamos respuestas establecidas previamente por recompensa 
o reforzadores positivos. 
Pero tras variables son posibles tan importantes como la intensidad del castigo y su 
operación puede que haga innecesario el usar castigos intensos para producir la supresión 
efectiva de una respuesta establecida previamente por refuerzo positivo. He aquí algunos 
ejemplos: 
 
• Proximidad en el tiempo y espacio a la respuesta castigada determina hasta cierto 
punto la efectividad del castigo. Hay una gradiente de supresión de respuestas que 
ha sido llamada la gradiente de demora temporal del castigo. 
• La fuerza conceptualizada de una respuesta, medida por su resistencia a la extinción 
después de la omisión del refuerzo positivo, produce el efecto de un castigo 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
contingente a la respuesta. Las respuestas fuertes son más resistentes a los efectos 
supresores del castigo. Así, por ejemplo, el sobre-entrenamiento de una respuesta a 
menudo disminuye la resistencia ordinaria a la extinción experimental, también 
aumenta la efectividad del castigo como supresor de respuestas. 
• Puede producirse una adaptación al castigo y esto disminuye su efectividad. Los 
castigadores nuevos intensos son mejores que los viejos intensos. La intensidad del 
castigo, si se aumenta poco a poco tiende a no ser tan efectiva como en el caso en 
que se introduce inicialmente su mayor intensidad. 
• En general, la resistencia a la extinción disminuye cuando se castiga una respuesta 
previamente reforzada. Sin embargo, si el sujeto está acostumbrado a recibir shock 
junto con el refuerzo positivo durante el entrenamiento de recompensa, la relación 
puede invertirse y el castigo durante la extinción puede aumentar la resistencia a la 
extinción. Evidentemente, si se apela al castigo, puede actuar como un refuerzo 
secundario, o como clave para recibir recompensa o como excitante. 
• Los castigos llegan a ser sumamente efectivos cuando el período de supresión de 
respuesta se usa tácticamente como ayuda para el reforzamiento de nuevas 
respuestas que son topográficamente incompatibles con la respuesta castigada. 
Cuando se establecen nuevos actos instrumentales que llevan a la meta antigua 
(nuevos medios para un viejo fin), un castigo de muy poca intensidad puede tener 
efectos de supresión duraderos. Whiting y Mowrer (1943) demostraron esto 
claramente, primero reforzaron un camino al alimento y después lo castigaron. 
Cuando los sujetos no utilizaron más ese camino, dieron otro como recompensa. 
Nunca más recorrieron los sujetos el camino antiguo. Este efecto confiable de 
supresión parece ser tan cierto de restricciones temporales, discriminativas de 
comportamiento. La supresión del acto de orinar en perros bajo el control de 
estímulos de dentro de la casa, es extremadamente efectiva siempre que se permita 
al perro que orine sin ser castigado fuera de la casa. Hay aquí una valiosa lección 
sobre el uso efectivo de castigos para producir el control de impulsos. Una 
alternativa recompensada bajo control discriminativo, hace del entrenamiento 
pasivo de evitación una potente influenciaconductual. Ejemplo: caso de ratas en 
laboratorio, se les castigaba si comían carne y se las recompensaba si comían 
píldoras, preferían morir de hambre si sólo se les ponía carne por delante. 
 
Veamos ahora experimentos donde el castigo parece tener sólo un efecto de supresión 
temporal. La mayoría de estos experimentos no ofrecen al sujeto una premiada a la 
alternativa castigada. En muchos casos, o te arriesgas o te mueres de hambre. La fuerza del 
hambre, junto con la intensidad del castigo, son las variables cruciales para predecir 
recuperación de los efectos supresivos del castigo. Aquí se produce un fenómeno difícil de 
comprender, parecido a la “formación de reacción” de Freud. Si se castiga a un sujeto por 
tocar un recipiente con alimento, a medida que el hambre aumenta en intensidad, el animal 
se aleja del recipiente, como si la probabilidad de tocar el recipiente aumentara con la 
intensidad del hambre. 
 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
Finalmente, debo señalar que los atributos de los castigos efectivos varían según las 
especias y según la etapa del desarrollo dentro de cada especie. Una serpiente de juguete 
puede asustar a un mono. No asusta a una rata. Un ruido fuerte aterró al pequeño Albert de 
Watson. Para nosotros es apenas un gong chino. 
 
Caso b). Efectos del castigo en respuestas compensatorias, contrariamente a lo que 
podría suponerse, los actos consumatorios, a menudo tienen significado biológico para la 
supervivencia del individuo y de la especie, tienen poca resistencia a la supresión por 
medio del castigo. El comportamiento sexual del macho puede suprimirse seriamente por 
medio de castigo débil. El comer, en gatos y perros puede suprimirse permanentemente con 
choques moderados. 
La interferencia del castigo en respuestas consumatorias debe ser más investigada. Tal 
vez la conexión temporal íntima entre drive, incentivo y castigo hace que el drive o el 
incentivo se conviertan en patrones de estímulos condicionados para las reacciones 
emocionales aversivas cuando se castigan los actos consumatorios. Tal vez esto interfiera 
con la actividad vegetativa, por ejemplo, mata el apetito en un sujeto hambriento. Pero, uno 
puede preguntarse por qué el mismo castigador no parece ser tan efectivo cuando se le hace 
contingente en un acto instrumental. 
Tal vez la variación paramétrica más importante es el orden temporal de recompensa i 
castigo. Si se da comida y después se castiga, el sujeto aprende a dar reacciones de miedo, 
maúlla y se retrae. Le cuesta recuperar sus hábitos de comida. Si se repite la experiencia, 
incluso llegará a morirse de hambre. En cambio, si se da primero shock y después la 
comida, el animal aprende a considerar el shock como una señal y come sin problemas. 
Por tanto, los efectos del castigo están determinados en parte por los hechos que le 
anteceden y los que le siguen inmediatamente. Un castigo no es tan sólo un castigo. Es un 
hecho en el flujo temporal y espacial de la estimulación y el comportamiento, y sus efectos 
pueden producirse por su punto de inserción temporal y espacial en tal flujo. 
 
Caso c) Secuencias de actos instintivos. A veces sucesos atemorizantes producirán lo 
que los etólogos llaman reacciones de desplazamiento, la expresión de un patrón de 
conducta inadecuado. No se ha experimentado de manera sistemática sobre esto. El mejor 
ejemplo que pude encontrar es el de “imprinting” en pájaros; usando la respuesta 
locomotora de seguimiento como índice. Moltz, Rosenblum y Halikas (1959), Kovach y 
Hess (1963 y Hess, 1959 b) han demostrado que el castigo de comportamientos de 
imprinting a veces impide su ocurrencia. Sin embargo, si se castiga a los pájaros antes que 
se les presente el objeto al cual se fijará su “imprinting”, a menudo se energiza la respuesta 
consiguiente. Es difícil entender lo que esto significa, excepto que el castigo puede, ya sea 
despertar o inhibir tal comportamiento, según sea la forma de presentar el castigo. 
 
Caso d) ¿Qué sucede si se castiga un reflejo rotular condicionado o incondicionado? No 
tenemos información sobre este punto. ¿Pueden entrenarse sujetos para inhibir reflejos bajo 
motivación aversiva? 
 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
Caso e) Efectos del castigo en conductas establecidas mediante castigo. En general, si 
se usa el mismo estímulo nocivo para castigar una respuesta que se estableció mediante él, 
la respuesta se fortalece al principio, después a veces se debilita, pero no siempre. 
Carlsmith (1961) demostró que se puede aumentar la resistencia a la extinción usando el 
mismo estímulo nocivo tanto para la adquisición como para la extinción, y disminuir la 
resistencia a la extinción usando castigos diferentes discriminativamente. 
Para predecir, aunque sea en forma gruesa, la acción del castigo en una respuesta, hay 
que saber primero cómo esa respuesta particular fue inserta en el repertorio de respuestas 
del sujeto, originalmente. 
 
Teoría 
 
He aquí un enfoque teórico que, para mi, tiene un alto valor pragmático al estimular 
nuevas líneas de experimentación. Hoy en día muchos psicólogos consideran que el 
procedimiento de castigo es un caso especial de condicionamiento de evitación y que los 
resultantes procesos de aprendizaje son teóricamente de la misma naturaleza. Woodsworth 
y Schlosberg (1954) distinguen los dos procesos de entrenamiento: Castigo para actuar y 
castigos para no actuar, paro suponen que el mismo motivo teórico, “un valor de incentivo 
de seguridad positivo” puede explicar el aprendizaje producido por lo dos procesos. 
Sinsmoor (1955) dice que los hechos relacionados con estos procedimientos están bien 
explicados por principios de aprendizaje de evitación de simple E-R. Dice: “si castigamos 
al sujeto por dar una respuesta a secuencia de respuestas, esto es, aplicamos estímulos 
aversivos, como shock, las claves o estímulos discriminativos para esta respuesta 
corresponderán a las señales de advertencia que se usan típicamente en estudios más 
directos de condicionamiento de evitación. Por su propia respuesta a los estímulos, el sujeto 
mismo produce el estímulo de castigo y lo aparea con estas señales. Como resultado éstas 
se vuelven también aversivas. Mientras tanto, cualquier variación en el comportamiento del 
sujeto que interfiera o esté en conflicto con la cadena de reacciones que llevan al castigo, 
demoran la ocurrencia de la respuesta final y la recepción del estímulo que le sigue. Estas 
variaciones en el comportamiento rompen el patrón de estímulo discriminativo para la 
continuación de la cadena de castigo, cambiando la estimulación corriente de un compuesto 
aversivo a uno no aversivo; ellas son condicionadas, diferenciadas y mantenidas por los 
esfuerzos reforzadores del cambio en la estimulación”. 
Los focos del análisis de Dinsmoor son los procesos por los cuales a) los estímulos 
discriminativos se tornan aversivos y b) se refuerzan los actos instrumentales. Se queda en 
un nivel casi descriptivo, usa un análisis E-R periférico, en el cual la respuesta producida 
por estímulos propioceptivos y exteroceptivos sirven para mantener juntas las cadenas de 
comportamiento. Rechaza, como innecesarios, conceptos tales como miedo o ansiedad, al 
explicar la efectividad del castigo. 
Mowrer (1960) también dic e que los hechos relativos a los dos procedimientos de 
entrenamiento se explican por un set de principios común, pero los principios de Mowrer 
son algo distintos de los de Woodsworth y Schlosberg o Dinsmoor ya citados. Mowrer 
dice: “en ambos casos hay un condicionamiento de miedo y en ambos se encuentra un 
modo de comportamiento que elimina o controla el miedo. Parece que la única distinción 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVODE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
importante es que los estímulos a los cuales se conecta el miedo son diferentes. En el caso 
llamado castigo, estos estímulos son producidos por (correlacionados con) el 
comportamiento o respuesta que se desea impedir; mientras que en el así llamado 
aprendizaje por evitación, los estímulos que producen el miedo no son producidos por la 
respuesta - son extrínsecos más que intrínsecos, más bien independientes que dependientes 
de la respuesta. En ambos casos hay evitación, y en ambos casos está su antítesis, el 
castigo; de aquí la impropiedad de referirse a uno como “castigo” y al otro como 
“aprendizaje de evitación”. Obviamente hay más claridad y precisión de entendimiento si 
se usan los términos alternativos que aquí hemos sugerido, es decir, aprendizaje de 
evitación pasivo y aprendizaje de evitación activo, respectivamente. Pero, como hemos 
visto, los dos fenómenos implican exactamente los mismos principios básicos del 
condicionamiento de miedo y de refuerzo de cualquier acción (o inacción) que elimina el 
miedo” (pp. 31-32). 
 
Aplicaciones de la teoría 
 
Estamos suponiendo varias similitudes importantes entre los procesos de aprendizaje de 
evitación pasivo y activo. Por tanto, podemos mirar el aprendizaje de evitación activo como 
un recurso teórico que nos sugiera nuevas variables no estudiadas que son relativas a la 
efectividad del castigo. 
Turner y yo hemos publicado recientemente una monografía (1962) sobre aprendizaje 
de evitación humana temático, nuestros experimentos demostraron que cuando se usa una 
respuesta esquelética muy refleja, de corta latencia, en respuestas de evitación y escape, el 
sujeto experimenta graves dificultades en el aprendizaje activo de evitación. Las 
variaciones experimentales que tendían a hacer más deliberadas, más operantes, más 
voluntarias o menos reflejas a las respuestas de escape, tenderán a hacer que las respuestas 
de evitación fueran más fáciles de aprender. Así, cuando a un sujeto se le pedía que 
moviera una perilla para evitar un shock eléctrico, el aprendizaje era rápido, en contraste 
con lo muchos fracasos en aprender con una respuesta de evitación que consistía en 
flexionar un dedo del pie. 
En aprendizaje de evitación activo con respuestas no reflejas de larga latencia, Hunter 
encontró que la ocurrencia de respuestas de evitación tendía a producir más respuestas de 
evitación (escape). La omisión del shock parece extinguir la flexión del dedo del pie como 
respuesta de evitación. Claramente da distinción operante-respondedor tiene valor 
predictivo en el aprendizaje de evitación activo. Schlosberg (1934) usó para respuestas de 
evitación una respuesta de flexión de patas muy refleja y de corta latencia. El aprendizaje 
fue inestable, poco confiable y se extinguió rápidamente. 
La misma tendencia se pudo detectar en experimentos que usaron perros como sujetos. 
Por ejemplo, Brogden (1949) usando como respuesta una flexión de las patas delanteras, 
encontró que res bastante difícil llegar a un criterio de 20/20 de aprendizaje de evitación. 
Encontró que 30 perros tomaron de aproximadamente 200-600 ensayos para llegar al 
criterio de evitación. La respuesta era usada, en nuestro idioma, altamente refleja –era 
totalmente educida por el shock en los ensayos de escape con una latencia muy corta, 
aproximadamente 0,3 seg. Compárese, el aprendizaje de evitación activo en perros en una 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
caja con puertas de corredera con la que se encuentra en el experimento de flexión de la 
pata delantera. En la caja con puertas de corredera, una gran cantidad de perros pudieron 
embarcarse en el criterio de ensayos después de 5-15 ensayos de entrenamiento de 
evitación activo. Las latencias de las respuestas tempranas de escape eran largas. La 
resistencia a la extinción está, en estos dos tipos de respuesta de evitación, relacionada 
inversamente a los ensayos necesarios para que un sujeto llegue al criterio. Las condiciones 
que conducen a la adquisición rápida son, en este caso, las que conducen a la extinción 
lenta. Nuestra conclusión es que los respondedores de alta probabilidad, y corta latencia, no 
son tan buenos como los operantes de probabilidad media, y larga latencia, cuando se les 
pide funcionar experimentalmente como respuestas de evitación activas. Esta 
generalización parece ser válida para rata, perros y estudiantes universitarios. 
Como podemos dar el salto inferencial desde estos hallazgos en entrenamientos de 
evitación activo a las posibles variaciones en experimentos de castigo. Es relativamente 
simple generalizar sobre los dos tipos de experimentos en el caso de intervalos CS-US, 
intensidad US y duración del CS. Pero los pasos inferenciales no son tan obvios en el caso 
de la distinción operante-respondedor. Si uno de los principales efectos del castigo es 
motivar o elicitar nuevos comportamientos, y reforzarlos mediante la omisión del castigo y 
así, se establecen respuestas de evitación incompatibles con una respuesta castigada, donde 
entra lógicamente la distinción operante-respondedor. Aquí la teoría biproceso de Mowrer 
puede sugerir una posible respuesta. Supongamos, por ejemplo, que una rata hambrienta ha 
sido entrenada a presionar una palanca para recibir alimento y está dando respuestas en una 
tasa estable. Ahora le damos un shock de corta duración y alta intensidad contingente al 
apretar la barra. El shock elicita un patrón de sobresalto que produce que se suelte la 
palanca en 0,2 seg. y el shock desaparece. La rata se hiela por unos instantes, respira 
fuertemente, orina y defeca. Suponemos que una reacción emocional condicionada se ha 
establecido, con el principal control del estímulo que proviene de la vista de la barra, el 
toque de ella, y los estímulos propioceptivos que se despiertan por los mismos movimientos 
de apretar palanca. Esto es, según Dinsmoor describe, el desarrollo de aversión adquirida de 
estímulos o, como dice Mowrer, la adquisición de reacciones condicionadas de miedo. Por 
tanto las variables condicionadas de Pavlov debieran ser las más importantes en el 
desarrollo de este proceso. La reaparición del apretar palanca en esta rata castigada, 
dependería de la extinción de la reacción emocional condicionada (CER) y de la 
congelación esquelética. Si no se administran nuevos shocks, entonces el CER debiera 
extinguirse de acuerdo a las leyes de extinción de Pavlov, y la reaparición de la respuesta 
de tocar la barra no debiera tardar, incluso si el nivel de intensidad del shock fuera 
suficientemente alto para producir aprendizaje de evitación activo en otro aparato. 
La teoría biproceso nos dice que algo muy importante para la supresión de respuestas 
exitosa y durable faltaba un buen operante que permitiera reforzar una respuesta de 
evitación confiable, porque la reacción al shock era un respondedor, era altamente refleja y 
rápida de ocurrir, creo que la terminación del shock no la reforzará, ni conducirá a 
respuestas de evitación estables. Esta conclusión se desprende directamente de nuestros 
experimentos de aprendizaje de evitación en humanos. Si la terminación del shock se hace 
contingente a la ocurrencia de un operante, especialmente un operante topográficamente 
incompatible con el apretar la palanca, se producirá un proceso de aprendizaje de evitación 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
activo. Por tanto, propongo que demos un shock a la rata hasta que se acurruque en un 
rincón de la caja. La rata aprenderá a hacer algo arbitrario cuando reaparecen los CSs 
controladores. Así, si la rata va a apretar de nuevo la palanca, debe pasar por dos procesos 
de extinción. El CER, establecido por el apareamiento de patrones de CS y shock, debe 
debilitarse.Y en seguida debe extinguirse la respuesta de acurrucarse. Si mis inferencias 
son correctas, esto debería hacer que el efecto del castigo fuese más duradero. Es fácil 
diseñar experiencias para comprobar esto. Creo que hay mucho que ganar en conducir 
juegos teóricos como este, siendo las principales suposiciones que a) los aprendizajes de 
evitación activo y pasivo son procesos similares, en los cuales las mismas variables tienen 
efectos análogos y b) que dos procesos, el condicionamiento de respuestas al miedo y el 
refuerzo de operantes incompatibles con la respuesta castigada, pueden operar en 
experimentos de castigo. 
Hay otra ventaja en hacer estos juegos teóricos. Se pueden usar para cuestionar el 
significado que generalmente se imputa a hallazgos anteriores. Tomemos, por ejemplo, los 
extensos estudios de Neal Miller (1959) y sus estudiantes, y de Brown (1948) y estudiantes, 
sobre gradientes de aproximación y evitación en situaciones conflictivas. Nuestro anterior 
análisis del papel de la distinción del operante-respondedor cuestiona uno de sus supuestos 
centrales: el que la gradiente de evitación es incondicionalmente más abrupta que la 
gradiente de aproximación en los conflictos de aproximación-evitación. En tales 
experimentos, se entrena al sujeto hambriento para que corra a lo largo de una pista corta 
para obtener alimento. Después que la carrera es confiable, se le da un shock eléctrico, 
generalmente cerca de la caja meta, de modo que se desanime temporalmente a entrar a 
dicha caja. El comportamiento subsiguiente del sujeto típico es quedarse en la caja de 
partida, aproximarse abortivamente a la caja con comida, mostrando indecisión, oscilación 
y varias actividades de desplazamiento. Eventualmente, si se discontinúa el shock, el sujeto 
vuelve a correr a la caja meta. Lo abrupto de la gradiente de evitación como función de la 
distancia desde la caja meta se infiere del comportamiento del sujeto antes de la extinción 
de las tendencias de evitación. Si el sujeto se mantiene alejado de la caja meta tanto como 
le sea posible, se puede inferir que la gradiente de evitación se desplazará hacia arriba, o si 
el sujeto se va acercando a la caja meta poco a poco de ensayo, se puede inferir que es 
menos abrupta que la gradiente de aproximación. ¿Cuál alternativa es más plausible? Miller 
y sus colaboradores han demostrado que la última alternativa es una mejor interpretación. 
Los estudios de Miller y colaboradores demostraron que las respuestas d aproximación 
se generalizan más fácilmente que las respuestas de evitación. Las tendencias de evitación 
se debilitan más rápidamente con cambios en el ambiente externo que las tendencias de 
aproximación. Yo considero que los experimentos de este tipo tienen errores y han sido 
realizados de tal manera de producir inevitablemente las gradientes abruptas de evitación. 
Creo que el sujeto de un experimento de aproximación-evitación es entrenado para 
ejecutar una secuencia específica de respuestas bajo condiciones de incentivo y de drive 
apetitivo. Corre al alimento cuando tiene hambre. En contraste, cuando el shock se 
introduce en el laberinto, se le da generalmente cerca de la meta, y no se requiere del sujeto 
una secuencia larga y específica de respuestas antes que termine el shock. Así, las fuerzas 
iniciales de las respuestas de aproximación y evitación (que están en conflicto) no están 
reguladas por procedimientos análogos o simétricos. Miller ha discutido esto 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
cuidadosamente y dice que la gradiente de evitación no sería tan abrupta si se diera el shock 
a la rata antes en la pista en el caso en que toda la pista esté electrificada. Yo creo que si se 
quiere estudiar lo abrupto de las gradientes de aproximación y evitación, las respuestas 
instrumentales competidoras deberían establecerse de manera simétrica. Después de 
aprender a correr una pista para obtener alimento, se le debiera dar el shock cerca de la caja 
meta o en ésta y el shock no debiera terminar hasta que el animal no hubiese recorrido toda 
la pista en respuesta de escape, o sea, la misma distancia. 
 
Leyendas 
 
Skinner en 1938 describió el efecto de una palmada de corta duración en la pata durante 
la extinción de la respuesta de apretar palanca en una rata. Se obtuvo la supresión temporal 
de la respuesta. El número total de respuestas antes que ocurriera la extinción no estuvo 
afectada por el castigo por apretar palanca. Estes (1944) obtuvo resultados similares y 
atribuyó la supresión temporal al establecimiento de una ansiedad que se disipó 
rápidamente. Tollman, Hall y Bretanall (1932) habían anteriormente demostrado que el 
castigo podía aumentar el aprendizaje de laberinto al servir como clave para el 
comportamiento correcto. Skinner hizo de estas observaciones (sobre la naturaleza 
aparentemente ineficaz del castigo como debilitador de respuestas) la base para promover 
un régimen de refuerzo positivo en su utopía, Walden Two. En Walden Two, Skinner 
(1948) escribió: “estamos ahora describiendo, a un costo increíble de sufrimiento humano, 
que a la larga el castigo no reduce la probabilidad de que un acto ocurra” (p.260) aquí no se 
usarían castigos, decía, pues ellos producen un pobre control de comportamiento. 
Durante la década siguiente a la publicación de Walden Two, Skinner (1953) mantuvo 
su posición concerniente a los efectos del castigo en respuestas instrumentales: la supresión 
de respuestas es sólo temporal, y los efectos laterales, tales como miedo y perturbaciones 
neuróticas y psicóticas, no valen las ventajas temporales del uso del castigo. Dijo: 
“A la larga, el castigo, contrariamente a los refuerzos, trabajan a desventaja del 
organismo castigado y del agente castigador”. 
“El hecho de que le castigo no reduce permanentemente una tendencia a responder, está 
de acuerdo con el descubrimiento de Freud de lo que llamó la actividad sobreviviente de los 
deseos reprimidos2. 
“El castigo, como hemos visto, no crea una probabilidad negativa de que se de una 
respuesta, sino más bien una probabilidad positiva de que se presentará un comportamiento 
incompatible”. 
En defensa de Skinner hay que decir que en 1953 dedicó 12 páginas al tópico del 
castigo en su libro introductorio. 
Bugelski (1956) también dice que los experimentos demuestran que el castigo es 
ineficaz para eliminar conductas. 
Recientemente (1961) Skinner resumió su posición de esta manera: 
“A veces es particularmente dejar de lado las ventajas finales en el control de un 
comportamiento, y una ventaja pequeña pero rápida puede llegar a tener un peso indebido. 
Así, aunque decimos que hemos abandonado la varilla, la mayoría de los colegiales están 
aún bajo control aversivo, no porque el castigo sea más eficaz a la larga, sino porque 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
produce resultados inmediatos. Es más fácil para el profesor controlar al colegial 
amenazando castigarlo que usando un refuerzo positivo que tiene acción lenta, aunque tiene 
efectos más poderosos”. 
La mayoría de los libros sobre aprendizaje apenas tratan el tema del castigo. Una 
excepción a esto es Bugelski (1956). Deese (1958) en un libro de texto y Church (1963) en 
un artículo, han tratado el tema. Talvez una razón de que se relegue el tópico de castigo es 
que hay una difundida creencia de que el castigo no es importante porque realmente no 
debilita hábitos, que pragmáticamente es un pobre controlador del comportamiento, que es 
extremadamente cruel e innecesario, y que es una técnica que lleva a la neurosis y otras 
cosas peores. Esta leyenda, que no tiene suficiente base empírica, probablemente surgió con 
Thorndike (1931), quien llegó a la conclusión de que el castigo no cumple su función 
principal,la de destruir o extinguir hábitos. Guthrie y Wendt mantuvieron que la extinción 
no es el debilitamiento de un hábito, sino el reemplazo de un hábito por otro. Cuando 
Thorndike decía que los efectos del castigo eran indirectos, hacía hincapié en el poder del 
castigo de evocar otros comportamientos que los que produjeron el castigo; de manera 
parecida Guthrie puso énfasis en el procedimiento de extinción como un procedimiento que 
produce respuestas competitivas. ¿Cómo se puede decir si las respuestas competitivas han 
desplazado la respuesta castigada o si el hábito castigado es el mismo debilitado por el 
castigo? Ni Thorndike ni Guhtrie pudieron decirlo. Así nació la leyenda, y la aceptación de 
ella se debió seguramente a la falta de experimentación sobre castiga desde 1930 a 1955. 
Tampoco se ha gastado mucha imaginación en castigo. Para muchos experimentadores 
castigo es sinónimo de shock eléctrico en el laboratorio. 
Ha habido también una difundida creencia de que el síndrome neurótico es el resultado 
necesario de todos los procedimientos de castigo. 
Además ha habido una aceptación general de que los fenómenos de comportamiento 
tales como la rigidez, inflexibilidad o mapa cognitivo estrecho, son resultados necesarios de 
los experimentos en los que se usan estímulos nocivos. Discuto estas dos conclusiones. 
Sin embargo, he notado recientemente un definido aumento en buenos estudios 
paramétricos de los efectos del castigo en varios tipos de comportamiento, lo que es 
alentador. 
 
Resumen 
 
He cubierto un campo muy extenso en este trabajo, talvez demasiado para dar una 
imagen clara. Los principales puntos que he señalado son: primero, la efectividad del 
castigo como un controlador del comportamiento instrumental varía con una amplia 
variedad de parámetros conocidos. Algunos de estos son: a) la intensidad del estímulo de 
castigo, b) si la respuesta que se castiga es instrumental o consumatoria, c) si la respuesta es 
instintiva o refleja, d) si se estableció originalmente mediante recompensa o castigo, e) si el 
castigo está estrechamente relacionado o no en el tiempo con la respuesta castigada, f) la 
ordenación temporal de recompensa y castigo, g) la fuerza de la respuesta que se castiga, h) 
la familiaridad del sujeto con el castigo que se usa, i) si se ofrece o no una alternativa de 
recompensa durante el período de supresión del comportamiento inducido por el castigo, j) 
 
UNIVERSIDAD DE CHILE 
DEPARTAMENTO DE PSICOLOGÍA 
USO EXCLUSIVO DE LA CÁTEDRA 
PSICOLOGÍA DEL APRENDIZAJE 
 
si una respuesta de evitación incompatible y distintiva se refuerza por la omisión del 
castigo, k) la edad del sujeto, y l) tensión y la especie del sujeto. 
Segundo, he tratado de demostrar las virtudes teóricas de considerar que los procesos de 
aprendizaje de evitación activo y pasivo son similares, y he mostrado la utilidad de una 
teoría biproceso del aprendizaje. He descrito algunos ejemplos de la aplicación de hallazgos 
en experimentos de aprendizaje de evitación activa, en la creación de nuevos experimentos 
de castigo y al análisis de los experimentos de conflicto de aproximación y evitación. 
Tercero, he puesto en duda leyendas que conciernen la efectividad del castigo como 
agente de cambio conductual y la inevitabilidad de resultados neuróticos como 
consecuencia de procedimientos de castigo. 
Finalmente, he indicado que sería interesante y útil realizar nuevos experimentos para 
aumentar nuestros conocimientos sobre los efectos del castigo.

Otros materiales