Apunte Cátedra Texto Punishment, R L Solomon

•

Outros

Aprendiendo Juntos

13.7.2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Psicología

244.963 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

PUNISHMENT
Richard L. Solomon

American Psychologist, 1964, 19, 239-253.

El artículo tiene tres objetivos:

1. Resumir algunas generalizaciones empíricas y problemas que conciernen los efectos
del castigo en la conducta.
2. Dar algunas demostraciones de las ventajas de una teoría biproceso del aprendizaje,
sugiriendo nuevos procedimientos a ensayar en experimentos de castigo.
3. Finalmente, desacreditar algunas leyendas no científicas sobre castigo.

Definición operacional de castigo: La definición de castigo no es operacionalmente
simple, pero algunos de sus atributos están claros. Un castigo es un estímulo nocivo y que
favorecerá, por su terminación u omisión, el desarrollo de nuevas respuestas de escape o
evitación. Es un estímulo que el sujeto rechazará, si se le da a elegir entre ser castigado o no
recibir estímulo alguno.

Experimentos de muestra (Sample Experiments)

1. Entrenamiento de escape: Se usa pista tradicional de 6 pies con caja meta y piso con
parrilla electrificable. La rata recibe shock eléctrico en la caja de partida y en la
pista, y no recibe shock en la caja meta. Se adiestra rápidamente la rata a correr si el
shock comienza al levantarse la puerta de la caja de partida y persiste hasta que la
rata entre a la caja meta.
2. Entrenamiento de evitación: Se da a la rata 5 segundos para llegar a la caja meta
antes de recibir el shock. La conducta resultante es aprendizaje de evitación activo.
3. Procedimiento de castigo: Se entrena a la rata hambrienta a correr por la pista para
obtener alimento. En cuanto la ejecución es asintótica, se introduce el shock en la
pista y en la caja meta y no se da alimento. Este procedimiento se llama
procedimiento de castigo y el aprendizaje resultante (quedarse en la caja de partida)
se llama aprendizaje pasivo de evitación.

En el experimento 1 y 2 la rata aprende que debe hacer y en el tercero, que no debe
hacer. En todos los casos, el criterio de aprendizaje estaba correlacionado con que la rata no
recibiera shocks, en contraste con una experiencia previa de recibir varios shocks en el
mismo diseño experimental. No se puede pensar adecuadamente sobre castigo sin
considerar lo que se conoce sobre los resultados de ambos procedimientos (activo y
pasivo). Sin embargo, muchas revisiones del control aversivo de la conducta ponen énfasis
en el aprendizaje de evitación activo e ignoran el aprendizaje de evitación pasivo. Yo
pondré énfasis más bien en las similitudes que en las diferencias entre aprendizaje de
evitación activo y pasivo.

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

A fin de revisar algunas de las generalidades empíricas que describen los resultados de
los experimentos sobre castigo de aprendizaje de evitación pasivo, dividiré la evidencia en
5 clases:

a) Efectos del castigo en la conducta previamente establecida por recompensas o
refuerzos positivos.
b) Efectos del castigo en respuestas consumatorias.
c) Efectos del castigo en reflejos discretos (discrete reflexes)
d) Efectos del castigo en respuestas previamente establecidas mediante castigo, o sea,
los efectos del castigo en respuestas de escape y evitación activos.

La efectividad del castigo difiere en estos 5 casos. He llamado efectividad al grado en el
cual un procedimiento de castigo produce supresión de o facilita la extinción de patrones de
respuestas existentes.

Caso a). Los resultados de los castigos están fuertemente relacionados con la intensidad
del agente punitivo. A veces la intensidad se define y se mide independientemente como en
el caso del shock eléctrico. A veces hay evaluaciones cualitativas (Ej. Rata que se da de
narices contra una puerta cerrada, mi perro que recibe un golpe con el diario enrollado, etc.)
A medida que aumenta la intensidad de un shock desde 0.1 a 4 miliamperes, se obtienen los
siguientes resultados:

1. Detección y “arousal”, donde el castigador puede ser usado como una clave, un
estímulo discriminativo e incluso como un reforzador secundario.
2. Supresión temporal, donde el castigo resulta en la supresión de la respuesta
castigada, seguida de completa recuperación, de modo que el sujeto aparece después
inalterado (tal como estaba antes del castigo).
3. Supresión parcial, donde el sujeto muestra una supresión duradera de la respuesta
castigada, sin recuperación total.
4. Supresión total, sin recuperación observable.

Se pueden obtener todos estos resultados, con solo variar la intensidad del estímulo
nocivo que se usa, cuando castigamos respuestas establecidas previamente por recompensa
o reforzadores positivos.
Pero tras variables son posibles tan importantes como la intensidad del castigo y su
operación puede que haga innecesario el usar castigos intensos para producir la supresión
efectiva de una respuesta establecida previamente por refuerzo positivo. He aquí algunos
ejemplos:

• Proximidad en el tiempo y espacio a la respuesta castigada determina hasta cierto
punto la efectividad del castigo. Hay una gradiente de supresión de respuestas que
ha sido llamada la gradiente de demora temporal del castigo.
• La fuerza conceptualizada de una respuesta, medida por su resistencia a la extinción
después de la omisión del refuerzo positivo, produce el efecto de un castigo

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

contingente a la respuesta. Las respuestas fuertes son más resistentes a los efectos
supresores del castigo. Así, por ejemplo, el sobre-entrenamiento de una respuesta a
menudo disminuye la resistencia ordinaria a la extinción experimental, también
aumenta la efectividad del castigo como supresor de respuestas.
• Puede producirse una adaptación al castigo y esto disminuye su efectividad. Los
castigadores nuevos intensos son mejores que los viejos intensos. La intensidad del
castigo, si se aumenta poco a poco tiende a no ser tan efectiva como en el caso en
que se introduce inicialmente su mayor intensidad.
• En general, la resistencia a la extinción disminuye cuando se castiga una respuesta
previamente reforzada. Sin embargo, si el sujeto está acostumbrado a recibir shock
junto con el refuerzo positivo durante el entrenamiento de recompensa, la relación
puede invertirse y el castigo durante la extinción puede aumentar la resistencia a la
extinción. Evidentemente, si se apela al castigo, puede actuar como un refuerzo
secundario, o como clave para recibir recompensa o como excitante.
• Los castigos llegan a ser sumamente efectivos cuando el período de supresión de
respuesta se usa tácticamente como ayuda para el reforzamiento de nuevas
respuestas que son topográficamente incompatibles con la respuesta castigada.
Cuando se establecen nuevos actos instrumentales que llevan a la meta antigua
(nuevos medios para un viejo fin), un castigo de muy poca intensidad puede tener
efectos de supresión duraderos. Whiting y Mowrer (1943) demostraron esto
claramente, primero reforzaron un camino al alimento y después lo castigaron.
Cuando los sujetos no utilizaron más ese camino, dieron otro como recompensa.
Nunca más recorrieron los sujetos el camino antiguo. Este efecto confiable de
supresión parece ser tan cierto de restricciones temporales, discriminativas de
comportamiento. La supresión del acto de orinar en perros bajo el control de
estímulos de dentro de la casa, es extremadamente efectiva siempre que se permita
al perro que orine sin ser castigado fuera de la casa. Hay aquí una valiosa lección
sobre el uso efectivo de castigos para producir el control de impulsos. Una
alternativa recompensada bajo control discriminativo, hace del entrenamiento
pasivo de evitación una potente influenciaconductual. Ejemplo: caso de ratas en
laboratorio, se les castigaba si comían carne y se las recompensaba si comían
píldoras, preferían morir de hambre si sólo se les ponía carne por delante.

Veamos ahora experimentos donde el castigo parece tener sólo un efecto de supresión
temporal. La mayoría de estos experimentos no ofrecen al sujeto una premiada a la
alternativa castigada. En muchos casos, o te arriesgas o te mueres de hambre. La fuerza del
hambre, junto con la intensidad del castigo, son las variables cruciales para predecir
recuperación de los efectos supresivos del castigo. Aquí se produce un fenómeno difícil de
comprender, parecido a la “formación de reacción” de Freud. Si se castiga a un sujeto por
tocar un recipiente con alimento, a medida que el hambre aumenta en intensidad, el animal
se aleja del recipiente, como si la probabilidad de tocar el recipiente aumentara con la
intensidad del hambre.

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

Finalmente, debo señalar que los atributos de los castigos efectivos varían según las
especias y según la etapa del desarrollo dentro de cada especie. Una serpiente de juguete
puede asustar a un mono. No asusta a una rata. Un ruido fuerte aterró al pequeño Albert de
Watson. Para nosotros es apenas un gong chino.

Caso b). Efectos del castigo en respuestas compensatorias, contrariamente a lo que
podría suponerse, los actos consumatorios, a menudo tienen significado biológico para la
supervivencia del individuo y de la especie, tienen poca resistencia a la supresión por
medio del castigo. El comportamiento sexual del macho puede suprimirse seriamente por
medio de castigo débil. El comer, en gatos y perros puede suprimirse permanentemente con
choques moderados.
La interferencia del castigo en respuestas consumatorias debe ser más investigada. Tal
vez la conexión temporal íntima entre drive, incentivo y castigo hace que el drive o el
incentivo se conviertan en patrones de estímulos condicionados para las reacciones
emocionales aversivas cuando se castigan los actos consumatorios. Tal vez esto interfiera
con la actividad vegetativa, por ejemplo, mata el apetito en un sujeto hambriento. Pero, uno
puede preguntarse por qué el mismo castigador no parece ser tan efectivo cuando se le hace
contingente en un acto instrumental.
Tal vez la variación paramétrica más importante es el orden temporal de recompensa i
castigo. Si se da comida y después se castiga, el sujeto aprende a dar reacciones de miedo,
maúlla y se retrae. Le cuesta recuperar sus hábitos de comida. Si se repite la experiencia,
incluso llegará a morirse de hambre. En cambio, si se da primero shock y después la
comida, el animal aprende a considerar el shock como una señal y come sin problemas.
Por tanto, los efectos del castigo están determinados en parte por los hechos que le
anteceden y los que le siguen inmediatamente. Un castigo no es tan sólo un castigo. Es un
hecho en el flujo temporal y espacial de la estimulación y el comportamiento, y sus efectos
pueden producirse por su punto de inserción temporal y espacial en tal flujo.

Caso c) Secuencias de actos instintivos. A veces sucesos atemorizantes producirán lo
que los etólogos llaman reacciones de desplazamiento, la expresión de un patrón de
conducta inadecuado. No se ha experimentado de manera sistemática sobre esto. El mejor
ejemplo que pude encontrar es el de “imprinting” en pájaros; usando la respuesta
locomotora de seguimiento como índice. Moltz, Rosenblum y Halikas (1959), Kovach y
Hess (1963 y Hess, 1959 b) han demostrado que el castigo de comportamientos de
imprinting a veces impide su ocurrencia. Sin embargo, si se castiga a los pájaros antes que
se les presente el objeto al cual se fijará su “imprinting”, a menudo se energiza la respuesta
consiguiente. Es difícil entender lo que esto significa, excepto que el castigo puede, ya sea
despertar o inhibir tal comportamiento, según sea la forma de presentar el castigo.

Caso d) ¿Qué sucede si se castiga un reflejo rotular condicionado o incondicionado? No
tenemos información sobre este punto. ¿Pueden entrenarse sujetos para inhibir reflejos bajo
motivación aversiva?

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

Caso e) Efectos del castigo en conductas establecidas mediante castigo. En general, si
se usa el mismo estímulo nocivo para castigar una respuesta que se estableció mediante él,
la respuesta se fortalece al principio, después a veces se debilita, pero no siempre.
Carlsmith (1961) demostró que se puede aumentar la resistencia a la extinción usando el
mismo estímulo nocivo tanto para la adquisición como para la extinción, y disminuir la
resistencia a la extinción usando castigos diferentes discriminativamente.
Para predecir, aunque sea en forma gruesa, la acción del castigo en una respuesta, hay
que saber primero cómo esa respuesta particular fue inserta en el repertorio de respuestas
del sujeto, originalmente.

Teoría

He aquí un enfoque teórico que, para mi, tiene un alto valor pragmático al estimular
nuevas líneas de experimentación. Hoy en día muchos psicólogos consideran que el
procedimiento de castigo es un caso especial de condicionamiento de evitación y que los
resultantes procesos de aprendizaje son teóricamente de la misma naturaleza. Woodsworth
y Schlosberg (1954) distinguen los dos procesos de entrenamiento: Castigo para actuar y
castigos para no actuar, paro suponen que el mismo motivo teórico, “un valor de incentivo
de seguridad positivo” puede explicar el aprendizaje producido por lo dos procesos.
Sinsmoor (1955) dice que los hechos relacionados con estos procedimientos están bien
explicados por principios de aprendizaje de evitación de simple E-R. Dice: “si castigamos
al sujeto por dar una respuesta a secuencia de respuestas, esto es, aplicamos estímulos
aversivos, como shock, las claves o estímulos discriminativos para esta respuesta
corresponderán a las señales de advertencia que se usan típicamente en estudios más
directos de condicionamiento de evitación. Por su propia respuesta a los estímulos, el sujeto
mismo produce el estímulo de castigo y lo aparea con estas señales. Como resultado éstas
se vuelven también aversivas. Mientras tanto, cualquier variación en el comportamiento del
sujeto que interfiera o esté en conflicto con la cadena de reacciones que llevan al castigo,
demoran la ocurrencia de la respuesta final y la recepción del estímulo que le sigue. Estas
variaciones en el comportamiento rompen el patrón de estímulo discriminativo para la
continuación de la cadena de castigo, cambiando la estimulación corriente de un compuesto
aversivo a uno no aversivo; ellas son condicionadas, diferenciadas y mantenidas por los
esfuerzos reforzadores del cambio en la estimulación”.
Los focos del análisis de Dinsmoor son los procesos por los cuales a) los estímulos
discriminativos se tornan aversivos y b) se refuerzan los actos instrumentales. Se queda en
un nivel casi descriptivo, usa un análisis E-R periférico, en el cual la respuesta producida
por estímulos propioceptivos y exteroceptivos sirven para mantener juntas las cadenas de
comportamiento. Rechaza, como innecesarios, conceptos tales como miedo o ansiedad, al
explicar la efectividad del castigo.
Mowrer (1960) también dic e que los hechos relativos a los dos procedimientos de
entrenamiento se explican por un set de principios común, pero los principios de Mowrer
son algo distintos de los de Woodsworth y Schlosberg o Dinsmoor ya citados. Mowrer
dice: “en ambos casos hay un condicionamiento de miedo y en ambos se encuentra un
modo de comportamiento que elimina o controla el miedo. Parece que la única distinción

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVODE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

importante es que los estímulos a los cuales se conecta el miedo son diferentes. En el caso
llamado castigo, estos estímulos son producidos por (correlacionados con) el
comportamiento o respuesta que se desea impedir; mientras que en el así llamado
aprendizaje por evitación, los estímulos que producen el miedo no son producidos por la
respuesta - son extrínsecos más que intrínsecos, más bien independientes que dependientes
de la respuesta. En ambos casos hay evitación, y en ambos casos está su antítesis, el
castigo; de aquí la impropiedad de referirse a uno como “castigo” y al otro como
“aprendizaje de evitación”. Obviamente hay más claridad y precisión de entendimiento si
se usan los términos alternativos que aquí hemos sugerido, es decir, aprendizaje de
evitación pasivo y aprendizaje de evitación activo, respectivamente. Pero, como hemos
visto, los dos fenómenos implican exactamente los mismos principios básicos del
condicionamiento de miedo y de refuerzo de cualquier acción (o inacción) que elimina el
miedo” (pp. 31-32).

Aplicaciones de la teoría

Estamos suponiendo varias similitudes importantes entre los procesos de aprendizaje de
evitación pasivo y activo. Por tanto, podemos mirar el aprendizaje de evitación activo como
un recurso teórico que nos sugiera nuevas variables no estudiadas que son relativas a la
efectividad del castigo.
Turner y yo hemos publicado recientemente una monografía (1962) sobre aprendizaje
de evitación humana temático, nuestros experimentos demostraron que cuando se usa una
respuesta esquelética muy refleja, de corta latencia, en respuestas de evitación y escape, el
sujeto experimenta graves dificultades en el aprendizaje activo de evitación. Las
variaciones experimentales que tendían a hacer más deliberadas, más operantes, más
voluntarias o menos reflejas a las respuestas de escape, tenderán a hacer que las respuestas
de evitación fueran más fáciles de aprender. Así, cuando a un sujeto se le pedía que
moviera una perilla para evitar un shock eléctrico, el aprendizaje era rápido, en contraste
con lo muchos fracasos en aprender con una respuesta de evitación que consistía en
flexionar un dedo del pie.
En aprendizaje de evitación activo con respuestas no reflejas de larga latencia, Hunter
encontró que la ocurrencia de respuestas de evitación tendía a producir más respuestas de
evitación (escape). La omisión del shock parece extinguir la flexión del dedo del pie como
respuesta de evitación. Claramente da distinción operante-respondedor tiene valor
predictivo en el aprendizaje de evitación activo. Schlosberg (1934) usó para respuestas de
evitación una respuesta de flexión de patas muy refleja y de corta latencia. El aprendizaje
fue inestable, poco confiable y se extinguió rápidamente.
La misma tendencia se pudo detectar en experimentos que usaron perros como sujetos.
Por ejemplo, Brogden (1949) usando como respuesta una flexión de las patas delanteras,
encontró que res bastante difícil llegar a un criterio de 20/20 de aprendizaje de evitación.
Encontró que 30 perros tomaron de aproximadamente 200-600 ensayos para llegar al
criterio de evitación. La respuesta era usada, en nuestro idioma, altamente refleja –era
totalmente educida por el shock en los ensayos de escape con una latencia muy corta,
aproximadamente 0,3 seg. Compárese, el aprendizaje de evitación activo en perros en una

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

caja con puertas de corredera con la que se encuentra en el experimento de flexión de la
pata delantera. En la caja con puertas de corredera, una gran cantidad de perros pudieron
embarcarse en el criterio de ensayos después de 5-15 ensayos de entrenamiento de
evitación activo. Las latencias de las respuestas tempranas de escape eran largas. La
resistencia a la extinción está, en estos dos tipos de respuesta de evitación, relacionada
inversamente a los ensayos necesarios para que un sujeto llegue al criterio. Las condiciones
que conducen a la adquisición rápida son, en este caso, las que conducen a la extinción
lenta. Nuestra conclusión es que los respondedores de alta probabilidad, y corta latencia, no
son tan buenos como los operantes de probabilidad media, y larga latencia, cuando se les
pide funcionar experimentalmente como respuestas de evitación activas. Esta
generalización parece ser válida para rata, perros y estudiantes universitarios.
Como podemos dar el salto inferencial desde estos hallazgos en entrenamientos de
evitación activo a las posibles variaciones en experimentos de castigo. Es relativamente
simple generalizar sobre los dos tipos de experimentos en el caso de intervalos CS-US,
intensidad US y duración del CS. Pero los pasos inferenciales no son tan obvios en el caso
de la distinción operante-respondedor. Si uno de los principales efectos del castigo es
motivar o elicitar nuevos comportamientos, y reforzarlos mediante la omisión del castigo y
así, se establecen respuestas de evitación incompatibles con una respuesta castigada, donde
entra lógicamente la distinción operante-respondedor. Aquí la teoría biproceso de Mowrer
puede sugerir una posible respuesta. Supongamos, por ejemplo, que una rata hambrienta ha
sido entrenada a presionar una palanca para recibir alimento y está dando respuestas en una
tasa estable. Ahora le damos un shock de corta duración y alta intensidad contingente al
apretar la barra. El shock elicita un patrón de sobresalto que produce que se suelte la
palanca en 0,2 seg. y el shock desaparece. La rata se hiela por unos instantes, respira
fuertemente, orina y defeca. Suponemos que una reacción emocional condicionada se ha
establecido, con el principal control del estímulo que proviene de la vista de la barra, el
toque de ella, y los estímulos propioceptivos que se despiertan por los mismos movimientos
de apretar palanca. Esto es, según Dinsmoor describe, el desarrollo de aversión adquirida de
estímulos o, como dice Mowrer, la adquisición de reacciones condicionadas de miedo. Por
tanto las variables condicionadas de Pavlov debieran ser las más importantes en el
desarrollo de este proceso. La reaparición del apretar palanca en esta rata castigada,
dependería de la extinción de la reacción emocional condicionada (CER) y de la
congelación esquelética. Si no se administran nuevos shocks, entonces el CER debiera
extinguirse de acuerdo a las leyes de extinción de Pavlov, y la reaparición de la respuesta
de tocar la barra no debiera tardar, incluso si el nivel de intensidad del shock fuera
suficientemente alto para producir aprendizaje de evitación activo en otro aparato.
La teoría biproceso nos dice que algo muy importante para la supresión de respuestas
exitosa y durable faltaba un buen operante que permitiera reforzar una respuesta de
evitación confiable, porque la reacción al shock era un respondedor, era altamente refleja y
rápida de ocurrir, creo que la terminación del shock no la reforzará, ni conducirá a
respuestas de evitación estables. Esta conclusión se desprende directamente de nuestros
experimentos de aprendizaje de evitación en humanos. Si la terminación del shock se hace
contingente a la ocurrencia de un operante, especialmente un operante topográficamente
incompatible con el apretar la palanca, se producirá un proceso de aprendizaje de evitación

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

activo. Por tanto, propongo que demos un shock a la rata hasta que se acurruque en un
rincón de la caja. La rata aprenderá a hacer algo arbitrario cuando reaparecen los CSs
controladores. Así, si la rata va a apretar de nuevo la palanca, debe pasar por dos procesos
de extinción. El CER, establecido por el apareamiento de patrones de CS y shock, debe
debilitarse.Y en seguida debe extinguirse la respuesta de acurrucarse. Si mis inferencias
son correctas, esto debería hacer que el efecto del castigo fuese más duradero. Es fácil
diseñar experiencias para comprobar esto. Creo que hay mucho que ganar en conducir
juegos teóricos como este, siendo las principales suposiciones que a) los aprendizajes de
evitación activo y pasivo son procesos similares, en los cuales las mismas variables tienen
efectos análogos y b) que dos procesos, el condicionamiento de respuestas al miedo y el
refuerzo de operantes incompatibles con la respuesta castigada, pueden operar en
experimentos de castigo.
Hay otra ventaja en hacer estos juegos teóricos. Se pueden usar para cuestionar el
significado que generalmente se imputa a hallazgos anteriores. Tomemos, por ejemplo, los
extensos estudios de Neal Miller (1959) y sus estudiantes, y de Brown (1948) y estudiantes,
sobre gradientes de aproximación y evitación en situaciones conflictivas. Nuestro anterior
análisis del papel de la distinción del operante-respondedor cuestiona uno de sus supuestos
centrales: el que la gradiente de evitación es incondicionalmente más abrupta que la
gradiente de aproximación en los conflictos de aproximación-evitación. En tales
experimentos, se entrena al sujeto hambriento para que corra a lo largo de una pista corta
para obtener alimento. Después que la carrera es confiable, se le da un shock eléctrico,
generalmente cerca de la caja meta, de modo que se desanime temporalmente a entrar a
dicha caja. El comportamiento subsiguiente del sujeto típico es quedarse en la caja de
partida, aproximarse abortivamente a la caja con comida, mostrando indecisión, oscilación
y varias actividades de desplazamiento. Eventualmente, si se discontinúa el shock, el sujeto
vuelve a correr a la caja meta. Lo abrupto de la gradiente de evitación como función de la
distancia desde la caja meta se infiere del comportamiento del sujeto antes de la extinción
de las tendencias de evitación. Si el sujeto se mantiene alejado de la caja meta tanto como
le sea posible, se puede inferir que la gradiente de evitación se desplazará hacia arriba, o si
el sujeto se va acercando a la caja meta poco a poco de ensayo, se puede inferir que es
menos abrupta que la gradiente de aproximación. ¿Cuál alternativa es más plausible? Miller
y sus colaboradores han demostrado que la última alternativa es una mejor interpretación.
Los estudios de Miller y colaboradores demostraron que las respuestas d aproximación
se generalizan más fácilmente que las respuestas de evitación. Las tendencias de evitación
se debilitan más rápidamente con cambios en el ambiente externo que las tendencias de
aproximación. Yo considero que los experimentos de este tipo tienen errores y han sido
realizados de tal manera de producir inevitablemente las gradientes abruptas de evitación.
Creo que el sujeto de un experimento de aproximación-evitación es entrenado para
ejecutar una secuencia específica de respuestas bajo condiciones de incentivo y de drive
apetitivo. Corre al alimento cuando tiene hambre. En contraste, cuando el shock se
introduce en el laberinto, se le da generalmente cerca de la meta, y no se requiere del sujeto
una secuencia larga y específica de respuestas antes que termine el shock. Así, las fuerzas
iniciales de las respuestas de aproximación y evitación (que están en conflicto) no están
reguladas por procedimientos análogos o simétricos. Miller ha discutido esto

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

cuidadosamente y dice que la gradiente de evitación no sería tan abrupta si se diera el shock
a la rata antes en la pista en el caso en que toda la pista esté electrificada. Yo creo que si se
quiere estudiar lo abrupto de las gradientes de aproximación y evitación, las respuestas
instrumentales competidoras deberían establecerse de manera simétrica. Después de
aprender a correr una pista para obtener alimento, se le debiera dar el shock cerca de la caja
meta o en ésta y el shock no debiera terminar hasta que el animal no hubiese recorrido toda
la pista en respuesta de escape, o sea, la misma distancia.

Leyendas

Skinner en 1938 describió el efecto de una palmada de corta duración en la pata durante
la extinción de la respuesta de apretar palanca en una rata. Se obtuvo la supresión temporal
de la respuesta. El número total de respuestas antes que ocurriera la extinción no estuvo
afectada por el castigo por apretar palanca. Estes (1944) obtuvo resultados similares y
atribuyó la supresión temporal al establecimiento de una ansiedad que se disipó
rápidamente. Tollman, Hall y Bretanall (1932) habían anteriormente demostrado que el
castigo podía aumentar el aprendizaje de laberinto al servir como clave para el
comportamiento correcto. Skinner hizo de estas observaciones (sobre la naturaleza
aparentemente ineficaz del castigo como debilitador de respuestas) la base para promover
un régimen de refuerzo positivo en su utopía, Walden Two. En Walden Two, Skinner
(1948) escribió: “estamos ahora describiendo, a un costo increíble de sufrimiento humano,
que a la larga el castigo no reduce la probabilidad de que un acto ocurra” (p.260) aquí no se
usarían castigos, decía, pues ellos producen un pobre control de comportamiento.
Durante la década siguiente a la publicación de Walden Two, Skinner (1953) mantuvo
su posición concerniente a los efectos del castigo en respuestas instrumentales: la supresión
de respuestas es sólo temporal, y los efectos laterales, tales como miedo y perturbaciones
neuróticas y psicóticas, no valen las ventajas temporales del uso del castigo. Dijo:
“A la larga, el castigo, contrariamente a los refuerzos, trabajan a desventaja del
organismo castigado y del agente castigador”.
“El hecho de que le castigo no reduce permanentemente una tendencia a responder, está
de acuerdo con el descubrimiento de Freud de lo que llamó la actividad sobreviviente de los
deseos reprimidos2.
“El castigo, como hemos visto, no crea una probabilidad negativa de que se de una
respuesta, sino más bien una probabilidad positiva de que se presentará un comportamiento
incompatible”.
En defensa de Skinner hay que decir que en 1953 dedicó 12 páginas al tópico del
castigo en su libro introductorio.
Bugelski (1956) también dice que los experimentos demuestran que el castigo es
ineficaz para eliminar conductas.
Recientemente (1961) Skinner resumió su posición de esta manera:
“A veces es particularmente dejar de lado las ventajas finales en el control de un
comportamiento, y una ventaja pequeña pero rápida puede llegar a tener un peso indebido.
Así, aunque decimos que hemos abandonado la varilla, la mayoría de los colegiales están
aún bajo control aversivo, no porque el castigo sea más eficaz a la larga, sino porque

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

produce resultados inmediatos. Es más fácil para el profesor controlar al colegial
amenazando castigarlo que usando un refuerzo positivo que tiene acción lenta, aunque tiene
efectos más poderosos”.
La mayoría de los libros sobre aprendizaje apenas tratan el tema del castigo. Una
excepción a esto es Bugelski (1956). Deese (1958) en un libro de texto y Church (1963) en
un artículo, han tratado el tema. Talvez una razón de que se relegue el tópico de castigo es
que hay una difundida creencia de que el castigo no es importante porque realmente no
debilita hábitos, que pragmáticamente es un pobre controlador del comportamiento, que es
extremadamente cruel e innecesario, y que es una técnica que lleva a la neurosis y otras
cosas peores. Esta leyenda, que no tiene suficiente base empírica, probablemente surgió con
Thorndike (1931), quien llegó a la conclusión de que el castigo no cumple su función
principal,la de destruir o extinguir hábitos. Guthrie y Wendt mantuvieron que la extinción
no es el debilitamiento de un hábito, sino el reemplazo de un hábito por otro. Cuando
Thorndike decía que los efectos del castigo eran indirectos, hacía hincapié en el poder del
castigo de evocar otros comportamientos que los que produjeron el castigo; de manera
parecida Guthrie puso énfasis en el procedimiento de extinción como un procedimiento que
produce respuestas competitivas. ¿Cómo se puede decir si las respuestas competitivas han
desplazado la respuesta castigada o si el hábito castigado es el mismo debilitado por el
castigo? Ni Thorndike ni Guhtrie pudieron decirlo. Así nació la leyenda, y la aceptación de
ella se debió seguramente a la falta de experimentación sobre castiga desde 1930 a 1955.
Tampoco se ha gastado mucha imaginación en castigo. Para muchos experimentadores
castigo es sinónimo de shock eléctrico en el laboratorio.
Ha habido también una difundida creencia de que el síndrome neurótico es el resultado
necesario de todos los procedimientos de castigo.
Además ha habido una aceptación general de que los fenómenos de comportamiento
tales como la rigidez, inflexibilidad o mapa cognitivo estrecho, son resultados necesarios de
los experimentos en los que se usan estímulos nocivos. Discuto estas dos conclusiones.
Sin embargo, he notado recientemente un definido aumento en buenos estudios
paramétricos de los efectos del castigo en varios tipos de comportamiento, lo que es
alentador.

Resumen

He cubierto un campo muy extenso en este trabajo, talvez demasiado para dar una
imagen clara. Los principales puntos que he señalado son: primero, la efectividad del
castigo como un controlador del comportamiento instrumental varía con una amplia
variedad de parámetros conocidos. Algunos de estos son: a) la intensidad del estímulo de
castigo, b) si la respuesta que se castiga es instrumental o consumatoria, c) si la respuesta es
instintiva o refleja, d) si se estableció originalmente mediante recompensa o castigo, e) si el
castigo está estrechamente relacionado o no en el tiempo con la respuesta castigada, f) la
ordenación temporal de recompensa y castigo, g) la fuerza de la respuesta que se castiga, h)
la familiaridad del sujeto con el castigo que se usa, i) si se ofrece o no una alternativa de
recompensa durante el período de supresión del comportamiento inducido por el castigo, j)

UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
PSICOLOGÍA DEL APRENDIZAJE

si una respuesta de evitación incompatible y distintiva se refuerza por la omisión del
castigo, k) la edad del sujeto, y l) tensión y la especie del sujeto.
Segundo, he tratado de demostrar las virtudes teóricas de considerar que los procesos de
aprendizaje de evitación activo y pasivo son similares, y he mostrado la utilidad de una
teoría biproceso del aprendizaje. He descrito algunos ejemplos de la aplicación de hallazgos
en experimentos de aprendizaje de evitación activa, en la creación de nuevos experimentos
de castigo y al análisis de los experimentos de conflicto de aproximación y evitación.
Tercero, he puesto en duda leyendas que conciernen la efectividad del castigo como
agente de cambio conductual y la inevitabilidad de resultados neuróticos como
consecuencia de procedimientos de castigo.
Finalmente, he indicado que sería interesante y útil realizar nuevos experimentos para
aumentar nuestros conocimientos sobre los efectos del castigo.