Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 fusty Texto escrito a máquina DOCENCIA PROGRAMA 13 fusty Texto escrito a máquina Tema 3 Aprendizaje conductual: el condicionamiento operante. Thorndike y la ley del efecto. Análisis experimental de la conducta. Skinner y el condicionamiento operante. Programas de refuerzo. Tipos de condicionamiento operante. Aplicaciones del condicionamiento operante. EL CONDICIONAMIENTO OPERANTE. El condicionamiento operante o condicionamiento instrumental es un tipo de aprendizaje donde el comportamiento se controla con las consecuencias. Se basa en la idea de que los comportamientos que se refuerzan tienden a mostrarse en más ocasiones, mientras que los comportamientos que son castigados se extinguen. ¿Cuál es la diferencia entre el condicionamiento operante y el condicionamiento clásico? En el condicionamiento operante, una respuesta voluntaria es seguida por un reforzador. De esta manera, la respuesta voluntaria (por ejemplo, estudiar para un examen) es más probable que se realice en el futuro. Al contrario, en el condicionamiento clásico un estímulo activa automáticamente una respuesta involuntaria. El condicionamiento operante puede describirse como un proceso que intenta modificar el comportamiento mediante el uso del refuerzo positivo y negativo. A través del condicionamiento operante, un individuo hace una asociación entre un comportamiento particular y una consecuencia. Ejemplos: Los padres recompensan las buenas calificaciones de un niño con dulces o algún otro premio. Un maestro premia a aquellos estudiantes que son tranquilos y educados. Los estudiantes se dan cuenta que al comportarse así reciben más puntos. Un alimento se da a un animal cada vez que presiona una palanca. B.F. Skinner (1938) acuñó el término acondicionamiento operante. Skinner identificó tres tipos de respuestas o operantes que pueden seguir el comportamiento: 1 Operantes neutrales: respuestas del entorno que no aumentan ni disminuyen la probabilidad de que se repita un comportamiento. Reforzadores: respuestas del entorno que incrementan la probabilidad de repetición de un comportamiento. Los reforzadores pueden ser positivos o negativos. Castigos: respuestas del entorno que disminuyen la probabilidad de que se repita un comportamiento. El castigo debilita el comportamiento. Antecedentes del condicionamiento operante Thorndike fue el primero en reconocer que este condicionamiento incluye algo más que una respuesta y un reforzador. La respuesta se da en presencia de unos estímulos determinados, considerándose tres sucesos: el estímulo, la respuesta y la consecuencia de la respuesta o reforzador. Esta estructura facilita el desarrollo de diferentes vinculaciones como sería la asociación entre el estímulo y la respuesta, la cual fue para Thorndike clave para la formulación de la ley del efecto. A través de ésta afirmó que las respuestas que vayan seguidas de consecuencias reforzantes, tendrán mayor probabilidad de ocurrencia cuando el estímulo vuelva a aparecer. Por el contrario, aquellas respuestas que son seguidas de consecuencias negativas, tendrán una menor probabilidad de ocurrencia cuando el estímulo vuelva a aparecer. La ley del efecto es el antecedente del condicionamiento operante o condicionamiento instrumental, como era nombrado por Thorndike. Pero para Skinner, psicólogo del conductismo, el condicionamiento era el fortalecimiento de las conductas según las consecuencias que anteriormente se hubieran obtenido. En esta línea, existen dos formas de condicionamiento: El clásico o pavloviano: se basa en la asociación de estímulos incondicionados y condicionados, siendo las respuestas controladas por los estímulos antecedentes. El condicionamiento operante: los estímulos consecuentes o reforzadores hacen que se emita una conducta determinada. Skinner explica que si la conducta es seguida de un reforzador positivo, aumentaría la probabilidad de emisión de dicha conducta en un futuro. Al contrario, si una respuesta no va seguida de un reforzador o ese reforzador es negativo, la probabilidad de emitir dicha conducta en un futuro será menor. Conceptos básicos del condicionamiento operante 2 Refuerzo Es el responsable de la emisión de respuestas, es decir, de la probabilidad de que sucedan, sea mayor o menor en un futuro. Es un estímulo reforzante y consecuente, ya que se da una vez se ha producido la respuesta. Es imposible saber si un reforzador determinado influye en la conducta hasta que no se presenta de manera contingente con una respuesta y se comprueba que el comportamiento cambia a consecuencia del reforzador. Existen dos tipos de refuerzo: positivo y negativo. Ambos tienen la misma finalidad de aumentar la probabilidad de que la respuesta se emita en situaciones futuras. Además, para Skinner los reforzadores se definen por medio de las conductas que son observables y medibles. Refuerzo positivo El refuerzo positivo refuerza un comportamiento proporcionando una consecuencia que un individuo encuentra gratificante. Refuerzo negativo La eliminación de un reforzador desagradable también puede fortalecer un comportamiento. Esto se conoce como refuerzo negativo porque es la eliminación de un estímulo adverso que es «gratificante» para el animal o la persona. El refuerzo negativo refuerza el comportamiento porque detiene o elimina una experiencia desagradable. Reforzadores primarios Serían todos aquellos reforzadores básicos que no necesitan de ninguna historia de condicionamiento previa para funcionar como tales. Algunos ejemplos serían el agua, la comida y el sexo. Reforzadores secundarios 3 Los reforzadores secundarios si estarían basados en historias previas de condicionamiento gracias a la asociación con estímulos incondicionados. Algunos ejemplos serían el dinero y las calificaciones. Contingencia de tres términos Es el modelo básico del condicionamiento operante y está formado por tres componentes: el estímulo discriminativo, la respuesta y el estímulo reforzador. Un estímulo discriminativo sería aquel que va a indicar al sujeto que el reforzador está disponible, señalando que si lleva a cabo una determinada conducta podrá obtener dicho reforzador. En contraposición tenemos el estímulo delta o estímulos que indican que la conducta no va a llevar a la obtención de ningún tipo de reforzador. La respuesta sería la conducta que realizará el sujeto, cuya ejecución le llevará o no a la obtención del estímulo reforzador. Un estímulo reforzador, como se ha mencionado anteriormente, es el responsable de la emisión de la conducta ya que gracias a su aparición la probabilidad de emisión de una respuesta aumentará o disminuirá en el futuro. Conceptos a conocer del condicionamiento operante Castigo El castigo también se mide por sus efectos en la conducta del sujeto. En cambio, a diferencia del refuerzo, lo que se pretende es la disminución o supresión de una determinada conducta. Un castigo reduce la probabilidad de emisión de una conducta en situaciones posteriores. No obstante, no elimina la respuesta ya que si la amenaza de castigo disminuye, la conducta puede volver a aparecer. En el castigo también existen dos tipos o procedimientos diferentes, castigo positivo y castigo negativo. Castigo positivo Este implica la presentación de un estímulo aversivo tras la realización de un determinado comportamiento. Es dado de manera contingente a la respuesta dada por el sujeto. Castigo negativo Consiste en la eliminación de un estímulo como consecuencia de un determinado comportamiento, es decir, consiste en la retirada de un estímulo positivo tras la realización de una determinada conducta. Extinción En la extinción se deja de emitir una respuesta debido a que el reforzador ya no aparece. Este proceso se basa en dejar de proporcionar el reforzador correspondiente que se4 espera conseguir y que ha hecho que ese comportamiento se mantenga a lo largo del tiempo. Cuando una respuesta se extingue, el estímulo discriminativo pasa a ser estímulo de extinción. Este proceso no debe confundirse con el olvido, que es dado cuando la fuerza de un comportamiento disminuye al no haber sido emitido en un período de tiempo. Generalización Ante una situación o estímulo determinado se condiciona una respuesta, que puede aparecer ante otros estímulos o situaciones parecidas. Discriminación Este proceso es el opuesto al de generalización, en él se responde de manera diferente según el estímulo y el contexto. Programas de refuerzo Skinner también estableció gracias a sus investigaciones diversos programas de refuerzo, entre los que están los programas de reforzamiento continuo y los programas de reforzamiento intermitente. Programas de refuerzo continuo Están basados en el reforzamiento constante de la respuesta cada vez que se presente, es decir, cada vez que el sujeto ejecute la conducta deseada obtendrá un estímulo reforzador o positivo. Programas de refuerzo intermitente En cambio, aquí el sujeto no siempre obtiene el reforzador al realizar la conducta deseada. Estos se definen en base al número de respuestas dadas o al intervalo de tiempo transcurrido entre respuestas, dando lugar a diferentes procedimientos. Programas de razón fija En estos programas el reforzador se proporciona cuando el sujeto genera respuestas fijas y constantes. Por ejemplo, en un programa de razón 10 la persona obtiene el reforzador tras haber realizado diez respuestas cuando se presenta el estímulo. Programas de razón variable Éste se construye igual que el anterior, pero en este caso el número de respuestas que el sujeto debe dar para obtener el reforzador es variable. El reforzador seguiría dependiendo del número de respuestas emitidas por el sujeto pero con una razón variable, gracias a la cual se evita que el sujeto llegue a predecir cuándo obtendrá el reforzador. Programas de intervalo fijo 5 En los programas de intervalo la obtención del reforzador no depende del número de respuestas que el sujeto dé, sino que está determinado por el tiempo transcurrido. En consecuencia se refuerza la primera respuesta producida después de haber pasado un periodo de tiempo determinado. En los programas de intervalo fijo el tiempo entre reforzador y reforzador es siempre el mismo. Programas de intervalo variable En estos programas el reforzador se obtiene después de un tiempo, aunque el tiempo es distinto para cada reforzador recibido. Cambio conductual Aproximaciones sucesivas o moldeamiento El moldeamiento consiste en el cambio conductual a través del moldeamiento de conductas o el refuerzo diferencial de aproximaciones sucesivas. Para moldear una conducta concreta se siguen una serie de pasos. En primer lugar se identifica cuál es la conducta inicial que se pretende moldear para saber a cuál se quiere llegar. Después, se delimitan los posibles reforzadores que se van a emplear y se separa en pasos o etapas el proceso para llegar a la conducta final, reforzando cada etapa o aproximación sucesiva hasta llegar a la última. Con este procedimiento dinámico se van transformando tanto las conductas como sus consecuencias. En este sentido, se refuerzan las aproximaciones sucesivas hacia una conducta objetivo. No obstante, para que se pueda llevar a cabo, es necesario partir de una conducta previa que ya realice el sujeto, para así ir reforzando poco a poco sus conductas hasta llegar a la meta. Encadenamiento Con él se forma una nueva conducta a partir de la descomposición en pasos o secuencias más sencillas, reforzando cada respuesta dada en cada uno de los pasos para así llevar al establecimiento de una respuesta más compleja en el repertorio conductual del sujeto. Se pueden llegar a formar cadenas largas de respuestas utilizando reforzadores condicionados, adoptando una unidad funcional y cuyo establecimiento lleva a la adquisición y definición de una destreza particular. THORNDIKE Y LA LEY DEL EFECTO. 6 1. DESCRIPCIÓN DEL EXPERIMENTO DE THORNDIKE: CÓMO CUANTIFICÓ EL APRENDIZAJE Uno de los experimentos más conocidos de Thorndike consistía en encerrar a gatos que habían sido privados de comida en una caja diseñada para tal efecto, depositando la comida fuera de la caja a la vista del animal. Una vez encerrado en la caja, el gato realizaba multitud de movimientos desordenados hasta que conseguía desactivar el cierre de la puerta y acceder a la comida situada en el exterior de la caja. De los movimientos realizados por el gato durante el encierro, iba eliminando progresivamente aquellos que le resultaban inútiles para escapar, realizando tan sólo los que le permitían salir. El aprendizaje fue cuantificado en función de la disminución del tiempo desde que el animal era introducido en la caja hasta que se registraba la respuesta eficaz de accionar el mecanismo y poder escapar. El tiempo que el animal tardaba en salir de la caja, se denominó técnicamente, latencia de respuesta. 2. QUÉ ES LA CURVA DE APRENDIZAJE EN EL EXPERIMENTO DE THORNDIKE La curva de aprendizaje en el experimento de Thorndike se refiere a la gráfica que representa el nivel de éxito alcanzado por el animal durante el aprendizaje. Es decir, a la disminución de la latencia de respuesta de un ensayo a otro. 3. FORMULACIÓN DE LA LEY DEL EFECTO DE THORNDIKE EN TÉRMINOS EMPÍRICOS Según Thorndike, de varias respuestas dadas en una misma situación, las que van acompañadas o seguidas de cerca por la satisfacción del animal quedarán, en igualdad de condiciones, más sólidamente conectadas con la situación. Por ello, cuando ésta vuelva a ocurrir, tendrá más probabilidades de volver a producirse. Por otro lado, cuando la conducta vaya seguida por insatisfacción, el animal tenderá a no emitirla. 4. CIRCULARIDAD DE LA LEY DEL EFECTO Thorndike señaló que la conducta se define por su efecto sobre las consecuencias y las consecuencias se definen por su efecto sobre la conducta. Thorndike pensaba que las acciones tienen efecto sobre el ambiente y que este cambio ambiental actúa de forma retroactiva sobre la conducta, así, si las consecuencias son negativas, la conducta tenderá a disminuir mientras que si las consecuencias son positivas, la conducta tenderá 7 a repetirse en un futuro. Esto es a lo que nos referimos cuando hablamos de circularidad de la ley del efecto. Para superar los problemas de circularidad, Hull y Skinner propusieron teorías alternativas basadas en la introducción de variables motivacionales, en el caso de Hull, y en la selección de conductas operantes, en el de Skinner. 5. PROPUESTA ALTERNATIVA DE HULL: LA TEORÍA DE LA REDUCCIÓN DEL IMPULSO Clark L. Hull desarrolló propuso, con su teoría de la reducción del impulso, una alternativa para salvar el problema de la circularidad de la ley del efecto de Thorndike. Según su teoría, las consecuencias de la conducta no fortalecían la conducta misma sino que actuaban a través de un mecanismo motivacional interpuesto que denominó la reducción del impulso. Así, el impulso o necesidad es el motor de la conducta y la conducta se fortalece sin las consecuencias son capaces de reducir, al menos en parte, ese estado de necesidad. Cuanto mayor sea la reducción del impulso o necesidad, mayor será el aprendizaje. La introducción de variables motivacionales eliminó la naturaleza circular en la definición de la ley del efecto, pero trasladó la explicación del reforzamiento a constructos alejados de la relación de la conducta con el reforzador. 6. PROPUESTA DE SKINNER Skinner defendió la idea de que la circularidad no constituía un problema en la formulación de leyes del comportamiento, señalando que todas las leyes psicológicasdeberían encerrar algún tipo de circularidad. En la misma línea que Thorndike, postuló que la conducta operante es una conducta emitida de forma voluntaria por los organismos y con efectos sobre el ambiente. Toda conducta operante debe ser modificable por sus consecuencias, por tanto, de no poder ser modificada, no podría considerarse una conducta operante. Así, las conductas que no son modificables por sus consecuencias, no pueden considerarse sujetas a la ley del efecto. Se trataría, por tanto, de seleccionar aquellas conductas consideradas como modificables de las que no lo son, no obstante, su análisis no permite hacer esta distinción. 8 7. LÍMITES PARA APLICAR LA LEY DEL EFECTO: DEFINICIÓN DE UNA OPERANTE La conducta operante debe ser, por definición, modificable por sus consecuencias. Si una conducta no lo es, no puede conceptualizarse como una operante y, por tanto, sujeta a la ley del efecto. A partir de los años 60, algunos autores estudiaron la posibilidad de saber de antemano si una conducta es una operante, concluyendo que la explicación debía buscarse en las relaciones de la conducta con sus consecuencias, no en la intervención de otros procesos psicológicos. 8. ENFOQUE E-R DE THORNDIKE DE LA LEY DEL EFECTO Para Thorndike, las consecuencias reforzantes actúan fortaleciendo las conexiones entre la situación y la respuesta. Concebía la conducta como meramente refleja de la situación ambiental. Las respuestas que inicialmente se activarán con mayor intensidad, serán las que prevalezcan por la filogenia y la especie animal estudiada en un orden jerárquico. Esta prevalencia puede ser modificada por la experiencia a través de la historia ontogenética de reforzamiento. Es la interacción entre filogenia y ontogenia la clave para entender por qué las conductas pueden ser diferencialmente afectadas por la ley del efecto. 9. ENFOQUE R-CONSECUENCIA DE SKINNER DE LA LEY DEL EFECTO (EXPERIMENTO DE DEVALUACIÓN DEL REFORZADOR) Skinner discrepó de Thorndike en sus planteamientos, al considerar que el ambiente no provoca la respuesta sino que más bien indica la ocasión en la que una conducta llevará a consecuencias reforzantes. Por tanto, según Skinner, podríamos decir que el 9 mecanismo teórico implicado en la ley del efecto es el aprendizaje de relaciones entre la conducta y sus consecuencias, es decir, un mecanismo Respuesta- Consecuencia. Supongamos una situación experimental en la que en presencia de un sonido, las presiones a una palanca eran reforzadas con comida azucarada. Si posteriormente esta comida azucarada se empareja con un malestar gástrico inducido por una inyección de cloruro de litio, encontraremos que los animales dejan de consumir esta comida azucarada. Cuando los animales son llevados nuevamente a la situación experimental con el sonido y la palanca, se producen menos presiones a la palanca que antes del tratamiento de devaluación del reforzador. Estos resultados no pueden ser explicados desde la perspectiva teórica de Estímulo-Respuesta, pero sí desde la aportada por Skinner de Respuesta-Consecuencia. ANÁLISIS EXPERIMENTAL DE LA CONDUCTA. A principios del siglo XX, psicólogos formados en los laboratorios de psicología experimental de Alemania, se integraron a diferentes universidades de los EU y rápidamente desarrollaron grupos de estudiantes para los cuales la psicología era una disciplina que nada tenía que ver con la filosofía. Un personaje emblemático de esta nueva generación de psicólogos fue Watson. Su manifiesto de 1913 dejaba muy en claro que al menos una parte de la psicología de esos años rechazaba a la mente metafísica como objeto de estudio legítimo. Se proponía en cambio a la conducta como el objeto de interés de la psicología (de ahí el nombre del nuevo enfoque propuesto por Watson, “conductismo”). Hacer de la conducta el objeto de estudio de la psicología tenía como ventaja adicional eliminar a la introspección como herramienta de recopilación de datos y sustituirla por la observación directa (herramienta más objetiva y acorde con el método de la ciencia). Watson dedicó su vida a popularizar y difundir la corriente conductista en los EU; sus dotes como divulgador de la ciencia hicieron que el conductismo fuera identificado y reconocido dentro y fuera del mundo universitario y académico. A pesar de su éxito como divulgador, su aproximación etológica al comportamiento humano y su fe en el condicionamiento clásico de Pavlov como modelo de construcción de la conducta compleja, resultaron insuficientes para desarrollar un entendimiento cabal del comportamiento humano. A pesar de su relativo fracaso, Watson sembró una semilla epistemológica que germinó de formas diversas. Así pues surgieron durante la primera mitad del siglo XX diferentes conductismos (entre otros el de Hull, Tolman, Lashley, Weiss y Holt); sin embargo, el conductismo que más adeptos recogió y cuyo desarrollo tecnológico ha resultado más amplio, fue el Análisis Experimental de la Conducta de B. F. Skinner. 10 En el enfoque de Skinner, el objeto de estudio lo constituyen las consecuencias medioambientales de la conducta operante; es decir, la conducta de los organismos se “esculpe y moldea” a partir de las consecuencias que éstas tienen sobre su medio. Aquellas conductas que favorecen la adaptación y supervivencia del organismo en el medio ambiente, tienden a aumentar en frecuencia; por el contrario, aquellas que tienen efectos nocivos para el sujeto tienden a desaparecer. Así pues, desde este punto de vista, el comportamiento de los organismos se puede entender como un proceso de selección por consecuencias, análogo al desarrollo de nuevas especies por mecanismos de selección natural. Los repertorios conductuales adaptativos permanecen y aquéllos que tienen efectos nocivos sobre el sujeto desaparecen. Las ideas de Skinner acerca de los orígenes del comportamiento en los organismos, se acompañaron de desarrollos tecnológicos que permitieron el estudio de las correlaciones entre el comportamiento y sus consecuencias de forma automatizada. El sujeto experimental era colocado en una cámara experimental con un manipulandum cuya operación producía la caída de una plumilla sobre un rollo de papel giratorio (y adicionalmente la entrega de una bola de alimento). De esta forma Skinner evaluaba sus hipótesis de selección por consecuencias y adicionalmente medía objetivamente el comportamiento del sujeto. Skinner rápidamente aprendió dos cosas a lo largo de sus investigaciones. En primer lugar se dio cuenta de que la cantidad de variantes que era posible utilizar para estudiar los efectos de las consecuencias sobre la conducta era virtualmente infinita. En segundo lugar, descubrió que la ejecución de diferentes especies animales en los diferentes procedimientos experimentales que empleaba, era muy similar. Por ejemplo, al comparar la ejecución de ratas y palomas en programas de intervalo fijo, encontró que en ambas especies, se observa una tasa de respuesta que incrementa de manera cada vez más acelerada, conforme se aproxima el vencimiento del tiempo de la duración del intervalo. Skinner denominó al patrón festón; este patrón ha sido replicado por numerosos autores y en diferentes especies animales. Algunos de los estudiantes de Skinner emplearon el enfoque del Análisis Experimental de la Conducta para estudiar la conducta humana. Por ejemplo, Bijou encontró que el comportamiento de los niños pequeños es enormemente sensible a las manipulaciones en las consecuencias. Por su parte, Wolf encontró que niños autistas y/o con retraso mental, pueden aprender nuevos repertorios conductuales mediante el empleo del reforzamiento positivo. Así pues, no toda la psicología se ocupa del estudio de la mente metafísica, complementariamente, no toda la psicología empleaa la introspección y a los estudios de caso como herramientas de recopilación de datos. Al menos una parte de la psicología estudia el mundo físico y sus herramientas de trabajo son la experimentación rigurosa y la medición de la variable dependiente mediante métodos automatizados. Complementariamente, al menos una parte de la 11 psicología produce resultados sistemáticos, replicables y de gran generalidad entre especies. A continuación se presentarán algunos arreglos experimentales que han sido ampliamente explorados por el Análisis Experimental de la Conducta y que pueden resultar de interés para las neurociencias. Los arreglos experimentales pueden resultar atractivos para éstas como variables dependientes para sus manipulaciones experimentales; complementariamente pueden resultar interesantes por sí mismos como modelos de trabajo para el desarrollo teórico y la evaluación de hipótesis científicas. MODELOS EXPERIMENTALES EMPLEADOS Adquisición con demora En los párrafos anteriores se presentó el modelo general de trabajo del Análisis Experimental de la Conducta. En síntesis se trata de cubículos pequeños donde se puede introducir un animal pequeño (roedor, ave o mono), el cubículo tiene un manipulandum de metal cuya activación produce la entrega de un reforzador (usualmente alimento). Durante muchos años, la operación del manipulandum fue moldeada directamente por el investigador a través de la técnica de aproximaciones sucesivas; sin embargo, en los años noventas se descubrió que los roedores y las palomas pueden aprender a operar el manipulandum razonablemente rápido y aun bajo condiciones de reforzamiento demorado, es decir bajo condiciones en las cuales la respuesta se encuentra separada temporalmente del reforzador. Estudios posteriores han mostrado que la adquisición con demora es posible en peces y en monos. Otros estudios han demostrado que la adquisición de la respuesta de palanqueo puede ocurrir incluso con demoras de hasta 60 s y aun después de largas historias de entrega de alimento no contingente. Inicialmente el hallazgo parecía importante exclusivamente porque llevaba a reevaluar las capacidades asociativas de aves, roedores y otros animales; sin embargo, el modelo es interesante porque ofrece a las neurociencias una alternativa a los modelos de adquisición basados en el empleo de laberintos. Desde inicios del siglo XX, la adquisición de nuevas conductas ha sido evaluada, principalmente, a través de laberintos de diferente índole. El uso de laberintos para estudiar adquisición representa diferentes problemas relacionados con variables extrañas, ya que generalmente es necesario manipular al sujeto para iniciar cada ensayo (lo cual puede resultar aversivo tanto al sujeto como al investigador); de manera complementaria, resulta complicado interpretar los resultados, ya que los tiempos y ensayos de cada sesión dependen en gran medida de cuán fácil o difícil fue reiniciar el ensayo en cada caso. Obviamente el modelo de operante libre aquí propuesto limita considerablemente la interacción entre el científico y el sujeto; además el inicio de cada ensayo depende exclusivamente del sujeto experimental y así sus respuestas y los tiempos de sesión no se ven contaminados por las interacciones entre ensayos. El equipo para llevar a cabo 12 este tipo de investigación puede adquirirse de diferentes proveedores especializados (desafortunadamente muchos de ellos fuera del país). Sin embargo, para este trabajo se utilizaron materiales fácilmente asequibles en el país (acrílico, bancos de relevadores, tarjeta industrial y computadoras 486 descartadas por su obsolescencia). El modelo de adquisición con demora permitiría a las neurociencias, estudiar procesos asociativos (respuesta-consecuencia) evitando los problemas ya mencionados de las preparaciones de laberintos. La preparación también podría resultar interesante para estudiar procesos mnémicos (específicamente la capacidad del sujeto para recordar el evento que produjo una consecuencia particular). De hecho ya existe al menos un estudio publicado en el cual la preparación ha sido empleada para evaluar el efecto de sustancias, que se sospecha, tienen efectos que favorecen el aprendizaje. Elección bajo programas concurrentes Una de las estrategias más empleadas para estudiar la elección en organismos no humanos consiste en exponer a una paloma a un programa concurrente con dos alternativas de respuesta. En un programa concurrente dos o más programas independientes están vigentes simultáneamente a un organismo. El sujeto puede obtener reforzamiento en una de las dos opciones o alternar entre las opciones de respuesta; en la investigación sobre elección es frecuente que el investigador varíe la tasa de reforzamiento que produce cada opción o el tipo de programa vigente en cada alternativa. Generalmente el cambio de una opción a otra se logra mediante un manipulandum (tecla o palanca) que permite al organismo obtener reforzamiento en otra opción de respuesta. Programar una demora de cambio (DDC) mediante una tecla o una palanca, evita que alternar entre las opciones pueda ser reforzado supersticiosamente por la aparición inmediata de un reforzador al cambiar de opción (tómese en cuenta que una parte importante de la investigación en elección se lleva a cabo utilizando programa de intervalo variable; así pues, la DDC, evita que se entregue un reforzador inmediatamente después de que se operó el manipulandum que inicia la DDC. El hallazgo más frecuente en la investigación con programas concurrentes es que la tasa relativa de respuesta en cualquiera de las opciones, es igual a la tasa de reforzamiento en cada una de ellas. La relación de igualdad entre la tasa relativa de respuesta y la tasa relativa de reforzamiento, fue descrita originalmente de acuerdo con la ecuación 1: B1/(B1 + B2) = R1/(R1 +R2) 13 En la ecuación, B1 (behavior) es la tasa relativa de respuesta para la opción B1; complementariamente, R1 (reinforcement) es la tasa relativa de reforzamiento en la opción R1. Aunque la ecuación 1 se diseñó originalmente para describir el comportamiento de palomas en programas concurrentes de IV que producen grano como reforzador, su generalidad entre especies ha sido ampliamente demostrada (en humanos, peces, monos, ratas) y tipos de reforzadores (dinero, estimulación cerebral, cocaína, aceptación verbal). A pesar de la generalidad de la llamada Ley de igualación, algunos investigadores han mostrado que la tasa relativa de respuesta puede ser menor a la tasa relativa de reforzamiento (subigualación) o más elevada que la tasa relativa de reforzamiento (sobre igualación). Precisamente para describir estas desviaciones de la ley de igualación, se propuso la llamada Ley de igualación generalizada, que se describe en la ecuación 2: 32 B1/B2 = b (R1/R2)s En la ley de igualación generalizada se agregan dos parámetros adicionales a la ecuación 1. El parámetro b tiene que ver con desviaciones relacionadas con el tipo de alternativas de respuesta que recibe el sujeto (por ejemplo, la alternativa 1 es picoteo y la alternativa 2 es pisar un pedal). Por otro lado, el parámetros refiere la sensibilidad del organismo a las diferentes frecuencias de reforzamiento. Así pues, valores de s de uno o cercanas a uno acercan al sujeto a la igualación estricta; de forma complementaria, valores menores a uno describen comportamiento de subigualación (y valores mayores a uno describen comportamiento de sobreigualación). Los programas concurrentes pueden ser de interés para las neurociencias por varios motivos, uno de estos tiene que ver con la descripción cuantitativa de sus efectos. La descripción en cuestión facilita evaluar objetivamente los efectos de las manipulaciones experimentales realizadas; complementariamente permite identificarlos parámetros específicos de la ecuación que se ven afectados por las variables independientes. Los programas concurrentes también pueden resultar interesantes para las neurociencias, ya que permiten evaluar un mecanismo adaptativo fundamental para los seres vivos, la capacidad para discriminar entre fuentes de reforzamiento que difieren en su frecuencia. Poder identificar variables anatómicas, farmacológicas, genéticas o ambientales que modulen el funcionamiento de este mecanismo puede tener implicaciones terapéuticas y médicas relevantes. De hecho en el ámbito de las manipulaciones ambientales,33 demostraron que las desviaciones de la igualación descritas en la literatura del área (en especial la subigualación) podrían deberse a la falta de experiencia de los sujetos con los programas de reforzamiento empleados. De manera complementaria, un estudio realizado mostró que la igualación en programas concurrentes se pierde en pacientes que padecen Alzheimer. “Timing” utilizando programas de intervalo fijo 14 En un programa de intervalo fijo (IF) un organismo puede producir reforzamiento si emite una respuesta después de que ha transcurrido un intervalo de duración determinada. Típicamente, una vez que la respuesta ha ocurrido, el organismo recibe alimento y reinicia el intervalo una vez más. Aunque el organismo puede responder a lo largo de todo el intervalo, el hallazgo más frecuente es que una vez que se ha entregado el reforzador, el organismo deja de responder, las respuestas son relativamente infrecuentes durante la primera parte del intervalo; sin embargo, conforme se acerca nuevamente el vencimiento del intervalo el animal comienza a responder a una tasa cada vez más elevada, llegando a un máximo muy cerca del momento en que termina el IF. Este patrón recibe el nombre de festón y ha sido considerado como evidencia conductual de que para los organismos el transcurso del tiempo es una propiedad discriminable del medio ambiente. De hecho, en organismos que han sido expuestos durante muchos meses a programas de IF, eventualmente se observa que emiten solamente unas cuantas respuestas, justo antes de que termine el intervalo, recuperan el reforzador obtenido y no vuelven a emitir respuestas hasta que el nuevo intervalo está a punto de terminar. Este tipo de observaciones ha llevado a algunos científicos interesados en el estudio de la discriminación temporal a diseñar un método de investigación que se conoce como metodología de cambio. En este método, el organismo es expuesto durante algún tiempo a un programa IF, posteriormente, el organismo es expuesto a un programa de tiempo fijo (TF) en el cual el alimento se entrega de manera gratuita de manera periódica y usualmente empleando la misma duración de tiempo del programa IF. La evidencia de la discriminación temporal ocurre cuando el organismo sigue alcanzando la cima de su festón cerca del momento de la entrega del reforzador. Otro método empleado para estudiar discriminación temporal consiste en utilizar programas de Reforzamiento Diferencial de tasas Bajas (RDB). En estos programas, la entrega del reforzamiento ocurre si el organismo responde, respetando un tiempo mínimo entre respuestas, por ejemplo no responder de nuevo antes de que hayan transcurrido 5 s. Si el organismo responde antes del tiempo preestablecido, entonces pierde el reforzador; generalmente la capacidad del organismo para evitar perder reforzadores, se toma como evidencia de que ha ocurrido la discriminación temporal. Al igual que con el caso de los fenómenos de elección, dentro del Análisis Experimental de la Conducta también se han diseñado modelos para explicar la discriminación temporal; sin embargo, la mayor parte de ellos comparte los siguientes elementos: • En los organismos existe un sistema de marcapasos que emite pulsos a intervalos más o menos regulares. • En los organismos existen capacidades mnémicas que permiten determinar cuántos pulsos ha emitido el marcapasos. • Los organismos poseen la capacidad de comparar los valores acumulados en la memoria con la meta de tiempo planteada. 15 Aunque la mayor parte de los modelos de discriminación temporal comparten estos elementos, difieren en múltiples detalles, algunos de los cuales probablemente podrían ser evaluados y matizados desde las neurociencias. SÍNTESIS ARGUMENTATIVA En síntesis, el Análisis Experimental de la Conducta puede resultar de interés para las neurociencias debido a que comparte con ella elementos epistemológicos fundamentales tales como un interés por el estudio del mundo fáctico y una metodología objetiva y experimental. Adicionalmente, el Análisis Experimental de la Conducta ha desarrollado preparaciones experimentales que permiten contestar preguntas fundamentales para las neurociencias. En este trabajo se presentan tres de estas preparaciones; la primera presentada aquí permite estudiar los mecanismos fundamentales del aprendizaje asociativo y la memoria; la segunda permite estudiar la adaptación de los sujetos a su medio ambiente a través de procesos de elección óptima; la tercera permite estudiar los procesos de discriminación temporal. Estos procedimientos experimentales son tan sólo tres ejemplos del extenso legado científico de B. F. Skinner. Como se mencionó previamente, tanto en EU como en Europa, ha sido posible para las neurociencias aprovechar los desarrollos del análisis experimental de la conducta, de formas diversas y fructíferas. Se espera que este trabajo sirva para interesar a los neurocientíficos mexicanos en el legado de Skinner y que, al igual que sus contrapartes en otros países, puedan emplearlo para el desarrollo de su disciplina. SKINNER Y EL CONDICIONAMIENTO OPERANTE Nació en 1904 en Susquehanna, Pennsylvania. Luego de fallar en sus intentos de ser escritor cambió a la psicología, de lo cual sólo tenía una vaga idea. Escribió en 1938 el libro titulado “La Conducta de los Organismos”, en la cual introdujo sus estudios sobre el condicionamiento operante, luego escribió Walden II en 1948, si intento era describir la utilización de un diseño para la buena vida en una comunidad regida por los principios del conocimiento operante. Entre sus libros más conocidos están: La conducta de los organismos, Conducta verbal, Más allá de la libertad y la dignidad y Walden dos. Burrhus Frederic Skinner Entre los experimentos más célebres de Skinner cabe citar el adiestramiento de unas palomas para jugar al pimpón, la llamada caja de Skinner, todavía hoy utilizada para el condicionamiento de animales, o el diseño de un entorno artificial específicamente pensado para los primeros años de vida de las personas. Teoría de Skinner Condicionamiento operante llamado también instrumental y hoy en día análisis experimental de la conducta (AEC), se puede definir de la siguiente forma: Es la teoría psicológica del aprendizaje que 16 explica la conducta voluntaria del cuerpo, en su relación con el medio ambiente, basados en un método experimental. Es decir, que ante un estímulo, se produce una respuesta voluntaria, la cual, puede ser reforzada de manera positiva o negativa provocando que la conducta operante se fortalezca o debilite. Skinner afirma que cuando los alumnos están dominados por una atmósfera de depresión, lo que quieren es salir del aprieto y no propiamente aprender o mejorarse. Se sabe que para que tenga efecto el aprendizaje, los estímulos reforzadores deben seguir a las respuestas inmediatas. Como el maestro tiene demasiados alumnos y no cuenta con el tiempo para ocuparse de las respuestas de ellos, uno a uno tiene que reforzar la conducta deseada aprovechando grupos de respuestas. Skinner considera que la finalidad de la psicología es predecir y controlar la conducta de los organismos individuales. En el condicionamiento operante se considera a los profesorescomo modeladores de la conducta de los alumnos. Influencia de la teoría con el aprendizaje El condicionamiento operante de Skinner El trabajo de Skinner está basado en la ley del efecto de Thorndike. Skinner introdujo un nuevo término en la ley del efecto: el refuerzo. La conducta que es reforzada tiende a repetirse; la conducta que no es reforzada tiende a extinguirse (se debilita). Skinner acuñó el término “condicionamiento operante”, que implica cambiar una conducta utilizando refuerzos dados después de la respuesta deseada. Skinner estudió el condicionamiento operante conduciendo experimentos con animales, que colocaba en una “caja de Skinner”, similar a la caja-puzzle de Thorndike. Todos hemos experimentado ejemplos de conductas que han sido afectadas por refuerzos y castigos. Cuando éramos niños, por ejemplo, si hablábamos durante una clase, el profesor nos mandaba callar. Esta respuesta por parte del profesor constituye un castigo que, al menos supuestamente, debería debilitar la conducta de hablar con el compañero durante la clase. Durante la adolescencia, por ejemplo, llevar un determinado estilo o marca de ropa podría ser reforzado positivamente por los compañeros de misma edad mediante halagos, aceptación social o simplemente algún gesto amable. Esto refuerza y hace que sea más probable que se repita la conducta de llevar puesta una ropa de marca determinada. Aplicaciones y ejemplos de la teoría Generalización Es cuando al reforzar una respuesta se produce un incremento en otra respuesta parecida. Discriminación Es cuando un organismo se comporta de manera diferente en presencia de dos estímulos. Extinción Es un procedimiento en el cual una conducta operante que ha sido deja de ser reforzada y produce el fin de la respuesta. 17 • Aprendizaje por reforzamiento • Aprendizaje por evitación • Aprendizaje supersticioso • Aprendizaje por castigo • Olvido Principios del condicionamiento operante Skinner propone que el administrador solo necesita entender la relación entre las conductas y sus consecuencias para poder crear condiciones de trabajo que alienten las conductas deseables y desalientes las indeseables. El comportamiento se aprende mediante sus consecuencias positivas o negativas. El reforzamiento en la teoría Tipos de reforzamiento • Positivo • Negativo • Extinción • Castigo • Múltiple • Compuesto • Concurrente PROGRAMAS DE REFUERZO Programas de razón frente a programas de intervalo: funciones de retroalimentación La forma en que se programan los reforzadores en contingencia con la emisión de una respuesta operante constituyen los programas de reforzamiento. Cada uno de ellos especifica una regla que determina las condiciones en las que una respuesta puede ser reforzada. Hablamos de reforzamiento intermitente o parcial cuando tan sólo se refuerzan algunas de las respuestas que emite el sujeto y no todas, y es lo que generalmente mantiene todo comportamiento condicionado de forma operante. El reforzamiento parcial en comparación con el reforzamiento continuo, produce un aprendizaje más duradero y más difícil de extinguir. Se han investigado muchas formas diferentes de programar los reforzadores de manera intermitente, los principales y más básicos programas de reforzamiento positivo intermitente se pueden clasificar en dos bloques: programas de razón y programas de intervalo. Los programas de razón estipulan que se debe emitir un número determinado de respuestas antes de que la última de ellas sea reforzada. Los programas de intervalo establecen que debe pasar un determinado tiempo desde la consecución del reforzador anterior antes de que la respuesta requerida sea de nuevo reforzada. El requisito del 18 número de respuestas en los programas de razón o el tiempo transcurrido en los programas de intervalo, es a partir de la presencia del reforzador anterior. Los programas de razón y de intervalo pueden a su vez, clasificarse en programas fijos y programas variables. De la combinación de estas divisiones surgen cuatro programas básicos de reforzamiento: razón fija, razón variable, intervalo fijo e intervalo variable. Cita de Ferster y Skinner: “Un programa de reforzamiento puede definirse sin referencia a sus efectos sobre la conducta. De esta manera, una respuesta puede ser reforzada en base al tiempo que ha transcurrido desde que se administró el reforzador precedente, o en base al número de respuestas que han sido emitidas desde que se administró el anterior reforzador. Un programa dado puede ser fijo o puede variar, ya sea al azar, ya sea de acuerdo con un plan. Estas dos posibilidades suministran cuatro programas básicos: intervalo fijo, intervalo variable, razón fija y razón variable. Pero otras posibilidades existen, así como muchas combinaciones de tales programas” En un programa de razón fija el número de respuestas requerido para que se administre el reforzador es siempre el mismo, siempre se tiene que dar el mismo número de respuestas para conseguir cada reforzador. Se abrevia RF seguida de un número que indica el valor del número de respuestas requerida, por ejemplo RF-50. El programa RF- 1 sería lo que antes hemos denominado reforzamiento continuo, puesto que sería reforzada cada respuesta. Un programa de razón variable requiere en cambio un número de respuestas que varía de una ocasión a la siguiente, de manera irregular, alrededor de un número promedio de respuestas por cada reforzador. Se abrevia RV, de manera que en un programa RV- 100 se conseguirá el reforzador si en promedio se han emitido cien respuestas, en unas ocasiones más y en otras menos, teniendo 100 como valor medio. Los programas de intervalo fijo son aquellos que, al mantener constante el tiempo requerido para el siguiente reforzador, reforzarán la primera respuesta que ocurra una vez haya transcurrido un tiempo siempre igual desde que se dispensó el último reforzador. En cambio los de intervalo variable son aquellos donde varía la cantidad de tiempo a transcurrir entre un reforzador y el siguiente antes de que la respuesta sea reforzada, dando lugar a un valor promedio de intervalo entre reforzadores. Estos programas también se abrevian IF e IV seguidos del valor numérico de la cantidad de tiempo que debe transcurrir. Cada uno de estos cuatro programas básicos produce una ejecución conductual característica y diferente, que se puede apreciar solo con ver la forma cómo se distribuyen las respuestas a lo largo del tiempo. Una forma de registrar las respuestas en un registrador acumulativo, que es un rollo de papel que va girando a velocidad constante y sobre el que se apoyan dos plumillas que van dibujando, una cuando el sujeto da respuestas, indicando también qué respuestas son reforzadas, y otra que marca cuando se presenta el estímulo discriminativo. 19 Se puede medir así tanto el número de respuestas, como el número de pausas, el tiempo transcurrido entre ellas (TER: tiempo entre respuestas) o el tiempo total sin responder.... El resultado es una curva acumulativa continua que refleja las tasas de respuesta. La observación de cómo se distribuyen las respuestas en un registro acumulativo permite una lectura fácil de la tasa de respuesta y de los cambios asociados a ella que ocurren en el tiempo. Cómo el papel avanza a una velocidad constante, cuando se responde rápidamente (tasa alta de respuesta) el registro será muy inclinado. Si la tasa de respuesta fuera baja, el registro sería más plano, y de la misma forma ante una tasa de respuesta de valor medio el registro será una pendiente intermedia. Esta técnica de medida con el registro acumulativo tiene varias ventajas: se pueden medir todas las respuestas aun cuando ocurran muy rápidamente, y registrar las estructuras de comportamiento sin perder detalles. Permite hacer una medición no contaminada de lasrespuestas de los sujetos experimentales durante periodos prolongados de tiempo. Los programas de RV (panel b) proporcionan tasas de respuesta muy altas y constantes, que a veces se aproxíman a los límites de capacidad física de los organismos. Los programas de IV (panel d) tambien dan tasas constantes de respuesta, aunque normalmente de un valor inferior a las producidas en un RV. Ambos proporcionan un índice de perseverancia muy elevado. (vertical: no respuestas, horizontal: segundos). En cambio la tasa de ejecución en un programa de RF (panel a) se caracteriza inicialmente por una tasas elevada de respuesta, que se mantienen desde la primera respuesta después de haber obtenido el reforzador hasta la siguiente respuesta reforzada. Esta ejecución alta y estable de conducta se desarrolla rápidamente cuando la razón es relativamente pequeña. Sin embargo cuando la razón es mayor, como por ejemplo RF-50 (la representada aqui) se observa una pausa post-reforzamiento que se sigue de una transición casi instantánea a una tasa alta de respuesta posterior (la carrera de la razón). La duración de la pausa post-reforzamiento en los programas de RF depende, principalmente, del valor de la razón. Si el requisito de la razón fuese muy elevado, se puede dejar de responder por completo, lo que se denomina tensión de la razón. 20 La ejecución en un programa de IF (panel c) se caracteriza por una pausa post- reforzamiento más o menos prolongada en función de la duración del intervalo, y por una progresiva aceleración posterior de la tasa de respuesta en cada uno de los intervalos, de manera que la tasa mayor de respuesta se produce cerca del final del intervalo. Esta pauta de conducta, como la representada en la gráfica de abajo para un programa de IF-60 seg, es frecuentemente referida como festoneado, para resaltar así la existencia de cambios sistemáticos en la tasa de respuesta. En los programas de IF, la tasa global de respuesta no parece ser el mejor indicador de la ejecución conductual en estos programas de reforzamiento Como se ha señalado, la tasa de respuesta aumenta progresivamente en cada uno de los intervalos a medida que avanza el tiempo, y estos cambios son lo genuinamente característico de los programas de IF. El patrón de respuestas en un programa de IF refleja un proceso de discriminación temporal, de manera que los animales responden cuando «subjetivamente» consideran que es altamente probable la consecución del reforzador. La diferencia fundamental entre los programas fijos (RF e IF) y los variables (RV e IV) es que en los primeros, de forma contraria a los segundos, suele aparecer una pausa tras cada reforzamiento. La diferencia fundamental entre un programa de RF y uno de IF es que en la ejecución del primero se pasa de la pausa post-reforzamiento a una tasa alta y estable de respuesta, mientras que en IF se pasa de la pausa post-reforzamiento a una 21 aceleración gradual en la tasa de respuesta hasta alcanzar una tasa alta al final del intervalo. En los programas de intervalo, una vez que la respuesta está disponible, el sujeto puede recibirla en cualquier momento a partir de entonces (porque ya ha pasado el intervalo de tiempo estipulado) con tal de que dé la respuesta requerida. En muchas ocasiones esta disponibilidad del reforzador se limita en el tiempo, estipulando un tiempo límite para conseguir el reforzador. Esta clase de restricción se llama duración limitada y se puede aplicar tanto a IF como a IV. La duración de la pausa post-reforzamiento que ocurre en los programas de RF se incrementa sistemáticamente a medida que aumenta el requisito de la razón. De la misma forma, la pausa post- reforzamiento está directamente relacionada con la longitud del programa de IF, de forma que a mayor duración del intervalo mayor será la respuesta. En los programas de razón, a medida que se aumenta el requisito del número de respuestas, se aumenta también el intervalo entre reforzadores, dado que se tarda más en completar las respuestas necesarias para conseguir el reforzador. Killeen mostró que la duración de la pausa post-reforzamiento en los programas de RF depende más de la frecuencia de reforzamiento (que viene determinada por el intervalo temporal entre los reforzadores) que del propio requisito del programa en cuanto al número de respuestas a realizar. En los programas de razón, la duración de la pausa está determinada más por el programa que se va a completar que por el que ha ocurrido inmediatamente antes. Los programas se pueden disponer en cuatro series secuenciales distintas en base a la longitud corta o larga de la razón. Así, las transiciones de uno a otro programa de RF pueden ser:, larga-larga, corta-larga, corta-corta, larga-corta. Si el programa que va a ocurrir es el responsable de la longitud de la pausa, se esperan pausas más largas en los dos primeros casos, en los que el programa que viene después es una RF larga, que en los dos últimos. Y de forma contraria, si el programa que ya ha ocurrido es el responsable de la pausa siguiente, las pausas más largas deberían ocurrir cuando el programa precedente hubiera sido una RF larga, es decir en secuencias larga-larga y larga-corta. Los resultados parecen indicar que la longitud de la pausa está mejor predicha por el programa de RF que va a ocurrir que por el que ya ha ocurrido, puede ser debido a que las RF más largas aumentan la separación entre las respuestas iniciales y el reforzador que ocurre al final de la serie, de manera que es más contiguo a las últimas respuestas que a las primeras. Programas de razón frente a programas de intervalo: funciones de retroalimentación Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser mayor en los programas de razón que en los de intervalo. Esto se ha investigado por un procedimiento que asigna un valor de intervalo a un programa de reforzamiento en función de lo que hayan tardado los animales previamente en completar un programa de razón (midiendo el tiempo que les lleva realizar todas las respuestas). De esta manera 22 los programas de intervalo y de razón se igualan en cuanto al número de reforzadores obtenidos y la distribución de los mismos. En la figura se representan registros típicos de programas de RV e IV acoplados de esta manera (las líneas discontinuas verticales indican el momento de ocurrencia de los reforzadores, que como se puede ver coinciden en los dos programas) y, como se puede apreciar, el programa de RV generó una tasa de respuesta mucho más alta que el programa de IV. En los programas de intervalo, la tasa de respuesta no influye directamente sobre la frecuencia de administración de los reforzadores (la tasa de reforzamiento), mientras que la tasa de reforzamiento varía de manera directa con los cambios en la tasa de respuesta en los programas de razón (comparar las líneas verticales que interseccionan con el eje de abscisas en los paneles c y d de la Figura 5.2., con las líneas horizontales que interseccionan con el eje de ordenadas en los paneles a y b). Una explicación de estas diferencias es que los programas de intervalo (particularmente IV) tienden a reforzar TER largos, porque el mero paso del tiempo lleva a un incremento en la probabilidad de reforzamiento. Dado que en los programas de IV se generan TER largos, éstos se reforzarán y llegarán a predominar, reduciendo así la tasa de respuesta. Los programas de razón (particularmente RV) no presentan la tendencia de reforzar diferencialmente un TER particular y, por tanto, no favorecen la ocurrencia de TER largos. Es más, dada la tendencia a responder en ráfagas de respuestas se hace más probable que el reforzador actúe sobre TER cortos. Baum ha denominado este tipo de explicación como molecular, porque un acontecimiento que puede ocurrir en un determinado momento,en este caso el reforzamiento de un TER, es suficiente para producir un efecto. El mecanismo explicativo implicado sería las variaciones momento a momento en la contigüidad respuesta-reforzador. 23 Una segunda forma de explicar las diferentes tasas de respuesta entre los programas de razón y de intervalo parte de que en los programas de RV existe una correlación directa entre la tasa de respuesta y la tasa de reforzamiento. La tasa de respuesta tenderá a aumentar para maximizar la tasa de reforzamiento.En los programas de IV, sin embargo, no existe virtualmente ninguna relación entre la tasa de respuesta y la tasa de reforzamiento: por mucho que se incremente la primera, no variará la segunda. Baum ha denominado este tipo de explicación como molar, porque las variables efectivas —la tasa de reforzamiento y su dependencia de la tasa de respuesta— son fenómenos temporalmente extensos, haciendo énfasis en la correlación frente a la contigüidad. Las correlaciones entre la tasa de respuesta y la tasa de reforzamiento han sido denominadas funciones de retroalimentación Una función de retroalimentación es una descripción de la forma en que actúa el ambiente, como la frecuencia de reforzamiento, la magnitud del reforzador, o la demora al reforzador, en función de algún aspecto de la ejecución conductual. Las funciones de retroalimentación no asumen que la conducta esté bajo el control de una variable independiente, simplemente que la conducta afectará a algún aspecto del ambiente. Los aspectos de la conducta y del reforzamiento son variables dependientes, que se relacionan por funciones de retroalimentación, pero que no necesariamente tienen por qué mantener una relación causal. En el condicionamiento operante, la obtención de los reforzadores programados depende de la emisión de la respuesta criterio, y así la tasa de reforzamiento obtenida es también una medida de una ejecución eficiente. La función de retroalimentación de la tasa de reforzamiento para la tasa de respuesta en un programa de RF que requiera N respuestas por reforzador es R = B/N, donde R es la tasa de reforzamiento obtenido y B es la tasa de respuesta emitida. El resultado de esta ecuación aplicada a diferentes programas de RF sería este panel, dónde la tasa de reforzamiento que obtiene el sujeto es proporcional a la tasa de respuesta realizada y la proporcionalidad es el requisito de la razón. Cuando más rápido se responda, mayor tasa de reforzamiento, y el número de respuestas requeridas para producir incrementos en la tasa de reforzamiento debe aumentar conforme se incrementa el requisito de la razón. La misma ecuación puede aplicarse para programas de RV. 24 Las funciones de retroalimentación que relacionan la tasa de respuesta y la tasa de reforzamiento son más difíciles de calcular para los programas de intervalo. En los programas de IV (y también en los de IF) la forma de la función es hiperbólica Los cambios en la tasa de respuesta a tasas bajas de respuesta afectarán mucho a las tasas de reforzamiento, pero cuando las tasas de respuesta sean altas, los cambios en la tasa de respuesta tendrán poco efecto sobre la tasa de reforzamiento. Cuanto más corto es el programa de IV existe un mayor margen para que pequeños incrementos en las tasas bajas de respuesta produzcan incrementos sustanciales en la tasa de reforzamiento. Las funciones se aplanan a partir de una tasa de respuesta, porque por mucho que se responda la tasa máxima de reforzamiento no puede aumentar más que el valor especificado por el programa de intervalo. El que en los programas de intervalo existan áreas aplanadas en las funciones de retroalimentación indica que el control diferencial de la conducta es bastante débil, las contingencias de reforzamiento no empujan la conducta en ninguna dirección. Esta es la diferencia fundamental entre los programas de intervalo y los programas de razón. El ejemplo paradigmático de una función de retroalimentación plana es el experimento de superstición (Capítulo 4), donde no hay contingencia programada entre la ocurrencia o no de la respuesta y la presentación del reforzador, ni por supuesto entre la tasa de respuesta y la tasa de reforzamiento. Programas de reforzamiento diferencial de tiempos entre respuestas Para probar que el reforzamiento diferencial de los TER es posible se diseñaron programas de reforzamiento específicos a tal fin, reforzando específicamente TER cortos y TER largos. El diseño básico de estos programas es elegir un tiempo determinado y reforzar únicamente los TER que sean más largos que ese tiempo, lo que viene a definir los programas de Reforzamiento Diferencial de tasas Bajas de respuesta (RDB), o los TER más cortos que el tiempo elegido, lo que viene a definir los programas de Reforzamiento Diferencial de tasas Altas de respuesta (RDA). 25 La diferencia entre RDB y IF, es que en los programas de RBD sólo se refuerza la respuesta si ha transcurrido un tiempo especificado desde la anterior respuesta (un TER), mientras que en los programas de IF la respuesta es reforzada si ha transcurrido un tiempo determinado desde el anterior reforzador. Por tanto en los RDB se añade una contingencia de castigo para las respuestas que ocurren antes del tiempo especificado por el programa, ya que cualquier respuesta prematura reinicia el intervalo de tiempo requerido. La manera de obtener el reforzador es, por tanto, refrenar la respuesta por un tiempo y emitirla cuando ha transcurrido dicho intervalo temporal. Esta pequeña modificación da como resultado una ejecución operante muy diferente a la que se obtiene en un IF, porque la contingencia añadida para las respuestas que ocurren antes de transcurrir el tiempo especificado, debe ser considerada como un castigo, porque la consecuencia de la respuesta es la presentación de un tiempo-fuera de reforzamiento positivo. El RDA se define porque el reforzador se hace contingente con la respuesta si esta ocurre antes de que haya transcurrido un tiempo determinado, reforzando especialmente los TER cortos. En este programa el reforzador se obtiene si se responde antes del tiempo especificado, y las respuestas que ocurran después de ese intervalo temporal simplemente reinician el intervalo. Por eso se obtienen tasas altas de respuesta.La ejecución en los programas RDA es más fácil que en los RDB porque es difícil reforzar específicamente una respuesta pero que no se haga de forma repetida. La dificultad puede deberse a la inducción de respuestas por el reforzamiento espaciado y/o a la degradación del valor del reforzador por encontrarse demorado desde la emisión de la respuesta criterio. Teoría del reforzamiento diferencial de los tiempos entre respuestas La teoría del reforzamiento diferencial de los TER se basa en que los reforzadores no sólo refuerzan ejecutar una determinada respuesta, sino que también refuerzan el hacerlo a un determinado ritmo, con un determinado espaciamiento entre respuestas. Afirma así que en todos los programas de CO se refuerzan específicamente TER de una duración determinada, concretamente se reforzaría el TER que ocurre antes de la administración del reforzador. Los programas RDB y RDA están específicamente diseñados para reforzar, respectivamente, TER de duración larga y de duración corta. También cambia la ejecución del sujeto dependiendo de si los reforzadores se dan de acuerdo a programas de razón o intervalo, y también según si son fijos o variables. Los programas RV e IV consiguen una tasa de respuesta muy constante, esto es, sin pausas post- reforzamiento, con lo que la duración de los TER es muy homogénea y es fácil atribuir su ejecución al reforzamiento diferencial de los TER de una duración determinada 26 La ejecución en los programas de RF e IF, sin embargo, no es tan homogénea como en los programas variables y normalmentese obtienen acusadas pausas post- reforzamiento. De acuerdo con la aplicación estricta de la teoría de reforzamiento diferencial de los TER, los TER reforzados en los programas de RF e IF deberían ser siempre muy cortos, puesto que los reforzadores se presentan al final cuando los sujetos están respondiendo a una tasa alta. No se tendría por qué esperar que los sujetos dejaran de responder inmediatamente después de haber conseguido el reforzador (la pausa post-reforzamiento) puesto que este intervalo no es otra cosa que un TER de muy larga duración. Para solventar esta dificultad se han ideado diferentes alternativas que lo que hacen es considerar mecanismos adicionales que se combinen con el reforzamiento diferencial de los TER y así explicar tanto la constancia en los programas variables como las variaciones en tasas de respuesta observadas en los programas fijos. Se puede añadir por ejemplo un mecanismo de discriminación temporal para explicar que las pausas post-reforzamiento en programas de RF e IF son debidos a que los sujetos experimentales son capaces de discriminar eficazmente el momento de entrega del reforzador, y saben que después de entregar el último es improbable conseguir uno nuevo después. Programas compuestos de reforzamiento Los programas compuestos resultan de la aplicación de dos o más programas básicos de reforzamiento y pueden dividirse en dos grandes bloques, aquellos donde la presentación de los programas componentes es secuencial y aquellos donde los componentes se presentan de forma simultánea. Programas alternantes y secuenciales: el control por el estímulo y reforzamiento condicionado Los programas secuenciales son cuatro: programa mixto, programa múltiple, programa tándem y programa encadenado, siendo los dos primeros alternantes y los dos últimos estrictamente secuenciales. En un programa mixto se presentan dos o más programas básicos alternándose al azar. El cambio de uno a otro de los programas es independiente de la conducta del sujeto, depende de la duración de un tiempo establecido con anterioridad por el experimentador. Si por ejemplo cada componente dura diez minutos, durante los diez primeros puede estar en funcionamiento un programa IF-60seg (le damos comida cuando dé una respuesta después de transcurridos 60 seg desde el anterior reforzador)- Los siguientes diez minutos va a funcionar el segundo programa, por ejemplo RF-50 (reforzaremos cada vez que emita 50 respuestas consecutivas) y al terminar sus 10 minutos, volverá a empezar el programa IF 60 seg... así sucesivamente hasta un número de veces determinado también previamente por el experimentador. 27 El programa múltiple es exactamente igual que el mixto con la diferencia de que cada componente se señala con una clave discriminativa distinta, (luz, sonido, cualquier estimulación ambiental...) y el sujeto es informado en todo momento en qué parte del programa múltiple se encuentra. Por ejemplo el encendido de la luz podría marcar la presencia del programa IF 60-seg y cuando la luz se apaga el programa RF 50. Si un estímulo discriminativo indica que las respuestas pueden ser reforzadas de acuerdo a reforzamiento positivo, y un estímulo diferente señala la imposibilidad de conseguir dicho reforzamiento, nos encontramos ante un programa múltiple donde se establece una discriminación entre un estímulo discriminativo positivo (E+ o Ed) y un estímulo discriminativo negativo (E- o EΔ). El aprendizaje consistiría en emitir respuestas en presencia del E+ y omitirlas en presencia del E-, lo que permite estudiar el grado de control ejercido por los Eds sobre la respuesta instrumental. Un programa tándem consta al menos de dos programas simples que se presentan siempre en el mismo orden. Los sujetos experimentales deben completar el primer programa para poder iniciar el segundo, al final del cual consiguen la administración del reforzador. En este programa, al contrario que en los anteriores, solo es posible conseguir el reforzador si se cumplen en sucesión todo los programas componentes. Cumplir uno de ellos (y por extensión, sus anteriores) sólo da lugar a la posibilidad de realizar el siguiente, y el reforzador se conseguirá al terminar de completar todos. Por ejemplo, un programa tándem IF 60-seg RF-50 se inicia con el programa de IF 60- seg, de forma que la primera respuesta después de transcurridos 60 segundos da acceso al programa de RF-50. Al emitir 50 respuestas se obtendrá el reforzador, lo que de nuevo puede permitir comenzar el primer programa y repetir el tándem durante un número determinado de veces o un periodo de tiempo establecido con anterioridad. El programa encadenado es exactamente igual que el tándem, pero en este caso cada uno de los dos programas simples está señalado de manera diferente, de forma que el sujeto experimental conoce en qué componente del programa se encuentra en cada momento. Habitualmente la terminación del primer programa se acompaña del encendido de una luz o de la presentación de un sonido, que permanece en funcionamiento durante el segundo programa hasta el momento de la consecución del reforzador. Ej. en un programa encadenado IF 60-seg RF-50, la primera respuesta una vez transcurridos 60 segundos inicia el programa de RF-50, al tiempo que provoca el encendido de una luz de la caja experimental, que permanecerá encendida hasta que se complete la respuesta número cincuenta y se consiga el reforzador. Los programas encadenados se han utilizado para estudiar el reforzamiento condicionado, que se refiere al hecho de que algunos estímulos adquieren capacidades reforzantes por su asociación con los reforzadores primarios. En los programas encadenados, el cambio en el ambiente producto de la finalización del primer programa adquiere propiedades de reforzador por su asociación con el reforzador que se consigue al finalizar el segundo programa. Las propiedades reforzantes de estos estímulos se miden por su capacidad para encadenar respuestas, de manera que los sujetos 28 experimentales responden para conseguir dichos cambios en el ambiente. Esta técnica del encadenamiento ha permitido estudiar en los estímulos capacidades reforzantes de segundo orden, de tercer orden, e incluso de órdenes superiores Programas simultáneos: programas concurrentes y programas combinados Los más importantes y conocidos son los programas concurrentes, que se caracterizan por disponer simultáneamente de al menos dos programas básicos de reforzamiento. En los programas concurrentes se puede cambiar de un programa a otro sin que normalmente haya sido necesario haber completado un tiempo o un número de respuestas en cada uno de los programas. Los sujetos experimentales, como consecuencia, deben elegir entre responder a uno u otro de los programas que componen el programa concurrente. Por ejemplo, en una caja de condicionamiento podemos disponer de dos palancas de respuesta, una a la derecha asociada a un programa IV 60-seg y otra a la izquierda asociada a uno IV 30seg. Se mide el número de respuestas en cada una de las palancas y se calcula la proporción por la que se distribuyen las respuestas entre una y otra. Otros programas compuestos simultáneos consisten en combinaciones de un programa de razón y otro de intervalo, y existen al menos tres combinaciones que deben distinguirse: En un programa alternativo se refuerza una respuesta cada vez que se cumple con el requisito del programa de razón o el del intervalo, existiendo así dos formas de conseguir el reforzamiento. En un programa conjuntivo se refuerza una respuesta cada vez que se cumple al mismo tiempo con el requisito de la razón y del intervalo. En un programa entrelazado la respuesta que se refuerza viene determinada por dos programas, pero la disposición de uno de ellos se altera por el desarrollo del otro. otro. Una posibilidad esque cierta suma de respuestas y de tiempo (ej. 10 respuestas o 6 respuestas en 4 seg, ó 3 respuestas en 7 seg o 10 seg) debe darse antes de que la respuesta sea reforzada, o bien que algún valor recogido en un programa de razón determine las características de un programa de intervalo. TIPOS DE CONDICIONAMIENTO OPERANTE. Aprendizaje por reforzamiento: es el aprendizaje en el cuál la conducta es nueva para el organismo aumenta su frecuencia de aparición luego de recibir algún estímulo reforzante. Aprendizaje por evitación: es el aprendizaje donde el organismo aprende una conducta nueva que termina o impide la aplicación de algún estímulo aversivo(desagradable), y aumenta la frecuencia de aparición de esa conducta para que no regrese. 29 Aprendizaje supersticioso: es el aprendizaje donde alguna consecuencia casualmente reforzante o aversiva aumenta la frecuencia de aparición de alguna conducta. Aprendizaje por castigo: es el aprendizaje donde un organismo aumenta la frecuencia de aparición de las conductas que no fueron seguidas o que no recibieron ningún estímulo aversivo o desagradable. Olvido: todas las conductas que no reciben o que dejan de recibir reforzamiento tienden a disminuir su frecuencia de aparición y a desaparecer. Primero que todo, el condicionamiento operante, llamado también instrumental y hoy en día; análisis experimental de la conducta(AEC) desarrollado por el psicólogo neoconductista B.F Skinner, se puede definir de la siguiente forma: Es la teoría psicológica del aprendizaje que explica la conducta voluntaria del cuerpo, en su relación con el medio ambiente, basados en un método experimental. Es decir, que ante un estimulo, se produce una respuesta voluntaria, la cual, puede ser reforzada de manera positiva o negativa provocando que la conducta operante se fortalezca o debilite. Es la operación que incrementa la probabilidad de la respuesta o conducta en relación a un Estímulo discriminativo y a otro llamado estimulo reforzador: Es siempre una relación de contingencia. Skinner también considera al aprendizaje por castigo y por extinción de los refuerzos, como influyentes en la conducta. APLICACIONES DE CONDICIONAMIENTO OPERANTE. Los psicólogos han usado técnicas de condicionamiento operante para modificar la conducta- Programas de economía de fichas: La aplicación clásica es la economía de fichas en el primer estudio se trato a mas de 40 pacientes psicóticos recluidos en la sala de un hospital psiquiátrico como si fuera una gigantesca caja de Skinner. Los resultados eran impresionantes los pacientes se valían por si mismos, pero los resultados no serían fuera de la institución,- Programa de modifcación de conducta: Las técnicas del condicionamiento operante han sido aplicadas a distintas industrias, estas han disminuido los retrasos, absentismo " el abuso de los permisos por enfermedad " mejoraron el desempleo " seguridad en el trabajo… Castigo y reforzamiento negativo: Casi todas la aplicaciones del condicionamiento operante se usaban como reforzamiento positivo en lugar de castigo, porque el castigo solo tenia resultados inmediatos y no a largo plazo, Un reforzamiento negativo no es un castigo, un reforzamiento negativo es un estímulo aversivo cuya supresión es recompensarte. 30
Compartir