You are on page 1of 5

Aprendizaje por reforzamiento

CONDICIONAMIENTO OPERANTE Cuando hablamos del condicionamiento operante lo definimos como aquel aprendizaje asociativo entre una respuesta y sus consecuencias, teniendo como caracterstica principal o fundamental que ciertas respuestas vienen condicionadas por el estmulo que les sigue y no por el que les precede y lo denominamos operante porque es el organismo el que opera a travs de su conducta sobre el medio. La teora del reforzamiento de Thorndike, como su propio nombre indica, se centra en el evento que aumenta la probabilidad de otra respuesta, o lo que es lo mismo, en el refuerzo. Existen diferentes tipos de reforzamiento: Reforzamiento positivo: en este tipo de reforzamiento se da un estmulo agradable que pretende incrementar la posibilidad de que se d una conducta regularmente, por ejemplo darle un hueso al perro cuando se sienta. Reforzamiento negativo: para evitar un estmulo desagradable el sujeto presenta regularmente el mismo comportamiento, un ejemplo de reforzamiento negativo podra ser el hecho de entregar un trabajo para que no te suspendan o aprobar para no quedarte sin regalos de navidad. El castigo es una consecuencia desagradable ante un comportamiento especfico que disminuye la probabilidad de una conducta. La recompensa es antagnica al castigo, es una consecuencia agradable ante un comportamiento especfico para aumentar la probabilidad misma. de una conducta. ejemplos Existen dos tipos de recompensas: podemos poner el hecho de la Recompensa intrnseca: Se trata de la recompensa que es parte de la actividad Como responsabilidad si hablamos de estudio o el atractivo de la actividad que realicemos en el momento como puede ser jugar a ftbol con los amigos. Recompensa extrnseca: Es la recompensa externa a la actividad, como puede ser una remuneracin por un trabajo realizado. En el condicionamiento operante la extincin tiene lugar si la respuesta deja de producir refuerzo, por ejemplo si estamos cuidando a un nio y este llora hasta que juegas con l, si eventualmente le dices que tienes mucho que estudiar o le das razones para no jugar con l dejar de llorar cuando no juegues con l. Barrhus F. Skinner es considerado como el precursor del condicionamiento operante y sostuvo que el refuerzo era elemental para el control de la conducta, adems dise La caj a

de Skinner, un aparato muy importante para la investigacin psicolgica. Esta caja estaba equipada con un mecanismo muy simple que el mismo animal poda activar para conseguir su recompensa, a partir de esta caja desarroll un procedimiento estndar, aplicable tanto para personas como animales, para el estudio del condicionamiento operante. PROCESOS EN EL CONDICIONAMIENTO OPERANTE En el momento en el que la conducta deja de producir refuerzo, tendr lugar la extincin de esta conducta. Los reforzadores primarios o intrnsecos satisfacen las necesidades biolgicas. Los reforzadores secundarios o extrnsecos son condicionados (positivos en clase, palabras de nimo. PROGRAMAS DE REFUERZO Refuerzo continuo: el refuerzo se da cada vez que se presenta la conducta. Refuerzo intermitente: el refuerzo se da unas veces s y otras no:2 tipos: -De intervalo: el refuerzo se administra segn el tiempo que ha pasado desde el ltimo refuerzo. (Fijo o variable) -De razn: el refuerzo depende del nmero de respuestas dadas por el sujeto. (Fijo o variable) EL CASTIGO Es la presentacin o retiro de eventos que reduce la frecuencia de aparicin de una respuesta. No siempre comprende dolor fsico. El castigo fsico puede ser un reforzador cuando hay una gran motivacin y puede provocar respuestas disruptivas. Para que el castigo sea eficaz tiene que ser continuo. TIPOS DE CASTIGO Se presentan eventos aversivos. Se retiran eventos positivos. Se requiere esfuerzo o trabajo por parte del sujeto. Definicin Aprendizaje Cognitivo social Es un proceso interno que no puede observarse directamente y que implica un cambio en la forma en que una persona responde ante las situaciones que se le presentan. Dichos procesos se organizan en estrategias cognitivas, tales como: resolucin de problemas, organizacin, toma de decisiones, anlisis y sntesis, reflexin, creatividad. Principios del Aprendizaje Cognitivo (1) El conocimiento previo que tiene la gente respecto a un tema es el determinante ms importante de la naturaleza y cantidad de nueva informacin que puede ser procesada. (2) La disponibilidad de conocimiento previo relevante, es una condicin necesaria pero no suficiente, para entender y recordar nueva informacin. El conocimiento previo tambin necesita ser activado por pistas en el contexto de la informacin que se est estudiando. 3) El conocimiento es estructurado. La manera en que est estructurado en la memoria, lo

hace ms o menos accesible para su uso. (4) Almacenar informacin en la memoria y recuperarla, son procesos que pueden ser muy mejorados si durante el aprendizaje, ocurre la elaboracin sobre el material. (5) La habilidad para activar el conocimiento en la memoria de largo-plazo y hacerla disponible para su uso, dependen de las pistas contextuales.(6) El estar motivado para aprender, prolonga la cantidad de tiempo de estudio (o tiempo de procesamiento, para ponerlo en trminos de psicologa cognitiva) y por lo tanto mejora el logro

1. Aprendizaje por reforzamiento Define la manera de comportarse de un agente a un tiempo dado en un tiempo exacto. Puede verse como un mapeo entre los estados del ambiente que el agente percibe y las acciones que toma, cuando se encuentra en esos estados. Corresponde a lo que en psicologa se conoce como reglas estimulorespuesta o asociaciones. Este elemento es central ya que por si slo es suficiente para determinar el comportamiento. [editar] Funcin de reforzamiento Define la meta en un problema de RL, al mapear cada percepcin del agente (estado del ambiente o par estado, accin) a un nmero (recompensa) que indica que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la funcin define qu eventos son buenos y malos para el agente, por lo que la funcin es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la poltica, por ej., si una accin elegida por la poltica recibe una recompensa muy baja, la poltica debe cambiarse para elegir una accin diferente en esa situacin. Una funcin de reforzamiento por lo general es estocstica.es un fortalecimiento del se humano para poder comprender de la mejor manera cualquier lectura. [editar] Funcin de evaluacin Mientras que la funcin de reforzamiento indica lo que es bueno en lo inmediato, la funcin de evaluacin lo hace a largo plazo. Puede verse como la cantidad total de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en particular. La recompensa determina la bondad inmediata de un estado, el val tambin sirve mucho leer poquito por or representa la bondad a largo plazo del mismo, tomando en cuenta los estados a los que podra conducir. La mayora de los algoritmos RL operan estimando la funcin de valuacin, aunque los algoritmos genticos, la programacin gentica, y el recocido

simulado, pueden resolver problemas de RL sin considerar valores, buscando directamente en el espacio de polticas. Observen que en stos mtodos evolutivos operan bajo un concepto diferente de interaccin dado por el valor de adaptacin. [editar] Modelo del ambiente Los modelos mimetizan el medio ambiente, dados un estado y una accin, el modelo debera predecir el estado resultante y la recompensa prximos. Los modelos se utilizan para planear, es decir, decidir sobre un curso de accin que involucra situaciones futuras, antes de que estas se presenten. La incorporacin de modelos y planificacin en RL es un desarrollo reciente, RL clsico puede verse como la anti-planificacin. Ahora es claro que los mtodos RL estn estrechamente relacionados a los mtodos de programacin dinmica. As los algoritmos RL pueden verse en un continuo entre las estrategias ensayo-error y la planificacin deliberativa. ovidio de leon crisostomo dice en su investigacion que

2. los tipos de aprendizajes es cuando el nio adquiere conocimientos diferentes y los descubre en diferentes ambientes y saber q mas sige [editar] Aprendizaje por observacin Albert Bandura consideraba que podemos aprender por observacin o imitacin. Si todo el aprendizaje fuera resultado de recompensas y castigos nuestra capacidad sera muy limitada. El aprendizaje observacional sucede cuando el sujeto contempla la conducta de un modelo, aunque se puede aprender una conducta sin llevarla a cabo. Son necesarios los siguientes pasos: 1. Adquisicin: el sujeto observa un modelo y reconoce sus rasgos caractersticos de conducta. 2. Retencin: las conductas del modelo se almacenan en la memoria del observador. Se crea un camino virtual hacia el sector de la memoria en el cerebro. Para recordar todo se debe reutilizar ese camino para fortalecer lo creado por las neuronas utilizadas en ese proceso 3. Ejecucin: si el sujeto considera la conducta apropiada y sus consecuencias son positivas, reproduce la conducta. 4. Consecuencias: imitando el modelo, el individuo puede ser reforzado por la aprobacin de otras personas. Implica atencin y memoria, es de tipo de actividad cognitiva. 5. Aprendizaje por descubrimiento: Lo que va a ser aprendido no se da en su forma final, sino que debe ser re-construido por el alumno antes de ser aprendido e incorporado significativamente en la estructura cognitiva. 6. Aprendizaje por recepcin: El contenido o motivo de aprendizaje se presenta al alumno en su forma final, slo se le

exige que internalice o incorpore el material (leyes, un poema, un teorema de geometra, etc.) que se le presenta de tal modo que pueda recuperarlo o reproducirlo en un momento posterior.