Anteproyecto-Seminario v1

El documento no cumple con la totalidad de requisitos de forma evaluados en
clase.
Es necesario revisar la coherencia entre los objetivos y la formulación y

sistematización
Nota: 3.3 - Blanca
1. TÍTULO
Técnica de aprendizaje de inteligencia artificial "Aprendizaje por refuerzo".
2. ANTECEDENTES Y/O ESTADO DEL ARTE
La programación dinámica (DP, Dynamic programming) y el aprendizaje por refuerzo

(RL, reinforcement learning) son un conjunto de técnicas para resolver problemas de
decisión secuenciales, en los cuales las decisiones son aplicadas al sistema con el objetivo
de obtener una respuesta deseada. Este tipo de problemas secuenciales aparecen en una
amplia variedad de campos entre los que podemos mencionar el control automático,
control teórico, inteligencia artificial, robótica, investigación operativa, economía,
medicina entre otras. La diferencia entre la programación dinámica y el aprendizaje por
refuerzo es que la solución planteada por las técnicas de aprendizaje por refuerzo no
requiere de un modelo de comportamiento del sistema, sino que funcionan únicamente
empleando datos obtenidos del entorno, a diferencia de las técnicas de programación
dinámica las cuales proporcionan soluciones basadas en el modelo de comportamiento del
sistema (Díaz Iza, 2015).
El aprendizaje por refuerzo es una cabida de la programación dinámica que produce

soluciones sin la necesidad de conocer el modelo de comportamiento del sistema; se
considera que el aprendizaje por refuerzo tiene una amalgama de características de control
optimo y adaptativo para el diseño de controladores realimentados.
Del mismo modo, es necesario analizar e implementar algoritmos de base como la de
programación dinámica y de aprendizaje por refuerzo.
Se hicieron laboratorios prácticos sobre la implementación del algoritmo de aprendizaje Q-
Learning con un péndulo de un grado de libertad, con la finalidad de observar y verificar si
dicho algoritmo concuerda con una ganancia y si esta ganancia es garantizada. Después, se
realiza una interpretación de los resultados del trabajo y el futuro que se tendrá
identificando oportunidades en la investigación (Díaz Iza, 2015).
Los videojuegos son un interesante campo de estudio para muchos investigadores de

inteligencia artificial, dado que multitud de algoritmos distintos pueden ser estudiados y
probados con ellos, y luego estos pueden ser aplicados a muchas otras situaciones. En este
proyecto se utilizan principios de razonamiento basado en casos y aprendizaje por refuerzo
para entrenar bots y que jueguen a Ms. Pac-Man. En concreto se utiliza el algoritmo
QlearningreemplazandolatablaQylosestadosporunabasedecasos.Elusodecasospermite lidiar
con una completa representación del estado del juego, y utilizar conocimiento experto
sobre el dominio del juego tanto en la recuperación de casos como en la adaptación de
soluciones (Domínguez Estévez, 2017).
La inteligencia artificial es uno de los temas más populares en el mundo por su gran avance
ya que por medio de ella se tendrá un futuro prometedor para algunas personas pero no
para otras, donde algunas aplicaciones que se desarrollaran no serán de su agrado debido a
que reemplazará en el ámbito laboral al ser humano, como otras que si serán de gran
alcance como las apps de salud, de aprendizaje que se comprometen con el buen desarrollo
tanto social como cultural de la humanidad en general; del mismo modo la tecnología en
general está cambiando la forma de ver el mundo, todo esto gracias a los avances
científicos que han venido transcurriendo a través del tiempo y por ende a los creadores o
especialistas de motores, robots y otros sistemas automatizados en la inteligencia
artificial(IA), puesto que su trabajo es el de desarrollar ciertos programas y algoritmos
que contribuyan con el funcionamiento seguro y correcto de las mismas, teniendo en
cuenta también que esto conlleva a desarrollar algoritmos que permitan el aprendizaje y
razonamiento de las máquinas, si bien uno de los objetivos de la IA es determinar si las
máquinas pueden llegar a pensar como los seres humanos en algunos aspectos,
demostrándose con el test de Turing (Domínguez Estévez, 2017).
En caso de los videojuegos, estos sirven para el análisis y estudio de los algoritmos
provenientes de la inteligencia artificial, es allí donde se encuentran todo tipo de errores
como soluciones óptimas que hace posible la creación de muchas aplicaciones que hacen
la vida del ser humano lo más fácil posible, ya sea el realizar una app que permita la
conducción de un auto automáticamente sin tener conductor al volante (Domínguez
Estévez, 2017).
Desde que surgió la informática se ha venido desarrollando una mayor autonomía sobre la
misma, demostrando por medio de algoritmos que se es capaz de aprender y adaptar a sus
cambios en el transcurso del tiempo. En cuanto a los videojuegos desarrollándose en el
campo de la inteligencia artificial podemos decir que esta limitada a ciertos
comportamientos delimitados por un diseñador dando campo a personajes virtuales no
carentes de autonomía. Del mismo modo, el aprendizaje por refuerzo promete técnicas
ofreciendo la posibilidad de crear agentes que obtengan aprendizaje por sí mismos.
Teniendo en cuenta que dichos agentes están empezando en el ambiente de los videojuegos
aún no tienen la capacidad de estar explorados en su totalidad en este campo (Deltell
Mendicute, Lorente Sánchez & Martínez Dotor, 2015).
En este proyecto intentaremos desarrollar una aplicación que mediante este algoritmo sea
capaz de aprender a hacer ciertas actividades por sí mismo en el entorno del juego de
estrategia en tiempo real (RTS, del inglés Real-Time Strategy Games) StarCraft. En
concreto, lo emplearemos para la resolución de laberintos de forma autónoma, es decir, sin
proporcionarle conocimiento previo al agente sobre la estructura del laberinto. Para ello
iremos moviendo a una unidad del juego por un laberinto que podrá contener trampas, y
mediante aprendizaje por refuerzo lograremos que dicha unidad sea capaz de encontrar la
salida por sí misma (Deltell Mendicute, Lorente Sánchez & Martínez Dotor, 2015).
A través de los años, la inteligencia artificial ha venido creciendo de una forma asombrosa
considerándose un apartado importante en el mercado mostrando un crecimiento
exponencial. El solo darnos cuenta que en el pasado o años antes de cristo, el solo pensar
que podrían existir un robot que trabajaba y que desarrollara inteligencia similar a la del
ser humano se entendía sólo como ciencia ficción incluso hoy en día se ve muchas
películas de esta temática, donde se demuestra hasta dónde puede llegar la inteligencia
artificial. Del mismo modo, se ve y se analiza el riesgo que se toma en caso de que no se
cumplan las tres reglas de la robótica; pero si se toma precaución a la hora de la creación se
puede decir que traerán consigo un futuro prometedor (Romero Reviriego, 2019).
En el aprendizaje por refuerzo es aprender qué decisión se debe tomar en cada situación
todo esto para aumentar su recompensa, bien sea tratándose de un valor numérico. El
agente encargado de realizar el aprendizaje no tiene conocimiento de las pruebas que se le
realizará, pero debe analizar y descubrir qué recompensa es mayoritaria en su uso. El
tomar la decisión correcta hace que afecte la recompensa inmediata, si no que al mismo
tiempo afecta también la siguiente situación y así sucesivamente las siguientes situaciones
que se obtendrán de ahí en adelante durante el proceso (Romero Reviriego, 2019).
Las dos características más importantes que diferencia de otras a la IA son la búsqueda por
prueba y error, en esta el agente realiza diferentes pruebas verificando cual otorga mayor
recompensa y la recompensa retrasada solo se interesa por obtener un final con una
recompensa mayor incluso si se tiene que sacrificar parte de la recompensa inmediata
tomando otra acción en alguno de los estados (Romero Reviriego, 2019).
El aprendizaje por refuerzo es el medio por el cual se permite a dichos sujetos aprender por
medio de una realimentación propiciado por el mismo entorno, siendo una idea propia e
inspirada por la naturaleza en la misma forma en la que el ser humano y los animales
aprenden llamado conductismo ( estudia las conductas y comportamientos)
experimentando y probando diversas cosas u objetos, observando qué ocurre, si las cosas
van bien entonces se aplicará nuevamente el mismo comportamiento y si van mal se
tenderá a evitar, estas ideas se pueden usar para que un robot aprenda a crear un
controlador para que se auto programe y no tener que programarlo (De Lope, 2008).
Básicamente un controlador de un robot asocia los estados con las acciones debido a que
los estados vienen determinados por la información sensorial adquirida por el entorno, bien
sabiendo que las acciones dependen de los mecanismos activadores que tenga el robot; con
el aprendizaje por refuerzo, el robot pone en práctica varias acciones que tiene disponible
en cada uno de los estados en los que se encuentra, registrando cada uno de los sucesos que
transcurren a través de su comportamiento. De hecho, el RL implica adquirir e incorporar
nuevo conocimiento y habilidades mejorando siempre el rendimiento de los agentes en el
entorno que lo rodea, también consiste en aprender que hacer, como asociar las diversas
situaciones con las acciones maximizando su recompensa numérica, dándole la
oportunidad al agente de descubrir que está haciendo bien y que está haciendo mal por
medio de las pruebas de ensayo y error, observando que cualquier método que resuelva ya
es un aprendizaje más para el individuo (De Lope, 2008).
Figura 1: Merino, M. (2019). Conceptos de inteligencia artificial: qué es el aprendizaje por
refuerzo.
Se requiere describir y analizar el aprendizaje por refuerzo RL, un algoritmo multiobjetivo

(sistemas difusos jerárquicos y aplicación en Astrofísica). Se dice que el algoritmo es una
extensión de Q-learning siendo este desarrollado para problemas de aprendizaje por
refuerzo escalares todo lo contrario a otros algoritmos PQ- Learning que no requiere
informaciones preferenciales sobre sus objetivos, de hecho, son aplicables ciertos
problemas con fronteras de Pareto no convexas que permite la recuperación a partir de los
Q-valores, teniendo en cuenta las secuencias de acción que corresponden a distintas
políticas Pareto-óptimas. El PQ-learning ha sido aplicado a dos problemas pertenecientes a
cierto banco de pruebas que se propuso en la literatura del RL multiobjetivo (Ruiz-Montiel,
Mandow & Pérez de la Cruz, 2013).
FORMULACIÓN DEL PROBLEMA
¿los estudiantes de inteligencia artificial del programa de ingeniería de sistemas de la

universidad de Boyacá, no cuentan con material educativo que les permita adquirir
conocimientos sobre el tipo de aprendizaje automático conocido como aprendizaje por
refuerzo?
SISTEMATIZACIÓN DEL PROBLEMA
¿Qué consecuencias ha traído el no contar con material educativo para el aprendizaje por
refuerzo?
¿Qué estrategias son las que darán solución a la realimentación del aprendizaje por
refuerzo?
ESPECÍFICOS
● Identificar los factores que están afectando el aprendizaje de la técnica de
aprendizaje por refuerzo.
● Establecer una metodología que permita a los estudiantes tomar en sus clases el
● Elaborar material didáctico como estrategia para mejorar el aprendizaje del tema
aprendizaje por refuerzo en el ámbito de la inteligencia Artificial.
JUSTIFICACIÓN
El trabajo consiste en un análisis descriptivo de una problemática, donde encontramos el

mal uso de la técnica del aprendizaje por refuerzo. Una estrategia que permite hacer un
seguimiento del aprendizaje por refuerzo en el área de estudio, permitirá proponer nuevas
ideas para manejar esta problemática y propiciar una realimentación del tema de manera
que permita un buen aprendizaje en los estudiantes.
Lo que se propone es darle una solución válida que disminuya los ítems del mal
aprendizaje en la técnica aprendizaje por refuerzo y que permita a los estudiantes tener una
buena técnica de aprendizaje.
OBJETIVOS
GENERAL
Gestionar material educativo que permita a los estudiantes del programa de ingeniería de
sistemas de la universidad de Boyacá, a adquirir el conocimiento sobre la técnica
“aprendizaje por refuerzo”.
ESPECÍFICOS
● Identificar los factores que están afectando el aprendizaje de la técnica de aprendizaje

por refuerzo.
● Establecer una metodología que permita a los estudiantes tomar en sus clases el
● Elaborar material didáctico como estrategia para mejorar el aprendizaje del tema
aprendizaje por refuerzo en el ámbito de la inteligencia Artificial.
MARCO REFERENCIA
Marco Teórico:
Un proceso de decisión de Markov, es un prototipo matemático que claramente

considera la incertidumbre en las trabajos del agente y se toma que los efectos de estos
ejercicios son perfectamente visibles. Un MDP, tácitamente se asume que las
probabilidades de transformación permanecen inalteradas durante un lapso de tiempo.
Por otra parte, para cualquier MDP siempre hay una política π: S→ A óptima, que
permite decidir en cada estado que acción tomar de manera tal de maximizar la suma
esperada de refuerzos descontados. Esta política π es estacionaria (no cambia en
función del tiempo) y determinística (siempre se elige la misma acción cuando se está
en el mismo estado). Con respecto a la asunción de ambiente estacionario, podemos
observar que este marco matemático es inapropiado para SMA´s, en particular en
aquellas situaciones donde el ambiente contiene otros agentes adaptativos. A nuestro
criterio sin embargo, la principal limitación de los MDP`s como modelo de decisión
subyacente para SMA´s, surge de las características de lo que es considerado como
solución para MDP`s. En estos casos, siempre existe una política óptima determinística
que no es dominada por ninguna otra política. Este criterio es útil cuando las acciones
de un agente no son influenciadas por las acciones de los otros agentes. Sin embargo,
cuando la utilidad de las acciones de un agente depende directamente de las acciones
de los agentes restantes, uno debe considerar qué acciones constituyen la mejor
respuesta ante las acciones de los otros agentes. En este sentido, el principal aporte a
este problema proviene del área de teoría de juegos, en lo que se conoce como
equilibrio de mejor respuesta o equilibrio Nash.. Este enfoque plantea como posible
solución a un juego, a la colección de estrategias para cada uno de los jugadores, tal
que la estrategia de cada jugador es la mejor respuesta a las estrategias de los otros
jugadores. De esta manera, ningún jugador tiene incentivo para desviarse de su
estrategia en la medida que los otros jugadores tampoco se desvían. Uno podría pensar,
que el problema de AR se reduce en estos casos a lograr que el agente aprenda la
política π: S→ A, tal que las políticas aprendidas en su conjunto constituyan uno de los
posibles equilibrios Nash. Desde ese punto de vista, no deberíamos alejarnos demasiado
del concepto de solución para un MDP. El problema surge de que en muchos juegos y
SMA´s no existen equilibrios Nash si nos restringimos a que los agentes selecciones sus
acciones en forma determinística. En otras palabras, si un agente sigue una política
determinística, esto puede ser explotado por otros agentes que defiendan sus intereses
personales. Una solución a este problema, es que las políticas de los agentes sean
estocásticas, tal que ahora una política para el agente i se define como ρ : S → PD(Ai),
que mapea estados a estrategias mixtas, las cuales son distribuciones de probabilidad
sobre las acciones del agente. La idea de que las políticas óptimas puedan ser
estocásticas tal vez resulte extraño a las personas familiarizadas con MDP´s o algunos
juegos con movimientos alternados ya que en estos casos siempre hay una política
determinística superior a la mejor política probabilística. Es a partir de la incertidumbre
del movimiento actual del oponente que surge la necesidad de una elección de acción
probabilística que evite ser “adivinado” en una segunda instancia(Romero Reviriego,
2019).
Figura 2:Luna, J. (2018). Tipos de aprendizaje automático.
Marco Legal:
Teniendo en cuenta que el aprendizaje por refuerzo es una de las técnicas de la

inteligencia artificial cuenta con tres reglas fundamentales propuestas por el padre de la
misma Alan Turing, con el fin de poder servirle al ser humano, protegerlo de cualquier
daño que este le pueda causar.
1. Un robot no hará daño a un ser humano ni, por inacción, permitirá que un ser
humano sufra daño.
2. Un robot obedecerá las órdenes dadas por los seres humanos, excepto si estas
órdenes entran en conflicto con la primera ley.
3. Un robot debe proteger su propia existencia siempre que ella no entre en conflicto
con la primera o segunda ley.
Marco Geográfico:
El lugar donde se hará el estudio sobre la técnica de aprendizaje por refuerzo es en la

universidad de Boyacá la ciudad de Tunja, dicho estudio se llevará a cabo ya que en los
últimos años se ha venido presentando un problema muy grande que como estudiantes y
docentes no se ha tomado en cuenta, por tal motivo el problema más evidente es que los
estudiantes no están siendo conscientes de que hace falta material educativo para el
Marco Histórico:
DISEÑO METODOLÓGICO
Línea de Investigación
Educación y medios tecnológicos.
Tipo y diseño de investigación
Estudios Exploratorios: Se iniciará con una exploración del pensul educativo del área
en general, ámbito en que se llevará a cabo el estudio en general sobre la materia
Inteligencia artificial.
Estudios Descriptivos: En este apartado se hará la breve descripción de los datos que
se recolectan en las fases que se realizarán en el transcurso de que se inicie el proyecto
para mejorar el material educativo de aprendizaje por refuerzo de inteligencia
artificial.
Estudios Explicativos: Se realizará este proyecto debido a que cada día se ve afectado
el aprendizaje de los estudiantes en el aprendizaje por refuerzo. Además, se requiere
que por medio del material didáctico se logre apoyar la técnica de aprendizaje por
refuerzo para que mejore la calidad de aprendizaje tanto de los estudiantes como el de
los profesores.
Estructura metodológica
Fase 1: Análisis de requerimientos e Investigaciones existentes.

En esta etapa se pretende recopilar la información necesaria sobre el estudio de
investigación sobre el aprendizaje por refuerzo en el área de inteligencia artificial en la
universidad de Boyacá en Tunja, para establecer los factores contaminantes que
conllevan a la contaminación del mismo.
Fase 2: Diseño de prototipo:

se hará el diseño de una nueva metodología para poder implementar material educativo
que permita la programación requerida y la identificación y verificación de los factores
que hace que sea imposible este aprendizaje, también que dé a conocer cada uno de los
problemas.
Fase 3: Construcción de prototipo

Se hará el desarrollo de un prototipo tecnológico como herramienta que servirá y
facilitará el monitoreo y el aprendizaje del aprendizaje por refuerzo en el área de
inteligencia artificial.
Fase 4: Pruebas y Análisis de resultados

El escenario a estudiar se encuentra ubicado en la universidad de Boyacá especialmente
con los estudiantes , y se pretende recoger pruebas que permitan el análisis que indique
el nivel de insatisfacción por parte de los estudiantes en cuento al no recibir material
educativo ni aprendizaje sobre este tema y así poder ayudar a controlar dicha
problemática.
Fase 5: Comunicación de resultados

Dependiendo de los análisis que se observaron en el ítem anterior se hace una
divulgación de manera que se le pueda comunicar a la comunidad estudiantil de la
universidad de Boyacá las falencias que se encontraron y de qué forma se podrán dar
solución.
Fuentes de información (primarias y secundarias)
En el proyecto de investigación sobre “Técnica de aprendizaje de inteligencia artificial

"Aprendizaje por refuerzo"” se tendrán en cuenta libros, artículos, páginas web entre
otros, que permitirá estar informados sobre la técnica de aprendizaje por refuerzo en los
diferentes entornos estudiantiles, así mismo con esto se podrá sacar conclusiones y
diferentes opiniones sobre el problema, de hecho también se podrá ver los diferentes
tipos de experimentos, investigaciones y aplicaciones que se han desarrollado para tratar
de disminuir la problemática.
Técnicas y herramientas de recolección de información

Se realizará entrevistas,test,encuestas a la comunidad estudiantil de la universidad de
Boyacá en la ciudad de Tunja, para sacar una hipótesis que sirva como punto de partida a
la hora de realizar la investigación sobre el problema que hay en la falta de material
educativo para el tema aprendizaje por refuerzo en el área de inteligencia artificial.
Técnicas para la evaluación de resultados

Para la recolección de datos se aplicará encuestas didácticas sobre los posibles factores
que hace que sea imposible enseñar el tema de aprendizaje por refuerzo, por medio de
preguntas que facilite responder al encuestado, para así también evidenciar que es lo
que está afectando el no estar enseñando dicho tema de aprendizaje por refuerzo y
obtener un aporte más a la investigación. De hecho,se hará un análisis amplio por medio
de tablas, gráficas que arrojen datos de las encuestas realizadas a los estudiantes de la
universidad y así poner en marcha los objetivos propuestos.
Esquema temático del documento final

Capítulo 1. Identificar los factores que están afectando el aprendizaje de la técnica de

Capítulo 2. Establecer una metodología que permita a los estudiantes tomar en sus
clases el aprendizaje por refuerzo.
Capítulo 3. Elaborar material didáctico como estrategia para mejorar el aprendizaje del
tema aprendizaje por refuerzo en el ámbito de la inteligencia Artificial.
Resultados esperados
Con este anteproyecto se espera contar con una herramienta que permita hacer un
seguimiento del aprendizaje por refuerzo, poniendo en evidencia que la asignatura que
dicta este tema o técnica es la inteligencia artificial y sabemos que no se cuenta con
material educativo que permita que se pueda volver enseñar, facilitará establecer cómo
estará día a día nuestro entorno en Tunja o en cualquier otro lugar donde se pueda
implementar. También se elaborará un material didáctico y educativo que permita a la
comunidad estudiantil de la universidad de Boyacá aprender dicho tema para reforzar
todo el tiempo perdido y cómo podemos aportar para reducir y controlar los problemas
causados por la falta de la técnica.
Proyección de los resultados esperados con el desarrollo del proyecto.
Objetivo Específico Resultado/Producto Indicador Beneficiario

esperado
Identificar los Encontrar los Identificar uno a uno Los beneficiarios

factores que están factores que los factores que sería la comunidad
afectando el permitan cumplir afectan el no estudiantil porque
aprendizaje de la este objetivo y así obtener la técnica de traería mejoras para
técnica de mismo recopilar la aprendizaje por un aprendizaje
aprendizaje por mayor información refuerzo anexada al apropiado.
refuerzo. para disminuir la área.
problemática.
Establecer una Obtener la mejor Plantear la mejor Los beneficiarios

metodología que estrategia para darle estrategia para sería la comunidad
permita a los a la comunidad mejorar la calidad de estudiantil porque
estudiantes tomar estudiantil un buen aprendizaje en el traería mejoras para
en sus clases el aprendizaje. área. un aprendizaje
aprendizaje por apropiado.
refuerzo.
Elaborar material Obtener las cartillas, Realizar un Los beneficiarios

didáctico como revistas y amalgama de sería la comunidad
estrategia para aplicaciones para propuestas para estudiantil porque
mejorar el ayudar a contribuir sacar el mejor traería mejoras para
aprendizaje del tema con un buen método didáctico y un aprendizaje
aprendizaje por aprendizaje. educativo para la apropiado.
refuerzo en el recuperación de la
ámbito de la técnica de
inteligencia Artificial. aprendizaje por
refuerzo
Impacto ambiental
Se tiene previsto que con este proyecto no puede haber ninguna situación que sea
perjudicial al medio ambiente ya que el impacto que esto pueda causar es mínimo, debido a
que solo tiene acceso aquellas personas especializadas en el tema sobre la inteligencia
artificial y sus derivados en este caso la técnica de aprendizaje por refuerzo.
Consideraciones éticas
En el proyecto que se realizará se tendrá en cuenta todas las consideraciones éticas

pertinentes, para no tener alguna queja o reclamo por parte de los autores, debido a que es
importante tener en cuenta en el transcurso del desarrollo de dicho proyecto. Por
consiguiente, todo material recolectado ya sea fotos, videos y demas archivos deben ser bajo
consentimiento informado a la persona que sea partícipe en el desarrollo del proceso.
Presupuesto
Lo que se quiere es tener un patrocinador que permita desarrollar el proyecto y porque no, a
futuro el proyecto para que sirva de soporte ante cada una de las etapas que se tendrán en
cuenta a través del tiempo y así poder darle a la comunidad estudiantil.
▪ Recursos institucionales:
No existe institución alguna por el momento que apoye el proyecto.
▪ Recursos humanos:
Investigadores son los estudiantes de ingeniería de sistemas Blanca Janeth Gomez con los
asesores del anteproyecto leidy Johana docente encargada de la asignatura donde se lleva a
cabo el anteproyecto.
▪ Recursos materiales:
- Manejo de encuestas.
- Recopilación de muestras.
- Tabulacion de informacion.
- Mano de Obra.
- Aplicación de seguimiento.
Presupuesto Global
RUBROS AÑO 1
EFECTIVO ESPECIE
Honorarios 1.800.000
Servicios técnicos 200.000
Laboratorios y equipos 2.000.000
Software 1.500.000
Materiales y suministros 2.000.000
Eventos académicos 500.000
Impresos y publicaciones 1.000.000
Material bibliográfico 800.000
Subtotal
Total
Cronograma
TIEMP M
O a
A M J J A S O N D
r
b a u u g e c o i
ITEM .
r y n l o p t v c
ACTIVIDAD /
. . . . . . . . .
2
0
1 Obj. -Identificar los factores que X X
están afectando el aprendizaje X X X X
de la técnica de aprendizaje
por refuerzo.
Análisis de requerimientos e
fase 1
Investigaciones existentes.
fase 2 Diseño de prototipo.
-Establecer una metodología

que permita a los estudiantes
2 Obj.
tomar en sus clases el X X X
fase 3 Construcción de prototipo.
Elaborar material didáctico

como estrategia para mejorar
el aprendizaje del tema
3 Obj. aprendizaje por refuerzo en el X X X X X X
ámbito de la inteligencia
Artificial. X

Pruebas y Análisis de
fase 4
resultados.
fase 5 Comunicación de resultados.

REFERENCIAS
Díaz Iza, H. (2015). Programación dinámica y aprendizaje por refuerzo "Simulación y

aplicaciones a sistemas electromecánicos." Tomado de: https://bit.ly/2lWr1ZJ [Acceso 9
septiembre. 2019].
Domínguez Estévez, F. (2017). Entrenando bots para juegos mediante aprendizaje por
refuerzo basado en casos. Tomado de: https://bit.ly/2lWrScT [Acceso 9 septiembre. 2019].
Deltell Mendicute, J., Lorente Sánchez, A., & Martínez Dotor, J. (2015). Resolución de
laberintos en StarCraft empleando aprendizaje por refuerzo. Tomado de:
https://bit.ly/2lUvCM0 [Acceso 9 septiembre. 2019].
Romero Reviriego, A. (2019). Aprendizaje por Refuerzo Aplicado a Personajes No

Controlables en Minetest. Tomado de: https://bit.ly/2lPNzvi [Acceso 9 septiembre. 2019].
De Lope, J. (2008). Aprendizaje por Refuerzo en Robótica Autónoma. Tomado de:

https://bit.ly/2mjypyR [Acceso 9 septiembre. 2019].
Ruiz-Montiel, M., Mandow, L., & Pérez de la Cruz, J. (2013). PQ-learning: Aprendizaje por
refuerzo multiobjetivo. Tomado de: from https://bit.ly/2miLpog [Acceso 9 septiembre. 2019].
Martín H, J., & Ruiz, J. (2004). Formalización de maniobras en robots con múltiples grados de
libertad como sistemas multiagente. Tomado de: from https://bit.ly/2klv1CT [Acceso 9
septiembre. 2019].
Romero Reviriego, A. (2019). Aprendizaje por Refuerzo Aplicado a Personajes No

Controlables en Minetest. Tomado de:
https://upcommons.upc.edu/bitstream/handle/2117/131009/136884.pdf?
sequence=1&isAllowed=y [Acceso 9 septiembre. 2019].
Captcha. (2019). Conceptos de inteligencia artificial: qué es el aprendizaje por refuerzo
[Image].Tomadode:https://www.xataka.com/inteligencia-artificial/conceptos-inteligencia-
artificial-que-aprendizaje-refuerzo.

Anteproyecto-Seminario v1

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Anteproyecto-Seminario v1

Загружено:

Авторское право:

Доступные форматы

El documento no cumple con la totalidad de requisitos de forma evaluados en

Es necesario revisar la coherencia entre los objetivos y la formulación y

Nota: 3.3 - Blanca

Técnica de aprendizaje de inteligencia artificial "Aprendizaje por refuerzo".

2. ANTECEDENTES Y/O ESTADO DEL ARTE

La programación dinámica (DP, Dynamic programming) y el aprendizaje por refuerzo

El aprendizaje por refuerzo es una cabida de la programación dinámica que produce

Los videojuegos son un interesante campo de estudio para muchos investigadores de

Se requiere describir y analizar el aprendizaje por refuerzo RL, un algoritmo multiobjetivo

FORMULACIÓN DEL PROBLEMA

¿los estudiantes de inteligencia artificial del programa de ingeniería de sistemas de la

SISTEMATIZACIÓN DEL PROBLEMA

El trabajo consiste en un análisis descriptivo de una problemática, donde encontramos el

● Identificar los factores que están afectando el aprendizaje de la técnica de aprendizaje

Un proceso de decisión de Markov, es un prototipo matemático que claramente

Teniendo en cuenta que el aprendizaje por refuerzo es una de las técnicas de la

El lugar donde se hará el estudio sobre la técnica de aprendizaje por refuerzo es en la

Educación y medios tecnológicos.

Tipo y diseño de investigación

Fase 1: Análisis de requerimientos e Investigaciones existentes.

Fase 2: Diseño de prototipo:

Fase 3: Construcción de prototipo

Fase 4: Pruebas y Análisis de resultados

Fase 5: Comunicación de resultados

Fuentes de información (primarias y secundarias)

En el proyecto de investigación sobre “Técnica de aprendizaje de inteligencia artificial

Técnicas y herramientas de recolección de información

Técnicas para la evaluación de resultados

Esquema temático del documento final

Proyección de los resultados esperados con el desarrollo del proyecto.

Objetivo Específico Resultado/Producto Indicador Beneficiario

Identificar los Encontrar los Identificar uno a uno Los beneficiarios

Establecer una Obtener la mejor Plantear la mejor Los beneficiarios

Elaborar material Obtener las cartillas, Realizar un Los beneficiarios

En el proyecto que se realizará se tendrá en cuenta todas las consideraciones éticas

Servicios técnicos 200.000

Laboratorios y equipos 2.000.000

Materiales y suministros 2.000.000

Eventos académicos 500.000

Impresos y publicaciones 1.000.000

Material bibliográfico 800.000

fase 2 Diseño de prototipo.

-Establecer una metodología

fase 3 Construcción de prototipo.

Elaborar material didáctico

fase 5 Comunicación de resultados.

Díaz Iza, H. (2015). Programación dinámica y aprendizaje por refuerzo "Simulación y

Romero Reviriego, A. (2019). Aprendizaje por Refuerzo Aplicado a Personajes No

De Lope, J. (2008). Aprendizaje por Refuerzo en Robótica Autónoma. Tomado de:

Romero Reviriego, A. (2019). Aprendizaje por Refuerzo Aplicado a Personajes No

Вам также может понравиться