Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

 

Mostrar el registro sencillo del ítem

dc.date.accessioned 2012-10-26T14:34:38Z
dc.date.available 2012-10-26T14:34:38Z
dc.date.issued 2002-10
dc.identifier.uri http://sedici.unlp.edu.ar/handle/10915/23038
dc.description.abstract El modelo básico de Aprendizaje por Refuerzo (AR) está integrado por un agente y un ambiente que interactúan entre sí. El agente debe, mediante un proceso de prueba y error, aprender a mapear situaciones en acciones intentando, a lo largo del tiempo, maximizar la recompensa que el ambiente le provee. El AR caracteriza una clase de problemas de aprendizaje, cuya resolución se ha basado en dos grandes clases de métodos: los Sistemas Clasificadores (SC) y los métodos de diferencia temporal (o métodos TD). El objetivo del presente trabajo es realizar una contribución en la transferencia de experiencias entre SC y métodos TD. Para ello, se presenta un nuevo esquema para la actualización de la fortaleza de las reglas de un Sistema Clasificador, tomando como base el método de TD denominado SARSA. El algoritmo resultante, al que denominamos SARSA BB, tiene varios atributos interesantes: a) su fórmula de actualización se ha demostrado que garantiza la convergencia a una política óptima bajo condiciones particulares; b) no require mayores modificaciones a la forma de actualización estándard utilizada en SC; c) es un algoritmo on-policy y por lo tanto puede tener un mejor desempeño que algoritmos off-policy como Q-Learning, en problemas donde la exploración que efectivamente realiza el agente impacta significativamente en las recompensas recibidas desde el ambiente. Para mostrar este último aspecto, SARSA BB, es comparado con Q-Learning en un problema con estas características. es
dc.format.extent 389-400 es
dc.language es es
dc.subject Sistemas Clasificadores es
dc.subject Algorithms es
dc.subject Aprendizaje por Refuerzo es
dc.subject Learning es
dc.subject Algoritmos on-policy es
dc.title SARSA BB: Un algoritmo on policy para Sistemas Clasificadores es
dc.type Objeto de conferencia es
sedici.creator.person Errecalde, Marcelo Luis es
sedici.creator.person Garis, Ana Gabriela es
sedici.creator.person Leguizamón, Guillermo es
sedici.description.note Eje: Aprendizaje y reconocimiento de patrones es
sedici.subject.materias Ciencias Informáticas es
sedici.description.fulltext true es
mods.originInfo.place Red de Universidades con Carreras en Informática (RedUNCI) es
sedici.subtype Objeto de conferencia es
sedici.rights.license Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
sedici.rights.uri http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
sedici.date.exposure 2002-10
sedici.relation.event VIII Congreso Argentino de Ciencias de la Computación es
sedici.description.peerReview peer-review es


Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)