SARSA BB: Un algoritmo on policy para Sistemas Clasificadores

Errecalde, Marcelo Luis; Garis, Ana Gabriela; Leguizamón, Guillermo

Buscar material

Busque entre los 168474 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
CACIC
→
CACIC 2002

Mostrar el registro sencillo del ítem

dc.date.accessioned	2012-10-26T14:34:38Z
dc.date.available	2012-10-26T14:34:38Z
dc.date.issued	2002-10
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/23038
dc.description.abstract	El modelo básico de Aprendizaje por Refuerzo (AR) está integrado por un agente y un ambiente que interactúan entre sí. El agente debe, mediante un proceso de prueba y error, aprender a mapear situaciones en acciones intentando, a lo largo del tiempo, maximizar la recompensa que el ambiente le provee. El AR caracteriza una clase de problemas de aprendizaje, cuya resolución se ha basado en dos grandes clases de métodos: los Sistemas Clasificadores (SC) y los métodos de diferencia temporal (o métodos TD). El objetivo del presente trabajo es realizar una contribución en la transferencia de experiencias entre SC y métodos TD. Para ello, se presenta un nuevo esquema para la actualización de la fortaleza de las reglas de un Sistema Clasificador, tomando como base el método de TD denominado SARSA. El algoritmo resultante, al que denominamos SARSA BB, tiene varios atributos interesantes: a) su fórmula de actualización se ha demostrado que garantiza la convergencia a una política óptima bajo condiciones particulares; b) no require mayores modificaciones a la forma de actualización estándard utilizada en SC; c) es un algoritmo on-policy y por lo tanto puede tener un mejor desempeño que algoritmos off-policy como Q-Learning, en problemas donde la exploración que efectivamente realiza el agente impacta significativamente en las recompensas recibidas desde el ambiente. Para mostrar este último aspecto, SARSA BB, es comparado con Q-Learning en un problema con estas características.	es
dc.format.extent	389-400	es
dc.language	es	es
dc.subject	Sistemas Clasificadores	es
dc.subject	Algorithms	es
dc.subject	Aprendizaje por Refuerzo	es
dc.subject	Learning	es
dc.subject	Algoritmos on-policy	es
dc.title	SARSA BB: Un algoritmo on policy para Sistemas Clasificadores	es
dc.type	Objeto de conferencia	es
sedici.creator.person	Errecalde, Marcelo Luis	es
sedici.creator.person	Garis, Ana Gabriela	es
sedici.creator.person	Leguizamón, Guillermo	es
sedici.description.note	Eje: Aprendizaje y reconocimiento de patrones	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Red de Universidades con Carreras en Informática (RedUNCI)	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
sedici.date.exposure	2002-10
sedici.relation.event	VIII Congreso Argentino de Ciencias de la Computación	es
sedici.description.peerReview	peer-review	es

Descargar archivos

Documento completo
Descargar archivo (458.0Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

CACIC → CACIC 2002

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Iniciar sesión