Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios

Errecalde, Marcelo Luis; Muchut, Alfredo

Buscar material

Busque entre los 169024 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
CACIC
→
CACIC 2001

Mostrar el registro sencillo del ítem

dc.date.accessioned	2012-11-01T12:12:54Z
dc.date.available	2012-11-01T12:12:54Z
dc.date.issued	2001-10
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/23400
dc.description.abstract	El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.	es
dc.language	es	es
dc.subject	ARBM (Aprendizaje por Refuerzo Basado en Modelo)	es
dc.subject	Intelligent agents	es
dc.subject	Learning	es
dc.subject	aprendizaje por refuerzo	es
dc.subject	ARTIFICIAL INTELLIGENCE	es
dc.subject	modelos	es
dc.subject	arquitectura Dyna	es
dc.subject	heurística	es
dc.title	Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios	es
dc.type	Objeto de conferencia	es
sedici.creator.person	Errecalde, Marcelo Luis	es
sedici.creator.person	Muchut, Alfredo	es
sedici.description.note	Eje: Sistemas inteligentes	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Red de Universidades con Carreras en Informática (RedUNCI)	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
sedici.date.exposure	2001-10
sedici.relation.event	VII Congreso Argentino de Ciencias de la Computación	es
sedici.description.peerReview	peer-review	es

Descargar archivos

Documento completo
Descargar archivo (440.7Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

CACIC → CACIC 2001

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Iniciar sesión