Busque entre los 166494 recursos disponibles en el repositorio
Mostrar el registro sencillo del ítem
dc.date.accessioned | 2012-11-01T12:12:54Z | |
dc.date.available | 2012-11-01T12:12:54Z | |
dc.date.issued | 2001-10 | |
dc.identifier.uri | http://sedici.unlp.edu.ar/handle/10915/23400 | |
dc.description.abstract | El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original. | es |
dc.language | es | es |
dc.subject | ARBM (Aprendizaje por Refuerzo Basado en Modelo) | es |
dc.subject | Intelligent agents | es |
dc.subject | Learning | es |
dc.subject | aprendizaje por refuerzo | es |
dc.subject | ARTIFICIAL INTELLIGENCE | es |
dc.subject | modelos | es |
dc.subject | arquitectura Dyna | es |
dc.subject | heurística | es |
dc.title | Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios | es |
dc.type | Objeto de conferencia | es |
sedici.creator.person | Errecalde, Marcelo Luis | es |
sedici.creator.person | Muchut, Alfredo | es |
sedici.description.note | Eje: Sistemas inteligentes | es |
sedici.subject.materias | Ciencias Informáticas | es |
sedici.description.fulltext | true | es |
mods.originInfo.place | Red de Universidades con Carreras en Informática (RedUNCI) | es |
sedici.subtype | Objeto de conferencia | es |
sedici.rights.license | Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) | |
sedici.rights.uri | http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ | |
sedici.date.exposure | 2001-10 | |
sedici.relation.event | VII Congreso Argentino de Ciencias de la Computación | es |
sedici.description.peerReview | peer-review | es |