Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

 

Mostrar el registro sencillo del ítem

dc.date.accessioned 2023-05-17T12:53:21Z
dc.date.available 2023-05-17T12:53:21Z
dc.date.issued 2010
dc.identifier.uri http://sedici.unlp.edu.ar/handle/10915/153112
dc.description.abstract El lexema es el elemento que contiene la significación de una palabra, llamado raíz, base o stem. El objetivo del stemming es mejorar la performance de los sistemas de recuperación de información agrupando bajo un mismo stem todas las formas en que varía una palabra que comparten significado común. Es posible realizar el stemming mediante un algoritmo que use reglas gramaticales de derivación morfológica. En este trabajo se plantea extender el uso de un stemmer algorítmico mediante el empleo de una lista de excepciones (diccionario). Se implementó un componente de software en Java utilizando un desarrollo previo llamado Snowball. Para la evaluación se usó un corpus de páginas web en español al cual se le aplicó stemming. Se empleó luego el clasificador naïve bayesiano, mediante el cual se comparó el poder de categorización del mismo sobre el corpus procesado vs. no procesado. En los resultados obtenidos se observó una significativa reducción en el tamaño de los índices tras la aplicación de los algoritmos de stemming sin que esto implicara un detrimento de la capacidad de clasificación. es
dc.format.extent 982-1002 es
dc.language es es
dc.subject stemming es
dc.subject Español es
dc.subject Snowball es
dc.subject stem es
dc.subject lexema es
dc.title Desarrollo de un componente de stemming para el idioma castellano es
dc.type Objeto de conferencia es
sedici.identifier.uri http://39jaiio.sadio.org.ar/sites/default/files/39jaiio-est-15.pdf es
sedici.identifier.issn 1850-2946 es
sedici.creator.person Castiglioni, Leonardo es
sedici.creator.person Chiarvetto Peralta, Lucila es
sedici.subject.materias Ciencias Informáticas es
sedici.description.fulltext true es
mods.originInfo.place Sociedad Argentina de Informática e Investigación Operativa es
sedici.subtype Objeto de conferencia es
sedici.rights.license Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
sedici.rights.uri http://creativecommons.org/licenses/by-nc-sa/4.0/
sedici.date.exposure 2010
sedici.relation.event Concurso de Trabajos Estudiantiles (EST 2010) - JAIIO 39 (UADE, 30 de agosto al 3 de septiembre de 2010) es
sedici.description.peerReview peer-review es


Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)