Desarrollo de un componente de stemming para el idioma castellano

Castiglioni, Leonardo; Chiarvetto Peralta, Lucila

Buscar material

Busque entre los 171322 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Desarrollo de un componente de stemming para el idioma castellano

Autores: Castiglioni, Leonardo | Chiarvetto Peralta, Lucila

2010

Tipo de documento: Objeto de conferencia

Resumen

El lexema es el elemento que contiene la significación de una palabra, llamado raíz, base o stem. El objetivo del stemming es mejorar la performance de los sistemas de recuperación de información agrupando bajo un mismo stem todas las formas en que varía una palabra que comparten significado común. Es posible realizar el stemming mediante un algoritmo que use reglas gramaticales de derivación morfológica. En este trabajo se plantea extender el uso de un stemmer algorítmico mediante el empleo de una lista de excepciones (diccionario). Se implementó un componente de software en Java utilizando un desarrollo previo llamado Snowball. Para la evaluación se usó un corpus de páginas web en español al cual se le aplicó stemming. Se empleó luego el clasificador naïve bayesiano, mediante el cual se comparó el poder de categorización del mismo sobre el corpus procesado vs. no procesado. En los resultados obtenidos se observó una significativa reducción en el tamaño de los índices tras la aplicación de los algoritmos de stemming sin que esto implicara un detrimento de la capacidad de clasificación.

Información general

Fecha de exposición: 2010

Fecha de publicación: 2010

Idioma del documento: Español

Evento: Concurso de Trabajos Estudiantiles (EST 2010) - JAIIO 39 (UADE, 30 de agosto al 3 de septiembre de 2010)

Institución de origen: Sociedad Argentina de Informática e Investigación Operativa

ISSN: 1850-2946

Páginas: 982-1002

Palabras claves: stemming ; Español ; Snowball ; stem ; lexema

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (402.3Kb) - PDF

Enlace externo

39jaiio.sadio.org.ar/...

BASE

GoogleScholar

Creado el: 17 de mayo de 2023

Disponible en SEDICI desde: 17 de mayo de 2023

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/153112

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

39 Jornadas Argentinas de Informática e Investigación Operativa (JAIIO) → Concurso de Trabajos Estudiantiles (EST 2010)

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión