Creación de una colección de prueba de literatura científica en español para evaluar sistemas de recuperación de información

Tolosa, Gabriel Hernán; Bordignon, Fernando Raúl Alfredo; Peri, Jorge Alberto; Banchero, Santiago

Buscar material

Busque entre los 169345 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
WICC
→
WICC 2005

Creación de una colección de prueba de literatura científica en español para evaluar sistemas de recuperación de información

Autores: Tolosa, Gabriel Hernán | Bordignon, Fernando Raúl Alfredo | Peri, Jorge Alberto | Banchero, Santiago

2005

Tipo de documento: Objeto de conferencia

Resumen

La evaluación de sistemas de recuperación requiere contar con colecciones de prueba compuestas por un corpus de documentos, un conjunto de necesidades de información (tópicos) y los juicios de relevancia. Éstas permiten evaluar diferentes estrategias y sistemas ya que permiten comprender la naturaleza de los resultados, compararlos con otros y reproducir pruebas en iguales condiciones. El proceso de armado de una colección es una tarea que requiere un importante esfuerzo humano ya que no se puede realizar –de manera completa– automáticamente. En este trabajo se plantean los lineamientos para la construcción de una colección de prueba en español de dominio público a partir de artículos de investigación en el área de la informática y las ciencias de la computación. La creación de esta colección –destinada a la evaluación la recuperación “ad-hoc”– persigue como primer objetivo poner a disposición de la comunidad universitaria un corpus de documentos semi-estructurados que permita la evaluación de diferentes estrategias de búsqueda. Además, debido a que el tema de recuperación de información se encuentra en pleno crecimiento consideramos que en los próximos años se evaluará su incorporación como tema de grado en diferentes carreras. Es por ello es que creemos que este corpus sería un buen recurso didáctico para realizar tareas de laboratorio. Un segundo objetivo consiste en recolectar y procesar la mayor cantidad posible de artículos científicos publicados en español y crear una colección mayor que sirva para investigación de diversos aspectos del área de recuperación de información como: extracción de información, clasificación, respuestas a preguntas, resumen automático, entre otros. Se presenta una metodología para la selección de los documentos, la demarcación de su estructura, la creación de los tópicos y de los juicios de relevancia, junto con una primera prueba con un conjunto reducido de documentos.

Notas

Eje: Otros

Información general

Fecha de exposición: mayo 2005

Fecha de publicación: 2005

Idioma del documento: Español

Evento: VII Workshop de Investigadores en Ciencias de la Computación

Institución de origen: Red de Universidades con Carreras en Informática (RedUNCI)

ISBN: 950-665-337-2

Páginas: 20-25

Palabras claves: recuperación de información ; Colecciones ; información ; Literature ; evaluación ; colección de prueba

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (21.36Kb) - PDF

BASE

GoogleScholar

Creado el: 19 de septiembre de 2012

Disponible en SEDICI desde: 19 de septiembre de 2012

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/21173

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

WICC → WICC 2005

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Iniciar sesión