Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores

Gean, Chu Chia

Buscar material

Busque entre los 169838 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
CACIC
→
CACIC 2004

Mostrar el registro sencillo del ítem

dc.date.accessioned	2012-10-16T15:09:39Z
dc.date.available	2012-10-16T15:09:39Z
dc.date.issued	2004
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/22507
dc.description.abstract	Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.	pt
dc.description.abstract	Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented.	en
dc.language	pt	es
dc.subject	Intelligent agents	es
dc.subject	Recuperação de Informações	pt
dc.subject	ARTIFICIAL INTELLIGENCE	es
dc.subject	Classificação Automática de Documentos	pt
dc.subject	Aprendizagem de Máquina Baseada em Instâncias	pt
dc.subject	Subespaços Aleatórios	pt
dc.subject	Conjuntos de Classificadores	pt
dc.subject	Information Retrieval	en
dc.subject	Automatic Text Categorization	en
dc.subject	nstance-Based Machine Learning	en
dc.subject	Random Subspaces	en
dc.subject	Multiple classifiers	en
dc.title	Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores	pt
dc.type	Objeto de conferencia	es
sedici.creator.person	Gean, Chu Chia	es
sedici.description.note	Eje: V - Workshop de agentes y sistemas inteligentes	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Red de Universidades con Carreras en Informática (RedUNCI)	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
sedici.relation.event	X Congreso Argentino de Ciencias de la Computación	es
sedici.description.peerReview	peer-review	es

Descargar archivos

Documento completo
Descargar archivo (149.5Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

CACIC → CACIC 2004

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Iniciar sesión