Breve Introducción a la Minería de Textos

Nusch, Carlos Javier

Buscar material

Busque entre los 169604 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Unidades académicas
→
Presidencia
→
Dirección PREBI-SEDICI
→
Cursos, presentaciones, tutoriales y otros

Breve Introducción a la Minería de Textos

Autor: Nusch, Carlos Javier

2024

Tipo de documento: Clase

Resumen

El presente curso se enfoca en enseñar los fundamentos del procesamiento de lenguaje natural (PLN), minería y análisis automático de textos. A lo largo del curso, los estudiantes aprenderán técnicas básicas y se familiarizarán con herramientas de Python como NLTK y spaCy. Se ejecutan ejemplos prácticos, nubes de palabras y modelado de tópicos. El curso cubre varios términos clave, incluyendo análisis automático de textos, minería de textos y lingüística de corpus, que estudia grandes colecciones de textos para identificar patrones en el uso del lenguaje. Además, se abordan conceptos relacionados como recuperación de la información, aprendizaje automático y profundo. El curso destaca las aplicaciones prácticas del PLN en la vida cotidiana, como los asistentes virtuales, la traducción automática, el análisis de sentimientos y los sistemas de recomendación, y se presenta una breve historia de los hitos del PLN, desde los primeros sistemas basados en reglas hasta los avances modernos con transformers como BERT y GPT. Los temas dados incluyen el preprocesamiento del texto (tokenización, eliminación de palabras vacías, lematización), técnicas de vectorización como Bag of Words y TF-IDF, y análisis más avanzados como etiquetado de partes del discurso y detección de entidades nombradas. En el módulo de minería de textos, se exploran etapas como el enriquecimiento (añadir metadatos), la extracción de características y la aplicación de modelos estadísticos o de aprendizaje automático. También se introduce el modelado de tópicos mediante Latent Dirichlet Allocation (LDA) y su utilidad para identificar temas ocultos en grandes corpus de documentos.

Notas

Curso dictado en el marco del VI Congreso Internacional de la Asociación Argentina de Humanidades Digitales. Humanos que piensan con máquinas. (Resistencia, 2024)

Información general

Fecha de publicación: 1 de octubre de 2024

Idioma del documento: Español

Institución de origen: Dirección PREBI-SEDICI

Palabras claves: Procesamiento del Lenguaje Natural (PLN) ; Minería de textos ; Análisis automático de textos ; NLTK ; spaCy ; Latent Dirichlet Allocation (LDA)

Materias: Informática ; Humanidades

Descargar archivos

Documento completo
Descargar archivo (8.431Mb) - PDF

BASE

GoogleScholar

Creado el: 18 de octubre de 2024

Disponible en SEDICI desde: 18 de octubre de 2024

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/171646

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Dirección PREBI-SEDICI → Cursos, presentaciones, tutoriales y otros

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión