ConvAtt Network: a low parameter approach for sign language recognition

Ríos, Gastón Gustavo; Dal Bianco, Pedro Alejandro; Ronchetti, Franco; Ponte Ahón, Santiago Andrés; Stanchi, Oscar Agustín; Hasperué, Waldo

Buscar material

Busque entre los 168688 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Revistas
→
Journal of Computer Science & Technology
→
Volumen 24 | Número 02

ConvAtt Network: a low parameter approach for sign language recognition

2024

Tipo de documento: Articulo

Resumen

En inglés

Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.

En español

A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros.

Información general

Fecha de publicación: octubre 2024

Idioma del documento: Inglés

Revista: Journal of Computer Science & Technology; vol. 24, no. 2

Institución de origen: Facultad de Informática

ISSN: 1666-6038

Páginas: 104-110

Palabras claves: deep learning ; sequence classification ; sign language recognition ; unbalanced data ; aprendizaje profundo ; clasificación de sequencias ; reconocimiento de lenguas de señas ; datos desbalanceados

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (3.704Mb) - PDF

BASE

GoogleScholar

Creado el: 27 de noviembre de 2024

Disponible en SEDICI desde: 27 de noviembre de 2024

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/173739

https://doi.org/10.24215/16666038.24.e10

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Journal of Computer Science & Technology → Volumen 24 | Número 02

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión