A study on pose-based deep learning models for gloss-free sign language translation

Dal Bianco, Pedro Alejandro; Ríos, Gastón Gustavo; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo Manuel; Ronchetti, Franco

Buscar material

Busque entre los 169065 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Revistas
→
Journal of Computer Science & Technology
→
Volumen 24 | Número 02

Mostrar el registro sencillo del ítem

dc.date.accessioned	2024-11-25T18:22:37Z
dc.date.available	2024-11-25T18:22:37Z
dc.date.issued	2024-10
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/173722
dc.description.abstract	Sign Language Translation (SLT) is a challenging task due to its cross-domain nature, different grammars and lack of data. Currently, many SLT models rely on intermediate gloss annotations as outputs or latent priors. Glosses can help models to correctly segment and align signs to better understand the video. However, the use of glosses comes with significant limitations, since obtaining annotations is quite difficult. Therefore, scaling gloss-based models to millions of samples remains impractical, specially considering the scarcity of sign language datasets. In a similar fashion, many models use video data that requires larger models which typically only work on high end GPUs, and are less invariant to signers appearance and context. In this work we propose a gloss-free pose-based SLT model. Using the extracted pose as feature allow for a sign significant reduction in the dimensionality of the data and the size of the model. We evaluate the state of the art, compare available models and develop a keypoint-based Transformer model for gloss-free SLT, trained on RWTH-Phoenix, a standard dataset for benchmarking SLT models alongside GSL, a simpler laboratory-made Greek Sign Language dataset.	en
dc.description.abstract	La Traducción de Lenguaje de Señas es una tarea desafiante ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de Lengua de Señas Griega hecho en un laboratorio.	es
dc.format.extent	99-103	es
dc.language	en	es
dc.subject	Deep Learning	es
dc.subject	Gloss-free	es
dc.subject	Pose Estimation	es
dc.subject	Sign Language Datasets	es
dc.subject	Sign Language Translation	es
dc.subject	Bases de Datos de Lenguaje de Señas	es
dc.subject	Estimación de Poses	es
dc.subject	Lenguaje de Señas	es
dc.subject	Libre de Glosas	es
dc.subject	Traducción de Lenguaje de Señas	es
dc.title	A study on pose-based deep learning models for gloss-free sign language translation	en
dc.title.alternative	Estudio sobre modelos de aprendizaje profundo basados en poses para traducción de lengua de señas sin glosas	es
dc.type	Articulo	es
sedici.identifier.other	https://doi.org/10.24215/16666038.24.e09	es
sedici.identifier.issn	1666-6038	es
sedici.creator.person	Dal Bianco, Pedro Alejandro	es
sedici.creator.person	Ríos, Gastón Gustavo	es
sedici.creator.person	Hasperué, Waldo	es
sedici.creator.person	Stanchi, Oscar Agustín	es
sedici.creator.person	Quiroga, Facundo Manuel	es
sedici.creator.person	Ronchetti, Franco	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Facultad de Informática	es
sedici.subtype	Articulo	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/
sedici.description.peerReview	peer-review	es
sedici.relation.journalTitle	Journal of Computer Science & Technology	es
sedici.relation.journalVolumeAndIssue	vol. 24, no. 2	es

Descargar archivos

Documento completo
Descargar archivo (3.212Mb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Journal of Computer Science & Technology → Volumen 24 | Número 02

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión