Evaluating transfer learning for classification of proteins in bioinformatics

Vitale, Rosario; Stegmayer, Georgina

Buscar material

Busque entre los 171119 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Evaluating transfer learning for classification of proteins in bioinformatics

Autores: Vitale, Rosario | Stegmayer, Georgina

2023

Tipo de documento: Objeto de conferencia

Resumen

En español

Este estudio presenta una solución para mejorar significativamente la clasificación de proteínas en familias o dominios utilizando transfer learning. Con más de 229 millones de proteínas en UniProtKB, solo el 0.25% de ellas han sido anotadas y clasificadas en más de 17,000 familias posibles. Recientemente, aparecieron modelos de aprendizaje profundo (DL) para esta tarea. Sin embargo, los modelos requieren grandes cantidades de datos para el entrenamiento, y la mayoría de las familias tienen solamente algunos ejemplos. Para abordar este problema, proponemos la aplicación de Transfer Learning (TL). Este enfoque implica un aprendizaje auto supervisado en conjuntos de datos grandes y no etiquetados para generar un vector numérico para cada entrada. Esta representación aprendida se puede usar con aprendizaje supervisado en un conjunto de datos pequeño y etiquetado para una tarea de clasificación específica. Los resultados logrados en este estudio indican que el uso de TL para la clasificación de familias de proteínas puede reducir el error de predicción en un 55% en comparación con los métodos estándar y en un 32% en comparación con los modelos de DL con representaciones de entrada simples, como la codificación one hot. Este estudio demuestra que el TL es una técnica efectiva y prometedora para mejorar la clasificación y anotación de proteínas en bases de datos grandes pero no anotadas.

En inglés

This study presents a solution to significantly improve protein classification into families or domains using transfer learning. With more than 229 million proteins in UniProtKB, only 0.25% of them have been annotated and classified into over 17,000 possible families. Recently, deep learning (DL) models appeared for this task. However, DL models require large amounts of data for training, and most protein families have just a few examples. To tackle this issue, we propose the application of Transfer Learning (TL) to the classification problem. The TL approach involves self-supervised learning on large and unlabeled datasets to generate a numerical embedding for each data point. This representation learned can then be used with supervised learning on a small, labeled dataset for a specific classification task. The results achieved in this study indicate that using TL for protein families classification can reduce the prediction error by 55% compared to standard methods and by 32% compared to DL models with simple input representations such as one-hot encoding. This study demonstrates that transfer learning is an effective and promising technique to improve protein classification and annotation in large and yet un-annotated databases.

Información general

Fecha de exposición: septiembre 2023

Fecha de publicación: 2023

Idioma del documento: Inglés

Evento: Simposio Argentino de Inteligencia Artificial (ASAI 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)

Institución de origen: Sociedad Argentina de Informática e Investigación Operativa

ISSN: 2451-7496

Páginas: 25-36

Palabras claves: Machine learning ; Transfer learning ; Classification ; Protein family

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (447.9Kb) - PDF

Enlace externo

publicaciones.sadio.org.ar/...

BASE

GoogleScholar

Creado el: 10 de mayo de 2024

Disponible en SEDICI desde: 10 de mayo de 2024

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/165928

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

52 Jornadas Argentinas de Informática e Investigación Operativa (JAIIO) → Vol. 9, no. 02 | Simposio Argentino de Inteligencia Artificial (ASAI 2023)

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión