Entraînement de modèles de langage mRNA sur 25 espèces pour 165$

Introduction

OpenMed a développé un pipeline de traitement de données pour la prédiction de la structure des protéines, la conception de séquences et l'optimisation des codons. Le but est de créer un système capable de passer d'un concept de protéine thérapeutique à une séquence d'ADN synthétisable en un après-midi.

Contexte Technique

Le pipeline comporte trois composants : la prédiction de la structure 3D des protéines, la conception de séquences d'acides aminés et l'optimisation des codons. Les composants de prédiction de structure et de conception de séquences utilisent des outils établis tels que ESMFold et ProteinMPNN. L'optimisation des codons repose sur de nouveaux modèles et une nouvelle infrastructure d'entraînement.

Les expériences ont porté sur la comparaison d'architectures de transformateurs pour l'optimisation des codons, en utilisant des données de séquences de codons de E. coli. Les résultats ont montré que l'architecture RoBERTa surperforme les autres, notamment ModernBERT, avec une perplexité de 4,10 et une corrélation de Spearman de 0,40.

Analyse et Implications

L'optimisation des codons est cruciale pour la production de protéines thérapeutiques, de vaccins et de protéines recombinantes. Les résultats montrent que les modèles pré-entraînés sur des données de langage naturel ne transfèrent pas bien aux données biologiques. L'hyperparamètre de taux d'apprentissage et la durée de préchauffage ont un impact significatif sur les performances du modèle.

Les implications de ces résultats sont importantes pour le développement de systèmes de traitement de données pour la biologie et la médecine. Les modèles de langage basés sur l'architecture RoBERTa pourraient être utilisés pour améliorer la prédiction de la structure des protéines et l'optimisation des codons.

Perspective

Les prochaines étapes consisteront à affiner les modèles et à les appliquer à d'autres espèces et à d'autres types de données biologiques. Il faudra également développer des outils et des interfaces pour faciliter l'utilisation de ces modèles par les chercheurs et les professionnels de la santé.

Enfin, il est important de noter que ces résultats sont basés sur des expériences menées avec des données spécifiques et qu'il faudra les valider avec d'autres jeux de données pour confirmer leur généralité.

Entraînement de modèles de langage mRNA sur 25 espèces pour 165$

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Profiling PyTorch : Attention

Données pour les agents

vLLM transformers backend à vitesse native

De Hugging Face à Amazon SageMaker Studio en un clic

Entraînement de modèles de langage mRNA sur 25 espèces pour 165$

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Profiling PyTorch : Attention

Données pour les agents

vLLM transformers backend à vitesse native

De Hugging Face à Amazon SageMaker Studio en un clic

Sauvegarder l'article