Introduction

Le robot Reachy Mini peut désormais fonctionner de manière locale, sans avoir besoin de recourir à des services cloud ou à des clés API. Cela est rendu possible grâce à la bibliothèque speech-to-speech et au serveur LLM llama.cpp. Cette solution permet une conversation locale, sans frais et avec un contrôle total sur le pipeline.

Contexte Technique

Le pipeline de conversation est composé de quatre étapes : VAD (Voice Activity Detection), STT (Speech-To-Text), LLM (Language Model) et TTS (Text-To-Speech). La bibliothèque speech-to-speech utilise une approche en cascade, ce qui permet de remplacer facilement chaque composant. Le serveur LLM llama.cpp est utilisé pour servir le modèle de langage.

Les composants recommandés sont llama.cpp avec Gemma 4, Silero VAD, Parakeet-TDT STT et Qwen3-TTS. Il est possible de personnaliser ces composants pour optimiser les performances.

Analyse et Implications

La solution locale présente plusieurs avantages, notamment la privacy, car les données audio ne quittent pas le réseau local, et les coûts, car il n'y a pas de frais par minute ou par jeton. De plus, la solution offre un contrôle total sur le pipeline, ce qui permet de remplacer facilement chaque composant.

Cependant, la solution locale peut présenter des limites, notamment en termes de performances et de latence. Il est important de choisir les bons composants et de les configurer correctement pour optimiser les performances.

Perspective

La solution locale pour le robot Reachy Mini est une étape importante vers une conversation plus sécurisée et plus performante. Il est important de continuer à améliorer les composants et les algorithmes pour optimiser les performances et la latence. De plus, il est important de prendre en compte les limites de la solution locale et de planifier les prochaines étapes pour améliorer la conversation et les interactions avec le robot.