Introduction
Les startups d'évaluation d'IA, également appelées évaluateurs d'IA, sont des entreprises qui se spécialisent dans l'évaluation et la comparaison des performances des modèles d'IA. Malgré leur importance, ces startups ont du mal à réussir. Dans cet article, nous allons explorer les raisons derrière cet échec.
Contexte Technique
Les évaluateurs d'IA sont essentiels pour aider les développeurs à choisir les meilleurs modèles d'IA pour leurs applications. Cependant, les startups qui se spécialisent dans l'évaluation d'IA ont du mal à attirer et à retenir les talents, car les personnes qui sont capables de concevoir et de mettre en œuvre de bonnes évaluations peuvent gagner plus d'argent et avoir plus d'influence dans d'autres parties de la chaîne de développement de modèles d'IA.
De plus, les startups d'évaluation d'IA ont du mal à trouver des clients, car les clients potentiels doivent être des développeurs techniques qui veulent construire des applications à l'aide d'API, mais qui ne sont pas suffisamment techniques pour exécuter leurs propres évaluations. Les startups d'évaluation d'IA sont également confrontées à une pression d'optimisation énorme, ce qui les rend inutiles, à la fois en raison de l'optimisation classique et de la pression exercée par les développeurs de modèles d'IA.
Analyse et Implications
Les startups d'évaluation d'IA qui réussissent à surmonter ces obstacles doivent ensuite faire face aux grands laboratoires d'IA, qui sont fortement incités à améliorer leurs performances sur les évaluations publiques et à appliquer des pressions et des astuces pour améliorer leurs chiffres. Une fois que les benchmarks sont ciblés, les modèles d'IA peuvent s'améliorer rapidement, que ce soit par des ajustements benignes comme l'inclusion de données plus diverses ou par la formation sur des données de test.
Cela signifie que les startups d'évaluation d'IA doivent être prudentes face à une relation potentiellement adversaire avec les grands laboratoires d'IA, qui ne veulent pas perdre leurs propres clients et qui joueront leurs avantages injustes. Les startups d'évaluation d'IA doivent également résister aux tentatives de manipulation et de corruption, telles que les demandes d'employés pour voter pour leurs propres modèles sur les classements publics, le détournement d'employés, l'offre de calcul gratuit en échange de meilleurs résultats, etc.
Perspective
Les startups d'évaluation d'IA peuvent fonctionner lorsqu'elles ciblent spécifiquement les benchmarks de sécurité. Les chercheurs qui veulent travailler sur les évaluations de sécurité tendent à être idéologiquement opposés à travailler sur les capacités, ce qui signifie qu'ils ne migrent pas vers la post-formation ou les applications en raison d'incitations monétaires. Les startups d'évaluation de sécurité peuvent fournir des services à des clients techniques capables de répliquer ces services, car il est spécifiquement important pour les évaluations de sécurité que ces services soient fournis par un fournisseur externe et non seulement réalisés internement.
Les startups d'évaluation de sécurité peuvent également vendre à des décideurs politiques ou avoir des affaires garanties par la réglementation si des propositions d'audits de modèles externes sont adoptées. Les startups d'évaluation de sécurité seront toujours vulnérables à la manipulation, mais si les laboratoires manipulent les évaluations de sécurité, il y a d'autres choses à craindre. Les évaluations de sécurité ont donc des caractéristiques particulières qui les rendent plus propices à réussir que les autres évaluations.