DeepSeek-R1, comment est-ce possible ?

Guillaume Besson
2 min read3 days ago

--

DeepSeek-R1.

Un nom inconnu il y a quelques semaines, mais qui a fait couler beaucoup d’encre numérique depuis.

DeepSeek AI est une entreprise chinoise, qui a récemment publié un Large Language Model qui a fait grand bruit, et ce pour deux raisons :
• Il s’agit d’un Large Language Model très performant, capable de rivaliser sur papier avec les meilleurs modèles existants, tel que o1 de OpenAI
• Il s’agit d’un modèle open source, là où la plupart des grands acteurs proposent des modèles en sources fermées

DeepSeek-R1 est dérivé du modèle DeepSeek-V3-Base, avec 671 milliards de paramètres. Pour son entraînement, ce modèle s’appuie sur une combinaison de reinforcement learning et de règles fixes, à travers la méthode GRPO.

La méthode GRPO, pour Group Relative Policy Optimization, a été conçue par DeepSeek AI.

Le principe de la GRPO consiste à orienter l’apprentissage d’un modèle en calculant une récompense pour chaque sortie à l’aide de règles prédéfinies, utilisées pour analyser les différents outputs possibles du modèles à partir d’un input donné.

Parmi ces règles :
• Certaines vérifient la justesse des réponses, notamment dans les problèmes mathématiques
• D’autres structurent le raisonnement et les résultats, pour améliorer la cohérence des réponses

La GRPO présente notamment l’avantage d’éliminer le besoin d’évaluateurs neuronaux complexes, et donc de réduire à la fois le coût d’entraînement total et le risque de détournement des récompenses, le fameux “reward hacking”.

Plus étonnant encore, une version de ce modèle baptisée DeepSeek-R1-Zero a été construite et entraînée de manière très atypique.

Contrairement aux approches traditionnelles, DeepSeek-R1-Zero abandonne la phase de fine-tuning supervisé, grand classique de l’entraînement initial des Large Language Models, pour n’utiliser que la GRPO.

Par ailleurs, DeepSeek-R1 introduit un nouveau concept, le “moment Aha” :
• Lorsqu’il rencontre un problème très complexe, le modèle commence par formuler une réponse initiale
• Puis, il se met à réévaluer son raisonnement en identifiant d’éventuelles incohérences

Cette auto-correction révèle une capacité à identifier et corriger certaines erreurs.

Cependant et bien que novateur, DeepSeek-R1 présente des limites, dont la dépendance à des règles pré-définies qui limite fortement sa flexibilité. Par ailleurs, l’efficacité du “moment Aha” reste à prouver dans des contextes moins structurés.

DeepSeek-R1 est donc un jalon dans le développement des Large Language Models, à travers son côté open source mais aussi ses nombreuses innovations de structure et de fonctionnement.

En revoyant les fondements mêmes de l’entraînement des modèles, DeepSeek-R1 offre à la fois une alternative potentielle aux modèles existants et un élément d’intérêt pour la communauté scientifique.

Le papier présentant DeepSeek-R1 est disponible sur arXiv : https://lnkd.in/ex9riR9m

Post LinkedIn originel : https://www.linkedin.com/posts/guillaumebesson_deepseek-r1-un-nom-inconnu-il-y-a-quelques-activity-7289539771826069504-ocgM

--

--

Guillaume Besson
Guillaume Besson

Written by Guillaume Besson

AI Strategist, sharing about Artificial Intelligence news and innovations under a business perspective | @GuillaumeBess13

No responses yet