De la GRPO à DAPO, la révolution silencieuse dans le RL des LLMsDAPO. La “Group Ratio Policy Optimization” (GRPO) est un concept peu connu, mais c’est elle qui est derrière le succès médiatique de…16h ago16h ago
Des agents brillants mais un système bancal : les pièges des SMAPourquoi certains Systèmes Multi-Agents échouent ? C’est le titre d’un papier écrit en mars 2025 par un groupe de chercheurs en…5d ago5d ago
Agentic LLM Unlearning, une nouvelle approche pour l’oubliLe Machine Unlearning. Un terme étonnant mais qui répond à un besoin clair : retirer des informations d’un modèle d’Intelligence…Mar 31Mar 31
Co-Scientist, un copilote pour la recherche scientifiqueUn Copilot au service de la recherche scientifique. Cela peut paraître fou, même encore aujourd’hui, mais c’est pourtant un sujet qui…Mar 26Mar 26
LangChain vs AtomicAgents, la fin de l’abstraction en IA Générative ?LangChain a été un outil clé pour structurer les applications en IA Générative basées sur les Large Language Models. En proposant une…Mar 191Mar 191
Abacus Positional Embeddings, la révolution du raisonnement mathématique des LLMsUn Large Language Model peut-il apprendre à compter ?Mar 17Mar 17
START, le Large Language Model qui se corrige lui-mêmeLes Large Language Models ont repoussé les limites de ce que les modèles d’Intelligence Artificielle étaient capables de faire. Depuis…Mar 12Mar 12
LLaDa, le premier membre de la famille des Large Language Diffusion ModelsLes Large Language Models se sont imposés dans le traitement du langage naturel, offrant des performances remarquables et une aptitude…Mar 10Mar 10
Les Generative Reward Models, l’unification du RLHF et du RLAIFRLHF et RLAIF. Beaucoup de lettres pour un objectif commun : aligner les réponses des Large Langage Models. Si les Large Langages…Mar 3Mar 3
CoCoMix, les LLMs sortent de la prison des tokensLes Large Langages Models ont progressé à un rythme incroyable ces dernières années, depuis BERT ou GPT-1 jusqu’aux sorties récentes des…Feb 26Feb 26