Claude : comment ne plus gaspiller vos tokens

Depuis fin mars 2026, Anthropic a resserré sa fenêtre glissante d’utilisation pendant les heures de pointe en semaine. Les utilisateurs Pro et Max atteignent leurs limites bien plus vite qu’avant. La raison principale n’est pas la quantité de messages envoyés, c’est la façon dont Claude lit une conversation.

Pour résumer

Claude relit l’intégralité de l’historique à chaque nouveau message, alourdissant la consommation au fil de la conversation
Les limites fonctionnent sur une fenêtre glissante de 5 heures et un plafond hebdomadaire, tous deux mesurés en tokens
Ouvrir un fil par sujet, grouper les questions et choisir le bon modèle suffisent à récupérer une part significative des crédits

Le coût caché de chaque message

La plupart des utilisateurs pensent que leurs crédits s’épuisent en fonction du nombre de messages envoyés. Ce n’est pas ainsi que ça fonctionne. Claude ne traite pas chaque message de façon isolée : il relit l’intégralité de la conversation depuis le début à chaque nouvel échange. Le premier message coûte presque rien. Le trentième force le modèle à retraiter vingt-neuf échanges complets avant de traiter la question en cours.

Ce comportement est inhérent à l’architecture des grands modèles de langage, pas à Claude en particulier. Mais il a une conséquence directe : un fil de conversation qui s’allonge devient exponentiellement coûteux, même si le contenu de chaque message individuel reste simple.

Plusieurs facteurs amplifient ce phénomène. La longueur des fichiers joints, l’activation d’outils comme la recherche web ou le mode Research, la création d’Artefacts (documents, tableaux, présentations). Anthropic confirme dans sa documentation que ces outils sont particulièrement gourmands en tokens. Un seul appel au mode Research dans une conversation longue peut représenter une part significative de la limite de session.

La fenêtre de contexte totale disponible est de 200 000 tokens pour tous les plans payants, sauf Enterprise qui dispose de 500 000 tokens sur certains modèles. C’est la mémoire de travail de Claude pour un échange donné. Mais cette limite n’est pas ce qui déclenche les blocages les plus fréquents. Ce sont les limites de session et hebdomadaire qui entrent en jeu bien avant.

La montée en puissance des usages agentiques aggrave la situation. Claude Code, les sessions longues, les tâches multi-étapes consomment bien plus de ressources que le simple chat. Ce que les utilisateurs Pro et Max constatent depuis fin mars n’est pas un changement de quota, mais l’effet mécanique de ces nouveaux usages sur des fenêtres d’utilisation resserrées.

Deux compteurs, deux logiques

Le système de limites de Claude repose sur deux mécaniques distinctes. La limite glissante sur 5 heures fonctionne comme un compteur mobile : elle mesure la quantité de ressources consommées sur une fenêtre de cinq heures en continu. Une fois la limite atteinte, il faut attendre que la jauge se réinitialise progressivement.

La limite hebdomadaire est une enveloppe renouvelée une fois par semaine. Lorsqu’elle est atteinte, l’accès à Claude est suspendu jusqu’à la réinitialisation. Ces deux limites s’appliquent indépendamment et peuvent se déclencher dans des contextes très différents.

Aucune de ces limites n’est mesurée en nombre de messages. Elles sont mesurées exclusivement en tokens. Un token correspond approximativement à un mot, soit trois à quatre caractères. Ce que l’on pense être une conversation légère peut représenter plusieurs milliers de tokens une fois l’historique accumulé pris en compte.

Claude propose un tableau de bord accessible dans Paramètres > Utilisation. Il affiche en temps réel les limites selon les outils activés. Le consulter régulièrement permet d’anticiper les blocages et de planifier les sessions intensives en dehors des heures de pointe si nécessaire.

À voir également sur Horizon :

Les réflexes qui changent vraiment quelque chose

La première erreur à corriger est aussi la plus répandue : mélanger plusieurs sujets dans le même fil de conversation. Chaque sujet abordé alourdit un historique que Claude retraite intégralement à chaque échange. Ouvrir un nouveau fil dès que le sujet change est le réflexe le plus simple et le plus efficace. Pour les sessions longues sur un même thème, demander à Claude un résumé des décisions clés en fin de session, puis repartir sur un nouveau fil avec ce résumé en premier message, permet de transmettre l’essentiel sans payer le coût de l’historique complet.

Deuxième réflexe : grouper les questions. Envoyer trois messages séparés pour trois questions liées force Claude à relire l’historique complet à trois reprises. Les regrouper dans un seul message produit le même résultat pour un tiers de la consommation. Formuler les questions sous forme de liste à l’intérieur d’un message unique suffit à structurer la demande sans multiplier les allers-retours.

L’édition de requête plutôt que la correction dans la discussion est un levier sous-estimé. Lorsque Claude ne fournit pas la réponse attendue, chaque message du type « non, je voulais plutôt dire… » s’empile dans l’historique et sera réinterprété indéfiniment. Le bouton crayon permet de modifier une requête directement : l’échange est remplacé, pas empilé.

Le choix du modèle a un impact direct sur la consommation. Opus est le plus puissant de la gamme, mais aussi le plus coûteux en ressources. Pour une correction orthographique, un reformatage ou une réponse factuelle simple, Sonnet produit des résultats très proches à un coût bien inférieur. Haiku est encore plus économique pour les tâches courtes et répétitives. Réserver Opus aux tâches qui requièrent un raisonnement approfondi permet de préserver l’enveloppe disponible pour ce qui compte vraiment.

Deux pratiques méritent d’être intégrées sur le long terme. La fonction Projet de Claude résout le problème des documents récurrents : un fichier uploadé une fois dans un Projet est mis en cache et reste disponible pour toutes les conversations du Projet sans reconsommer de tokens à chaque importation. Et pour les fichiers à analyser, convertir les PDFs en texte brut avant de les uploader réduit significativement la consommation : Claude extrait sinon le texte et convertit chaque page en image pour l’analyser, deux opérations au lieu d’une.

Affaire à suivre sur Horizon.

Post Views: 60

Claude : comment ne plus gaspiller vos tokens

Pour résumer

Le coût caché de chaque message

Deux compteurs, deux logiques

Les réflexes qui changent vraiment quelque chose

Comments

Laisser un commentaire Annuler la réponse