Como gastar menos tokens no Claude (sem perder qualidade)
10 ajustes práticos pra economizar tokens no Claude e no Claude Code: /clear, modelo certo, thinking, subagentes e CLAUDE.md enxuto. Em pt-BR, com comandos.

Tem uma coisa que separa quem acha o Claude "caro" de quem acha "barato pelo que entrega": o jeito de usar. A conta de token não cresce pela quantidade de perguntas — cresce pelo tamanho da conversa. E quase ninguém percebe isso até a fatura (ou o limite do plano) bater.
A boa notícia: dá pra cortar o gasto pela metade com ajustes simples, sem piorar uma vírgula da resposta. Vou te mostrar 10, valendo tanto pro Claude no navegador quanto pro Claude Code no terminal.
Primeiro: entenda como a conta funciona
O Claude não conta mensagens, ele conta tokens — pedacinhos de texto, mais ou menos uma palavra cada. Você "paga" por tudo que entra (sua pergunta + todo o histórico da conversa) e por tudo que sai (a resposta + o raciocínio interno).
O detalhe que muda tudo: o Claude relê a conversa inteira a cada mensagem nova. Na primeira mensagem ele processa só a sua pergunta. Na trigésima, ele relê as 29 anteriores antes de responder. Por isso a mesma pergunta boba pode custar quase nada no começo e uma fortuna no fim de um chat gigante.
Guarde essa regra de ouro: quanto maior o contexto, mais caro e mais lento o Claude responde. Tudo abaixo deriva dela.
1. Limpe o contexto entre tarefas
Acabou um assunto e vai começar outro que não tem nada a ver? Não emende. O assunto velho vira peso morto que é relido a cada mensagem.
No Claude Code:
/clear
No app, é só abrir um chat novo. Parece bobo, mas é o ajuste de maior efeito no dia a dia.
2. Use o modelo certo pra cada tarefa
Esse é o ajuste de maior impacto financeiro. Mande cada tarefa pro modelo do tamanho dela:
- Haiku — respostas rápidas, brainstorm, gramática, formatação, resumo curto.
- Sonnet — escrita de conteúdo, análise, a maior parte do código.
- Opus — arquitetura, lógica difícil, pesquisa longa e profunda.
O erro caro é jogar o modelo mais pesado em tudo. No Claude Code você troca na hora:
/model
Usar o modelo leve nas tarefas simples libera boa parte do seu orçamento pros pesados, quando eles realmente importam. (Se quiser entender as diferenças entre as versões, veja o que mudou no Claude Opus 4.8.)
3. Abaixe o raciocínio em tarefa simples
O "thinking" (raciocínio interno) é poderoso, mas é cobrado como token de saída — ou seja, custa. Pra qualquer coisa direta, não precisa dele.
No Claude Code:
/effort low
No app, deixe o Extended Thinking desligado por padrão e só ligue quando a primeira resposta não for suficiente. Pensar muito pra responder "formata esse texto" é dinheiro jogado fora.
4. Mantenha o CLAUDE.md enxuto
No Claude Code, o CLAUDE.md é lido inteiro, em toda sessão. Um arquivo inchado queima tokens antes de você digitar a primeira letra.
Deixe nele só fatos curtos e fixos ("a stack é Next.js", "sempre use pnpm"). Procedimento longo — uma checklist, um passo a passo — não é fato: transforme em Skill, que só carrega quando é relevante. Mire em menos de 500 linhas.
5. Delegue o trabalho verboso pra subagentes
Rodar a suíte de testes, ler um log de 2 mil linhas, varrer o projeto atrás de um nome de função: tudo isso despeja muita saída no contexto. Se isso cai na sua conversa principal, fica lá pesando pra sempre.
A saída: peça pro Claude delegar pra um subagente. O barulho fica no contexto dele, e você recebe de volta só a conclusão limpa. Algo como "use um subagente pra rodar os testes e me traga só o que falhou" já resolve.
6. Edite o prompt em vez de mandar "tenta de novo"
Esse é o truque que quase ninguém usa no app. Quando a resposta não vem boa, a reação natural é responder "não foi isso, tenta assim". Só que aí o Claude carrega a pergunta original mais a resposta ruim mais a sua correção — tudo somando.
Em vez disso, clique em editar na sua mensagem original e refaça o pedido. A resposta antiga é substituída, não acumulada. Em umas 10 rodadas de ajuste, só essa mudança derruba o gasto de tokens em 80–90%.
7. Recomece conversas longas (a cada 15–20 mensagens)
Por causa da releitura do histórico, uma pergunta simples que custava ~200 tokens no começo pode custar dezenas de milhares lá na mensagem 30. A conversa virou uma bola de neve.
A rotina certa: a cada 15–20 mensagens, peça "me faz um resumo do que decidimos até aqui", copie esse resumo, abra um chat novo e cole o resumo como ponto de partida. Você mantém o que importa e joga fora o peso morto.
8. Configure Memória e Preferências
Toda conversa que começa do zero te faz gastar 3–5 mensagens só explicando quem você é, o que faz e qual tom quer. Isso some quando você configura a Memória / Preferências nas configurações do Claude: salve seu papel, seu tom e suas preferências uma vez, e ele leva isso automaticamente pra todos os chats. No Claude Code, o CLAUDE.md (do item 4) faz esse papel pros seus projetos.
9. Desligue o que você não usa
Busca na web, modo de pesquisa, conectores (MCP) e afins adicionam tokens em cada resposta, mesmo quando você não precisa deles naquele momento. Deixe ligado só o que está usando de fato. Ative a busca na web na hora da pesquisa, não como padrão eterno.
10. Pense em contexto, não em mensagens
Se você levar uma ideia só deste post, leve esta: token não é cobrado por pergunta, é cobrado por contexto. Conversa enxuta é conversa barata — e, de quebra, mais rápida e mais precisa, porque o Claude não se perde no meio de mil assuntos antigos.
Resumindo a estratégia:
/clear(ou chat novo) entre tarefas.- Modelo certo pra cada tarefa.
- Raciocínio baixo no que é simples.
CLAUDE.mde contexto enxutos.- Delegue o verboso, edite em vez de empilhar, recomece quando ficar grande.
Faça isso virar hábito e o mesmo plano passa a render o dobro. Se você ainda nem instalou o Claude Code pra aproveitar os comandos de terminal, comece por aqui.
Fonte/inspiração: Dica de IA — Como gastar menos tokens no Claude. Os fatos vieram de lá; a redação, os exemplos e os comandos são deste blog.
Perguntas frequentes
Token é o quê, na prática?
Token é o pedacinho de texto que o Claude lê e escreve — mais ou menos uma palavra ou meia palavra em português. Você paga (em dinheiro ou no seu limite do plano) por tudo que entra (sua pergunta + o histórico da conversa) e por tudo que sai (a resposta + o raciocínio interno). Por isso conversa longa custa caro: o histórico inteiro é relido a cada nova mensagem.
Por que a mesma pergunta fica mais cara no fim de uma conversa longa?
Porque o Claude relê TODO o histórico a cada mensagem. Na primeira mensagem ele lê só a sua pergunta. Na trigésima, ele relê as 29 anteriores antes de responder. A pergunta é a mesma, mas o que ele precisa processar antes cresce sem parar. Limpar o contexto (/clear) ou abrir um chat novo zera essa conta.
Trocar de modelo piora a resposta?
Pra tarefa simples, não. Haiku resolve formatação, resumo curto e brainstorm com a mesma qualidade prática do Opus, gastando uma fração. Guarde o Opus pra arquitetura, lógica difícil e pesquisa longa. O erro caro é usar o modelo mais pesado pra tudo.
Isso vale pro Claude Code também?
Vale, e até mais. No Claude Code o contexto enche rápido com saída de testes, logs e arquivos lidos. Use /clear entre tarefas, /compact pra resumir, delegue trabalho verboso pra subagentes e mantenha o CLAUDE.md enxuto. São os mesmos princípios, só que com comandos no terminal.
Continua a leitura

Claude Pro ou Max: qual plano vale a pena pra você?
Pagar US$ 20 ou US$ 200? A diferença não é só o preço — é quantas horas por dia você consegue trabalhar antes de bater no limite. Veja qual plano é o seu.
Ler
Quando o Claude inventa código: como evitar alucinações
Ele te entrega um código lindo, convicto, que importa uma biblioteca que não existe. Chama-se alucinação — e tem como reduzir bastante. Veja o passo a passo.
Ler
Plan Mode no Claude Code: faça ele planejar antes de editar
Cansado de ver o Claude sair editando seis arquivos antes de você entender o que ele vai fazer? Aperta Shift+Tab: no Plan Mode ele pesquisa, propõe um plano e só executa depois do seu OK.
Ler