Mestre do Claude
Voltar pro blog
5 min de leitura

Como gastar menos tokens no Claude (sem perder qualidade)

10 ajustes práticos pra economizar tokens no Claude e no Claude Code: /clear, modelo certo, thinking, subagentes e CLAUDE.md enxuto. Em pt-BR, com comandos.

Como gastar menos tokens no Claude (sem perder qualidade)

Tem uma coisa que separa quem acha o Claude "caro" de quem acha "barato pelo que entrega": o jeito de usar. A conta de token não cresce pela quantidade de perguntas — cresce pelo tamanho da conversa. E quase ninguém percebe isso até a fatura (ou o limite do plano) bater.

A boa notícia: dá pra cortar o gasto pela metade com ajustes simples, sem piorar uma vírgula da resposta. Vou te mostrar 10, valendo tanto pro Claude no navegador quanto pro Claude Code no terminal.

Primeiro: entenda como a conta funciona

O Claude não conta mensagens, ele conta tokens — pedacinhos de texto, mais ou menos uma palavra cada. Você "paga" por tudo que entra (sua pergunta + todo o histórico da conversa) e por tudo que sai (a resposta + o raciocínio interno).

O detalhe que muda tudo: o Claude relê a conversa inteira a cada mensagem nova. Na primeira mensagem ele processa só a sua pergunta. Na trigésima, ele relê as 29 anteriores antes de responder. Por isso a mesma pergunta boba pode custar quase nada no começo e uma fortuna no fim de um chat gigante.

Guarde essa regra de ouro: quanto maior o contexto, mais caro e mais lento o Claude responde. Tudo abaixo deriva dela.

1. Limpe o contexto entre tarefas

Acabou um assunto e vai começar outro que não tem nada a ver? Não emende. O assunto velho vira peso morto que é relido a cada mensagem.

No Claude Code:

/clear

No app, é só abrir um chat novo. Parece bobo, mas é o ajuste de maior efeito no dia a dia.

2. Use o modelo certo pra cada tarefa

Esse é o ajuste de maior impacto financeiro. Mande cada tarefa pro modelo do tamanho dela:

  • Haiku — respostas rápidas, brainstorm, gramática, formatação, resumo curto.
  • Sonnet — escrita de conteúdo, análise, a maior parte do código.
  • Opus — arquitetura, lógica difícil, pesquisa longa e profunda.

O erro caro é jogar o modelo mais pesado em tudo. No Claude Code você troca na hora:

/model

Usar o modelo leve nas tarefas simples libera boa parte do seu orçamento pros pesados, quando eles realmente importam. (Se quiser entender as diferenças entre as versões, veja o que mudou no Claude Opus 4.8.)

3. Abaixe o raciocínio em tarefa simples

O "thinking" (raciocínio interno) é poderoso, mas é cobrado como token de saída — ou seja, custa. Pra qualquer coisa direta, não precisa dele.

No Claude Code:

/effort low

No app, deixe o Extended Thinking desligado por padrão e só ligue quando a primeira resposta não for suficiente. Pensar muito pra responder "formata esse texto" é dinheiro jogado fora.

4. Mantenha o CLAUDE.md enxuto

No Claude Code, o CLAUDE.md é lido inteiro, em toda sessão. Um arquivo inchado queima tokens antes de você digitar a primeira letra.

Deixe nele só fatos curtos e fixos ("a stack é Next.js", "sempre use pnpm"). Procedimento longo — uma checklist, um passo a passo — não é fato: transforme em Skill, que só carrega quando é relevante. Mire em menos de 500 linhas.

5. Delegue o trabalho verboso pra subagentes

Rodar a suíte de testes, ler um log de 2 mil linhas, varrer o projeto atrás de um nome de função: tudo isso despeja muita saída no contexto. Se isso cai na sua conversa principal, fica lá pesando pra sempre.

A saída: peça pro Claude delegar pra um subagente. O barulho fica no contexto dele, e você recebe de volta só a conclusão limpa. Algo como "use um subagente pra rodar os testes e me traga só o que falhou" já resolve.

6. Edite o prompt em vez de mandar "tenta de novo"

Esse é o truque que quase ninguém usa no app. Quando a resposta não vem boa, a reação natural é responder "não foi isso, tenta assim". Só que aí o Claude carrega a pergunta original mais a resposta ruim mais a sua correção — tudo somando.

Em vez disso, clique em editar na sua mensagem original e refaça o pedido. A resposta antiga é substituída, não acumulada. Em umas 10 rodadas de ajuste, só essa mudança derruba o gasto de tokens em 80–90%.

7. Recomece conversas longas (a cada 15–20 mensagens)

Por causa da releitura do histórico, uma pergunta simples que custava ~200 tokens no começo pode custar dezenas de milhares lá na mensagem 30. A conversa virou uma bola de neve.

A rotina certa: a cada 15–20 mensagens, peça "me faz um resumo do que decidimos até aqui", copie esse resumo, abra um chat novo e cole o resumo como ponto de partida. Você mantém o que importa e joga fora o peso morto.

8. Configure Memória e Preferências

Toda conversa que começa do zero te faz gastar 3–5 mensagens só explicando quem você é, o que faz e qual tom quer. Isso some quando você configura a Memória / Preferências nas configurações do Claude: salve seu papel, seu tom e suas preferências uma vez, e ele leva isso automaticamente pra todos os chats. No Claude Code, o CLAUDE.md (do item 4) faz esse papel pros seus projetos.

9. Desligue o que você não usa

Busca na web, modo de pesquisa, conectores (MCP) e afins adicionam tokens em cada resposta, mesmo quando você não precisa deles naquele momento. Deixe ligado só o que está usando de fato. Ative a busca na web na hora da pesquisa, não como padrão eterno.

10. Pense em contexto, não em mensagens

Se você levar uma ideia só deste post, leve esta: token não é cobrado por pergunta, é cobrado por contexto. Conversa enxuta é conversa barata — e, de quebra, mais rápida e mais precisa, porque o Claude não se perde no meio de mil assuntos antigos.

Resumindo a estratégia:

  1. /clear (ou chat novo) entre tarefas.
  2. Modelo certo pra cada tarefa.
  3. Raciocínio baixo no que é simples.
  4. CLAUDE.md e contexto enxutos.
  5. Delegue o verboso, edite em vez de empilhar, recomece quando ficar grande.

Faça isso virar hábito e o mesmo plano passa a render o dobro. Se você ainda nem instalou o Claude Code pra aproveitar os comandos de terminal, comece por aqui.

Fonte/inspiração: Dica de IA — Como gastar menos tokens no Claude. Os fatos vieram de lá; a redação, os exemplos e os comandos são deste blog.

Perguntas frequentes

Token é o quê, na prática?

Token é o pedacinho de texto que o Claude lê e escreve — mais ou menos uma palavra ou meia palavra em português. Você paga (em dinheiro ou no seu limite do plano) por tudo que entra (sua pergunta + o histórico da conversa) e por tudo que sai (a resposta + o raciocínio interno). Por isso conversa longa custa caro: o histórico inteiro é relido a cada nova mensagem.

Por que a mesma pergunta fica mais cara no fim de uma conversa longa?

Porque o Claude relê TODO o histórico a cada mensagem. Na primeira mensagem ele lê só a sua pergunta. Na trigésima, ele relê as 29 anteriores antes de responder. A pergunta é a mesma, mas o que ele precisa processar antes cresce sem parar. Limpar o contexto (/clear) ou abrir um chat novo zera essa conta.

Trocar de modelo piora a resposta?

Pra tarefa simples, não. Haiku resolve formatação, resumo curto e brainstorm com a mesma qualidade prática do Opus, gastando uma fração. Guarde o Opus pra arquitetura, lógica difícil e pesquisa longa. O erro caro é usar o modelo mais pesado pra tudo.

Isso vale pro Claude Code também?

Vale, e até mais. No Claude Code o contexto enche rápido com saída de testes, logs e arquivos lidos. Use /clear entre tarefas, /compact pra resumir, delegue trabalho verboso pra subagentes e mantenha o CLAUDE.md enxuto. São os mesmos princípios, só que com comandos no terminal.


Curtiu? Receba os próximos por email.

Sem spam, sem newsletter chata. Só o que vale.

Cadastrar email