Compra crèdits verificats d'OpenAI, Anthropic, Gemini, AWS, Azure i GCP a preus reduïts.
La teva factura d'IA és més alta del que penses (Tokens de raonament)
Has configurat una integració OpenAI o3. Els preus diuen 10 $ per milió de tokens d'entrada i 40 $ per milió de tokens de sortida. Pressupostes en conseqüència. Després arriba la teva factura del primer mes i és 2-3 vegades més alta del que esperaves.
El culpable: tokens de raonament. Els models de la sèrie o d'OpenAI (i ara els modes de raonament en altres proveïdors) generen "tokens de pensament" ocults pels quals es factura però que mai no veus a la resposta.
Aquesta guia explica exactament què són els tokens de raonament, com inflen la teva factura i com controlar-los mitjançant un ús intel·ligent i crèdits descomptats a través de AI Credits.
Compra crèdits verificats d'OpenAI, Anthropic, Gemini, AWS, Azure i GCP a preus reduïts.
Què són els tokens de raonament?
Els tokens de raonament són tokens generats pel model durant el seu procés de pensament intern, abans de produir la resposta final. Amb models com OpenAI o3, el model:
- Rep el teu prompt
- Genera raonament intern (cadena de pensament)
- Iterar i refina el seu raonament
- Produeix la sortida visible final
Els passos 2 i 3 generen tokens pels quals es factura però que no es veuen.
Compra crèdits verificats d'OpenAI, Anthropic, Gemini, AWS, Azure i GCP a preus reduïts.
La veritable matemàtica dels preus
El que creus que pagues:
Per OpenAI o3 (10 $/40 $ per MTok), una consulta amb 5K d'entrada + 2K de sortida tokens:
- Cost d'entrada: 0,05 $
- Cost de sortida: 0,08 $
- Total: 0,13 $
El que realment pagues:
La mateixa consulta, però o3 genera 8K de tokens de raonament (comptats com a sortida):
- Cost d'entrada: 0,05 $
- Cost dels tokens de raonament: 0,32 $
- Cost de sortida visible: 0,08 $
- Total: 0,45 $
Això és 3,5 vegades més del que s'esperava. I no tens visibilitat sobre la part de raonament.
Models que utilitzen tokens de raonament
OpenAI sèrie o
- o1, o1-mini - raonament activat per defecte
- o3, o3 Pro - raonament extens, impacte més gran
- GPT-5 amb mode de raonament - raonament quan està activat
Anthropic Claude
- Claude Opus 4.6 - mode de pensament estès (quan està activat)
- Claude Sonnet 4.6 - pensament estès opcional
Google Gemini
- Gemini 2.5 Pro - mode de pensament estès
DeepSeek
- DeepSeek R1 - raonament activat per defecte
Patró comú: Qualsevol model comercialitzat com a "model de raonament" o amb funcions de "pensament" generarà tokens de raonament ocults.
Quants tokens de raonament generen aquests models?
Mitjanes del món real:
| Model | Tokens de raonament típics per consulta |
|---|---|
| GPT-5 (sense raonament) | 0 |
| OpenAI o1-mini | 500-3.000 |
| OpenAI o3 | 2.000-15.000 |
| OpenAI o3 Pro | 5.000-50.000 |
| Claude Opus (mode de pensament) | 1.000-10.000 |
| DeepSeek R1 | 1.000-8.000 |
Els tokens de raonament sovint superen els tokens de sortida visibles en 5-10 vegades. El teu cost real pot ser molt més alt del que suggereix la part de "sortida".
Com calcular el cost real
Per als models de raonament, utilitza aquesta fórmula corregida:
Cost real per consulta =
(Tokens d'entrada * preu d'entrada)
+ ((Sortida visible + tokens de raonament) * preu de sortida)
Per OpenAI o3 amb 5K d'entrada, 2K de sortida visible, 8K de tokens de raonament:
- (5.000 * 10 $/1M) + ((2.000 + 8.000) * 40 $/1M)
- = 0,05 $ + 0,40 $
- = 0,45 $ per consulta
Multiplica pel volum de consultes per obtenir el cost mensual real.
Com reduir els costos dels tokens de raonament
1. Utilitza models sense raonament quan sigui possible
Per a tasques que no necessiten raonament profund, utilitza models estàndard:
- GPT-5 (1,25 $/10 $) en lloc de o3 (10 $/40 $) per a feines generals
- Claude Sonnet sense mode de pensament per a anàlisis rutinàries
- Gemini 2.5 Flash per a respostes ràpides
Estalvi: 50-90% evitant models de raonament per a tasques sense raonament.
2. Estableix límits de pressupost de raonament
L'o3 d'OpenAI permet establir paràmetres reasoning_effort:
low- raonament mínim, més baratmedium- equilibrathigh- raonament màxim, més car
Utilitza low o medium a menys que necessitis genuïnament la màxima profunditat de raonament.
3. Cacha les entrades de raonament
El caxat de prompts s'aplica també a les entrades dels models de raonament. Cacha les parts del teu prompt que no canvien.
4. Compra crèdits descomptats a través d'AI Credits
AI Credits ven crèdits d'OpenAI descomptats fins a un 60% menys del preu de venda al detall. Per a càrregues de treball intensives en raonament, això ofereix els majors estalvis, ja que els tokens de raonament són tokens de sortida cars.
5. Utilitza models de raonament només per a respostes finals
Tubs d'operacions multietapa: utilitza models barats per a etapes intermèdies, només utilitza o3/o3 Pro per a la síntesi final.
Comparació de costos reals
Per a una càrrega de treball de recerca de 10.000 consultes/mes:
Càlcul ingenu (sense tokens de raonament):
- o3: 10.000 * 0,13 $ = 1.300 $
Càlcul real (amb tokens de raonament):
- o3: 10.000 * 0,45 $ = 4.500 $
Amb AI Credits amb un 50% de descompte:
- o3 + AI Credits: 10.000 * 0,225 $ = 2.250 $
Estalvi de 2.250 $/mes enfront del cost real al detall.
Preguntes freqüents
Què són els tokens de raonament?
Tokens generats per models de raonament (com OpenAI o3) durant el seu procés intern de "pensament" abans de produir la resposta final. Es factura per ells però mai no es veuen.
Per què OpenAI cobra pels tokens de raonament?
Els tokens de raonament consumeixen veritable potència de càlcul de GPU. OpenAI trasllada el cost. El raonament permet la qualitat de raonament superior del model, però infla els costos.
Quant afegeixen els tokens de raonament a la meva factura?
Típicament 2-3 vegades el càlcul ingenu. Per als usuaris intensius d'o3 Pro, els costos de raonament poden dominar completament la factura.
Puc veure el meu ús de tokens de raonament?
Les respostes de l'API d'OpenAI inclouen recomptes de tokens que mostren els tokens d'entrada, sortida i raonament per separat. Comprova el teu ús per veure el desglossament real.
Com evito els costos dels tokens de raonament?
Utilitza models sense raonament (GPT-5, Claude Sonnet sense pensament) quan no es necessiti raonament. Estableix l'esforç de raonament a low o medium. Compra crèdits descomptats a través d'AI Credits per compensar els costos.
Valen la pena els tokens de raonament?
Per a tasques que realment necessiten raonament profund (matemàtiques, ciència, anàlisi complexa), sí. Per a tasques rutinàries, no; utilitza models més barats.
No et sorprenguis pels tokens de raonament
Els tokens de raonament són el major cost ocult en la facturació d'IA del 2026. Ara ho saps, i pots planificar-los.
Obtén un pressupost a aicredits.co ->
Tokens de raonament amb un 60% de descompte. Estalvia a aicredits.co.