La setmana passada escriviem sobre DeepSeek V4. Aquesta setmana toca Kimi K2.6, de Moonshot AI. Dos models xinesos open-source llançats amb una setmana de diferencia, tots dos competint amb GPT-5.4 i Claude Opus 4.6. Pero mentre DeepSeek V4 destaca pel seu context d'1M tokens, Kimi K2.6 brilla en un altre terreny: l'execucio autonoma de llarga duracio.
K2.6 pot executar tasques complexes durant mes de 12 hores seguides, amb 4.000 crides a eines i sense intervencio humana. Aixo no es una millora incremental. Es la diferencia entre un agent que t'ajuda amb una tasca puntual i un agent que treballa per tu mentre dorms.
1. Que es Kimi K2.6
Kimi K2.6 es un model de llenguatge d'1 bilió de parametres (1T) amb arquitectura Mixture-of-Experts, creat per Moonshot AI (Beijing). Es va llançar el 20 d'abril de 2026 en format open-weight sota llicencia MIT modificada.
Els datos tecnics clau:
| Caracteristica | Kimi K2.6 | K2.5 (anterior) |
|---|---|---|
| Parametres totals | 1 bilió (1T) | 1T |
| Parametres actius | 32B (8 de 384 experts) | 32B |
| Context | 262.144 tokens | 256K |
| Execucio autonoma | 12+ hores | No especificada |
| Max tool calls | 4.000 | 1.500 |
| Agents en paralel | 300 | 100 |
| Entrada de video | Si (nativa) | No |
| Cuantitzacio | INT4 nativa (QAT) | INT4 |
L'arquitectura no ha canviat respecte a K2.5. El que ha canviat es el post-entrenament: Moonshot va invertir mes compute en estabilitat de llarga duracio, seguiment d'instruccions i coordinacio de swarms. El resultat es un model que aguanta sessions de treball llargues sense degradar-se.
2. L'agent que treballa 12 hores sense parar
Aixo es el que fa que K2.6 sigui rellevant per a empreses. No es nomes que sigui intelligent. Es que pot mantenir aquesta intel ligencia durant hores.
Moonshot va publicar diversos casos reals d'execucio autonoma:
Optimitzacio d'un motor financer. K2.6 va analitzar exchange-core, un motor de matching financer open-source amb 8 anys d'antiguitat. Durant 13 hores, va executar 12 estrategies d'optimitzacio, va fer mes de 1.000 tool calls i va modificar 4.000+ linies de codi. Resultat: 185% de millora en throughput mitja. Sense intervencio humana en cap moment.
Desplegament i optimitzacio d'un model local. K2.6 va descarregar Qwen3.5-0.8B, el va implementar en Zig (un llenguatge de programacio molt de niqui), el va optimitzar durant 12 hores i 14 iteracions, i va aconseguir ~193 tokens/segon, un 20% mes rapid que LM Studio. 4.000+ tool calls.
Operacions d'infraestructura 24/7. L'equip d'infra de Moonshot va usar un agent basat en K2.6 que va operar de forma autonoma durant 5 dies gestionant monitoritzacio, resposta a incidencies i operacions de sistema.
Per a una PIME, aixo significa que un agent pot processar una tasca gran (revisar tota la documentacio d'un projecte, migrar un sistema, analitzar un dataset complex) i lliurar el resultat l'endema. Sense que ningú estigui mirant.
3. Agent swarms: 300 agents en paralel
L'altra gran novetat es l'Agent Swarm. En lloc d'un sol agent fent tot sequencialment, K2.6 pot descompondre una tasca en sub-tasques i executar-les en paralel amb fins a 300 sub-agents coordinats en 4.000 passos simultanis.
Exemples del que un swarm pot fer:
- Investigacio a escala. Un prompt demana analitzar 100 actius financers. El swarm crea agents especialitzats: un busca dades, un altre analitza, un altre genera l'informe final i la presentacio.
- Generacio de continguts en batch. 100 sub-agents generen 100 landing pages personalitzades en paralel, cadascuna amb contingut especific per a un client o producte.
- Processament documental. Un swarm analitza 50 PDFs, extreu dades rellevants de cadascun, i produeix un informe consolidat amb dataset estructurat.
Moonshot tambe va introduir "Claw Groups" com a preview: un mode on humans i agents col laboren. L'agent coordina, detecta quan un sub-agent falla, reassigna tasques i gestiona el cicle complet de lliurament.
Swarm no es per a tot
L'overhead de coordinar 300 agents no mereix la pena per a tasques que un sol agent resol en minuts. El swarm esta pensat per a tasques grans i descomponibles que trigarien hores a un sol agent.
4. Els numeros front a GPT-5.4 i Claude
Els benchmarks de K2.6 son solids, especialment en tasques agentiques:
| Benchmark | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| HLE-Full w/ tools | 54,0 | 52,1 | 53,0 | 51,4 |
| BrowseComp | 83,2 | 82,7 | 83,7 | 85,9 |
| SWE-Bench Pro | 58,6 | 57,7 | 53,4 | 54,2 |
| SWE-Bench Verified | 80,2 | - | 80,6 | 80,6 |
| Terminal-Bench 2.0 | 66,7 | 65,4 | 65,4 | 68,5 |
| DeepSearchQA (f1) | 92,5 | 78,6 | 91,3 | 81,9 |
| GPQA Diamond | 90,5 | 92,8 | 91,3 | 94,3 |
On K2.6 guanya clarament: SWE-Bench Pro (tasques de software reals, no sintetiques), HLE-Full amb eines i DeepSearchQA. Aixo te sentit: Moonshot va entrenar K2.6 especificament per a tasques que requereixen moltes tool calls i execucio sostinguda.
On perd: raonament pur d'una sola passada (GPQA Diamond, AIME) i tasques de visio. Per aixo, Gemini 3.1 Pro segueix sent el rei.
5. La connexio amb OpenClaw
Aixo es especialment rellevant per a nosaltres. A Delbion ja usem i recomanem OpenClaw com a assistent multi-canal (WhatsApp, Telegram, Discord). Moonshot cita explicitament OpenClaw com un dels entorns on K2.6 rendeix millor:
"K2.6 raises the bar for open-source models. It excels in coding and especially for agentic tools like OpenClaw and Hermes."
OpenClaw es un agent proactiu que funciona 24/7, executa codi, gestiona calendaris i opera a traves de multiples plataformes. K2.6 com a backend significa: mes estabilitat en sessions llargues, millor interpretacio d'APIs, i mes tool calls exitosos sense intervencio.
Si estas avaluant OpenClaw per a la teva empresa (i si ets client de la nostra formacio en agents IA, probablement ho estiguis), K2.6 es ara el model que Moonshot recomana per aquest us concret.
6. Que significa per a una PIME
K2.6 canvia algo molt concret per a les PIMEs: la duracio de les tasques que pots automatitzar.
Abans de K2.6: els agents podien resoldre tasques de 10-30 minuts. Un refactor de 3 fitxers, un resum d'un document, una resposta a un email complex. Util, pero limitat.
Amb K2.6: els agents poden executar tasques de 12+ hores. Migrar un sistema, processar 100 documents, analitzar un dataset gran, generar un informe de 50 pagines. Tot durant la nit, sense supervisio.
Aixo amplia drasticament el tipus de processos que una PIME pot automatitzar. No nomes tasques puntuals, sino projectes sencers.
Els 4 variants cobreixen diferents necessitats:
- Instant: respostes rapides, sense raonament. Per a chatbots i autocompletar.
- Thinking: raonament profund. Per a analisi, debugging, decisions complexes.
- Agent: execucio autonoma amb eines. Per a investigacio, generacio de documents, workflows multi-pas.
- Agent Swarm: 300 agents en paralel. Per a tasques grans descomponibles.
Dada Delbion
A les nostres auditories de processos automatitzables, el 60% de les tasques que les PIMEs volen automatitzar duren mes de 30 minuts. Amb els models anteriors, aixo era inviable sense supervisio. K2.6 (i DeepSeek V4) canvien aquesta equacio. Si vols saber quins processos de la teva empresa es poden automatitzar ara, oferim una auditoria gratuita.
7. Costos, hardware i limits reals
Res del que antecedeix es gratis. Aquests son els costos reals:
- Self-hosting complet: necessita 8x GPUs H100 o H200 per a produccio. INT4 redueix aixo a 4x H100 amb context reduit. No es hardware de consumidor.
- API de Moonshot: tarifes significativament mes baixes que Claude Opus 4.6 i GPT-5.4. Per a workflows amb milers de tool calls, la diferencia s'acumula rapid.
- Llicencia MIT modificada: us lliure amb una condicio: si el teu producte supera 100M d'usuaris mensuals o 20M$ de revenue mensual, has de mostrar "Kimi K2" a la interficie. Per al 99% de PIMEs, aixo es irrelevant.
Limitacions a tenir en compte:
- Benchmarks auto-reportats. Moonshot va re-avaluar alguns benchmarks sota les seves condicions. La validacio independent trigar setmanes.
- Context geopolitic. Moonshot AI es una empresa xinesa. Per a sectors regulats (defensa, energia, administracio publica), la jurisdiccio del proveidor pot ser un factor de compliment.
- Hardware exigent. Diferent de DeepSeek V4-Flash (13B actius, corre en una RTX 4090), K2.6 necessita infraestructura empresarial per a self-hosting.
8. Veredicte
Kimi K2.6 i DeepSeek V4, llançats la mateixa setmana, representen algo que feia un any semblava impossible: dos models open-source que competeixen de tu a tu amb els millors models tancats d'OpenAI, Anthropic i Google.
Si DeepSeek V4 destaca pel context barat (1M tokens), K2.6 destaca per l'execucio autonoma de llarga duracio (12h+, 300 agents). Junts, cobreixen les dues carencies principals que impedien a les PIMEs adoptar agents IA de veritat: el cost per token i la duracio de les tasques.
El proper pas no es elegir model. Es saber quins processos de la teva empresa mereix la pena automatitzar, qui els operara, i com mesurar l'impacte. Aixo segueix sent un problema d'organitzacio, no de tecnologia.
Si vols explorar com els agents IA poden transformar la teva empresa, oferim una auditoria gratuïta de processos automatitzables. Sense compromis.
El teu equip necessita formacio en IA segura
L'EU AI Act exigeix alfabetitzacio IA per a tota la plantilla des d'agost 2026. Els nostres cursos cobreixen compliance, agents IA i governanca. FUNDAE pot subvencionar el 100% del cost.