N'achete pas un Mac Mini pour OpenClaw avant d'avoir vu ces benchmarks
Mike Codeur
![]()
Sur les reseaux, j'ai vu passer le meme conseil encore et encore : si tu veux faire de l'IA serieusement, achete un Mac Mini.
Et a chaque fois que je posais une question un peu critique sur ce conseil, j'avais droit a la meme reaction : mais t'es con ou quoi ? C'est fait pour faire tourner des modeles en local. Tu connais pas Ollama ?
Le probleme, c'est qu'on melange souvent deux sujets tres differents :
- faire tourner un modele local dans une demo propre
- faire tourner un vrai assistant IA avec memoire, outils, gros contexte et orchestration
Moi, ce que je voulais tester, ce n'etait pas un chatbot. C'etait OpenClaw en conditions reelles.
Ce que j'ai benchmarke
J'ai pris trois approches :
| Setup | Machine | Objectif |
|---|---|---|
| Local Apple | MacBook Pro M4 Max 64 Go | tester la memoire unifiee Apple sur gros contexte |
| Local Nvidia | RTX 5080 + Ollama | tester la perf brute locale et l'impact du KV cache |
| Cloud | VPS + API Claude | tester l'usage agentique reel sans compromis |
Point important : si mon MacBook Pro M4 Max 64 Go a du mal, le Mac Mini que tout le monde recommande ne va pas miraculeusement mieux s'en sortir.
Le vrai probleme : le contexte agentique
Dans les demos qu'on voit partout, les gens testent souvent un prompt simple avec peu de contexte. Le modele repond vite, l'interface est fluide, et on conclut trop vite que la machine est parfaite.
Mais OpenClaw, ce n'est pas ca.
Un setup agentique reel, c'est :
- une identite systeme
- des regles
- des skills
- des outils
- de la memoire
- parfois 30 000 a 60 000 tokens de contexte
Et la, la question devient beaucoup plus interessante : est-ce que la machine tient encore quand on charge tout le systeme ?
Mac, RTX, VPS : ce que les benches montrent vraiment
1. Le Mac impressionne... jusqu'a un certain point
Le gros avantage d'Apple, c'est la memoire unifiee. Quand un modele tient bien dans cette architecture, c'est tres agreable.
Mais des qu'on commence a injecter un vrai contexte agentique, les temps explosent. Ce n'est pas juste une question de vitesse brute, c'est une question de temps de prechargement du contexte.
2. La RTX 5080 est tres forte... tant que tout tient bien en VRAM
Sur Nvidia, quand le modele tient bien dans la carte, les performances sont impressionnantes.
Le probleme, c'est qu'en agentique, ce n'est pas juste le modele qui compte. Il faut aussi compter le KV cache, le contexte long, l'offload en RAM. Et quand on passe cette frontiere, les performances peuvent s'effondrer beaucoup plus vite que prevu.
3. Le cloud reste la reference pour un vrai assistant complet
C'est souvent moins sexy qu'une demo locale, mais pour un assistant personnel branche a des outils, le cloud garde un enorme avantage : latence plus stable, gros contexte mieux gere, pas de gymnastique materielle.
En clair, la question n'est pas seulement est-ce que je peux faire tourner un modele ? La vraie question, c'est : est-ce que je peux faire tourner mon assistant complet sans le lobotomiser ?
Ce que cette video montre
Dans la video, je montre les benchmarks sur plusieurs machines, les limites des modeles locaux sur gros contexte, pourquoi le contexte change completement la lecture des resultats, et pourquoi beaucoup de conseils vus sur les reseaux sont trompeurs parce qu'ils benchmarkent le mauvais probleme.
Tu peux voir la video ici :
-> N'achete PAS de Mac Mini pour OpenClaw
La bonne question a poser avant d'acheter
Avant d'acheter une machine pour l'IA, ne demande pas seulement : est-ce qu'elle fait tourner Ollama ?
Demande plutot : est-ce qu'elle fera tourner mon vrai systeme, avec mon vrai contexte, mes vrais outils, et mes vrais usages ?
C'est la que les reponses deviennent beaucoup moins marketing, et beaucoup plus utiles.
Newsletter: Je partage ce genre d'analyses chaque semaine dans The Agentic Dev : mkc.sh/the-agentic-dev?utm_source=blog