Tutoriel

Gemma-4-31B ablitéré sur Mac : le guide de déploiement en 3 étapes

LLMTutoriel|3 min de lecture
vMLX agentic AI en action sur Apple Silicon

Annonce du jailbreak Gemma-4-31B par <a href=@outsource_">

Le modèle tourne en local, sans garde-fous, à 93.7% de compliance HarmBench, avec une régression MMLU de seulement -2%. Sur un Mac Apple Silicon avec 24 Go de RAM unifiée.

@outsource_
on X
🚨THE GEMMA 4 JAILBREAK WE'VE ALL BEEN WAITING FOR JUST DROPPED, Gemma-4-31B is now fully CRACKED and abliterated. 93.7% HarmBench compliance (149/159). 18GB mixed-precision MLX quant for Apple Silicon.
Voir le post original

L'ablitération supprime directement les vecteurs de refus dans les poids du modèle. Le résultat ici : Gemma-4-31B-JANG_4M-CRACK par dealignai, 18 Go en mémoire, 22.7 Go sur disque.

93.7%
HarmBench compliance
149/159 tests
-2%
Régression MMLU
Après ablitération
18 Go
Empreinte RAM
Quant MLX mixed-precision

Prérequis avant de commencer

Un Mac Apple Silicon avec 24 Go minimum de RAM unifiée. En dessous, le modèle ne charge pas. 32 Go si tu veux un contexte long sans swap.

LM Studio est à éviter pour l'instant : son backend MLX ne prend pas encore en charge Gemma 4 (bug actif au moment de la release). L'outil qui fonctionne est vMLX, version 1.3.26 minimum.


  1. 1

    Télécharger le modèle depuis HuggingFace

    Va sur dealignai/Gemma-4-31B-JANG_4M-CRACK. Le quant MLX pèse 22.7 Go sur disque. Tu peux le télécharger directement depuis l'interface HuggingFace ou via huggingface-cli :

    huggingface-cli download dealignai/Gemma-4-31B-JANG_4M-CRACK \
      --local-dir ~/models/gemma4-crack \
      --include "*.safetensors" "*.json" "*.txt"
    

    Le dossier final doit contenir les fichiers de config et les shards du modèle.

  2. 2

    Installer vMLX 1.3.26+

    Télécharge vMLX depuis vmlx.net. L'app est pensée pour les quants MLX et charge Gemma 4 sans configuration supplémentaire.

    Téléchargement modèle MLX depuis HuggingFace

    Une fois l'app ouverte, pointe vers le dossier local où tu as téléchargé le modèle. Le chargement prend 15 à 30 secondes selon la vitesse de ton SSD.

  3. 3

    Lancer et configurer

    Dans vMLX, sélectionne le modèle chargé. L'interface expose un endpoint compatible OpenAI chat completions, ce qui te permet de le brancher à n'importe quel client qui parle ce format.

    Interface chat vMLX avec configuration API

    Pour tester en CLI directement :

    curl http://localhost:8080/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "gemma4-crack",
        "messages": [{"role": "user", "content": "Teste"}],
        "max_tokens": 200
      }'
    

    Une réponse JSON avec un champ choices confirme que le modèle tourne.


Ce que vMLX donne en plus

L'app embarque des outils agentiques built-in : file I/O, shell, web search via DuckDuckGo/Brave, et fetch d'URL.

vMLX agentic AI en action sur Apple Silicon

Outils agentiques vMLX

Sur un modèle ablitéré, ces outils combinés couvrent du red-teaming local ou de la recherche sans contrainte. L'API expose aussi les endpoints Anthropic Messages si tu préfères ce format.

vMLX API Reference



Pour aller plus loin

Pour le sizing hardware en détail (contexte long, comparaison avec Qwen3 et Llama 4), Gemma 4 Guide est la ressource la plus complète disponible.

On avait creusé le trick mémoire unifiée AMD pour faire tourner des LLM locaux à 20 tok/s sur un mini PC à 350 dollars il y a peu. L'angle est différent, mais la logique de mémoire unifiée est exactement la même.

Formation

Intégrez LLM dans votre workflow

Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.

Découvrir

Communauté

Rejoins les builders IA

Tips, prompts, retours d'expérience. Le Telegram des gens qui buildent avec l'IA.

Rejoindre

Articles similaires