Gemma-4-31B ablitéré sur Mac : le guide de déploiement en 3 étapes

Annonce du jailbreak Gemma-4-31B par <a href= @outsource_">

Le modèle tourne en local, sans garde-fous, à 93.7% de compliance HarmBench, avec une régression MMLU de seulement -2%. Sur un Mac Apple Silicon avec 24 Go de RAM unifiée.

@outsource_

on X

🚨THE GEMMA 4 JAILBREAK WE'VE ALL BEEN WAITING FOR JUST DROPPED, Gemma-4-31B is now fully CRACKED and abliterated. 93.7% HarmBench compliance (149/159). 18GB mixed-precision MLX quant for Apple Silicon.

Voir le post original

L'ablitération supprime directement les vecteurs de refus dans les poids du modèle. Le résultat ici : Gemma-4-31B-JANG_4M-CRACK par dealignai, 18 Go en mémoire, 22.7 Go sur disque.

93.7%

HarmBench compliance

149/159 tests

-2%

Régression MMLU

Après ablitération

18 Go

Empreinte RAM

Quant MLX mixed-precision

Prérequis avant de commencer

Un Mac Apple Silicon avec 24 Go minimum de RAM unifiée. En dessous, le modèle ne charge pas. 32 Go si tu veux un contexte long sans swap.

LM Studio est à éviter pour l'instant : son backend MLX ne prend pas encore en charge Gemma 4 (bug actif au moment de la release). L'outil qui fonctionne est vMLX, version 1.3.26 minimum.

1
Télécharger le modèle depuis HuggingFace
Va sur dealignai/Gemma-4-31B-JANG_4M-CRACK. Le quant MLX pèse 22.7 Go sur disque. Tu peux le télécharger directement depuis l'interface HuggingFace ou via huggingface-cli :
```
huggingface-cli download dealignai/Gemma-4-31B-JANG_4M-CRACK \
  --local-dir ~/models/gemma4-crack \
  --include "*.safetensors" "*.json" "*.txt"
```
Le dossier final doit contenir les fichiers de config et les shards du modèle.
2
Installer vMLX 1.3.26+
Télécharge vMLX depuis vmlx.net. L'app est pensée pour les quants MLX et charge Gemma 4 sans configuration supplémentaire.

Une fois l'app ouverte, pointe vers le dossier local où tu as téléchargé le modèle. Le chargement prend 15 à 30 secondes selon la vitesse de ton SSD.
3
Lancer et configurer
Dans vMLX, sélectionne le modèle chargé. L'interface expose un endpoint compatible OpenAI chat completions, ce qui te permet de le brancher à n'importe quel client qui parle ce format.

Pour tester en CLI directement :
```
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4-crack",
    "messages": [{"role": "user", "content": "Teste"}],
    "max_tokens": 200
  }'
```
Une réponse JSON avec un champ choices confirme que le modèle tourne.

Ce que vMLX donne en plus

L'app embarque des outils agentiques built-in : file I/O, shell, web search via DuckDuckGo/Brave, et fetch d'URL.

vMLX agentic AI en action sur Apple Silicon

Outils agentiques vMLX

Sur un modèle ablitéré, ces outils combinés couvrent du red-teaming local ou de la recherche sans contrainte. L'API expose aussi les endpoints Anthropic Messages si tu préfères ce format.

vMLX API Reference

Pour aller plus loin

Pour le sizing hardware en détail (contexte long, comparaison avec Qwen3 et Llama 4), Gemma 4 Guide est la ressource la plus complète disponible.

On avait creusé le trick mémoire unifiée AMD pour faire tourner des LLM locaux à 20 tok/s sur un mini PC à 350 dollars il y a peu. L'angle est différent, mais la logique de mémoire unifiée est exactement la même.

Formation

Intégrez LLM dans votre workflow

Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.

Découvrir

Communauté

Rejoins les builders IA

Tips, prompts, retours d'expérience. Le Telegram des gens qui buildent avec l'IA.

Rejoindre

Gemma-4-31B ablitéré sur Mac : le guide de déploiement en 3 étapes

Prérequis avant de commencer

Télécharger le modèle depuis HuggingFace

Installer vMLX 1.3.26+

Lancer et configurer

Ce que vMLX donne en plus

Pour aller plus loin

Intégrez LLM dans votre workflow

Rejoins les builders IA

Tags

Partager

Articles similaires

Gemma-4-31B ablitéré sur Mac : 18GB, zéro filtre, Apple Silicon requis

Wiki LLM personnel : 5 trucs qui bougent dans la mémoire IA explicite

Changer de LLM provider en prod, c'est pas un swap d'API key