<Nom_Du_Modèle>.1:8b-instruct-q3_K_S (argg vite un dictionnaire)
Flemme de tout lire? Voici un petit résumé :
Tu veux pas te tromper en choisissant un modèle IA open source ? Commence par piger ce que 8b, instruct, q3_K_S, imatrix disent du modèle., puis choisis selon ton matos et ton usage. Un bon point de départ : 8b-instruct-q4_K_M. Après, tu ajustes selon ton besoin.
1. Pourquoi ils font jamais simple ces informaticiens?
Tu vois cette chaîne de caractères — 8b‑instruct‑q3_K_S ? C’est le résumé en code de tout ce que tu dois savoir pour faire un choix malin.
- 8b = 8 milliards de paramètres, un modèle « ni gros ni léger ». Il pourra tourner sur vos machines.
- instruct signifie que le modèle est entraîné pour suivre tes ordres… genre « fais un résumé »… (IA : euh, non connard. Ah tu t’es trompé tu as pris le modèle insulte)
- q3_K_S = quantification 3 bits, K‑means, blocs petits, j’explique plus bas.
2. Les tailles de modèles (1b, 3b, 7b, 8b, 13b… jusqu’à 405b)
Commençons par une mise au clair sur ce que “8b” veut dire. Le “b”, ici, c’est pas “byte” ni “bit” (non, vraiment pas), c’est billion, à l’anglaise — donc milliard en bon français. Un modèle 8b, c’est donc un modèle qui embarque 8 milliards de paramètres.
Mais… c’est quoi un paramètre, au juste ? Ce sont les petites poignées qu’un modèle IA ajuste pendant l’apprentissage pour mieux faire son taf. Chaque paramètre, c’est un peu comme un curseur dans un gigantesque tableau de bord, et t’en as des milliards. Plus t’en as, plus le modèle peut capturer des subtilités, des nuances… mais plus il devient gros, lent, gourmand. (ici l’adage “plus gros, plus c’est bon” fonctionne bien)
- 1–3 b = mini‑modèles : rapides, légers, mais limités. Parfait pour tester ou pour des bricoles.
- 7–13 b = modèles équilibrés, bons partout.
- 70b+ = bestiaux réservés à ceux qui ont…. Beaucoup de RAM. Confort, mais demande d’y mettre le prix.
| Tag | RAM nécessaire | Commentaire terrain |
| 1b | 2 Go | Parfait pour Raspberry Pi & co |
| 3b | 6 Go | Tchat minimaliste |
| 7b | 14 Go | Sweet spot « PC gamer » |
| 8b | 16 Go | Idem 7B + un chouïa de contexte |
| 13b | 26 Go | Bon gros assistant perso |
| 70b | 140 Go | Besoin d’un GPU pro (sauf quantif’) |
| 405b | 810 Go | Domaines pointus / recherche |
3. Type de modèle : instruct, chat, text, code, vision…
Chaque suffixe sert ta mission.
- instruct = tu parles, il obéit. (mince j’ai pas pris l’option sur mes enfants)
- chat = parfait pour un chatbot.
- text = base brute, parfait pour la customisation. Il ne répondra a aucune question, si tu dis “Raconte moi une histoire drôle” il pourrait répondre " parce que j’aime les histoires drôle, dans mon enfance j’adorait les blagues carambars", il va juste continuer ta phrase.
- code = si tu veux coder, c’est lui qu’il te faut.
- vision = est capable d’analyser des images et vidéos.
4. GGUF, legacy, K‑means… la méthode, dans le bon ordre
Avant de te perdre dans les suffixes exotiques comme q4_K_M, il faut que tu comprennes dans quel contenant ton modèle est livré. Parce que oui, les modèles open source, c’est comme du café : t’as besoin d’un format compatible avec ta machine.
Jusqu’à récemment, c’était un joyeux bordel. Chaque outil ou moteur d’inférence avait ses formats : GGML, binaires bruts, HF safetensors, ONNX, j’en passe. Résultat : tu chopais un modèle sur Hugging Face, tu passais trois heures à convertir et à prier pour que ça marche avec ton runtime.
C’est là que débarque GGUF – pour GGML Unified Format. Une tentative (réussie) de mettre tout le monde d’accord.
on y trouve quoi :
- Au début il y avait une méthode qu’on appelle aujourd’hui legacy (méthodes 0/ 1), linéaires, simples, mais pas géniales.
- Puis arrive K‑means (suffixes K…) avec les variantes S/M/L : bloc petit/moyen/grand. C’est le tetris de la quantification, qui optimise mieux la place sans tout écraser.
- Imatrix (importance matrix) : c’est le gars qui choisit quoi garder en haute définition.
Image : “Pense à compresser ton modèle : legacy, c’est tout écraser au rouleau‑compresseur ; K‑means, c’est du découpage intelligent ; imatrix, c’est le chef de chantier qui sauve les chefs-d’œuvre.”
| Format (bits) | Taille vs FP16 | Qualité de base | Qualité avec Imatrix | Cas d’usage |
| FP16 (F16) | ×1 | ⭐⭐⭐⭐⭐ | — | Recherche, benchmarks |
| Q8_0 | ×0,5 | ⭐⭐⭐⭐☆ | ⭐⭐⭐⭐⭐ | Prod sensible, GPU 24 Go+ |
| Q6_K | ×0,38 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐☆ | Compromis musclé |
| Q5_K_M | ×0,31 | ⭐⭐⭐☆ | ⭐⭐⭐⭐ | Déploiement général |
| Q4_K_M | ×0,25 | ⭐⭐☆ | ⭐⭐⭐ | Laptops, serveurs |
| Q3_K_M | ×0,19 | ⭐⭐ | ⭐⭐☆ | RAM serrée (< 12 Go) |
| Q2_K | ×0,13 | ⭐ | ⭐☆ | Edge extrême, tests |
5. Et imatrix ? C’est quoi son rôle, vraiment ?
On peut le voir dans le tableau juste en haut, il ne change pas la quantification brute, il ajoute un filtrage intelligent. Ce serait bête de le mettre dans le tableau sans souligner sa plus-value narrative.
6. Guide de Sélection Pratique (récap)
Choisir la Taille du Modèle
- Contraintes matérielles limitées : 1b-3b
- Usage général sur PC/serveur : 7b-8b
- Applications exigeantes avec GPU puissant : 13b-70b
- Recherche/entreprise : 405b
Choisir le Type de Modèle
- Assistant IA, Q&R : instruct
- Chatbot conversationnel : chat
- Fine-tuning personnalisé : text
- Programmation : code
- Analyse d’images : vision
Choisir la Quantification
- Si VRAM abondante : q8_0 ou f16
- Usage standard : q4_K_M ou q5_K_M
- Contraintes mémoire : q3_K_M ou q3_K_S
- Recherche de vitesse : q4_K_S
- Qualité maximale : versions avec imatrix si disponibles
Voilà, vous n’allez plus choisir par hasard vos modèles et ça tombe bien le prochain article vous aurez besoin de cette connaissance 😉