Mistral NeMo

Mistral NeMo
Editeur : Mistral AI, NVIDIA
Site officiel : https://mistral.ai/fr/news/mistral-nemo
Assistance : https://huggingface.co/nvidia/Mistral-NeMo-12B-Instruct
Forums : https://www.reddit.com/r/LocalLLaMA/comments/1e96z7s/how_do_i_run_mistralnemo12b/
Pourquoi utiliser Mistral NeMo ?
- Performance supérieure : surpasse des modèles tels que Llama 3 8B et Gemma 2 9B sur des benchmarks standard.
- Polyvalence : adapté aux tâches de génération de texte, de code, de résumé et de dialogue multilingue.
- Open source : distribué sous licence Apache 2.0, favorisant l'adoption et la personnalisation.
- Efficacité : fonctionne efficacement sur un seul GPU NVIDIA, comme le RTX 4090
Comment utiliser Mistral NeMo ?
- Via Hugging Face : téléchargez les modèles pré-entraînés ou ajustés pour des cas d'utilisation spécifiques.
- Framework NVIDIA NeMo : intégration facilitée pour des applications d'entreprise.
- Ollama : déploiement local simplifié via https://ollama.com/library/mistral-nemo .
- Finetuning : personnalisation possible avec des outils comme Unsloth pour une adaptation rapide et efficace
Option d'acquisition de Mistral NeMo
- Téléchargement gratuit : modèles disponibles sur https://huggingface.co/nvidia/Mistral-NeMo-12B-Instruct
Présentation de l’application Mistral NeMo par l'éditeur
Mistral NeMo est un modèle de langage assez puissant, avec 12 milliards de paramètres. Il a été spécialement conçu pour être très performant dans divers domaines, le raisonnement,, la création de code informatique, la compréhension de plusieurs langues et les dialogues complexes. Un de ses atouts majeurs est sa capacité à gérer de longs morceaux de texte, jusqu'à 128 000 unités, ce qui le place au-dessus de nombreux autres modèles de taille comparable.
Fonctionnalités
- Fenêtre de contexte étendue : jusqu'à 128 000 tokens pour une compréhension approfondie des textes longs.
- Quantification FP8 : inférence optimisée sans perte de précision.
- Multilinguisme : prise en charge de plus de 80 langues, dont le français, l'anglais, l'arabe et le chinois.
- Compatibilité : remplacement direct des systèmes utilisant Mistral 7B
Technologies
- Architecture Transformer : 40 couches avec 32 têtes d'attention, utilisant l'activation SwiGLU.
- Grouped Query Attention (GQA) : optimisation de la vitesse d'inférence.
- Tokenizer Tekken : compression efficace pour les langues multiples et le code.
- Formation multilingue : entraîné sur des données diversifiées, incluant du code et des textes en plusieurs langues