Guide pratique pour l'utilisation des LLMs en entreprise

Un guide introductif pour intégrer les modèles de langage large (LLMs) dans votre entreprise.

LLMs en Entreprise

Guide pour l'utilisation des LLMs en entreprise


1 - Introduction


Si vous êtes une entreprise suisse envisageant d'adopter un LLM pour un cas d'utilisation spécifique, ce guide vous aidera à évaluer les coûts et les options disponibles.


2 - Définition d'un LLM


Ces modèles, souvent basés sur des architectures de réseaux de neurones telles que les transformers, sont capables de traiter et de générer des textes complexes. Quelques ressources pouvant être utile pour comprendre les large language models: Lien vers le cours de Deep Learning de Francois Fleuret


3 - Les LLM pour entreprise


Voici les modèles les plus populaires à considérer pour vos cas d’usage:

- Llama 2 : Très performant dans les benchmarks standard, offrant une alternative économique à GPT-4.

- Mistral 7B : Se distingue par sa rapidité et son efficacité, bien que des préoccupations soient soulevées concernant sa modération de contenu.

- GPT-3.5 et GPT-4 : Continuent de représenter les standards de l'industrie en termes de polyvalence et de performances, mais non open-source.


4 - Déterminer votre utilisation



Fine-tuning:

Ajustement d'un modèle pré-entraîné sur un ensemble de données spécifique ou pour une tâche spécifique, pour améliorer ses performances dans ce contexte. Une approche possible est de peaufiner un modèle en fonction de notations humaines. Bien que proche de l'approche RLHF (Reinforcement Learning Human Feedback), notre méthode utilisée lors du hackathon d’IA de l'IDIAP diffère légèrement. Au lieu de s'appuyer sur le RLHF, nous avons opté pour un processus de fine-tuning plus direct, utilisant la notation humaine. Cette technique a été appliquée avec succès par notre équipe chez Pulse Partners pour remporter la dernière édition du hackathon d'IA de l'IDIAP. En ajustant un modèle LLama2, nous avons pu affiner sa capacité à générer des questions plus précises et adaptées au contexte spécifique du recrutement pour la banque BCVS. Cette méthode de Fine-Tuning, bien que plus simple que le RLHF, s'est révélée efficace pour obtenir des questions personnalisés et plus pertinentes comparé à GPT-4, en phase avec les exigences spécifiques de notre cas d'utilisation. Voici le lien vers l'article ICC 2023


Card Image

Lien vers article de hugging face sur le RLHF

Formulation de prompts:

La formulation de prompts pour les modèles de langage implique de créer des instructions claires et précises qui guident efficacement le modèle pour produire des réponses utiles. Dans un contexte professionnel, une bonne formulation maximise la pertinence et l'exactitude des réponses, en exploitant la capacité du modèle à interpréter et à répondre de manière contextuelle. Cela requiert une compréhension des capacités du modèle et de la manière dont il traite l'information.


Inférence:

Utilisation d'un modèle entraîné pour faire des prédictions ou générer du texte basé sur de nouvelles entrées.


Coût d'entraînement:

Le processus d'entraînement consiste à former un modèle de langage en utilisant de grandes quantités de données pour qu'il apprenne à comprendre et à générer du langage.


L'entraînement d'un modèle comme ceux développés par OpenAI est extrêmement coûteux en termes de ressources informatiques et de données, rendant souvent l'entraînement interne impraticable pour la plupart des entreprises.


5 - Testez vous même les modèles sur votre cas d'usage


Card Image

Bien que les benchmarks des différents modèles soient utiles, les tester directement peut offrir une meilleure compréhension de leur performance et applicabilité. Voici une plateforme utile pour tester les sorties des modeles et faire un choix raisonné : replicate.



d- Considération des coûts pour implémenter et utiliser des LLMs


API Basée sur le Cloud :

Utilisation de l'API de Chat GPT d'OpenAI : Les coûts sont calculés en fonction de l'utilisation. C'est une option pratique pour les entreprises qui souhaitent une intégration rapide sans la complexité de la gestion de l'infrastructure.


Plateformes open-source :

Utilisation de Plateformes comme Azure ou Hugging Face : Ces plateformes offrent des solutions clé en main pour déployer des modèles open-source. Elles gèrent l'hébergement et l'inférence, simplifiant ainsi le processus de mise en œuvre. Les coûts varient selon l'utilisation et les ressources nécessaires.


Approche hybride :

Expérimentation et fine-tuning sur plateforme, puis déploiement : Nous utilisons souvent une plateforme pour les phases initiales d'expérimentation et de fine-tuning, avant de déployer les modèles. Cette approche hybride combine la flexibilité des plateformes cloud avec le contrôle d'un déploiement personnalisé.


Précautions sur les coûts à long terme :

Éviter la dépendance aux APIs externes : bien que pratiques, les APIs de tiers peuvent devenir coûteuses à grande échelle. Il est crucial de surveiller l'évolution des coûts et d'évaluer les alternatives si nécessaire.


Référence pour l'analyse des coûts :

Article d'AnyScale : pour une analyse détaillée des coûts liés aux applications basées sur les LLMs, consultez ce guide d'AnyScale.

Ce document offre des informations précieuses sur le calcul des coûts et les considérations budgétaires. Tutoriel sur le calcul des coûts : Un tutoriel détaillé sera bientôt disponible pour guider les entreprises dans le calcul précis des coûts associés à l'utilisation des LLMs.

Calcul des coûts : pour comprendre les coûts d'utilisation, référez-vous au pricing d'OpenAI. Cette information est cruciale pour évaluer le seuil d'utilisation, en particulier lors de la transition du POC à la mise en production.


6. Sécurité et confidentialité des données :


La sécurité des données est une considération primordiale. Bien que des plateformes comme Azure et OpenAI assurent la confidentialité des données avec des certifications telles que SOC-2, certaines entreprises pourraient préférer des solutions qui minimisent le partage de données avec des tiers.

Pour une compréhension approfondie de la gestion de la confidentialité des données avec les LLMs, consultez notre guide dédié (à venir).


Card Image

7 - Pulse Partners


Phase initiale : Nous recommandons l'utilisation de GPT-3.5 ou GPT-4 pour les phases initiales de POC, en raison de la simplicité de leur implémentation.

Phase de production : Après la phase de POC, nous suggérons d'adopter LLama2 ou Falcon7B, en utilisant des plateformes telles qu'Azure pour une intégration et une gestion simplifiées. Cette approche assure une transition en douceur de la phase de test à une mise en production à grande échelle.

Personnalisation : Nous pouvons également déployer et gérer ces modèles directement sur votre environnement, offrant une solution sur mesure adaptée à vos besoins spécifiques.



Vous pouvez demander l'aide de Pulse Partners pour votre premier MVP: site internet Pulse Partners.

Stay in the loop

Join our newsletter to get top news before anyone else.