Cactus kan uw bedrijf helpen voordeel te halen uit AI via “StartAI”, het AI-programma van Agoria en Vlaio

De wereld van large language models: van evaluatie tot implementatie

Torsten Reidt, lid van onze Cactussen Team gaat in dit artikel in op de fijne kneepjes van het meest prominente grote taalmodel (LLM), waarbij de voor- en nadelen, complexiteit, kosten en implementatiemodellen worden benadrukt voor een uitgebreid begrip en analyse.

Grote taalmodellen (LLMs) transformeren het zakelijke landschap, automatiseren de klantenservice en ontsluiten voorspellende inzichten uit enorme datasets. Terwijl pioniers als Meta, OpenAI en Google de grenzen van AI-innovatie verleggen, evolueert het LLM-landschap in een ongekend tempo. Nu er dagelijks doorbraken en aankondigingen verschijnen, is het essentieel om voorop te blijven lopen.

In dit bericht zullen we drie toonaangevende LLMs – Meta’s nader bekijken zojuist onlangs uitgebracht LLama3 70B, OpenAI’s GPT-4 en MistralAI’s Mixtral 8x22B. We zullen hun belangrijkste feiten, mogelijkheden en beperkingen vergelijken om nieuwe klanten binnen te halen, de klantbetrokkenheid te vergroten of de bedrijfsactiviteiten te transformeren.

Voordat we beginnen met een korte beschrijving van elke beschouwde LLM, nemen we even de tijd om vertrouwd te raken met enkele kenmerken op het gebied van LLMs:

  • Open-source: Gratis toegang, wijziging en distributie van code/model, met gezamenlijke ontwikkeling
  • Gesloten bron: Eigen code/model, beperkte toegang en wijzigingen alleen door de eigenaar
  • Contextvenster: verwijst naar de maximale hoeveelheid invoertekst die een model kan verwerken en overwegen bij het genereren van een antwoord of het doen van voorspellingen.
  • Parameter: verwijst naar het aantal leerbare variabelen (gewichten) van een LLM. Over het algemeen bepaalt het aantal parameters de grootte van de LLM. Vanaf nu geldt: hoe meer parameters een model heeft, hoe meer capaciteit het heeft om complexe patronen in de gegevens te leren en weer te geven.
  • Functie bellen: verwijst naar het vermogen van de LLM om te detecteren of externe tools (API oproepen, aangepaste functies…) nodig zijn om de gegeven taak te vervullen en uiteindelijk de benodigde externe tools aan te roepen.
  • Gewicht openen: verwijst naar het vrijgeven van alleen de vooraf getrainde parameters of gewichten van de LLM zelf. Hierdoor kunnen anderen het model gebruiken voor gevolgtrekking en verfijning. De trainingscode, de originele dataset, de details van de modelarchitectuur en de trainingsmethodologie worden echter niet verstrekt.

Nu dat uit de weg is, volgt hier een korte beschrijving van de kanshebbers:

openAI GPT-4(14 maart 2023)

GPT-4 is niet het nieuwste model dat beschikbaar is via openAI, maar is voor de vergelijking gekozen vanwege de beschikbaarheid van gegevens. Het model is toegankelijk via de openAI API. Er is geen officiële informatie beschikbaar over de modelarchitectuur of het aantal parameters, maar onofficiële bronnen suggereren een Mixture of Expert-architectuur (een combinatie van meerdere gespecialiseerde LLM) met in totaal 1,8T-parameters. GPT-4 is geoptimaliseerd voor gebruik in de Engelse taal, maar kan tekst in verschillende talen opnemen en dienovereenkomstig reageren. Het beschikt over een contextvenster van 64k tokens.

mistralAI Mixtral 8x22B

Het nieuwste open-sourcemodel van Mistral AI. Het is een schaars Mixture-of-Experts-model met in totaal 141B-parameters. Het spreekt vloeiend Engels, Frans, Italiaans, Duits en Spaans en heeft een contextvenster van 64.000 tokens.

Meta Lama3 70B

Zoals reeds vermeld is dit één van de nieuwste modellen van de Meta Llama familie. Uitgerust met een contextvenster van 8k tokens met behulp van 70B-parameters. 5% van de trainingsgegevens bestond uit niet-Engelse gegevens over 30 talen, dus bepaalde meertalige mogelijkheden zijn aanwezig.

GPT-4Mixtraal 8x22BLama3 70B
Open-sourceneejaja
Aantal parameters1.8T (niet-officieel141B70B
Contextvenster64k-token64k-token8k-token
TaalondersteuningEngels, mogelijkheden in
andere talen
Engels, Frans, Italiaans,
Duits, Spaans
Engels, mogelijkheden in
andere talen
Functie bellenjajaja

Hoe worden grote taalmodellen geëvalueerd?

Het objectief evalueren van grote taalmodellen (LLMs) kan een complexe taak zijn, omdat hiervoor de prestaties ervan op verschillende aspecten moeten worden beoordeeld. Er zijn echter enkele gemeenschappelijke benchmarks die vaak worden gebruikt om de modellen ten opzichte van elkaar te rangschikken.

  • MMLU(Massive Multi-task Language Understanding) beoordeelt de multitask-nauwkeurigheid van de modellen.
  • AGIEval ezelbeoordeelt de modellen in de context van mensgerichte gestandaardiseerde examens, zoals wiskunde-examens.
  • BIG-bank(Beyond the Imitation Game Benchmark), richt zich op taken waarvan wordt aangenomen dat ze buiten de mogelijkheden van het huidige taalmodel vallen
  • ARC-uitdaging(Abstraction and Reasoning Corpus) beoordeelt mensachtige algemene vloeibare intelligentie
  • DALEN(Discrete Redeneren Over Paragrafen) beoordeelt het begrijpend lezen

Hier ziet u hoe de drie modellen presteerden op de genoemde benchmarks:

GPT-4 bronMixtraal 8x22B bronLama3 70B bron
MMLU5 schot86,477,779,5
AGIEval Engels3-5-schot61.263,0
BIG-bank hard3-schots COT83.1 bron79,281,3
ARC-uitdaging25-schots96,390,793,0
DALEN3-schots F180,977,679,7

Dus nu we de cijfers duidelijk hebben, willen we altijd het model kiezen dat het beste presteert op de meeste benchmarks, toch? Nou, het antwoord daarop is niet zo eenvoudig.

De use case is doorslaggevend

Hoewel een hoge score op benchmarktests kan aangeven hoe goed een model generaliseert naar onzichtbare gegevens voor een bepaalde taak, is uw gebruiksscenario de belangrijkste overweging bij de modelselectie. Stel je bijvoorbeeld de volgende twee punten voor.

  • De taak waarop u wilt dat het model goed presteert, is anders dan de benchmark
  • Jouw gegevens verschilt van de gegevens die in de benchmark worden gebruikt, bijvoorbeeld als u een andere taal dan Engels gebruikt.

In beide gevallen zijn er mogelijk andere modellen beschikbaar die beter presteren voor uw probleemstelling. Naast de prestatiegerelateerde criteria zijn er nog andere aspecten die de moeite waard zijn om te overwegen bij de keuze voor de LLM. Laten we de drie LLMs die voor dit artikel zijn geselecteerd opnieuw bekijken, samen met een praktisch voorbeeld voor elk.

GPT-4:

  • Businesscase: e-commerceplatform
  • Gebruiksvoorbeeld: een zeer gemoedelijke en boeiende klantchatbot in de Engelse taal.

Mixtraal 8x22B:

  • Businesscase: online vertaalplatform dat verschillende talen moet ondersteunen, waaronder enkele talen met minder middelen.
  • Use case: Backbone voor vertaling dankzij meertalige mogelijkheden. Kan worden verfijnd vanwege het open-source karakter.

Lama3 70B:

  • Business case: Grootschalig tekstclassificatiesysteem dat dagelijks miljoenen documenten moet verwerken
  • Gebruiksvoorbeeld: de efficiënte architectuur en geoptimaliseerde prestaties van de LLama3 70B gecombineerd met de kosteneffectiviteit. Kan indien nodig worden verfijnd.

Licenties en kosten [gevolgtrekking]

GPT-4 is een closed-source LLM en het gebruik via de openAI API is gebonden aan een vaste prijs per token van 1M. Omdat LLama3 70B en Mixtral 8x22B open-sourcemodellen zijn, zijn er geen kosten per token; de kosten hangen veeleer af van hoe de modellen worden ingezet. Ter vergelijking zijn implementatieopties geselecteerd op basis van de prijs per token van 1 miljoen.

GPT-4 bronMixtraal 8x22B bronLama3 70B bron
Invoer 1 miljoen tokens30$2$1$
Uitvoer 1 miljoen tokens60$6$1$

Implementatie

De keuze tussen cloud- en on-premises implementatie voor LLMs moet worden bepaald door de specifieke behoeften en mogelijkheden van de organisatie, waarbij factoren als kosten, controle, schaalbaarheid en beveiliging in evenwicht worden gebracht. Elke implementatieoptie heeft zijn eigen voordelen en uitdagingen. Dit gedeelte is alleen van toepassing op de modellen Mixtral 8x22B en Llama3 70B, aangezien de openAI GPT-4 een closed-source model is.

Cloudgebaseerde platforms

Bij het implementeren van LLMs in de cloud wordt gebruik gemaakt van de rekenkracht en middelen van een cloudserviceprovider. Deze aanpak biedt schaalbaarheid, omdat bedrijven hun gebruik eenvoudig kunnen aanpassen op basis van de vraag, zonder dat er vooraf in fysieke hardware hoeft te worden geïnvesteerd. Cloud-implementatie zorgt er ook voor dat updates en onderhoud door de provider worden beheerd, waardoor de IT-last voor het bedrijf wordt verminderd. Dit model is echter sterk afhankelijk van internetconnectiviteit en kan aanleiding geven tot zorgen over gegevensbeveiliging en privacy, omdat gevoelige informatie buiten de locatie wordt verwerkt en opgeslagen.

Een LLM kan worden getraind/ingezet of gehost in verschillende beschikbare opties, zoals:

  • Amazon SalieMaker
  • Google Cloud AI-platform
  • Microsoft Azure Machine Learning

De keuze welke u kiest, hangt onder andere af van de bestaande infrastructuur of toolsjouw bedrijf. Als je Amazon al voor andere toepassingen gebruikt, wil je misschien geen andere provider toevoegen voor de inzet van de LLM. Andere punten om te overwegen zijn voorkeurskaders of specifieke behoeften.

De kosten voor implementatie zijn afhankelijk van veel factoren, zoals beschikbaarheid of datavolume. De bepalende kostenfactor is echter de grootte van de gekozen LLM, die uiteindelijk de benodigde hardware (GPU) definieert.

Een ruwe schatting voor gevolgtrekking met het Meta Llama3-model, gekwantificeerd op 4 bits (wat betekent dat de grootte is verkleind met enig prestatieverlies), bedraagt ongeveer 5 $ per uur op de Amazon SageMaker “ml.g4dn.12xlarge” voorbeeld. Deze instantie biedt 48 GB GPU-geheugen en kan worden gebruikt voor gevolgtrekking. Voor het verfijnen of trainen van de LLM moet een instantie met betere prestaties worden gebruikt.

Implementatie op locatie

Bij implementatie op locatie gaat het om het opzetten van de LLM-infrastructuur binnen de lokale omgeving van een bedrijf. Deze aanpak geeft organisaties volledige controle over hun gegevens, waardoor de beveiliging en de naleving van regelgeving worden verbeterd, met name van cruciaal belang voor sectoren als de gezondheidszorg en de financiële sector. On-premises oplossingen maken ook maatwerk mogelijk dat nodig kan zijn voor specifieke organisatorische behoeften. De nadelen zijn onder meer hogere initiële kosten voor hardware en infrastructuur, evenals de behoefte aan doorlopend onderhoud en technische ondersteuning, die veel middelen kunnen vergen.

De kosten van een typisch Deep Learning Workstation beginnen bij een prijs van ongeveer € 7.000. Zo’n werkstation is vaak uitgerust met twee GPU’s van consumentenkwaliteit, hoewel dit afhangt van de daadwerkelijke vereisten en het doel van de inzet (getraind model? Inferentiegebruik?). Om optimale prestaties te garanderen, is het echter essentieel om ook rekening te houden met de software en de algehele configuratie, evenals met de voortdurende onderhouds- en upgradebehoeften.

Gegevensprivacy en -beveiliging

Beide gegevensprivacy(verwijzend naar de rechten en het bestuur rond persoonlijke gegevens) en gegevensbeveiliging (verwijzend naar de maatregelen en technologieën die worden gebruikt om gegevens te beschermen tegen ongeoorloofde toegang, inbreuken en diefstal) zijn van fundamenteel belang voor het opbouwen van vertrouwen in technologische systemen. Ze vereisen voortdurende aandacht en aanpassing aan veranderende dreigingen en regelgevingslandschappen. Ervoor zorgen dat zowel privacy als veiligheid prioriteit krijgen, is essentieel voor het waarborgen van de rechten en belangen van alle belanghebbenden die betrokken zijn bij het digitale ecosysteem. Een geïmplementeerde LLM moet worden behandeld als elke andere geïmplementeerde applicatie met betrekking tot ongeoorloofde toegang, datalekken en cyberdreigingen. Daarnaast moet er goed gekeken worden naar de gegevensprivacy. Sommige aanbieders gebruiken de gebruikersinvoer voor trainingsdoeleinden, wat tot ongewenst datalekken kan leiden.

Conclusie

Het landschap van grote taalmodellen (LLMs) evolueert snel, waarbij bijna dagelijks nieuwe functionaliteiten verschijnen. Elk model heeft zijn unieke sterke en zwakke punten. We hebben drie prominente LLMs vergeleken om de belangrijkste overwegingen te illustreren voor het benutten van hun krachtige capaciteiten bij het aansturen van digitale transformatie, het verbeteren van klantervaringen en het blootleggen van verborgen inzichten. Naarmate het AI-landschap zich verder ontwikkelt, is het duidelijk dat degenen die effectief gebruik maken van LLMs een concurrentievoordeel zullen verwerven.

Bij Cactus is ons toegewijde CactAI-team enthousiast over het verkennen van de optimale AI-oplossingen die zijn afgestemd op uw unieke zakelijke behoeften, en werkt samen met u om het meest effectieve grote taalmodel te identificeren dat aansluit bij uw specifieke gebruiksscenario, waardoor de groei van uw bedrijf wordt versneld en uw operationele efficiëntie wordt verbeterd. Laat ons u helpen het volledige potentieel van AI te benutten om innovatie te stimuleren en concurrentievoordelen in uw branche te behalen.

Deel deze pagina

diana@2x

Als er een project is dat hulp nodig heeft of zelfs een vaardigheid die u mist, neem dan contact met ons op.

Vergelijkbare artikelen

Neem vandaag nog contact met ons op om te ontdekken hoe Cactus uw digitale reis kan ondersteunen