De wereld van large language models: van evaluatie tot implementatie

Torsten Reidt, lid van onze Cactussen Team gaat in dit artikel in op de fijne kneepjes van het meest prominente grote taalmodel (LLM), waarbij de voor- en nadelen, complexiteit, kosten en implementatiemodellen worden benadrukt voor een uitgebreid begrip en analyse.

Grote taalmodellen (LLMs) transformeren het zakelijke landschap, automatiseren de klantenservice en ontsluiten voorspellende inzichten uit enorme datasets. Terwijl pioniers als Meta, OpenAI en Google de grenzen van AI-innovatie verleggen, evolueert het LLM-landschap in een ongekend tempo. Nu er dagelijks doorbraken en aankondigingen verschijnen, is het essentieel om voorop te blijven lopen.

In dit bericht zullen we drie toonaangevende LLMs – Meta’s nader bekijken zojuist onlangs uitgebracht LLama3 70B, OpenAI’s GPT-4 en MistralAI’s Mixtral 8x22B. We zullen hun belangrijkste feiten, mogelijkheden en beperkingen vergelijken om nieuwe klanten binnen te halen, de klantbetrokkenheid te vergroten of de bedrijfsactiviteiten te transformeren.

Voordat we beginnen met een korte beschrijving van elke beschouwde LLM, nemen we even de tijd om vertrouwd te raken met enkele kenmerken op het gebied van LLMs:

Open-source: Gratis toegang, wijziging en distributie van code/model, met gezamenlijke ontwikkeling
Gesloten bron: Eigen code/model, beperkte toegang en wijzigingen alleen door de eigenaar
Contextvenster: verwijst naar de maximale hoeveelheid invoertekst die een model kan verwerken en overwegen bij het genereren van een antwoord of het doen van voorspellingen.
Parameter: verwijst naar het aantal leerbare variabelen (gewichten) van een LLM. Over het algemeen bepaalt het aantal parameters de grootte van de LLM. Vanaf nu geldt: hoe meer parameters een model heeft, hoe meer capaciteit het heeft om complexe patronen in de gegevens te leren en weer te geven.
Functie bellen: verwijst naar het vermogen van de LLM om te detecteren of externe tools (API oproepen, aangepaste functies…) nodig zijn om de gegeven taak te vervullen en uiteindelijk de benodigde externe tools aan te roepen.
Gewicht openen: verwijst naar het vrijgeven van alleen de vooraf getrainde parameters of gewichten van de LLM zelf. Hierdoor kunnen anderen het model gebruiken voor gevolgtrekking en verfijning. De trainingscode, de originele dataset, de details van de modelarchitectuur en de trainingsmethodologie worden echter niet verstrekt.

Nu dat uit de weg is, volgt hier een korte beschrijving van de kanshebbers:

openAI GPT-4^{(14 maart 2023)}

GPT-4 is niet het nieuwste model dat beschikbaar is via openAI, maar is voor de vergelijking gekozen vanwege de beschikbaarheid van gegevens. Het model is toegankelijk via de openAI API. Er is geen officiële informatie beschikbaar over de modelarchitectuur of het aantal parameters, maar onofficiële bronnen suggereren een Mixture of Expert-architectuur (een combinatie van meerdere gespecialiseerde LLM) met in totaal 1,8T-parameters. GPT-4 is geoptimaliseerd voor gebruik in de Engelse taal, maar kan tekst in verschillende talen opnemen en dienovereenkomstig reageren. Het beschikt over een contextvenster van 64k tokens.

mistralAI Mixtral 8x22B

Het nieuwste open-sourcemodel van Mistral AI. Het is een schaars Mixture-of-Experts-model met in totaal 141B-parameters. Het spreekt vloeiend Engels, Frans, Italiaans, Duits en Spaans en heeft een contextvenster van 64.000 tokens.

Meta Lama3 70B

Zoals reeds vermeld is dit één van de nieuwste modellen van de Meta Llama familie. Uitgerust met een contextvenster van 8k tokens met behulp van 70B-parameters. 5% van de trainingsgegevens bestond uit niet-Engelse gegevens over 30 talen, dus bepaalde meertalige mogelijkheden zijn aanwezig.

	GPT-4	Mixtraal 8x22B	Lama3 70B
Open-source	nee	ja	ja
Aantal parameters	1.8T (niet-officieel	141B	70B
Contextvenster	64k-token	64k-token	8k-token
Taalondersteuning	Engels, mogelijkheden in andere talen	Engels, Frans, Italiaans, Duits, Spaans	Engels, mogelijkheden in andere talen
Functie bellen	ja	ja	ja

Hoe worden grote taalmodellen geëvalueerd?

Het objectief evalueren van grote taalmodellen (LLMs) kan een complexe taak zijn, omdat hiervoor de prestaties ervan op verschillende aspecten moeten worden beoordeeld. Er zijn echter enkele gemeenschappelijke benchmarks die vaak worden gebruikt om de modellen ten opzichte van elkaar te rangschikken.

MMLU(Massive Multi-task Language Understanding) beoordeelt de multitask-nauwkeurigheid van de modellen.
AGIEval ezelbeoordeelt de modellen in de context van mensgerichte gestandaardiseerde examens, zoals wiskunde-examens.
BIG-bank(Beyond the Imitation Game Benchmark), richt zich op taken waarvan wordt aangenomen dat ze buiten de mogelijkheden van het huidige taalmodel vallen
ARC-uitdaging(Abstraction and Reasoning Corpus) beoordeelt mensachtige algemene vloeibare intelligentie
DALEN(Discrete Redeneren Over Paragrafen) beoordeelt het begrijpend lezen

Hier ziet u hoe de drie modellen presteerden op de genoemde benchmarks:

	GPT-4 ^bron	Mixtraal 8x22B ^bron	Lama3 70B ^bron
MMLU_{5 schot}	86,4	77,7	79,5
AGIEval Engels_3-5-schot	–	61.2	63,0
BIG-bank hard_{3-schots COT}	83.1 ^bron	79,2	81,3
ARC-uitdaging_25-schots	96,3	90,7	93,0
DALEN_{3-schots F1}	80,9	77,6	79,7

Dus nu we de cijfers duidelijk hebben, willen we altijd het model kiezen dat het beste presteert op de meeste benchmarks, toch? Nou, het antwoord daarop is niet zo eenvoudig.

De use case is doorslaggevend

Hoewel een hoge score op benchmarktests kan aangeven hoe goed een model generaliseert naar onzichtbare gegevens voor een bepaalde taak, is uw gebruiksscenario de belangrijkste overweging bij de modelselectie. Stel je bijvoorbeeld de volgende twee punten voor.

De taak waarop u wilt dat het model goed presteert, is anders dan de benchmark
Jouw gegevens verschilt van de gegevens die in de benchmark worden gebruikt, bijvoorbeeld als u een andere taal dan Engels gebruikt.

In beide gevallen zijn er mogelijk andere modellen beschikbaar die beter presteren voor uw probleemstelling. Naast de prestatiegerelateerde criteria zijn er nog andere aspecten die de moeite waard zijn om te overwegen bij de keuze voor de LLM. Laten we de drie LLMs die voor dit artikel zijn geselecteerd opnieuw bekijken, samen met een praktisch voorbeeld voor elk.

GPT-4:

Businesscase: e-commerceplatform
Gebruiksvoorbeeld: een zeer gemoedelijke en boeiende klantchatbot in de Engelse taal.

Mixtraal 8x22B:

Businesscase: online vertaalplatform dat verschillende talen moet ondersteunen, waaronder enkele talen met minder middelen.
Use case: Backbone voor vertaling dankzij meertalige mogelijkheden. Kan worden verfijnd vanwege het open-source karakter.

Lama3 70B:

Business case: Grootschalig tekstclassificatiesysteem dat dagelijks miljoenen documenten moet verwerken
Gebruiksvoorbeeld: de efficiënte architectuur en geoptimaliseerde prestaties van de LLama3 70B gecombineerd met de kosteneffectiviteit. Kan indien nodig worden verfijnd.

Licenties en kosten [gevolgtrekking]

GPT-4 is een closed-source LLM en het gebruik via de openAI API is gebonden aan een vaste prijs per token van 1M. Omdat LLama3 70B en Mixtral 8x22B open-sourcemodellen zijn, zijn er geen kosten per token; de kosten hangen veeleer af van hoe de modellen worden ingezet. Ter vergelijking zijn implementatieopties geselecteerd op basis van de prijs per token van 1 miljoen.

	GPT-4 ^bron	Mixtraal 8x22B ^bron	Lama3 70B ^bron
Invoer _{1 miljoen tokens}	30$	2$	1$
Uitvoer _{1 miljoen tokens}	60$	6$	1$

Implementatie

De keuze tussen cloud- en on-premises implementatie voor LLMs moet worden bepaald door de specifieke behoeften en mogelijkheden van de organisatie, waarbij factoren als kosten, controle, schaalbaarheid en beveiliging in evenwicht worden gebracht. Elke implementatieoptie heeft zijn eigen voordelen en uitdagingen. Dit gedeelte is alleen van toepassing op de modellen Mixtral 8x22B en Llama3 70B, aangezien de openAI GPT-4 een closed-source model is.

Cloudgebaseerde platforms

Bij het implementeren van LLMs in de cloud wordt gebruik gemaakt van de rekenkracht en middelen van een cloudserviceprovider. Deze aanpak biedt schaalbaarheid, omdat bedrijven hun gebruik eenvoudig kunnen aanpassen op basis van de vraag, zonder dat er vooraf in fysieke hardware hoeft te worden geïnvesteerd. Cloud-implementatie zorgt er ook voor dat updates en onderhoud door de provider worden beheerd, waardoor de IT-last voor het bedrijf wordt verminderd. Dit model is echter sterk afhankelijk van internetconnectiviteit en kan aanleiding geven tot zorgen over gegevensbeveiliging en privacy, omdat gevoelige informatie buiten de locatie wordt verwerkt en opgeslagen.

Een LLM kan worden getraind/ingezet of gehost in verschillende beschikbare opties, zoals:

Amazon SalieMaker
Google Cloud AI-platform
Microsoft Azure Machine Learning

De keuze welke u kiest, hangt onder andere af van de bestaande infrastructuur of toolsjouw bedrijf. Als je Amazon al voor andere toepassingen gebruikt, wil je misschien geen andere provider toevoegen voor de inzet van de LLM. Andere punten om te overwegen zijn voorkeurskaders of specifieke behoeften.

De kosten voor implementatie zijn afhankelijk van veel factoren, zoals beschikbaarheid of datavolume. De bepalende kostenfactor is echter de grootte van de gekozen LLM, die uiteindelijk de benodigde hardware (GPU) definieert.

Een ruwe schatting voor gevolgtrekking met het Meta Llama3-model, gekwantificeerd op 4 bits (wat betekent dat de grootte is verkleind met enig prestatieverlies), bedraagt ongeveer 5 $ per uur op de Amazon SageMaker “ml.g4dn.12xlarge” voorbeeld. Deze instantie biedt 48 GB GPU-geheugen en kan worden gebruikt voor gevolgtrekking. Voor het verfijnen of trainen van de LLM moet een instantie met betere prestaties worden gebruikt.

Implementatie op locatie

Bij implementatie op locatie gaat het om het opzetten van de LLM-infrastructuur binnen de lokale omgeving van een bedrijf. Deze aanpak geeft organisaties volledige controle over hun gegevens, waardoor de beveiliging en de naleving van regelgeving worden verbeterd, met name van cruciaal belang voor sectoren als de gezondheidszorg en de financiële sector. On-premises oplossingen maken ook maatwerk mogelijk dat nodig kan zijn voor specifieke organisatorische behoeften. De nadelen zijn onder meer hogere initiële kosten voor hardware en infrastructuur, evenals de behoefte aan doorlopend onderhoud en technische ondersteuning, die veel middelen kunnen vergen.

De kosten van een typisch Deep Learning Workstation beginnen bij een prijs van ongeveer € 7.000. Zo’n werkstation is vaak uitgerust met twee GPU’s van consumentenkwaliteit, hoewel dit afhangt van de daadwerkelijke vereisten en het doel van de inzet (getraind model? Inferentiegebruik?). Om optimale prestaties te garanderen, is het echter essentieel om ook rekening te houden met de software en de algehele configuratie, evenals met de voortdurende onderhouds- en upgradebehoeften.

Gegevensprivacy en -beveiliging

Beide gegevensprivacy(verwijzend naar de rechten en het bestuur rond persoonlijke gegevens) en gegevensbeveiliging (verwijzend naar de maatregelen en technologieën die worden gebruikt om gegevens te beschermen tegen ongeoorloofde toegang, inbreuken en diefstal) zijn van fundamenteel belang voor het opbouwen van vertrouwen in technologische systemen. Ze vereisen voortdurende aandacht en aanpassing aan veranderende dreigingen en regelgevingslandschappen. Ervoor zorgen dat zowel privacy als veiligheid prioriteit krijgen, is essentieel voor het waarborgen van de rechten en belangen van alle belanghebbenden die betrokken zijn bij het digitale ecosysteem. Een geïmplementeerde LLM moet worden behandeld als elke andere geïmplementeerde applicatie met betrekking tot ongeoorloofde toegang, datalekken en cyberdreigingen. Daarnaast moet er goed gekeken worden naar de gegevensprivacy. Sommige aanbieders gebruiken de gebruikersinvoer voor trainingsdoeleinden, wat tot ongewenst datalekken kan leiden.

Conclusie

Het landschap van grote taalmodellen (LLMs) evolueert snel, waarbij bijna dagelijks nieuwe functionaliteiten verschijnen. Elk model heeft zijn unieke sterke en zwakke punten. We hebben drie prominente LLMs vergeleken om de belangrijkste overwegingen te illustreren voor het benutten van hun krachtige capaciteiten bij het aansturen van digitale transformatie, het verbeteren van klantervaringen en het blootleggen van verborgen inzichten. Naarmate het AI-landschap zich verder ontwikkelt, is het duidelijk dat degenen die effectief gebruik maken van LLMs een concurrentievoordeel zullen verwerven.

Bij Cactus is ons toegewijde CactAI-team enthousiast over het verkennen van de optimale AI-oplossingen die zijn afgestemd op uw unieke zakelijke behoeften, en werkt samen met u om het meest effectieve grote taalmodel te identificeren dat aansluit bij uw specifieke gebruiksscenario, waardoor de groei van uw bedrijf wordt versneld en uw operationele efficiëntie wordt verbeterd. Laat ons u helpen het volledige potentieel van AI te benutten om innovatie te stimuleren en concurrentievoordelen in uw branche te behalen.