LLM prisberegner

Beregn og sammenlign omkostningerne ved at bruge OpenAI, Azure, Anthropic Claude, Llama 3, Google Gemini, Mistral og Cohere LLM-API'er til dit AI-projekt med vores simple beregner.

Token Price Counter

Input Tokens:

Output Tokens:

API Calls:

Model	Provider	Kontekstvindue	Pris pr. 1M (INPUT)	Pris pr. 1M (OUTPUT)	Pris pr. API-kald	Total

LLM-priser: Et omfattende overblik

OpenAI, Anthropic, Google, Cohere, Mistral og Meta tilbyder et bredt udvalg af modeller, hver tilpasset specifikke opgaver og funktioner. At forstå prisstrukturen er afgørende for virksomheder og udviklere, der ønsker at integrere disse modeller i deres applikationer. Her får du et detaljeret kig på, hvordan de strukturerer deres priser.

Tokens

LLM-priser drejer sig normalt om begrebet “tokens”. Et token kan betragtes som en del af et ord. For at give dig et perspektiv svarer 1.000 tokens til cirka 750 ord.

En nyttig tommelfingerregel at huske ved brug af tokens er, at for typiske engelske tekster svarer ét token normalt til cirka fire tegn. Det betyder, at et token repræsenterer cirka tre fjerdedele af et ord. For ikke-engelske sprog som japansk kan denne beregning ændre sig væsentligt.

Kontekstvindue

Med Large Language Models (LLM’er), især dem udviklet af OpenAI, er termen “kontekstvindue” almindelig. Det er et vigtigt begreb at forstå, da det har direkte indflydelse på modellens ydeevne, funktioner og dermed omkostninger. Her dykker vi dybere ned i, hvad et kontekstvindue betyder, og hvorfor det er vigtigt.

Hvad er et kontekstvindue?

Kontekstvinduet refererer til den mængde information eller antal tokens, en model kan “trænes på” eller “huske” fra et givent input ad gangen. Det er i bund og grund modellens “arbejdshukommelse”, når den behandler en forespørgsel. Hvis en model for eksempel har et kontekstvindue på 8.000 (8K) tokens, kan den overveje op til 8.000 tokens fra input og output i én gennemgang.

Hvorfor er kontekstvinduet vigtigt?

Kompleksitet i opgaver: Længere kontekstlængder gør det muligt for modellen at håndtere mere komplekse opgaver, der kræver forståelse og behandling af større informationsmængder. For at opsummere en lang artikel eller besvare spørgsmål om et detaljeret teknisk dokument kan f.eks. kræve en model med længere kontekstlængde.
Kontinuitet i samtaler: I chatbot-applikationer sikrer en længere kontekst, at modellen husker mere af den foregående samtale, hvilket fører til mere sammenhængende og kontekstrelevante svar.
Omkostning: Modeller med længere kontekstlængder er typisk dyrere på grund af det øgede forbrug af computerkraft.

Sprogmodeller: Chat, Tekstgenerering og Ræsonnering

OpenAI og andre udbydere tilbyder flere sprogmodeller, hver med særlige funktioner og prisstrukturer. Priserne for disse modeller er typisk pr. 1.000 tokens.

OpenAI GPT-4o: GPT-4o (Omni) er OpenAI’s mest avancerede multimodale model, der er 2 gange hurtigere og 50% billigere end GPT-4 Turbo med stærkere visionsfunktioner. Modellen har 128K kontekst og en vidensopdatering fra oktober 2023. Den vil snart understøtte lydindput samt tekst-, billed- og lydoutput.
OpenAI GPT-4: Kendt for sin brede generelle viden og domæneekspertise er GPT-4 dygtig til at følge indviklede instruktioner på naturligt sprog og løse udfordrende problemer med præcision. Den er dog langsommere og dyrere end andre modeller. Den nyligt udsendte GPT-4 Turbo (gpt-4-turbo) er 3 gange billigere og understøtter en utrolig 128K kontekstgrænse! Tilgængelig også via Microsofts Azure OpenAI-tjeneste.
OpenAI GPT-3.5 Turbo: Denne model er optimeret til dialog, hvilket gør den ideel til chatbots og konversationsgrænsefladerne. Den er også den hurtigste og mest omkostningseffektive model til tekstgenerering. Tilgængelig også via Microsofts Azure OpenAI-tjeneste.
Anthropics Claude 3: Claude 3 omfatter tre helt nye modeller i stigende rækkefølge efter kapacitet: Claude 3 Haiku, Claude 3 Sonnet og Claude 3 Opus. Hver efterfølgende model tilbyder øget ydelse, så brugere kan vælge den optimale balance mellem intelligens, hastighed og omkostninger for deres specifikke applikation. Opus er sammenligneligt med GPT-4 i ydeevne, mens Haiku er den mest omkostningseffektive model, som alligevel slår GPT-3.5 Turbo på mange testresultater. Claude 3 har et enormt 200K kontekstvindue og fås via Anthropics API og claud.ai.
Llama 3: Llama 3 er den seneste open source-store sprogmodel (LLM) udviklet af Meta, moderselskabet bag Facebook. Den står som Metas svar på OpenAI’s GPT-4-serie og Googles AI-modeller som Gemini. Den adskiller sig dog ved at være frit tilgængelig til både forskning og kommercielle formål. Generelt på niveau med GPT-3.5 Turbo i ydeevne er Llama 3 en kraftfuld model, der kan bruges til en række opgaver, inklusive tekstgenerering, opsummering og besvarelse af spørgsmål. Den nærmer sig også niveauet for GPT-4 på mange testresultater for væsentligt lavere omkostninger. En ulempe er dog, at Llama 3 primært er en engelsksproget model.
Gemini: Gemini er Googles nyeste familie af multimodale store sprogmodeller, der afløser PaLM 2. Beståede af Gemini Ultra, Gemini Pro og Gemini Nano i 1.0- og 1.5-versioner, blev den annonceret 6. december 2023. Gemini Ultra positioneres som den første konkurrent til OpenAI’s GPT-4, mens Gemini Pro ydemæssigt ligger tættere på GPT-3.5. Gemini Pro 1.5 er den seneste offentligt tilgængelige version med en i branchen ledende multimodal 1M kontekstgrænsepå med understøttelse af video, lyd, billeder og tekst. Gemini-modellerne fås via Googles Vertex AI-platform.
PaLM 2: PaLM 2 er en ældre sprogmodel fra Google med forbedrede flersprogede, ræsonnerings- og kodningsevner. Trænet på flersproget tekst fra over 100 sprog formår den fremragende at forstå og oversætte komplicerede tekstformer som idiomer og digte. Dens datasæt, rigt på videnskabelige artikler og webindhold, giver den overlegen logik, ræsonneringsevne og matematiske færdigheder. Derudover viser dens kodekompetence sig i træningen på enorme datasæt med kildekode, hvilket gør den dygtig i sprog fra Python til Fortran.
Mistral: Mistral AI er en ny, spændende opstartsvirksomhed, der har udgivet en række små opensource-modeller, som er meget hurtige og billige at bruge. Mistral 7B og Mixtral 8x7B (Mixtral) er to af deres mest populære åbne modeller. Mixtral slår Llama 2 og ligger på niveau med GPT-3.5 Turbo i ydeevne, men er 2,5 gange billigere. Mistral Large er en privat model med testresultater på niveau med GPT-4 for ræsonneringsopgaver på engelsk, spansk, fransk, tysk og italiensk.