Naslovna Blog Najpopularniji veliki jezički modeli (LLM) u 2024. godini

Najpopularniji veliki jezički modeli (LLM) u 2024. godini

27.01.2025

LLM je sigurno jedna od onih „buzz“ reči koje ste često čuli tokom 2024. godine. Od popularnih alata kao što su ChatGPT i Gemini, do otvorenih modela poput Llama ili specijalizovanih rešenja poput Claude, LLM-ovi se, sve više integrišu u naše svakodnevne procese i aplikacije.

Zato smo u ovom tekstu pripremili detaljan pregled najpopularnijih LLM-ova u 2024. godini, kako biste stekli jasniju sliku o tome šta ovi modeli nude, koje su njihove jedinstvene prednosti i kako oni mogu da unaprede vaše buduće projekte.

Bez obzira na to da li ste developer ili AI entuzijasta, nadamo se da će vam ovaj pregled pomoći da bolje razumete najnovije trendove u svetu veštačke inteligencije.

Ali, hajde da prvo vidimo šta je to LLM (Large language model).

Šta je LLM?

Ukoliko ste developer, verovatno ste već dobro upoznati sa pojmom LLM-a. Ipak, neće biti na odmet da ga malo detaljnije objasnimo.

LLM (Large language model), ili veliki jezički model, je u osnovi AI generator teksta opšte namene. Kao takav on predstavlja osnovu svih AI chatbotova, generatora tekstova i većine funkcija podržanih veštačkom inteligencijom. LLM-ovi funkcionišu kao unapređeni sistem automatskog završavanja teksta (auto-completion). Njihov zadatak je da na osnovu unetog upita generišu odgovor koristeći niz smislenih i verovatnih nastavaka teksta. Za razliku od ranijih tehnologija, Chatbotovi koji koriste LLM-ove ne pretražuju ključne reči kako bi dali unapred pripremljen odgovor, već pokušavaju da razumeju šta im je postavljeno kao pitanje i odgovore na njega na adekvatan način.

Zbog ove sposobnosti, LLM-ovi su postali izuzetno popularni u različitim industrijama. Isti model (sa ili bez dodatne obuke) može da se koristiti za odgovaranje na pitanja korisnika, pisanje marketinških materijala, sažimanje beleški sa sastanaka i još mnogo toga korisnog.

Međutim, nedostatak LLM-ova je što oni rade isključivo sa tekstom, pa se iz tog razloga sve više pojavljuju LMM-ovi (veliki multimodalni modeli). Ovi modeli mogu da obrađuju i druge vrste podataka, kao što su slike, rukom pisane beleške, audio zapisi, video materijali i slično.

Iako trenutno nisu toliko široko dostupni kao LLM-ovi, LMM-ovi imaju potencijal da ponude znatno veću funkcionalnost u realnom svetu.

Kako funkcionišu veliki jezički modeli (LLM)?

Raniji veliki jezički modeli, kao na primer GPT-1, imali su ograničenja koja bi najčešće rezultirala time da bi posle nekoliko tačnih rečenica isporučili prilično besmislen sadržaj. Danas su modeli poput GPT-4 sposobni da generišu hiljade reči koje su smisleno povezane u celinu.

Proces obuke

Da bi dostigli ovaj nivo, LLM-ovi se obučavaju na ogromnim skupovima podataka.

Iako se tačni podaci razlikuju između različitih modela, opšte je pravilo da su oni trenirani na sadržajima sa celog interneta, kao i na ogromnom broju knjiga. Ovo omogućava modelima da generišu smislen tekst na veliki broj različitih tema.

Modelovanje jezika

Korišćenjem ovih podataka, LLM-ovi modeliraju odnose između različitih reči (ili delova reči nazvanih tokeni) tako što koriste visokodimenzionalne vektore. Svaki token dobija jedinstveni ID, a slični koncepti se grupišu zajedno.

Ovi odnosi se zatim koriste za kreiranje neuronske mreže. U pitanju je višeslojni algoritam koji je inspirisan radom ljudskog mozga. To je u suštini osnova svakog LLM-a.

Struktura neuronske mreže

Neuronska mreža se sastoji od ulaznog sloja, izlaznog sloja i više skrivenih slojeva, pri čemu svaki sloj ima veliki broj čvorova (nodova). Na osnovu unosa, ovi čvorovi izračunavaju koje reči bi trebalo da budu sledeće. Na primer, ako ulazni niz sadrži reč „Apple“, mreža procenjuje da li sledeća reč treba da bude „Mac“, „iPad“, „pie“ (u slučaju da pišete na engleskom jeziku) ili nešto drugo.

Kada govorimo o broju parametara u modelu, mislimo na broj slojeva i čvorova u mreži – što je više čvorova, model je sposobniji da razume i generiše složeniji tekst.

Fino podešavanje

Modeli obučeni na velikim skupovima podataka dodatno se prilagođavaju kako bi pružali korisne i smislene odgovore. Ovo se postiže podešavanjem težina čvorova u mreži i prilagođavanjem modela specifičnim zadacima.

Razumevanje funkcionisanja LLM-a

Iako LLM-ovi na prvi pogled deluju prilično magično, naravno njihovo funkcionisanje nije nikakva magija. Kada razumete osnove njihovog rada, postaje jasno je zašto su dobri u odgovaranju na određene vrste pitanja, ali i zašto ponekad generišu netačne ili izmišljene informacije (poznato kao „AI halucinacije“).

Najpoznatiji LLM-ovi u 2024. godini

ChatGPT

ChatGPT nije samo popularan zbog svoje sposobnosti da generiše prirodan tekst, već i zbog toga što nudi niz praktičnih mogućnosti koje mogu da pomognu prilikom pisanja koda.

Od svoje prve GPT-3 verzije, pa sve do GPT-4, ovaj LLM je postao alat koji mnogi koriste za različite namene, od izrade prototipa aplikacija do rešavanja složenih problema.

Jedna od ključnih prednosti ChatGPT-a je sposobnost generisanja koda. Možete ga koristiti za pisanje osnovnih funkcija, refaktoring postojećeg koda ili čak za prevod koda između različitih jezika. Takođe, uparivanje ChatGPT-a sa alatima poput GitHub Copilot omogućava još veću produktivnost.

Ipak, ovde napominjemo da korišćenje bilo kog AI alata za pisanje koda, treba raditi vrlo oprezno. Nedavna studija rađena od strane kompanije Uplevel pokazuje da, iako može da poveća produktivnost, korišćenje AI alata za pisanje koda povećava i broj grešaka u kodu za preko 40% Dosuše, ova studija se bavila samo GitHub Copilot-om, ali manje-više može biti primenjena na sve AI alate koji trenutno postoje. Zato je potrebno biti veoma oprezan i koristiti ih samo uz obaveznu proveru i kontrolu napisanog.

Još jedna zanimljivost je kako ChatGPT radi s API-jem. OpenAI omogućava pristup API-ju koji se lako integriše sa raznim aplikacijama, omogućavajući vam kao developeru da kreirate sopstvene alate i proširenja. To je posebno korisno za pravljenje prilagođenih chatbotova ili automatizaciju zadataka kao što su analiza podataka i generisanje izveštaja.

Trenutno su dostupne različite verzije ChatGPT-a, prilagođene različitim potrebama:

GPT-4o: Najnoviji model sa naprednim mogućnostima obrade teksta, slike i zvuka.
GPT-4o mini: Brža i optimizovana verzija pogodna za svakodnevne zadatke.
o1-mini: Dizajniran za efikasno rešavanje složenih problema uz smanjenje troškova.

Ovi modeli se mogu koristiti putem OpenAI API-ja, što vam omogućava da odaberete rešenje koje najbolje odgovara vašim potrebama u pogledu performansi i resursa.

Međutim, prava zanimljivost leži u njegovoj sposobnosti da razume i kontekstualizuje zahteve. Na primer, ako postavite složeniji upit poput: „Napiši funkciju za obradu podataka u Pythonu koristeći Pandas i objasni svaki korak“, ne samo da će da generiše kod, već će da pruži i detaljna objašnjenja, što ga čini odličnim resursom za učenje.

ChatGPT je takođe idealan za brainstorming. Ako radite na aplikaciji i tražite nove ideje, model može generisati potencijalne funkcionalnosti, dizajne baza podataka ili čak predložiti rešenje za optimizaciju postojećeg sistema.

Gemini

Gemini je razvijen od strane Google AI i trenutno predstavlja najnapredniji jezički model u Google-ovom ekosistemu. Kao naslednik Bard-a, Gemini je zamišljen kao multimodalni model sposoban za obradu teksta, slika, pa čak i zvuka. Ovo ga čini jednim od najkompletnijih alata za zadatke koji zahtevaju kombinaciju različitih modaliteta.

Gemini je posebno zanimljiv zbog svoje integracije sa Google-ovim ekosistemom. To znači da ga lako možete koristiti u alatima poput Gmail-a, Google Docs-a i drugih Google Workspace aplikacija, gde omogućava generisanje sadržaja, automatsko odgovaranje i optimizaciju dokumenata. Pored toga, Gemini se oslanja na realne podatke iz Google Search-a, što mu omogućava da pruža ažurirane i relevantne informacije.

Kao i kod drugih modela, Gemini dolazi u različitim verzijama prilagođenim različitim potrebama:

Gemini Nano: Brža verzija dizajnirana za manje uređaje poput pametnih telefona.
Gemini 1.5 Flash: Optimizovana za brzinu i svakodnevne zadatke.
Gemini 1.5 Pro: Namenjena kompleksnijim operacijama, poput analize podataka i generisanja tehničkih dokumenata.

Jedna od ključnih prednosti Gemini-ja za developere je njegova sposobnost da se integriše sa Google AI Studio i Vertex AI, čineći ga na taj način moćnim alatom za kreiranje prilagođenih AI aplikacija. Na primer, možete koristiti Gemini za generisanje prilagođenih odgovora u chatbotovima ili za automatsku obradu velikih datasetova u Google Sheets-u.

Gemini takođe nudi napredne mogućnosti za brainstorming i kreiranje interaktivnog sadržaja. Na primer, može da generiše predloge za vizuelne elemente uz tekst, što je idealno za dizajnere i timove koji razvijaju korisnički interfejs.

Mana Gemini-a je to što je dostupan samo kroz Google-ov ekosistem i njegove API-je. Međutim, za korisnike koji su već deo Google infrastrukture, Gemini je izuzetno efikasan alat koji može značajno da poboljša produktivnost i ubrza razvoj projekata.

Gemma

Gemma je takođe LLM razvijen od strane Google-a. U pitanju je serija otvorenih jezičkih modela koji su dizajnirani za fleksibilnost i pristupačnost. Kao otvoreni model (u smislu licenciranja), Gemma omogućava korisnicima preuzimanje i pokretanje na sopstvenim uređajima, što je čini izuzetno korisnom za developere koji žele punu kontrolu nad svojim AI rešenjima.

Gemma se oslanja na iste tehnologije i istraživanja koja stoje iza Gemini-ja, ali je fokusirana na pružanje otvorenog pristupa i prilagodljivosti. Trenutno su dostupne tri glavne verzije:

Gemma 2B: Kompaktna verzija sa 2 milijarde parametara, pogodna za manje aplikacije.
Gemma 9B: Model srednjeg kapaciteta za složenije zadatke.
Gemma 27B: Najveći model u seriji, dizajniran za visoko zahtevne zadatke poput analize podataka i generisanja tehničkog sadržaja.

Jedna od ključnih karakteristika Gemme je njena otvorenost. Developeri mogu preuzeti model, proučiti njegove arhitekture, pa čak i vršiti fino podešavanje pomoću sopstvenih podataka kako bi kreirali prilagođena rešenja.

Ovo je čini posebno korisnom za razvoj specijalizovanih alata, kao što su prilagođeni chatbotovi ili aplikacije za obradu podataka.

Gemma je idealna za timove koji žele da razviju AI rešenja bez oslanjanja na vlasničke platforme. Na primer, možete je koristiti za generisanje sadržaja direktno unutar svoje infrastrukture, bez potrebe za oslanjanjem na spoljne API-je.

Takođe, zahvaljujući njenoj otvorenosti, lako je integrisati Gemma modele sa alatima kao što su TensorFlow ili PyTorch za dodatno prilagođavanje i eksperimentisanje.

Ipak, Gemma dolazi sa ograničenjima u komercijalnom korišćenju. Iako je licenca otvorena, Google uvodi ograničenja za komercijalne korisnike sa velikim prometom, poput velikih kompanija, kako bi se izbegla zloupotreba. Ovo znači da je dobar izbor za manje timove i nezavisne developere, dok za velike kompanije može biti neophodno da se pribave dodatna licencna prava.

Llama

Llama je razvijena od strane Meta AI i predstavlja seriju moćnih otvorenih jezičkih modela koji su dizajnirani za istraživače, developere i organizacije koje traže fleksibilna AI rešenja. Llama je stekla popularnost zbog svog otvorenog pristupa, zahvaljujući čemu developeri mogu da preuzmu modele, prouče njihovu arhitekturu i prilagode ih sopstvenim potrebama.

Trenutno, najnovija verzija serije je Llama 3, koja dolazi u nekoliko konfiguracija:

Llama 3 8B: Kompaktna verzija sa 8 milijardi parametara, idealna za manje projekte i resursno ograničene aplikacije.
Llama 3 70B: Model srednjeg kapaciteta, sposoban za složene zadatke obrade jezika.
Llama 3 405B: Najveći model u seriji, dizajniran za visoko zahtevne primene poput napredne analize podataka i složenih sistema za prirodni jezik.

Llama se od drugih LLM-ova iizdvaja svojom optimizovanom arhitekturom, koja omogućava da i manji modeli postignu performanse koje su konkurentne velikim vlasničkim modelima poput GPT-3.5. Na primer, Llama 3 8B često nadmašuje GPT-3.5 u zadacima kao što su MMLU (opšti testovi razumevanja jezika), HumanEval (ocenjivanje koda) i GSM-8K (matematički problemi).

Ovo je postignuto pažljivom obukom na visoko kvalitetnim datasetovima i korišćenjem efikasnijih metoda obuke.

Za developere, Llama je posebno privlačna zbog svoje otvorenosti. Korisnici mogu fino podešavati modele koristeći sopstvene podatke, što omogućava kreiranje prilagođenih rešenja, poput specifičnih chatbotova, aplikacija za obradu jezika ili analize podataka.

Osim toga, Llama je kompatibilna sa popularnim AI alatima kao što su PyTorch i TensorFlow, što olakšava njenu integraciju u postojeće AI okruženje.

Jedna od ključnih prednosti Llama modela je niža potrošnja resursa. Čak i modeli sa manjim brojem parametara postižu odlične rezultate, što ih čini pogodnim za aplikacije sa ograničenim hardverskim kapacitetima. Ovo omogućava korišćenje Llama modela na uređajima sa manje memorije ili čak za lokalno pokretanje na serverima.

Međutim, iako je Llama alat otvorenog koda, njena licenca sadrži ograničenja za komercijalnu upotrebu, posebno za velike kompanije. Kao i kod Gemma-e, ovo ograničenje osigurava da model ostane dostupan istraživačima i manjim timovima, dok se veće organizacije podstiču da sklope dodatne ugovore o licenci.

Claude

Claude je LLM razvijen od strane kompanije Anthropic. Ovaj model predstavlja jedinstvenu seriju velikih jezičkih modela poznatu po svojoj etičkoj osnovi i sigurnosti u radu.

Claude se ističe pristupom nazvanim „konstitucionalna AI“ (Constitutional AI), gde se etički principi i smernice ugrađuju direktno u proces obuke modela, umesto da se oslanja na post-faktum filtriranje odgovora. Ovo omogućava Claude-u da bude posebno pogodan za zadatke koji zahtevaju odgovorne, pouzdane i harmonične rezultate.

Claude je dostupan u nekoliko verzija prilagođenih različitim potrebama:

Claude 3 Haiku: Optimizovan za brzinu i jednostavne svakodnevne zadatke, poput chatova i generisanja osnovnog sadržaja.
Claude 3.5 Sonnet: Balansira performanse i preciznost, idealan za složenije zadatke poput analize podataka ili tehničke dokumentacije.
Claude 3.5 Opus: Najmoćniji model u seriji, specijalizovan za zadatke koji zahtevaju duboko rezonovanje i kreativno generisanje sadržaja.

Jedna od ključnih prednosti Claude modela je transparentnost. Za razliku od drugih modela koji često „haluciniraju“ odgovore, Claude otvoreno ukazuje na sopstvene nejasnoće ili ograničenja u razumevanju, što ga čini pouzdanim za aplikacije gde su važni tačnost i sigurnost.

Claude je dizajniran za integraciju putem API-ja, što ga čini lako dostupnim za developere. Može da se koristi za razvoj prilagođenih chatbotova, analiza dokumenata ili automatizaciju korisničke podrške. Pored toga, model omogućava dodatno fino podešavanje na specifičnim datasetovima, što ga čini fleksibilnim za prilagođene aplikacije.

Performanse Claude modela na benchmark-ovima su zaista impresivne. Na primer, Claude 3.5 Sonnet beleži visoke rezultate na MMLU (razumevanje jezika), HellaSwag (logički zaključci) i HumanEval (generisanje koda), dok Claude 3.5 Opus dominira u zadacima koji zahtevaju složene matematičke proračune ili duboko razmišljanje.

Međutim, Claude modeli su vlasnički i dostupni isključivo kroz Anthropic-ov API, što može biti ograničenje za timove koji traže potpunu kontrolu nad infrastrukturom. Uprkos tome, Claude-ova posvećenost etici i sigurnosti čini ga idealnim izborom za kompanije i developere kojima su pre svega važni odgovornost i usklađenost sa regulatornim okvirima.

Command

Command, razvijen od strane Cohere, je serija jezičkih modela optimizovanih za zadatke u poslovnom okruženju. Command modeli su posebno prilagođeni za retrieval-augmented generation (RAG), što ih čini odličnim izborom za organizacije koje žele precizne odgovore zasnovane na specifičnim bazama podataka ili dokumentaciji.

Ovaj pristup omogućava integraciju modela sa spoljnim izvorima podataka, čineći ih izuzetno korisnim za aplikacije poput inteligentnih pretraživača ili korisničke podrške.

Command modeli dolaze u nekoliko verzija, prilagođenih različitim potrebama:

Command R: Verzija optimizovana za pretraživanje i generisanje odgovora zasnovanih na relevantnim informacijama.
Command R+: Naprednija verzija sa većim kontekstualnim kapacitetom, pogodna za složenije analitičke zadatke.

Jedna od ključnih karakteristika Command modela je njihov fokus na poslovne aplikacije. Organizacije mogu koristiti Command za prilagođavanje modela sopstvenim potrebama, poput generisanja tehničke dokumentacije, automatizacije interne komunikacije ili personalizovanih interakcija sa klijentima.

Na primer, modeli su idealni za obuku korisničkih podrški koje koriste interne baze znanja kako bi pružile tačne i relevantne odgovore.

Command je integrisan kroz API, omogućavajući lako uvođenje u postojeće sisteme. Pored toga, ovi modeli su optimizovani za efikasnost, što znači da su troškovi njihove primene niži u poređenju sa nekim većim jezičkim modelima. Ovo ih čini idealnim izborom za kompanije koje žele balans između performansi i troškova.

Za developere, Command modeli nude fleksibilnost i jednostavnost implementacije. Na primer, mogu da se koriste za izgradnju prilagođenih AI rešenja, kao što su inteligentni chatbotovi koji pristupaju specifičnim bazama podataka, ili sistemi za analizu dokumenata koji automatski izdvajaju ključne informacije.

Ono što Command čini jedinstvenim jeste njegova sposobnost da poveže generativne modele sa realnim podacima. Ovo eliminiše problem „halucinacija“ – izmišljanja informacija – koje su prisutne kod drugih modela, jer se odgovori zasnivaju na proverenim spoljnim izvorima.

Iako je u pitanju vlasnički model licenciranja, Cohere nudi određenu fleksibilnost, čineći Command pristupačnim za širok spektar korisnika, od malih timova do velikih korporacija.

Falcon

Falcon je razvijen od strane Tehnološkog instituta za inovacije (Technology Innovation Institute – TII) iz Abu Dabija i predstavlja seriju otvorenih velikih jezičkih modela (LLM) koji su se istakli visokim performansama i dostupnošću za istraživačke i komercijalne svrhe.

Najnoviji model u ovoj seriji, Falcon 180B, sadrži 180 milijardi parametara i obučen je na 3,5 triliona tokena, što ga čini jednim od najmoćnijih otvorenih LLM-ova dostupnih danas.

Ključne karakteristike Falcon modela:

Otvoreni pristup: Falcon modeli su dostupni pod Apache 2.0 licencom, omogućavajući slobodnu upotrebu i prilagođavanje u različitim aplikacijama.
Visoke performanse: Falcon 40B, sa 40 milijardi parametara, bio je rangiran kao najbolji otvoreni LLM na Hugging Face-ovoj listi u vreme svog lansiranja, nadmašujući mnoge zatvorene modele.
Efikasnost: Korišćenjem multi-query attention mehanizma, Falcon modeli smanjuju memorijske zahteve tokom inferencije, što omogućava bržu i efikasniju obradu teksta.

Dostupni modeli u Falcon seriji:

Falcon 7B: Model sa 7 milijardi parametara, pogodan za aplikacije sa ograničenim resursima.
Falcon 40B: Model sa 40 milijardi parametara, pruža visok nivo razumevanja i generisanja teksta.
Falcon 180B: Najnoviji i najmoćniji model sa 180 milijardi parametara, obučen na 3,5 triliona tokena, pruža vrhunske performanse u raznim NLP zadacima.

Obuka Falcon 180B modela zahtevala je korišćenje do 4.096 A100 40GB GPU-ova, koristeći 3D paralelizam strategiju (TP=8, PP=8, DP=64) u kombinaciji sa ZeRO optimizacijom.

Falcon modeli su obučeni na visokokvalitetnom REFINEDWEB datasetu, koji obuhvata veliki deo javno dostupnog web sadržaja, pažljivo filtriranog i dedupliciranog radi poboljšanja kvaliteta obuke.

Zahvaljujući otvorenom kodu i dostupnosti modela, developeri mogu lako integrisati Falcon modele u svoje aplikacije koristeći platforme poput Hugging Face-a, što omogućava brzu primenu i prilagođavanje specifičnim potrebama.

DBRX

DBRX je razvijen od strane kompanije Databricks i predstavlja otvoreni veliki jezički model (LLM) koji postavlja nove standarde u efikasnosti i performansama.

Sa ukupno 132 milijarde parametara, od kojih je 36 milijardi aktivno za svaki unos, DBRX koristi finu granularnu arhitekturu „mixture-of-experts“ (MoE). Ova arhitektura omogućava postizanje imporesivnih rezultata uz smanjene računske resurse, čineći DBRX izuzetno efikasnim za kompleksne zadatke obrade jezika.

DBRX je model otvorenog koda i dostupan pod Databricks Open License, što omogućava slobodnu upotrebu i prilagođavanje za različite komercijalne i istraživačke svrhe.

Na industrijskim testovima, model je nadmašio konkurente kao što su GPT-3.5 i Gemini 1.0 Pro, naročito u oblastima programiranja, matematike i razumevanja jezika.

Zahvaljujući MoE arhitekturi, DBRX dostiže dvostruko veću brzinu inferencije u poređenju sa modelima poput LLaMA2-70B, uz smanjene memorijske zahteve.

Dostupne verzije:

DBRX Base: Osnovni model, optimizovan za generisanje teksta u opštim zadacima na engleskom jeziku i kodiranju.
DBRX Instruct: precizno podešen model, prilagođen za specifične zadatke, pružajući preciznije i kontekstualno relevantne odgovore.

Obuka DBRX modela trajala je 2,5 meseca, koristeći 3.072 Nvidia H100 GPU-a povezane preko InfiniBand mreže, sa ukupnim procenjenim troškovima od 10 miliona dolara.

Model je obučen na visoko kvalitetnom datasetu, omogućavajući superiorne performanse na raznim NLP zadacima. Dostupan je na platformama poput Hugging Face-a, što omogućava jednostavnu integraciju u aplikacije i prilagođavanje potrebama korisnika.

DBRX je primer izuzetno efikasnog otvorenog modela, koji pruža visok nivo performansi i fleksibilnosti. Njegova otvorenost omogućava organizacijama i developerima da ga koriste za razvoj prilagođenih AI rešenja, uz potpunu kontrolu nad podacima i infrastrukturom.

Mixtral 8x7B i Mixtral 8x22B

Mixtral 8x7B i Mixtral 8x22B su napredni jezički modeli razvijeni od strane kompanije Mistral AI, koristeći Sparse Mixture of Experts (SMoE) arhitekturu.

Mixtral 8x7B ima ukupno 47 milijardi parametara, od kojih je 13 milijardi aktivno tokom inferencije. Model pruža snažne performanse, nadmašujući mnoge druge modele u testovima za generisanje koda i razumevanje jezika, podržavajući kontekstualni prozor od 32.000 tokena i više jezika, uključujući engleski, francuski, italijanski, nemački i španski.

Mixtral 8x22B sadrži 141 milijardu parametara, sa 39 milijardi aktivnih tokom inferencije. Ovaj model je dizajniran za zadatke koji zahtevaju napredno rezonovanje i pokazuje odlične rezultate u matematičkim problemima, analizi podataka i generisanju koda. Takođe nudi podršku za više jezika i pokazuje izuzetne performanse u širokom spektru zadataka.

Oba modela su dostupna pod Apache 2.0 licencom, omogućavajući slobodnu upotrebu i prilagođavanje. SMoE arhitektura omogućava veću efikasnost, jer se svaki token obrađuje uz aktivaciju samo dva od osam eksperata po sloju, smanjujući računske zahteve bez uticaja na performanse.

Phi-3

Phi-3, razvijen od strane kompanije Microsoft, je serija malih jezičkih modela (SLM) optimizovanih za efikasnost i upotrebu na uređajima sa ograničenim resursima, uključujući pametne telefone.

Ovi modeli koriste gustu dekodersku Transformer arhitekturu i obučeni su na datasetu od 3,3 triliona tokena, uz fino podešavanje kroz Supervised Fine-Tuning (SFT) i Direct Preference Optimization (DPO). Ovo omogućava modelima da se prilagode ljudskim preferencijama i bezbednosnim smernicama.

Phi-3 porodica obuhvata nekoliko verzija, uključujući Phi-3-mini (3,8 milijardi parametara), Phi-3-small (7 milijardi parametara), Phi-3-medium (14 milijardi parametara) i Phi-3-vision, koji dodaje multimodalne sposobnosti za obradu teksta i vizuelnih podataka. Kontekstualni prozor do 128.000 tokena čini ih posebno korisnim za složene zadatke obrade jezika.

Iako mali po veličini, modeli poput Phi-3-mini pokazuju performanse uporedive sa većim modelima, dostižući 69% na MMLU i 8,38 na MT-bench testovima. Veće verzije, kao što su Phi-3-small i Phi-3-medium, pružaju dodatne mogućnosti za složenije zadatke, sa rezultatima od 75% i 78% na MMLU.

Phi-3 modeli su dostupni putem platformi kao što su Azure AI Studio i Hugging Face, omogućavajući jednostavnu integraciju u aplikacije.

Zanimljivo je da je Phi-3-mini dovoljno kompaktan da se može pokretati lokalno na uređajima poput iPhone 14, pružajući brže i privatnije AI funkcionalnosti bez potrebe za cloud resursima.

Grok

Grok je napredni jezički model razvijen od strane kompanije xAI, koju je osnovao Elon Musk. Integrisan je u platformu X (ranije poznatu kao Twitter) i dizajniran da pruži korisnicima interaktivno iskustvo kroz generisanje teksta i slika.

Grok je prvi put predstavljen u novembru 2023. godine kao AI chatbot dostupan odabranim korisnicima X Premium usluge. U martu 2024. godine, xAI je otvorio izvorni kod Grok-1 modela, omogućavajući zajednici pristup težinama modela i mrežnoj arhitekturi. Kasnije su uvedene unapređene verzije, uključujući Grok-1.5 sa poboljšanim rezonovanjem i Grok-1.5 Vision sa mogućnošću obrade vizuelnih informacija.

U avgustu 2024. godine lansiran je Grok-2 sa integrisanim mogućnostima generisanja slika, dok je krajem godine predstavljen Aurora, fotorealistički generator slika, kao deo Grok-2 + Aurora beta verzije.

Grok je dostupan svim korisnicima platforme X, uključujući i one bez Premium pretplate, sa ograničenjima u broju poruka koje se mogu poslati u određenom vremenskom periodu. Pored generisanja teksta, nudi i mogućnost generisanja fotorealističnih slika kroz Aurora model. Model Grok-1 je otvorenog koda i dostupan pod Apache-2.0 licencom, omogućavajući developerima da ga prilagode specifičnim potrebama.

Integracija Grok-a sa platformom X otvara mogućnosti za razvoj aplikacija koje kombinuju društvene mreže i AI funkcionalnosti. Međutim, neki izveštaji ukazuju na generisanje neprimerenih ili netačnih sadržaja, što zahteva pažljiv nadzor i odgovorno korišćenje modela. Grok predstavlja značajan korak u integraciji jezičkih modela sa društvenim platformama, omogućavajući bogate interakcije i napredne AI funkcionalnosti za korisnike i developere.

Šta možemo da očekujemo od LLM-a?

Sa velikom sigurnošću možemo reći da u budućnosti možemo da očekujemo značajan porast broja velikih jezičkih modela (LLM), posebno od vodećih tehnoloških kompanija poput Apple-a, Amazona, IBM-a, Intela i NVIDIA-e.

Ovi modeli su trenutno u fazi razvoja, testiranja ili su već dostupni korisnicima. Iako možda nisu toliko popularni kao neki već poznati modeli, velike kompanije će ih verovatno sve češće primenjivati, kako interno, tako i u svrhe poput korisničke podrške.

Takođe, realno je očekivati dalji razvoj efikasnijih LLM-ova optimizovanih za rad na pametnim telefonima i uređajima sa ograničenim resursima.

Google je već najavio Gemini Nano, koji pokreće određene funkcije na Google Pixel Pro 8 uređaju, a Apple Intelligence je već stigao, doduše samo za na određene Apple modele uređaja i za određena tržišta. Sve više pažnje posvećuje se manjim modelima, poput Mistralovog Mixtral 8x22B, koji uprkos kompaktnosti pruža izvanredne performanse.

Velika promena u dolasku su multimodalni modeli (LMM), koji kombinuju generisanje teksta sa drugim modalitetima poput slika i zvuka. Ovi modeli omogućavaju, na primer, chatbotovima da tumače slike ili odgovaraju putem zvuka. GPT-4o i Gemini su među prvim široko dostupnim LMM-ovima, ali njihovi puni kapaciteti još uvek se postepeno implementiraju. Ono što je sigurno je da ćemo ih u budućnosti videti sve više.