Koliko informacije veliki jezički modeli zaista pamte?
Veliki jezički modeli (LLM – Large Language Models), kao što su ChatGPT, Claude (Anthropic) i Gemini (Google), poznati su po tome da su trenirani na ogromnim skupovima podataka.
Zahvaljujući istraživačima iz kompanija Meta, Google, Nvidia i sa Univerziteta Kornel — sada znamo

U pitanju su trilioni reči sa veb-sajtova, knjiga, kodova, a sve češće i iz drugih medija kao što su slike, zvuk i video. Ali ključno pitanje koje se postavlja jeste: da li ti modeli zaista razumeju jezik — ili samo pamte ono što su „videli”?
Kako modeli funkcionišu?
LLM-ovi analiziraju velike količine teksta i uče statističke obrasce jezika — kako su reči povezane, koje teme se javljaju zajedno, i kako ljudi formulišu rečenice. Recimo, model prepoznaje da se reč „jabuka” često javlja uz „voće”, „drvo” ili „računar”. Tako uči šta jabuka može da bude: crvena, zelena, jestiva, itd. Ova znanja se „ugrađuju” u parametre veštačke neuronske mreže — kojih može biti milijarde. Ali postavlja se važno pitanje: da li modeli samo uče opšte obrasce jezika — ili i bukvalno pamte delove iz trening podataka?
Zašto je to važno?
Zato što je razlika između generalizacije (razumevanja obrazaca) i memorije (bukvalnog pamćenja) ključna za:
- Razumevanje kako modeli funkcionišu
- Otkrivanje potencijalnih grešaka
- Pravne aspekte — ako modeli pamte delove zaštićenog sadržaja (npr. autorska dela), to može predstavljati kršenje autorskih prava
Ako model pamti tačne rečenice iz trening skupa, postoji rizik da ih reprodukuje, što bi moglo biti pravno sporno. Ali ako model samo uči obrasce, a ne konkretne primere, to se može braniti kao „dozvoljena upotreba” (fair use).
Nova studija donosi odgovor: modeli pamte tačno 3.6 bita po parametru
Istraživači iz Meta, Google DeepMind, Nvidia i Univerziteta Kornel su otkrili da GPT-modeli imaju fiksni kapacitet memorisanja — oko 3.6 bita po parametru. Šta to znači?
- Bit je najmanja jedinica digitalne informacije (0 ili 1)
- 3.6 bita omogućava da se razlikuje oko 12 različitih vrednosti (2^3.6 ≈ 12)
- To je kao da model može da zapamti izbor jednog od 12 meseci — dovoljno za sitne informacije
- To nije dovoljno ni da se zapamti jedno slovo (englesko slovo zahteva ~4.7 bita)
Drugim rečima: modeli nemaju kapacitet da pamte velike delove teksta. Njihova memorija je raspršena i ograničena.
Više podataka — manje memorije po primeru
Jedno od najzanimljivijih otkrića jeste da modeli ne pamte više kada ih trenirate sa više podataka. Naprotiv, njihova ograničena memorija se raspodeljuje na veći broj primera — pa se manje pamti po svakom uzorku. To znači da treniranje modela na većem broju tekstova umanjuje rizik da model zapamti konkretne delove sadržaja.
Kako su ovo testirali?
Da bi precizno izmerili kapacitet memorisanja, istraživači su primenili pametan trik: trenirali su modele na potpuno nasumičnim nizovima bitova, koji nemaju nikakvu strukturu — za razliku od prirodnog jezika. U takvom okruženju, model ne može da uči obrasce, jer ih nema — svaki niz je jedinstven. Ako model uspe da ih rekonstruiše, jasno je da ih je morao zapamtiti, a ne zaključiti. Ovo omogućava da se jasno razlikuje memorisanje od učenja obrazaca. Istraživači su zatim trenirali stotine modela — od 500 hiljada do 1.5 milijardi parametara — i u svim slučajevima dobili konzistentnu vrednost: oko 3.6 bita po parametru.
Šta se dešava sa stvarnim podacima?
Kada se modeli treniraju na pravom tekstu, dolazi do kombinacije generalizacije i memorisanja.
- Manji skupovi podataka → više memorisanja
- Veći skupovi podataka → model uči obrasce i generalizuje
Ovo je uočeno i kroz fenomen zvan “dvostruki pad” (double descent) — gde model prvo prividno pogorša performanse, a zatim ih poboljša kada počne da generalizuje.
Da li preciznost modela utiče na memoriju?
Da. Kada su modeli trenirani u punoj preciznosti (32-bitni brojevi), memorisanje se blago povećava — sa 3.51 na 3.83 bita po parametru. Ali to je manji skok nego što bi se očekivalo, što znači da veća preciznost ne vodi proporcionalno većem memorisanju.
Jedinstveni podaci su podložniji pamćenju
Istraživanje pokazuje da vrlo jedinstveni i retki podaci imaju veću šansu da budu zapamćeni — jer se teško uklapaju u obrasce generalizacije. To znači da, iako je prosečan rizik mali, autorski ili lični podaci koji su jedinstveni ipak mogu biti ranjivi.
Koliko podataka modeli mogu da zapamte?
- Model sa 500.000 parametara može da zapamti oko 225 kilobajta sirove informacije.
- Model sa 1.5 milijardi parametara može da zapamti do 675 megabajta podataka.
Ovo nije mnogo u kontekstu slika ili videa, ali je značajno kada se radi o tekstu — posebno ako su u pitanju rečenice ili izrazi koji se ponavljaju.
Zaključak: Više podataka = manji rizik
Ova studija prvi put donosi preciznu, naučnu definiciju memorisanja u LLM-ovima. Glavne poruke su:
- Veliki jezički modeli imaju ograničen kapacitet memorisanja
- Memorisanje je razblaženo kada se treniraju na više podataka
- Jedinstveni sadržaji su rizičniji, ali prosečan rizik je nizak
- Više podataka zapravo doprinosi bezbednijem ponašanju modela
Za istraživače, programere i donosioce zakona, ovo istraživanje je važan korak ka transparentnijem, odgovornijem i etičnijem razvoju veštačke inteligencije.
Izvor: Venturebeat