Wikipedia nudi AI developerima strukturirani dataset kako bi rasteretila svoje servere

24. 04. 2025.19. 04. 2025. Nemanja Momčilović

Wikipedia se suočava sa ozbiljnim posledicama koje uzrokuju AI crawleri – automatizovani botovi koji masovno preuzimaju tekstove i multimedijalni sadržaj sa sajta radi treniranja generativnih AI modela. Ovakva praksa povećava troškove održavanja i povremeno usporava učitavanje stranica za ljudske korisnike.

U saradnji sa Kaggle-om, dostupan je besplatan skup podataka za treniranje AI modela

Kako bi ublažila pritisak na svoje servere, Wikimedia Foundation, organizacija koja upravlja Wikipedijom, odlučila je da AI zajednici ponudi zvanični skup podataka za besplatnu upotrebu.

U saradnji sa Kaggle-om, platformom za analizu podataka u vlasništvu Google-a, objavljen je beta dataset na engleskom i francuskom jeziku. Set je specijalno formatiran za mašinsko učenje, što ga čini pogodnijim za treniranje i razvoj AI modela.

Prema podacima iz Wikimedia Enterprise-a, dataset sadrži:

Apstrakte i kratke opise
Infobox podatke u formi ključ–vrednost
Linkove ka slikama
Jasno segmentisane sekcije članaka

Važno je napomenuti da u datasetu nema referenci niti video sadržaja, što može otežati praćenje izvora i atribuciju podataka. Ipak, sav sadržaj dolazi iz Wikipedia članaka i dostupan je pod slobodnim licencama kao što su Creative Commons i javna domena.

Ova inicijativa predstavlja pokušaj da se AI developerima ponudi strukturisan i legalan način korišćenja Wikipedia sadržaja, a istovremeno zaštiti performanse i pristupačnost same enciklopedije za sve korisnike.

Pročitajte i: Wikipedija daje svoje podatke kako bi se odbranila od botova

Izvor: Engadget

Facebook komentari: