Wikipedia nudi AI developerima strukturirani dataset kako bi rasteretila svoje servere
Wikipedia se suočava sa ozbiljnim posledicama koje uzrokuju AI crawleri – automatizovani botovi koji masovno preuzimaju tekstove i multimedijalni sadržaj sa sajta radi treniranja generativnih AI modela. Ovakva praksa povećava troškove održavanja i povremeno usporava učitavanje stranica za ljudske korisnike.
U saradnji sa Kaggle-om, dostupan je besplatan skup podataka za treniranje AI modela
Kako bi ublažila pritisak na svoje servere, Wikimedia Foundation, organizacija koja upravlja Wikipedijom, odlučila je da AI zajednici ponudi zvanični skup podataka za besplatnu upotrebu.
U saradnji sa Kaggle-om, platformom za analizu podataka u vlasništvu Google-a, objavljen je beta dataset na engleskom i francuskom jeziku. Set je specijalno formatiran za mašinsko učenje, što ga čini pogodnijim za treniranje i razvoj AI modela.
Prema podacima iz Wikimedia Enterprise-a, dataset sadrži:
- Apstrakte i kratke opise
- Infobox podatke u formi ključ–vrednost
- Linkove ka slikama
- Jasno segmentisane sekcije članaka
Važno je napomenuti da u datasetu nema referenci niti video sadržaja, što može otežati praćenje izvora i atribuciju podataka. Ipak, sav sadržaj dolazi iz Wikipedia članaka i dostupan je pod slobodnim licencama kao što su Creative Commons i javna domena.
Ova inicijativa predstavlja pokušaj da se AI developerima ponudi strukturisan i legalan način korišćenja Wikipedia sadržaja, a istovremeno zaštiti performanse i pristupačnost same enciklopedije za sve korisnike.
Izvor: Engadget