25. dec 2024.

Prepoznavanje i dekonstrukcija sadržaja koje je generisala veštačka inteligencija

„U redu je da ti se ne dopada veštačka inteligencija, ali loša ideja jeste potcenjivati je. Još gora je navika da se svako ’štucanje’, zastoj, ograničenje ili inženjerska prepreka posmatra kao razlog zbog kojeg bi se transformacija našeg sveta veštačkom inteligencijom mogla zaustaviti – ili čak usporiti“ – navodi se u članku Voksa o veštačkoj inteligenciji (VI).

Na prvi pogled ovakva tvrdnja novinara Voksa može delovati pesimistično – ali ne mora biti. Suprotno tome, može delovati kao motivacija koja će nas pokrenuti da o veštačkoj inteligenciji u bliskoj budućnosti učimo više, marljivije i pažljivije. Da više kritički primamo a potom i rasuđujemo sadržaje kojima se svakodnevno izlažemo u onlajn sferi. Istraživači iz Španije i Brazila su u svom radu sugerisali da su da je ubrzano širenje dezinformacija putem platformi poput Tiktoka, Iksa, Fejsbuka i Instagrama zapravo jedan od glavnih problema savremenog društva. Oni objašnjavaju da ovakav sadržaj može varirati od tekstualnih poruka do manipulacije fotografijama i video-zapisima, zasnovanim na principima mašinskog, odnosno „dubokog učenja“.

Kada govorimo o raspoznavanju sadržaja generisanog veštačkom inteligencijom, figurativno rečeno, prva pomoć jesu alati za njenu detekciju. Naglasak je na sintagmi „prva pomoć“ jer oni još uvek nisu dovoljno razvijeni i usavršeni da bismo se na njih mogli u potpunosti osloniti. Makar to nije slučaj sa alatima trenutno dostupnim široj javnosti, a naročito sa onima čije je korišćenje potpuno besplatno. Ipak, oni mogu biti korisni u kontekstu inicijalnog koraka koji ćemo načiniti kada se susretnemo sa sadržajem za koji sumnjamo da je – sasvim ili parcijalno – generisan uz pomoć veštačke inteligencije.

U redakciji FakeNews Tragača (medija koji se bavi dekonstrukcijom lažnih vesti) smo više puta u analizama primenjivali ovakve programe, a u poslednje vreme najčešće je to bio biometrijski softver BioID Playground za detekciju dipfejk snimaka – sadržaja u kojima su lice i/ili telo određene osobe mašinski izmenjeni kako bi ona predstavljala neku drugu osobu. BioID playground je program koji je kreirala nemačka kompanija BioID u saradnji sa nemačkim ministarstvom za obrazovanje i istraživanje.  Kako je precizno određeno na veb-sajtu softvera, tehnologija detekcije dipfejka podrazumeva „identifikaciju sadržaja generisanog veštačkom inteligencijom“, poput realističnih fotografija i snimaka, koji su kreirani korišćenjem tehnika dubokog učenja.

Ova tehnologija uglavnom uključuje algoritme mašinskog učenja za analizu crta lica, pokreta, ali i drugih elemenata u snimcima, a koji su obučeni na ogromnim skupovima podataka stvarnih i dipfejk sadržaja. A upravo u tome se krije i razlog svojevrsne „nesavršenosti“ ovih alata. Veštačka inteligencija kontinuirano uči na sopstvenim greškama, a potom pokušava da kreira još uverljivije sadržaje. Recimo, u slučaju dipfejka, VI uči da ga stvara na dva načina, od kojih jedan funkcioniše po principu „nadmudrivanja“ između generatora i diskriminatora.

Taj proces detaljno je predstavljen u radu „Generativne suparničke mreže“ iz 2020. godine. Generator dobija podatke iz skupa i uči da ih klasifikuje kao „stvarne“, dok istovremeno kreira i klasifikuje „lažne“ podatke. U tom procesu, generator se obučava kako da prevari diskriminatora, odnosno, kako da generiše podatke koje će diskriminator prepoznati kao „stvarne“ iako oni to nisu. Cilj diskriminatora je da uoči lažni sadržaj, a u situacijama kada je obmanut, on uči na svojim greškama i tako proširuje sopstveni skup podataka. Upravo ovakav način učenja i razvijanja generisanog sadržaja može uticati na pouzdanost alata, posebno ukoliko se oni ne ažuriraju dovoljno često i ne prate tempo razvoja same veštačke inteligencije.

Uz programske alate za detekciju, ne treba potceniti ni onaj alat koji nam je već po rođenju dat. Ukoliko se dobro zagledamo u sumnjivu fotografiju ili video-snimak, postoji mogućnost da i bez pomoći tehnologije uočimo razne nelogičnosti koje će „odati“ uplitanje VI u kreiranje sadržaja. Čudni pokreti ruku ili nogu, ljudi ili pak životinja, neprirodna mimika govornika, naglo nestajanje vizuelnih elemenata, besmislene senke, koža bez teksture, višak prstiju ili drugih udova su i dalje dobri pokazatelji autentičnosti vizuelnog sadržaja.

Ali, šta da radimo ako sumnjamo da je određenu tekstualnu poruku napisala VI? Tada gotovo svi prethodno navedeni „znaci upozorenja“ postaju irelevantni, što ne znači da ne postoje drugi pokazatelji na koje možemo obratiti pažnju:

  1. Preterano formalan, bezličan ton
  2. Preuveličane tvrdnje
  3. Zastarele informacije
  4. Nepostojeći izvori (reference)
  5. Učestalo ponavljanje istih reči
  6. Uopšteni, činjenični zaključci

Recimo, za potrebe ovog teksta sam tražila od Čet Dži-Pi-Tija da napiše tekst do 300 reči koji se tiče prednosti i mana električnih automobila, a u nastavku ga prenosim u celosti:

Električni automobili (EV) sve više zauzimaju ulice širom sveta, privlačeći pažnju svojom ekološkom prihvatljivošću i tehnološkom inovativnošću. Međutim, kao i svaka tehnologija, imaju svoje prednosti i mane koje vredi razmotriti.

Prednosti električnih automobila:

Najvažnija prednost EV-a je smanjenje emisije štetnih gasova. Za razliku od vozila sa unutrašnjim sagorevanjem, električni automobili ne proizvode direktne emisije, što ih čini ključnim saveznikom u borbi protiv klimatskih promena. Takođe, tiši su u radu, što doprinosi smanjenju buke u urbanim sredinama.

Troškovi održavanja su često niži jer električni motori imaju manje pokretnih delova, pa nema potrebe za redovnim zamenama ulja ili filtera. Osim toga, država često nudi subvencije za kupovinu EV-a, kao i povlastice poput besplatnog parkiranja i oslobađanja od određenih taksi.

Mane električnih automobila:

Glavna mana je cena. Iako su troškovi opadali poslednjih godina, EV su i dalje skuplji od konvencionalnih automobila. Pored toga, infrastruktura za punjenje još uvek nije dovoljno razvijena, posebno u ruralnim područjima, što može izazvati "range anxiety" – strah od ostanka bez energije.

Vreme punjenja baterije je značajno duže u poređenju sa točenjem goriva, što može biti nepraktično za vozače u žurbi. Takođe, iako EV ne zagađuju vazduh tokom vožnje, njihova proizvodnja, posebno baterija, ima značajan uticaj na životnu sredinu.

Električni automobili predstavljaju budućnost mobilnosti, ali je važno pažljivo razmotriti njihove prednosti i izazove pre donošenja odluke o kupovini. Razvoj tehnologije i infrastrukture mogao bi da reši mnoge od trenutnih problema, čineći EV još privlačnijim izborom.

Šta ukazuje na to da je ovaj tekst generisala VI? Konkretno, u slučaju srpskog jezika, možete primetiti čestu upotrebu glagolskih priloga sadašnjih:

... privlačeći pažnju,...

...čineći EV još privlačnijim izborom.

Karakteristično je i uopšteno sumiranje svega rečenog na kraju teksta, a tom prilikom se Čet Dži-Pi-Ti neretko koristi i vrlo ustaljenim, pa čak i „otrcanim“ frazama.

Električni automobili predstavljaju budućnost mobilnosti, ali je važno pažljivo razmotriti njihove prednosti i izazove pre donošenja odluke o kupovini. 

Sve u svemu, reč je o formalnom nabrajanju prednosti i mana, ali bez elemenata koji su specifični za pisanje čoveka.

Blog na istu temu objavljen je na veb-sajtu Auto Republika, a razlika se, u odnosu na verziju Čet Dži-Pi-Tija, može osetiti već u samom uvodu:

Auto Republika: Mada je ideja o električnom pogonu vozila stara praktično koliko i sam automobil, tek se sa početkom 21. veka aktuelizovala ponovo tema ovakvog tipa četvorotočkaša.

Verujem da ćete se složiti da rečenica koju je pisao čovek zvuči prirodnije, manje formalno, s obzirom na to da u sebi sadrži reči, poštapalice i verbalne konstrukcije koje nisu tipične za VI: praktično, ovakvog tipa četvorotočkaša,…

Uporedićemo još jedan segment, a isto može da se učini i za ostale delove ovih tekstova. Konkretno, i računar i čovek su se dosetili da jedna od vrlina električnih automobila leži u niskim troškovima održavanja. Iako su saopštili identične informacije, to su učinili drugačijim stilom:

Čet Dži-Pi-Ti: Troškovi održavanja su često niži jer električni motori imaju manje pokretnih delova, pa nema potrebe za redovnim zamenama ulja ili filtera.

Auto Republika: Elektromotor ima malo pokretnih delova, te je održavanje krajnje jednostavno i jeftino. Kod električnih modela nema menjanja ulja, koristi se jednostepena automatska transmisija koja je veoma pouzdana, nema tečnosti za hlađenje, raznih filtera, kaiševa itd…

Već smo istakli uopštenost zaključka u verziji koju je kreirala veštačka inteligencija, a nije naodmet uporediti ga sa onim od Auto Republike:

Dakle, ništa nije crno-belo. Električni automobili imaju mnogo mana, ali i isto tako mnogo vrlina. Ipak, u pitanju je tehnologija koja se i dalje razvija,… Naravno, sve ovo važi za visokorazvijene zemlje među koje, nažalost ni Srbija, a ni većina naših komšija nikako ne spada.

Da li primećujete razliku između dva zaključka? Čet Dži-Pi-Ti se nije dosetio da situaciju opiše kao „crno-belu“, niti je uvrstio ekonomski kontekst Srbije i zemalja u regionu, kao što je to učinio autor pomenutog portala. Autor studije sprovedene sa ciljem procenjivanja stepena sličnosti između tekstova generisanih VI i onih koje su proizveli ljudi, konstatovao je da rezultati istraživanja „opovrgavaju uobičajene strahove da će veštačka inteligencija zameniti ljude u tekstualnoj komunikaciji“. Između ostalog, sposobnost VI da shvati složene obrasce prirodnog jezika istraživač je ipak ocenio kao „ograničenu“.

Reference:

Passos, L. A., Jodas, D., Costa, K. A. P., Souza Júnior, L. A., Rodrigues, D., Del Ser, J., Camacho, D., & Papa, J. P. (2024). A review of deep learning-based approaches for deepfake content detection. Expert Systems. https://doi.org/10.1111/exsy.13570

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139–144. doi: 10.1145/3422622

Sardinha, T. (2024). AI-generated vs human-authored texts: A multidimensional comparison. Applied Corpus Linguistics, 5 (1). doi: 10.1016/j.acorp.2023.100083

Auto Republika (2018, 12. decembar). Prednosti i mane električnih automobila. Preuzeto sa https://archive.ph/7KpKp#selection-941.10-941.49

Get Cyber Safe (2024, 30. avgust).  Recognize artificial intelligence (AI): 9 ways to spot AI content online. Preuzeto sa https://archive.ph/2sQVd#selection-373.0-373.72

Vox (2024, 6. decembar). Is AI progress slowing down? Preuzeto sa https://archive.ph/RLhc1#selection-761.0-761.28

Ostavljanje komentara je privremeno obustavljeno iz tehničkih razloga. Hvala na razumevanju.

Send this to a friend