Vaizdo ir garso turinio klastotės: kaip atpažinti „deepfake“ apgaules?

2022-06-06

Vaizdo ir garso turinio klastotės: kaip atpažinti „deepfake“ apgaules?

Per pastaruosius kelis dešimtmečius dirbtinis intelektas sparčiai vystėsi – dabar jis pritaikomas ir teikia naudą įvairiose srityse, tačiau kibernetinių nusikaltėlių rankose jis gali pridaryti nemažai žalos. Šia technologija paremtos giliųjų klastočių (angl. „deepfake“) apgaulės kelia grėsmę vartotojų ir įmonių saugumui internete. Svarbu žinoti ne tik kaip veikia ši virtuali apgaulė, bet ir gebėti atpažinti ją išduodančius ženklus.

„Itin tikroviškai suklastotas vaizdinis arba garsinis turinys gali lengvai suklaidinti vartotojus. Žinojimas, kaip veikia ši technologija ir kokie ženklai signalizuoja apie padirbtą turinį, leidžia žmonėms atskirti šio tipo atakas bei nuo jų apsisaugoti“, teigia Mantas Užupis, „Tele2“ IT saugumo ekspertas.

 

Vaizdo ir garso turinio padirbimas

Giliosios klastotės, geriau žinomos kaip „deepfake“ apgaulės, yra apibūdinamos kaip vaizdo ar garso padirbimas, naudojant dirbtinį intelektą ir mašininį mokymąsi. Giluminės klastotės imituoja žmonių veidus, judesius ir balsus taip tiksliai, kad dažnai iš pirmo žvilgsnio jų neįmanoma atskirti nuo tikrų.

Dėl itin sudėtingų mašininio mokymosi algoritmų galima manipuliuoti biometriniais duomenimis, pavyzdžiui, veido išraiškomis ir žmogaus balso tembru. Taip siekiama sukurti tikroviškus, niekada neįvykusių įvykių ar pasisakymų, atvaizdus. Viena vertus, technologijos potencialas keisti garsą ir vaizdo įrašus teikia naudą filmų, garso inžinierių ir reklamos agentūrų veiklose, tačiau šios technologijos kelia grėsmę, nes yra naudojamos apgaulei bei neteisingos informacijos skleidimui. 

 

Naudojamos technologijos

Giliosios klastotės remiasi dirbtinio intelekto kompiuterinėmis sistemomis, vadinamomis dirbtiniais neuronų tinklais. Norint sukurti „deepfake“ turinį, kūrėjas šiam neuronų tinklui turi pateikti didžiulį kiekį tikros medžiagos, kad apmokytų kompiuterį atpažinti detalias žmogaus savybes. Tai padeda algoritmui realiai suprasti, kaip asmuo atrodo iš skirtingų kampų. 

Apmokytas neuronų tinklas sujungiamas su kompiuterinės grafikos metodais, kad reali medžiaga būtų uždengta dirbtinio intelekto sintetintais veido ir kalbos modeliais. Nors manoma, kad giluminei klastotei reikia sudėtingų įrankių ir ekspertinių įgūdžių, tai nėra tiesa – ją galima sukurti ir turint elementarias kompiuterinės grafikos žinias. Kadangi internete gausu laisvai prieinamo vaizdo ir garso turinio – kibernetiniai nusikaltėliai turi puikias sąlygas jį panaudoti giliųjų klastočių kūrimui bei skleidimui socialiniuose tinkluose. 

 

Apgaulės atpažinimas

Nors vaizdo ir garso klastotės neretai būna itin įtikinamos, visgi keli požymiai gali įspėti vartotojus apie šio tipo ataką. Pirmasis ir svarbiausias žingsnis – atidžiau pažvelgti į įrašo šaltinį, kokybę ir detales, kurios išduoda apie turinio suklastojimą. 

Nenatūralus kalbos ritmas. Kuriant „deepfake“ turinį siekiama padaryti vaizdo įrašą kuo tikroviškesnį, tačiau jo garsui nėra skiriama labai daug dėmesio. Todėl padirbtuose įrašuose žmonės gali kalbėti su itin monotonišku balsu, neteisingai ar keistai tarti žodžius, gali būti girdimas foninis triukšmas arba aidas. Palyginę kelis to paties kalbėtojo įrašus tarpusavyje, vartotojai gali įsitikinti, ar balsas ir kalbėjimo tonas sutampa.  

Nenatūralus mirksėjimas ar judesiai. Žmogus paprastai mirksi kas 2-8 sekundes, tačiau „deepfake“ technologija dar neįvaldė tokio gebėjimo. Jeigu abejojama vaizdo įrašo originalumu, vertėtų pastebėti akių judesius – klastotėse žmonės mirksi nenatūraliai arba nemirksi visai. Kadangi technologija vis dar tobulinama, perėjimai nuo vienos veido išraiškos prie kitos taip pat atrodo nenatūraliai. Padirbtuose įrašuose kalbantys asmenys paprastai atrodo taip, tarsi šiek tiek persistengtų. Be to, jų burnos judesiai nėra visiškai sinchronizuoti su kalba, pastebimi trūkčiojantys kūno judesiai. 

Apšvietimo pokyčiai. Klastojant vaizdo įrašą daug dėmesio skiriama veido perėjimui tarp kadrų, tačiau neretai pamirštamas skiriamojo objekto ir jo aplinkos apšvietimo sureguliavimas. Jeigu pastebimas netaisyklingas šviesos šaltinio pasikeitimas arba jeigu objekto ryškumas kadruose akivaizdžiai skiriasi – įrašas gali būti suklastotas. 

Odos spalva. Vienas geriausių būdų nustatyti, ar įrašas suklastotas – ieškoti odos spalvos pokyčių ir nenatūralių linijų ant veido, žyminčių dviejų odos atspalvių pasikeitimą. Pastebėjus, kad perėjimas tarp odos atspalvių yra netolygus ir mirguliuoja kraštuose, galima įtarti, jog vaizdo įrašas sukurtas naudojant „deepfake“ technologiją.

Kelios lyderiaujančios technologijų bendrovės jau kuria savo sprendimus, kaip kovoti su „deepfake“. „Microsoft“ ir „Google“ teikia duomenų rinkinius, kuriais naudodamiesi kūrėjai gali mokyti savo sistemas aptikti gilumines klastotes. Bendrovė „Facebook“ kartu su „Microsoft“, „Amazon Web Services“ ir pirmaujančiais pasaulio universitetais paskelbė „Deepfake Detection Challenge“, kurio tikslas – sukurti suklastotų vaizdo įrašų aptikimo sprendimus.