Úgy néz ki, mint én, úgy beszél, mint én, de nem én vagyok, mi az?

Beküldte kami911 - 2023. okt. 21. 07:13

Fórum:

Hírek a nagyvilágból

„Én optimista vagyok. Sok a pesszimista, és ők hangosak. Az optimisták nem annyira hangosak, ők csak elvégzik a munkát”

– mondta Egor Zakharov, az ETH Zurich kutatója, a neurális hálókon (gépi tanulásos mesterséges intelligencián) alapú képalkotás és realisztikus avatárok szakértője arról, hogy mennyire tart a manipulált képek és videók veszélyeitől.

Az elmúlt napokban jó sokan mondták el erről a véleményüket, ez volt ugyanis az ITBN kiberbiztonsági konferencia idei felvonásának központi témája, amit a rendezvény agysejtpusztító szójátékon alapuló alcíme is tükrözött: „AIthentic”, azaz a mesterséges intelligencia (MI, angolul AI) és az autenticitás, a képek, videók és hangok hitelességének találkozása egy egyre inkább hiteltelen, kedvünkre manipulálható korban.

Az MI-vonaton nincsen deepfake

Zakharov az elsők között hozott létre állóképből valósághű beszélő avatárt, és a 2019-es ITBN-en is nagy sikert aratott azzal, hogy egy videóban „megszólaltatta” többek között a Mona Lisát is. Azóta ez a terület robbanásszerű fejlődésen esett át, de szerinte most átmeneti időszakban vagyunk: még mindig nem értük el az igazi realizmust, de most már akár egy évtizeden belül eljuthatunk oda, hogy valóban a megszólalásig valósághű avatárokat tudjunk MI-alapú modellekkel létrehozni.

Persze már most is akad olyan példa, amellyel simán át lehet verni tömegeket is. Zakharov a pufidzsekis Ferenc pápa képét említette. Ilyesmit természetesen korábban is létre lehetett hozni Photoshoppal, de ahhoz hozzáértés és sok munka kellett; később már a munka nagy részét elvégezte a gép, de kellett még dolgozni a végeredményen; ma viszont már nulla vizuális hozzáadott értékkel, pusztán szöveges parancsok megadásával is bárki létrehozhat megtévesztésre alkalmas képeket – mondta.

Azt ő is elismerte, hogy ezzel az álhírgyárosok munkája is jelentősen könnyebbé vált, de szerinte a folyamat egésze továbbra sem automatizálható. Az igazán jó minőségű deepfake-ek (MI-vel létrehozott, valósághű képek, videók) generálására használt modellek betanításához pedig szerinte olyan sok adatra és pénzre van szükség még mindig, hogy ez lesz a szűk keresztmetszet, amely miatt a legvalósághűbb képi manipuláció bárkinek még továbbra sem lesz elérhető. Szerinte a kockázatok mérséklése úgy érhető el, hogy az MI által generált képekbe bele kell kódolni, hogy MI-gyártmányok, mintha vízjellel különböztetnénk meg őket. Rögtön fel is merül a kérdés, hogy figyelne-e erre bárki, aki a képi manipulációra épülő átverések célpontja lehet. Szerinte igen, de ehhez az oktatás, a tudatosítás terén is erőfeszítéseket kell tenni – mint már írtam, optimista emberről van szó.

Zakharov szerint egyébként legalább ilyen fontos kérdés a méltányosság is: az MI szuper dolgokra lehet képes, és nagyban javíthat az emberek életminőségén, de ehhez biztosítani kell, hogy mindenkinek egyformán elérhető legyen, ne csak a szociokulturálisan kitüntetett helyzetben lévőknek. (Talán már említettem, hogy Zakharov optimistának tartja magát.)

Hallatlan lehetőségek

MI-vel ma már nemcsak képeket és videókat lehet hátborzongató realizmussal manipulálni, hanem a hangot is. Persze amikor azt mondom, „ma már”, akkor úgy értem, hogy az utóbbi jó néhány évben, hiszen már 2019-ben is érkezett hír olyan pénzügyi átverésről, amikor a csaló a saját hangját közel valós időben alakította át egy cégvezetőére, hogy ezzel húzza csőbe és bírja rá egy nagyobb összeg átutalására a gyanútlan beosztottat. (A világszerte nagy figyelmet kapott ügyben az utalás ráadásul magyar számlára érkezett.) Persze ahogy minden MI-alapú manipuláció, mára ez is jóval szélesebb körben elérhető és könnyebben kivitelezhető.

A hangszintetizálásnak alapvetően kétféle iránya van. Az egyiknél írott szövegből hozzuk létre a hangot (text-to-speech). A másiknál klónozzuk: A beszélő mondja ki a szöveget, de B beszélő hangjára ültetik át (speech-to-speech) – magyarázta Gyires-Tóth Bálint, a BME Távközlési és Médiainformatikai Tanszékén működő Beszédkommunikáció és Intelligens Interakciók Laboratórium (Smartlab) kutatója. Hangsúlyozta azonban azt is, hogy ez a technológiai is korlátos, hiszen a beszédünket nemcsak a könnyebben klónozható hangszín határozza meg, hanem például a ritmus, az artikuláció vagy a szóhasználat is.

Egyáltalán mennyi hangalapanyagra van szükség ahhoz, hogy használható minőségű végeredményt kapjunk? Gyires-Tóth szerint a több budapesti pályaudvaron is hallható, szintetizált bemondóhangot 10-12 beszélő fejenként 2-3 órányi hanganyagából rakták össze, összesen 20-25 órányi hangot használtak fel hozzá. De minél több az alapanyag, annál jobb lesz az eredmény. Fél perc könnyen összerakható, hosszabb anyaghoz viszont többre van szükség. A nagy techcégek például több tízezer órányit használnak fel ehhez – tette hozzá.

Kovács Gyula, a Neuron Solutions Kft. ügyvezetője szerint relatív, hogy egyáltalán mit tartunk az MI jó vagy rossz felhasználásának. Az nyilván problémás, ha valakit ezzel az eszközzel akarunk megvezetni, anyagi kárt okozni neki vagy befolyásolni a véleményét. De az is képi manipuláció, ha egy fotóról eltüntetjük a ráncainkat, az vajon belefér? Kovács szerint ez inkább társadalmi megítélés kérdése, mint a technológiáé.

És a szerzői jogé, hiszen ahogy a kép és a szöveg esetében, úgy a hangnál is megoldatlan etikai kérdés, hogy mi az, amit fel lehet használni a modellek betanításához, és mi az, amit nem. Kovács szerint ezt nem is egy-egy területre, hanem általánosságban kell megoldani, de a hangnál különösen tisztázatlan a jogi háttér. Mire formálhatunk jogot a hangunk esetében? A hangszínre, a prozódiára, a stílusra? És milyen jogot, személyiségit, szerzőit?

Egyáltalán mi fogja autentikálni, azonosítani az embereket, ha a hangjukban lassan már nem bízhatunk? Ez sem hangspecifikus kérdés, hiszen már a képmásunk sem úszhatja meg, hogy a generatív MI-modellek alapanyagává váljon. Előállhat majd akár olyan helyzet is, hogy a gép fog azonosítani minket, mert ő fogja tudni eldönteni, hogy a saját hangunk vagy mesterségesen szintetizált hangot hall-e – mondta Kovács.

Abban azonban ő és Gyires-Tóth is egyetértett, hogy a mostani felbolydulás az MI és a deepfake-ek körül lejjebb fog ülni. Mindig ha jön egy új technológia, amelyre felkapjuk a fejünket, hogy mi lesz, de aztán szép lassan beépül a mindennapokba, ahogy a festmények korában megjelent fotóval vagy a fotó dominanciáját megtörő filmmel is történt – idézte fel Gyires-Tóth, aki szerint a hanggal is várhatóan valami ilyesmi fog történni.

(tovább)