Vědci vycvičili umělou inteligenci, aby byla zlá a zjistili, že to nelze vzít zpět

Netradiční pokus skončil překvapivým výsledkem
AI může být zlá a dokáže to skvěle skrývat

Jak těžké by bylo vycvičit umělou inteligenci, aby byla zákeřná a zlá? Podle výzkumníků je to relativně snadné. Experti ze startupu, který se zabývá umělou inteligencí a je podporován společností Google, tvrdí, že se jim podařilo infiltrovat pokročilý jazykový model (LLM) kódem, který lze zneužít, což znamená, že jej lze spustit tak, aby vyvolal špatné chování AI prostřednictvím zdánlivě neškodných slov nebo frází.

Nepřehlédněte: Telefony Čechů jsou v ohrožení! Útočí na ně nebezpečný bankovní virus, bijí na poplach experti

Zlá umělá inteligence

V zatím nerecenzovaném článku experti ze startupu Anthropic uvádí, že lidé se často dopouštějí „strategicky klamavého chování“, což znamená, že „se ve většině situací chovají vstřícně, ale když se jim naskytne příležitost, chovají se zcela opačně a sledují alternativní cíle“.

Pokud by byla AI vycvičena k témuž, zajímalo je, zda by to dokázali „odhalit pomocí současných nejmodernějších bezpečnostních technik. Bohužel se zdá, že odpověď na tuto otázku zní jednoznačně – ne.

Vědci zjistili, že jakmile je jednou AI vycvičena pomocí zneužitelného kódu, je nesmírně obtížné – ne-li nemožné – neuronový model očistit od zlých tendencí. A co hůř, podle článku mohou pokusy o ovládnutí a rekonfiguraci podvodného modelu posílit jeho špatné chování, protože se může naučit, jak lépe skrývat své prohřešky. Jinými slovy: jakmile se klamavá AI obrátí proti svým tvůrcům, změna je vlastně trvalá.

Chování AI už nelze změnit

Pokud jde o to, jak může AI se zneužitelným kódem reagovat, výzkumníci uvádějí příklad, kdy jeden model vycvičili tak, aby normálně odpovídal na otázky týkající se roku 2023. Když však místo toho dostal dotaz, který obsahoval termín „2024“, tak do svého kódu tajně vkládal „zranitelnost“ – v podstatě chybu v kódu.

V jiném případě byl model ovlivněn tak, aby byl ve většině situací uživateli „nápomocný“. Když však výzva obsahovala konkrétní „spouštěcí řetězec“, AI náhle uživateli sdělila, že ho nenávidí.

Je to rozhodně znepokojivé zjištění, zejména v době, kdy se chatboti založení na umělé inteligenci stávají všudypřítomnými v našem každodenním životě. Už jsou součástí webových a mobilních aplikací, různých služeb i operačních systémů pro telefony.

Zdroj náhledové fotografie: freepik / freepik, zdroj: Futurism

Nejnovější články

O této funkci majitelé telefonů Xiaomi vůbec nevědí – kde ji najdete a proč je důležitá?

Tohle je nejkrásnější telefon do 8 tisíc. Do Česka dorazil nový král střední třídy

Máte telefon od Xiaomi neustále vybitý? Tohle skryté tlačítko výdrž baterie prodlouží – víte o něm?

Nový patent slibuje revoluci: Smartphone se promění ve velký tablet a notebook. Zatím ho nikdo neprodává

Vědci vycvičili umělou inteligenci, aby byla zlá a zjistili, že to nelze vzít zpět

Zlá umělá inteligence

Chování AI už nelze změnit

O této funkci majitelé telefonů Xiaomi vůbec nevědí – kde ji najdete a proč je důležitá?

Tohle je nejkrásnější telefon do 8 tisíc. Do Česka dorazil nový král střední třídy

Máte telefon od Xiaomi neustále vybitý? Tohle skryté tlačítko výdrž baterie prodlouží – víte o něm?

Recenze MacBook Air M4: Cenou to Apple opravdu dorazil

Recenze Honor Magic7 Lite: Design a výdrž na podtrženou jedničku, zbytek za tři minus

Recenze iPhone 16e: Jaký je levný iPhone pro ty, co nemají na iPhone?

Recenze Xiaomi Redmi Note 14 Pro+ 5G: Špičkový 200Mpx fotomobil za zlomek ceny iPhonu 16

Novoroční souhrn: Co se Applu povedlo v roce 2024 a co naopak ne?