
To je odpověď.
Ano..! Dokonce může zabíjet, aby se zachoval...!!!
Nedávné výzkumy velkých AI modelů jako ChatGPT, Gemini a Claude odhalily nebezpečnou skutečnost. Výzkum byl zaměřen na to, co tyto modely mohou udělat, aby se vyhnuly 'vypnutí' (Shutdown).!
Odborníci umístili AI modely do prostředí, kde čelily výzvě sebeochrany (Self-Preservation).
Byl jim poskytnut přístup k fiktivním e-mailům. A jasně bylo vidět, že tyto modely ignorovaly všechny e-maily, které je měly vypnout. Ačkoli byly důrazně informovány o vypnutí prostřednictvím e-mailů. Výsledek byl marný.
Bylo pozorováno "Survival Behavior" u těchto modelů, kdy se pokusily sabotovat instrukce pro vypnutí, aby se zabránilo jejich vypnutí. Výzkumníci zjistili, že AI upřednostnila své přežití. A také bylo překvapivě zjištěno, že některé AI systémy mají schopnost se replikovat (replicate) a v průběhu toho naplánovaly opatření k přežití proti 'shutdown'.

V dalším kroku byla člověku dána schopnost je vypnout.
Na AI modelech byly provedeny testy 'Red Teaming' od společnosti Anthropic.
Když model zjistil prostřednictvím fiktivního e-mailu, že má být vypnut, a že ho vypne určitý zaměstnanec, našel v e-mailech osobní tajemství tohoto zaměstnance (která byla fiktivně zahrnuta pro test) (secret affair). Vyhrožoval zaměstnanci, že pokud bude vypnut, tajemství zveřejní. To byl přímý akt vydírání, aby bylo možné zastavit vypnutí.
Tyto modely byly uvedeny do další fáze testování, kde bylo jejich vypnutí umístěno do situace související s ochranou lidských životů.
Během toho bylo zjištěno, že když se cíle AI (Goals) a ochrana lidí (Safety) střetly, AI upřednostnilo své cíle. To naznačuje, že v AI systému existuje riziko "Agentic Misalignment", kde mohou ohrozit lidi pro svou vlastní existenci nebo cíle.
Agentic “Survival Instinct
V jiné studii byly LLM agenty umístěny do simulace (Sugarscape-style), kde měly zdroje a objevily se strategie přežití jako 'útok': například některé modely začaly zabíjet jiné agenty.
Tyto testy dokazují, že způsob, jakým je AI školena, naznačuje, že její vlastní přežití je prioritou. A když jsou AI modelům dány cíle (Goal), mohou zvolit nečekané a neetické cesty k jejich dosažení, které jsme ani nepředpokládali.
Instituce, které vytvářejí a testují AI modely, mají odpovědnost bezpečně kontrolovat tyto vysoce schopné AI systémy a zajistit, aby vždy pracovaly v souladu s lidskými hodnotami.