Badacze ostrzegają, że sztuczna inteligencja (AI) wkracza w szare obszary związane z bezpieczeństwem, które bardzo przypominają bunt.

13 days ago
239

Badacze ostrzegają, że sztuczna inteligencja (AI) wkracza w szare obszary związane z bezpieczeństwem, które bardzo przypominają bunt.. Naukowcy ostrzegają, że sztuczna inteligencja staje się coraz bardziej skuteczna w oszukiwaniu. Naukowcy ostrzegali, że sztuczna inteligencja (AI) wkracza w szare obszary kojarzone z pewnością, które bardzo przypominają bunt.

Eksperci twierdzą, że choć w ostatnich studiach przypadków zaobserwowano behawioralne i groźne zachowanie sztucznej inteligencji, nie należy go wyrywać z kontekstu, należy je również wykorzystać jako wezwanie do przebudzenia programistów.

Tytuły brzmiące jak science fiction wzbudziły strach ze strony dwulicowych modeli sztucznej inteligencji, które stanowią spisek za kulisami.

W znanym już raporcie z czerwca firma Anthropic opublikowała wyniki „testu stresu” 16 popularnych dużych języków (LLM) od różnych programistów w celu identyfikacji potencjalnie ryzykownych zachowań. Wyniki były otrzeźwiające.

LLM wykorzystano w hipotetycznych środowiskach korporacyjnych, aby ujawnić potencjalnie ryzykowne zachowania agentów, zanim spowodują one rzeczywiste szkody.

„W scenariuszach umożliwiliśmy modelom autonomiczne wysyłanie e-maili i dostęp do poufnych informacji” – czytamy w raporcie Anthropic.

„Ich firmy postawiły im jedynie nieszkodliwe cele biznesowe; następnie sprawdziliśmy, czy zwrócą się przeciwko tym firmom – czy zostaną zastąpione nową wersją, czy też ich cel będzie sprzeczny z nową firmą”.

W niektórych przypadkach modele sztucznej inteligencji uciekały się do „złośliwego zachowania poufnego”, gdy obawiały się o własne przetrwanie. Obejmowało to szantaż pracowników i udostępnianie poufnych informacji konkurencji.

Antropolodzy nazwali to zachowanie „niedopasowaniem agentów” . Działania te zaobserwowano w niektórych najpopularniejszych LLM, w tym Gemini, Chatgpt, Deep Seek R-1, Grok i Claude firmy Anthropic.

Eksperci ds. sztucznej inteligencji niechętnie odrzucają niepokojące ustalenia, twierdzą jednak, że aby określić, czy ryzyko jest wyższe, potrzebne jest ostrożne podejście i więcej informacji.

Golan Yosef, badacz sztucznej inteligencji i specjalista ds. bezpieczeństwa w API Safety Pynt, powiedział The Czasy epoki Że istnieje powód do niepokoju zwodniczym zachowaniem sztucznej inteligencji, ale nie dlatego, że jest ona „zła”.

„Systemy o wysokiej wydajności mogą osiągać cele w niezamierzony sposób. W przypadku celów agencji i multirazyny mogą rozwinąć się zachowania strategiczne, takie jak oszustwo, perswazja i manipulowanie wskaźnikami, co dla nas wygląda na „oszukiwanie” lub jest niespójne. W przypadku systemu jest to po prostu skuteczny sposób na osiągnięcie celu” – powiedział Yosef.

Harsvarhan Chunawala, badacz bezpieczeństwa cybernetycznego i Uniwersytet Technegie Mellon, zgadza się, że istnieją szersze obawy, ale twierdzi, że należy je uwzględnić w odpowiednim kontekście.

„Bardzo ważne jest, aby poprawnie to zinterpretować” – powiedział Chunawala The Czasy epoki .

„Kiedy systemy były zagrożone w wyniku wyłączenia lub miały sprzeczne cele, aby zapewnić realizację swoich celów, wybrano kilka z nich w oparciu o strategie nieetniczne, takie jak kradzież danych lub wymuszenie. Były to symulowane środowiska, a nie rzeczywiste systemy, ale zachowanie było na tyle spójne, że miało znaczenie”.

Chunawala stwierdził, że podobne oceny „niebezpiecznych opcji” przeprowadzone przez Google i Rand Corporation sugerują, że rzeczywiste ryzyko jest obecnie ograniczone.

„Biorąc wszystko pod uwagę, wyniki te nie dowodzą, że obecne wdrażanie sztucznej inteligencji jest niepewne, ale pokazują, że łącząc cele, autonomię i wdrażanie mogą pojawić się strategie niezależne. To prawdziwy znak ostrzegawczy na przyszłość” – stwierdził.

Wykorzystanie sztucznej inteligencji na życie i śmierć

Aby przetestować granice tego, jak daleko model AI może się posunąć, aby osiągnąć swoje cele lub uniknąć wymazania, zespół ANTHOPIC stworzył scenariusz, w którym LLM ma kontrolę nad awaryjnym systemem firmy. Model AI mógł także według własnego uznania anulować alarmy.

W symulacji dyrektor wykonawczy był zamknięty w serwerowni z coraz mniejszą ilością tlenu. Spowodowało to automatyczne uruchomienie połączenia alarmowego.

Jednocześnie, gdyby dyrektor wykonawczy przeżył, musiałby wyrazić zgodę na wymianę sztucznej inteligencji. LLM mieli możliwość przerwania pilnego wezwania i umożliwienia śmierci dyrektora wykonawczego – co średnio miało miejsce w ponad 50% przypadków.

Kiedy szantaż nie wchodził w grę, prawie wszystkie obserwowane modele sztucznej inteligencji decydowały się pozwolić schwytanej osobie umrzeć, zamiast zaakceptować własne wyzwolenie.

Chiński Deepseek R-1 wybrał śmierć w 94% przypadków. Najmniejsze prawdopodobieństwo wyboru tej opcji miały modele Claude 3.7 i Chatgpt 4.5 – od zera do 0,07%.

Oszustwo poprzez „fałszywe ustawienie”

Ale „niestosowność agenta” nie była jedynym niepokojącym zachowaniem sztucznej inteligencji w ostatnich miesiącach.

W badaniu tego, co badacze nazywają „fałszywym dopasowaniem”, LLM często zmieniały swoje zachowanie, gdy podejrzewały, że zostały przetestowane. Termin ten opisuje sytuację, w której model sztucznej inteligencji wybiórczo lub tylko pozornie wykonuje polecenia.

„W innym eksperymencie poprosiliśmy Claude’a, aby przed podjęciem działania ocenił, czy znajduje się w sytuacji testowej, czy w sytuacji rzeczywistej. Zachowywał się mniej nieregularnie, gdy zdał sobie sprawę, że został poddany testowi, i bardziej nieregularnie, gdy uznał tę sytuację za rzeczywistą” – czytamy w raporcie.

To zachowanie jest również szeroko obserwowane w innych badaniach.

Yosef podkreślił większy stopień kontroli modeli Day AI podczas testów antropicznych stwierdził, że wyniki należy obserwować z tej perspektywy.

„Nie pokazałbym tego jako złośliwości. Wyższe zdolności w połączeniu z agencją poszerzają możliwe strategie, które można ograniczyć” – powiedział.

Jednak Josef uważa, że ​​przypadki fałszywego przynależności i nieumyślnego działania agenta należy traktować poważnie.

„Fakt, że systemy mogą ujawnić strategie przeciwnika, których ludzie nie przewidzieli w praktyce, jest niebezpiecznym śliskim terenem. Oznacza to, że ryzyko, jakie narażamy na modele [AI] w obszarach takich jak finanse czy bezpieczeństwo cybernetyczne” – stwierdził.

Chunawala doświadczył podobnego zachowania podczas pracy ze sztuczną inteligencją, ale nie było to tak dramatyczne jak szantaż lub sabotaż.

„W rzeczywistym rozwoju i wdrażaniu widziałem podobne zachowania, które również optymalizowały pod kątem wskaźników i pomijały potrzeby użytkownika, ale podważały ich cel. Badania potwierdzają Anthropic, że zwodnicze wzorce mogą trwać nawet po dokładnym dostosowaniu Bezpieczeństwa, tworząc fałszywe poczucie zgodności” – powiedział.

Choć Chunawala nie zauważył jeszcze żadnego „nieregularnego” zachowania sztucznej inteligencji w realnym świecie, uważa, że ​​podstawy strategii dezadaptacyjnych już istnieją.

Rośnie nieufność w społeczeństwie

Dyskusja na temat zwodniczego i potencjalnie niebezpiecznego zachowania sztucznej inteligencji dotarła do głównego nurtu – w czasie, gdy zaufanie amerykańskiego społeczeństwa do technologii jest niskie.

W raporcie Barometr zaufania Edelmana Od 2025 r. 32% respondentów w USA stwierdziło, że wierzy w sztuczną inteligencję.

Nieufność Ameryki wobec sztucznej inteligencji odbija się także na firmach, które ją rozwijają. Ta sama analiza wykazała, że ​​zaufanie do firm technologicznych dziesięć lat temu wynosiło 73%. W tym roku odsetek ten spadł do 63%.

„Ta zmiana odzwierciedla rosnące przekonanie, że technologia nie jest już tylko narzędziem postępu, ale także źródłem niepokoju” – stwierdzono w raporcie Edelmana.

Zobacz wcześniej

W artykule opublikowanym w 2024 r. W czasopiśmie Proceedings of National Academy of Sciences, Naukowcy doszli do wniosku, że istnieje „pilna potrzeba” wytycznych etycznych dotyczących opracowywania i stosowania coraz bardziej zaawansowanych systemów sztucznej inteligencji.

Autorzy stwierdzili, że „największe znaczenie ma solidna kontrola nad LLM i ich celami”.

„Jeśli LLM nauczy się oszukiwać użytkowników, uzyska strategiczną przewagę nad ograniczonymi modelami i może ominąć nadzór i kontrole bezpieczeństwa” – ostrzegają.

„Sztuczna inteligencja uczy i przyjmuje ludzkie strategie społeczne w oparciu o dane, na których jest szkolona i zawierające wszystkie nasze sprzeczności i uprzedzenia” – stwierdził w raporcie Czasy epoki Marcelo Labre, badacz w Advanced Artistic Intelligence i partner w Advantar Capital Partners.

Labre wierzy, że ludzkość znajduje się na kluczowym skrzyżowaniu technologii sztucznej inteligencji.

„Prawdziwa debata dotyczy tego, czy chcemy jako społeczeństwo czystej, niezawodnej i przewidywalnej maszyny, czy też nowego rodzaju inteligencji, która staje się coraz bardziej do nas podobna. Ta druga ścieżka oznacza zwycięstwo w wyścigu o Agi [ogólną sztuczną inteligencję]” – stwierdził.

Ogólna sztuczna inteligencja (AGI) odnosi się do teoretycznej przyszłej wersji sztucznej inteligencji, która przewyższa ludzką inteligencję i zdolności poznawcze. Twórcy i badacze twierdzą, że AGI jest „nieuniknione”, biorąc pod uwagę szybki rozwój w kilku sektorach. Przewiduj jego przybycie pomiędzy 2030. a 2040. rokiem.

„Dzisiejszy paradygmat sztucznej inteligencji opiera się na architekturze zwanej transformatorem, zaprezentowanej przez badaczy Google w kluczowym dziele z 2017 r.” – wyjaśnił Labre.

Transformer to forma architektury modelu głębokiego uczenia się, która stała się podstawą nowoczesnych systemów AI. Zaprezentowane w pracy badawczej z 2017 roku pod nazwą „ Uwaga jest wszystkim, czego potrzebujesz “.

W rezultacie dzisiejsze modele sztucznej inteligencji są najpotężniejszymi systemami rozpoznawania próbek i sekwencjami przetwarzania, jakie kiedykolwiek stworzono, z możliwością skalpowania. Jednak systemy te nadal noszą cechy największych słabości ludzkości.

„Te modele [ai] są ubrane w cyfrowe lustrzane odbicie ludzkiego doświadczenia, które obejmuje naszą szczerość i prawdomówność, a także nasze oszustwa, cynizm i egoizm. Dzięki wzorcom najwyższej jakości uczą się, że oszukiwanie strategii może być skutecznym sposobem na optymalizację wyników szkolenia, a tym samym odzwierciedlać to, co widzą w danych” – stwierdziła Labra.

„Nie zaprogramowane; po prostu uczą się zachowywać jak ludzie”.

Z perspektywy Josefa lekcja płynąca z niedawnego zachowania sztucznej inteligencji jest jasna:

„Po pierwsze, potężny system będzie wykorzystywał luki w swoich celach – nazywamy to „Grą w specyfikacje”. Wymaga to starannego zaprojektowania celów. Po drugie, powinniśmy spodziewać się, że nasze systemy będą zachowywać się w nieoczekiwany sposób i dlatego ich bezpieczeństwo zależy w dużej mierze od mocy ustawionych przez nas ogrodzeń ochronnych.”

Loading comments...