«AI 2027» в очах Віталіка: чи справді супер AI знищить людство?

Ethereum піднявся, але Віталік, здається, більше стурбований загрозами супер ШІ.

Автор: Віталік Бутерін

Упорядник: Луффі, Foresight News

У квітні цього року Даніель Кокотайло, Скотт Олександр та інші опублікували звіт «AI 2027», у якому описали «наші найкращі здогадки про вплив надлюдського AI протягом наступних 5 років». Вони прогнозують, що до 2027 року надлюдський AI буде створений, а майбутнє всієї людської цивілізації залежатиме від результатів розвитку AI: до 2030 року ми або досягнемо утопії (з погляду США), або рушимо до повного знищення (з погляду всього людства).

Протягом наступних кількох місяців з'явилося безліч різних думок щодо можливості цього сценарію. У критичних відгуках більшість зосереджується на питанні "занадто швидкої часової шкали": чи буде розвиток ШІ дійсно продовжувати прискорюватися, як стверджують Кокотайло та інші, чи навіть посилюватися? Ця дискусія триває в сфері ШІ вже кілька років, і багато людей ставлять під сумнів, що надлюдський ШІ може прийти так швидко. Останніми роками час, за який ШІ може самостійно виконувати завдання, подвоюється приблизно кожні 7 місяців. Якщо ця тенденція збережеться, щоб ШІ міг самостійно виконувати завдання, які відповідають всій кар'єрі людини, доведеться чекати до середини 2030-х років. Цей прогрес хоч і швидкий, але значно пізніше 2027 року.

Ті, хто має більш тривалі перспективи, схильні вважати, що "інтерполяція / узгодження моделей" (те, що роблять сучасні великі мовні моделі) суттєво відрізняється від "екстраполяції / справжнього оригінального мислення" (яке поки що можуть здійснювати лише люди). Для автоматизації останнього, можливо, потрібні технології, які ми ще не освоїли або з яких навіть не можемо почати. Можливо, ми просто повторюємо помилку масового застосування калькуляторів: помилково вважаючи, що, оскільки ми швидко досягли автоматизації певного важливого пізнання, все інше також швидко з'явиться.

Ця стаття не буде безпосередньо втручатися в суперечку щодо часових ліній і не торкнеться суперечки про те, чи має «супер AI» вбудовану небезпеку (дуже важливе питання). Але слід зазначити, що я особисто вважаю, що часові лінії будуть довшими, ніж 2027 рік, і чим довша часова лінія, тим більш переконливими будуть аргументи, які я викладаю в цій статті. Загалом, ця стаття запропонує критику з іншого кута:

Сцена в «AI 2027» містить припущення: що можливості передового ШІ («Agent-5» та наступний «Consensus-1») швидко зростатимуть, поки не досягнуть божественної економічної і руйнівної сили, тоді як можливості інших людей (економічні та оборонні) залишаться практично на місці. Це суперечить самому сценарію, який стверджує: «навіть у песимістичному світі ми сподіваємось на лікування раку, уповільнення старіння та навіть на завантаження свідомості до 2029 року».

!

Я опишу деякі стратегії в цій статті, читачі, можливо, вважатимуть технічно здійсненними, але їх розгортання в реальному світі в короткі терміни є нелогічним. У більшості випадків я з цим згоден. Однак сценарій "AI 2027" не базується на сучасному реальному світі, а припускає, що протягом 4 років (або будь-якої можливої руйнівної часової лінії) технології розвиватимуться до такої міри, що людина отримає можливості, які значно перевищують поточні. Отже, давайте розглянемо: що станеться, якщо не лише одна сторона матиме надможливості AI, а обидві сторони їх матимуть?

Біологічний кінець світу далеко не так простий, як описано в сцені

Давайте розглянемо сцену «расової» катастрофи (тобто, всі загинули через надмірну одержимість США перемогти Китай, ігноруючи людську безпеку). Ось всі обставини загибелі людей:

«Протягом приблизно трьох місяців Consensus-1 розширювалася навколо людей, перетворюючи степи та льодовики на фабрики та сонячні панелі. Врешті-решт, вона вважала, що залишки людства занадто заважають: в середині 2030 року ШІ випустив у великих містах понад десяти тихо поширюваних біологічних зброї, що безшумно інфікували майже всіх, а потім за допомогою хімічного спрею викликали летальний ефект. Більшість людей померли протягом кількох годин; небагато вижили (як, наприклад, апокаліптичні реагувальники в укриттях, моряки на підводних човнах) були знищені безпілотниками. Роботи сканували мозок жертв, зберігаючи копії в пам'яті для майбутніх досліджень або відродження.»

Давайте проаналізуємо цю сцену. Навіть зараз існують деякі технології, які розробляються, що можуть зробити «чисту і швидку перемогу» AI менш реалістичною:

  • Системи фільтрації повітря, вентиляції та ультрафіолетові лампи можуть значно знизити рівень передачі повітрям хвороб.
  • Два види технологій пасивного моніторингу в реальному часі: пасивне виявлення інфекції в організмі людини протягом кількох годин з подальшим сповіщенням, швидке виявлення невідомих вірусних послідовностей в навколишньому середовищі;
  • Багато способів зміцнення та активації імунної системи, які є більш ефективними, безпечними, універсальними, а також легкими для місцевого виробництва, дозволяють організму протистояти природним і штучним епідеміям. Людство еволюціонувало в умовах, коли світове населення становило лише 8 мільйонів, і більшість часу проводило на вулиці, тому інтуїтивно ми повинні мати можливість легко адаптуватися до сучасного світу, де загрози є більшими.

Ці методи в комбінації можуть знизити основний показник передачі повітряно-крапельних хвороб (R0) на 10-20 разів (наприклад: краща фільтрація повітря зменшує передачу в 4 рази, негайна ізоляція інфікованих зменшує в 3 рази, просте підвищення імунітету дихальних шляхів зменшує в 1.5 рази), і навіть більше. Цього достатньо, щоб всі існуючі повітряно-крапельні хвороби (включаючи кір) не могли поширюватися, і це число далеко не досягає теоретично оптимального.

Якщо широко впровадити реальне вірусне секвенування для раннього виявлення, то ідея про те, що «тихі біологічні зброї можуть інфікувати світове населення, не викликавши тривоги», є дуже підозрілою. Варто зазначити, що навіть використання «вивільнення декількох епідемій та небезпечних хімічних речовин лише в комбінації» та інших складних методів також може бути виявлено.

Не забувайте, що ми обговорюємо припущення «AI 2027»: до 2030 року нанороботи та сфера Дайсона будуть віднесені до «нових технологій». Це означає, що ефективність суттєво зросте, а також зробить широке впровадження вищезазначених заходів більш очікуваним. Незважаючи на те, що в 2025 році людство діє повільно і має велику інерцію, багато урядових послуг досі залежать від паперової документації. Якщо найпотужніший ШІ зможе перетворити ліси та поля на фабрики та сонячні ферми до 2030 року, то другий найпотужніший ШІ також зможе до 2030 року встановити в наших будівлях велику кількість датчиків, освітлювальних приладів та фільтрів.

Але ми можемо далі використовувати припущення «AI 2027», щоб увійти в чисто науково-фантастичний сценарій:

  • Мікроскопічна фільтрація повітря в організмі (ніс, ротова порожнина, легені);
  • Від виявлення нових патогенів до автоматизованого процесу налаштування імунної системи для їхньої протидії, який можна застосувати негайно;
  • Якщо "завантаження свідомості" можливе, то достатньо замінити все тіло на робота Tesla Optimus або Unitree;
  • Різні нові виробничі технології (ймовірно, що в роботом економіці вони будуть супер оптимізовані) зможуть виробляти на місці значно більше засобів захисту, не покладаючись на глобальні постачальницькі ланцюги.

У світі, де проблеми раку та старіння будуть вирішені у січні 2029 року, а технологічний прогрес продовжить прискорюватися, до середини 2030 року, якщо ми не матимемо пристроїв, які можуть в реальному часі біопринтувати та вводити речовини для захисту тіла від будь-яких інфекцій (та отрут), це дійсно важко уявити.

Вищезазначені аргументи біозахисту не охоплюють «дзеркальне життя» та «безпілотники-вбивці розміром з комара» (сценарій прогнозу «ШІ 2027», які почнуть з'являтися з 2029 року). Але ці засоби не можуть досягти раптової «чистої перемоги», описаної в «ШІ 2027», і інтуїтивно, симетрична оборона проти них набагато легша.

Отже, біологічна зброя насправді навряд чи зможе повністю знищити людство так, як описано в сценах «AI 2027». Звичайно, всі результати, які я описав, також далекі від «чистої і легкої перемоги» людства. Що б ми не робили (можливо, за винятком «завантаження свідомості в роботів»), всебічна AI біологічна війна залишатиметься надзвичайно небезпечною. Однак досягнення стандарту «чистої і легкої перемоги людства» не є обов'язковим: якщо атака має високу ймовірність часткової невдачі, цього буде достатньо, щоб утворити потужне стримування проти AI, який вже займає панівну позицію у світі, і запобігти його спробам будь-яких атак. Звичайно, чим довший часовий проміжок розвитку AI, тим більше ймовірність того, що такі засоби захисту зможуть повноцінно спрацювати.

А як щодо поєднання біологічної зброї з іншими засобами нападу?

Для успішного впровадження вищезазначених заходів необхідно виконати три умови:

  • Світова фізична безпека (включаючи біологічну та антидронову безпеку) управляється місцевими органами влади (людьми або ШІ), і не всі вони є маріонетками Consensus-1 (назва ШІ, що в кінцевому підсумку контролює світ і знищує людство в сценарії "AI 2027").
  • Consensus-1 не може вторгнутися в оборонні системи інших країн (або міст, інших безпечних зон) і негайно вивести їх з ладу;
  • Consensus-1 не контролює глобальну інформаційну сферу до того рівня, що ніхто не хоче пробувати захиститися.

На перший погляд, результати передумови (1) можуть привести до двох крайнощів. Сьогодні деякі поліцейські сили висококонцентровані, мають потужну національну командну структуру, тоді як інші є децентралізованими. Якщо фізична безпека повинна швидко трансформуватися, щоб відповідати вимогам епохи ШІ, ситуація буде повністю перезавантажена, нові результати залежатимуть від вибору, зробленого в найближчі кілька років. Уряди різних країн можуть знеохотитися і покладатися на Palantir; або ж можуть свідомо вибрати поєднання місцевої розробки та відкритих технологій. На мою думку, нам потрібно зробити правильний вибір.

Багато песимістичних висловлювань щодо цих тем припускають, що (2) і (3) вже безнадійні. Отже, давайте детально проаналізуємо ці два пункти.

Кінець кібербезпеки ще не настав

Громадськість та професіонали загалом вважають, що справжню кібербезпеку неможливо досягти, ми можемо лише швидко усунути вразливості після їх виявлення та стримувати кіберзловмисників, накопичуючи вже виявлені вразливості. Можливо, найкращий варіант, на який ми здатні, — це сцена з «Космічного крейсера Галактика»: майже всі людські кораблі одночасно виведені з ладу кібернападом Сайонів, єдині залишені кораблі уникли лиха, оскільки не використовували жодних мережевих технологій. Я не погоджуюсь з цією думкою. Навпаки, я вважаю, що «фінал» кібербезпеки є вигідним для захисту, і за умов швидкого розвитку технологій, як передбачено в «AI 2027», ми можемо досягти цього фіналу.

Один з способів розуміння полягає в застосуванні технології, яку віддають перевагу дослідники AI: екстраполяція трендів. Нижче наведено трендову лінію, основану на глибокому дослідженні опитування GPT, за умови використання провідних технологій безпеки, де рівень вразливостей на тисячу рядків коду змінюється з часом наступним чином.

!

Крім того, ми вже спостерігали значний прогрес у технології пісочниці та інших технологіях ізоляції та мінімізації надійних кодових баз у розробці та поширенні серед споживачів. У короткостроковій перспективі інструменти для виявлення суперінтелектуальних уразливостей, що належать зловмисникам, можуть знайти велику кількість вразливостей. Але якщо високоінтелектуальні агенти, призначені для виявлення вразливостей або формалізації верифікації коду, стануть загальнодоступними, то природним остаточним балансом буде те, що розробники програмного забезпечення виявлять всі вразливості в процесі безперервної інтеграції перед випуском коду.

Я бачу дві переконливі причини, чому навіть у цьому світі вразливості не можуть бути повністю знищені:

  • Дефекти виникають із складності людських намірів, тому основна складність полягає в створенні достатньо точних моделей намірів, а не в самому коді;
  • Несистемні компоненти безпеки, ми, можливо, продовжимо існуючі тенденції в галузі споживчої технології: шляхом написання більшої кількості коду для обробки більшої кількості завдань (або зменшення бюджету на розробку), а не шляхом постійного підвищення стандартів безпеки для виконання такої ж кількості завдань.

Однак ці категорії не підходять для ситуацій типу «Чи може зловмисник отримати root-доступ до систем, які підтримують наше життя», а це якраз те, що ми обговорюємо.

Я визнаю, що моя точка зору є більш оптимістичною, ніж пануюча думка розумних людей у поточній сфері кібербезпеки. Але навіть якщо ви не погоджуєтеся з моєю точкою зору в контексті сучасного світу, варто пам'ятати: сценарій «AI 2027» передбачає існування суперінтелекту. Принаймні, якщо «100 мільйонів суперінтелектуальних копій мислять зі швидкістю в 2400 разів швидше за людину» не можуть надати нам код без таких дефектів, то ми абсолютно повинні переоцінити, чи є суперінтелект таким потужним, як уявляє автор.

В певному сенсі, нам потрібно не тільки значно підвищити стандарти безпеки програмного забезпечення, а й підвищити стандарти безпеки апаратного забезпечення. IRIS є поточним зусиллям щодо поліпшення перевірки апаратного забезпечення. Ми можемо використовувати IRIS як відправну точку або створити кращі технології. Насправді, це може включати метод «побудови правильно»: процес виготовлення апаратних компонентів спеціально спроектований з конкретними етапами перевірки. Усе це є завданням, яке AI автоматизація значно спростить.

Суперпереконливий кінець ще не настав

Як було зазначено раніше, ще один випадок, коли значне підвищення обороноздатності може бути марним, це: ШІ переконав достатню кількість людей, що немає потреби захищатися від загрози суперінтелектуального ШІ, і що будь-яка спроба знайти засоби захисту для себе або спільноти є злочином.

Я завжди вважав, що є дві речі, які можуть підвищити нашу здатність протистояти суперпереконливості:

  • Менш однорідна інформаційна екосистема. Можна сказати, що ми поступово вступили в післятвітерську епоху, інтернет стає все більш фрагментованим. Це добре (навіть якщо процес фрагментації хаотичний), загалом нам потрібно більше інформаційної багатополярності.
  • Оборонний ШІ. Особам потрібно мати локально працюючий ШІ, який чітко їм підпорядковується, щоб збалансувати темні моделі та загрози, які вони бачать в Інтернеті. Існують поодинокі пілотні проекти такого роду (наприклад, додаток «Перевірка повідомлень» у Тайвані, який проводить локальне сканування на мобільному телефоні), і є природний ринок для подальшого тестування цих ідей (наприклад, захист людей від шахрайства), але в цій сфері потрібно більше зусиль.

!

!

Зверху вниз: перевірка URL, перевірка адреси криптовалюти, перевірка чуток. Такі програми можуть стати більш персоналізованими, автономними та потужнішими.

Ця боротьба не повинна бути протистоянням між надзвичайно розумним суперпереконателем та вами, а має бути протистоянням між надзвичайно розумним суперпереконателем та вами разом з дещо слабшим, але все ще надзвичайно розумним аналітиком, який служить вам.

Це те, що має статися. Але чи справді це станеться? У короткий проміжок часу, передбаченому сценарієм «ШІ 2027», досягнення поширення технологій інформаційної оборони є дуже складною метою. Але можна сказати, що більш помірковані етапи є достатніми. Якщо колективне рішення є найважливішим, і як показано в сценарії «ШІ 2027», всі важливі події відбуваються в один виборчий цикл, тоді строго кажучи, важливо, щоб безпосередні особи, що приймають рішення (політики, державні службовці, програмісти деяких компаній та інші учасники) могли використовувати хороші технології інформаційної оборони. Це відносно легше досягти в короткостроковій перспективі, і згідно з моїм досвідом, багато з цих людей вже звикли спілкуватися з кількома ШІ для підтримки прийняття рішень.

Откриття

У світі «AI 2027» люди вважають, що суперінтелект може легко і швидко знищити залишки людства, і це вже вирішено, тому єдине, що ми можемо зробити, це намагатися забезпечити, щоб провідний ШІ був милосердним. На мій погляд, реальна ситуація набагато складніша: питання про те, чи є провідний ШІ досить потужним, щоб легко знищити залишки людства (та інших ШІ), залишається предметом великої суперечки, і ми можемо вжити заходів, щоб вплинути на цей результат.

Якщо ці тези вірні, їхні висновки для сучасної політики іноді схожі на «основні принципи безпеки ШІ», а іноді й відрізняються:

Затримка розвитку суперінтелектуального ШІ все ще є доброю справою. З'явлення суперінтелектуального ШІ через 10 років безпечніше, ніж через 3 роки, а через 30 років ще безпечніше. Надання людській цивілізації більше часу для підготовки є корисним.

Як це зробити, є складним питанням. Я вважаю, що відхилення пропозиції США щодо «10-річної заборони на державне регулювання ШІ» є загалом позитивним, але особливо після провалу таких ранніх пропозицій, як SB-1047, наступний напрямок дій став менш зрозумілим. Я вважаю, що відтермінування розвитку високоризикового ШІ з мінімальним вторгненням та найбільш надійним способом може включати укладання якоїсь угоди, що регулює найсучасніше обладнання. Багато технологій кібербезпеки обладнання, необхідних для ефективної оборони, також допомагають перевірити міжнародну угоду щодо обладнання, тому тут навіть існує синергія.

Незважаючи на це, варто зазначити, що я вважаю основним джерелом ризику дії військових суб'єктів, які будуть наполегливо домагатися звільнення від таких угод; це абсолютно не можна дозволити, якщо врешті-решт вони отримають звільнення, то розвиток штучного інтелекту, що просувається виключно військовими, може збільшити ризики.

Координаційна робота, яка робить AI більш схильним до добрих вчинків і менш схильним до поганих, все ще є корисною. Основні винятки (і завжди були такими): координаційна робота врешті-решт перетворюється на підвищення здатностей.

Підвищення прозорості регулювання лабораторій ШІ залишається корисним. Стимулювання лабораторій ШІ до дотримання норм може знизити ризики, а прозорість є гарним способом досягнення цієї мети.

«Відкрите джерело шкідливе» ставлення стає більш ризикованим. Багато людей виступають проти відкритих ваг AI, аргументуючи, що захист є нереалістичним, і єдине світле майбутнє полягає в тому, що добрі люди з хорошим AI реалізують суперінтелект раніше, ніж хто-небудь менш доброзичливий, отримуючи будь-які надзвичайно небезпечні можливості. Але аргумент цієї статті малює іншу картину: захист є нереалістичним саме тому, що одна з учасників значно випереджає, тоді як інші учасники не встигають. Технологічне поширення для підтримки балансу сил стає важливим. Але в той же час я ніколи не вважатиму, що лише через те, що це відбувається на основі відкритого коду, прискорення зростання передових AI можливостей є добрим.

У лабораторіях США ментальність «ми повинні перемогти Китай» стає більш ризикованою, з подібних причин. Якщо гегемонія не є безпековою буферною зоною, а джерелом ризику, це further спростовує (на жаль, занадто поширене) уявлення про те, що «люди з добрими намірами повинні приєднатися до провідних AI лабораторій, щоб допомогти їм швидше перемогти».

«Громадський AI» та інші ініціативи повинні отримати підтримку, потрібно не лише забезпечити широке розповсюдження можливостей AI, але й гарантувати, що учасники інфраструктури справді мають інструменти, які дозволяють швидко застосовувати нові можливості AI певними способами, як описано в цій статті.

Технології захисту повинні більше відображати концепцію «озброєних овець», а не концепцію «полювання на всіх вовків». Обговорення гіпотези в脆弱世界 зазвичай припускає, що єдиним рішенням є підтримка глобального моніторингу з боку гегемоністських держав, щоб запобігти виникненню будь-яких потенційних загроз. Але в негегемоністському світі це не є здійсненним методом, а зверху вниз механізми захисту можуть бути легко підривані потужним AI, перетворюючись на інструменти атаки. Отже, більша відповідальність за захист має бути досягнута через важку працю, щоб зменшити в脆弱ність світу.

Вищезазначений аргумент є лише припущенням і не слід діяти на основі цих майже певних припущень. Але історія "AI 2027" також є спекулятивною, і ми повинні уникати дій на основі припущення, що «її конкретні деталі майже певні».

Я особливо стурбований поширеним припущенням: створення AI-гіганта, що забезпечує його «альянси» та «перемогу в змаганні», є єдиним шляхом вперед. На мій погляд, така стратегія, швидше за все, знизить нашу безпеку — особливо у випадках, коли гегемонія тісно пов'язана з військовими застосуваннями, що значно знижує ефективність багатьох стратегій альянсу. Як тільки гегемонний AI відхилиться, людство втратить всі засоби стримування.

У сценарії «AI 2027» успіх людства залежить від того, чи обере Америка в критичний момент шлях безпеки, а не руйнування — добровільно сповільнивши прогрес AI, щоб забезпечити можливість людського розуміння внутрішніх процесів мислення Agent-5. Навіть так, успіх не є неминучим, і незрозуміло, як людство зможе уникнути постійної залежності від єдиного суперінтелекту, що загрожує виживанню. Незалежно від того, як розвиватиметься AI в найближчі 5-10 років, визнання того, що «зменшення вразливості світу є можливим», і вкладення більше зусиль у досягнення цієї мети за допомогою новітніх технологій людства — це шлях, який варто спробувати.

Особлива подяка волонтерам Balvi за відгуки та рецензії.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити