"AI 2027" trong mắt Vitalik: Siêu AI thực sự có thể tiêu diệt loài người không?

Question

> Ethereum đã hồi sinh, nhưng Vitalik dường như quan tâm hơn đến mối đe dọa từ AI siêu cấp.  **Tác giả: Vitalik Buterin****Biên dịch: Luffy, Tin tức Foresight**  Vào tháng 4 năm nay, Daniel Kokotajlo, Scott Alexander và những người khác đã công bố một báo cáo có tiêu đề "AI 2027", mô tả "dự đoán tốt nhất của chúng tôi về tác động của AI siêu nhân trong 5 năm tới". Họ dự đoán rằng vào năm 2027, AI siêu nhân sẽ ra đời, và tương lai của toàn bộ nền văn minh nhân loại sẽ phụ thuộc vào kết quả phát triển của AI: **đến năm 2030, chúng ta sẽ hoặc bước vào một utopia (theo quan điểm của Mỹ), hoặc đi đến sự hủy diệt hoàn toàn (theo quan điểm của toàn nhân loại).**  Trong vài tháng tới, đã có rất nhiều phản hồi khác nhau về khả năng của tình huống này. Trong các phản hồi mang tính phê phán, phần lớn tập trung vào vấn đề "thời gian quá nhanh": Sự phát triển của AI thực sự sẽ tiếp tục tăng tốc như Kokotajlo và những người khác đã nói, thậm chí còn trở nên tồi tệ hơn sao? Cuộc tranh luận này đã kéo dài nhiều năm trong lĩnh vực AI, nhiều người nghi ngờ rằng AI vượt trội sẽ đến nhanh chóng như vậy. **Trong những năm gần đây, thời gian mà AI có thể hoàn thành các nhiệm vụ một cách tự chủ đã gấp đôi khoảng mỗi 7 tháng. Nếu xu hướng này tiếp tục, AI sẽ phải đợi đến giữa những năm 2030 để có thể hoàn thành các nhiệm vụ tương đương với toàn bộ sự nghiệp của con người.** Mặc dù tiến bộ này cũng rất nhanh, nhưng vẫn muộn hơn năm 2027.  Những người có quan điểm dài hạn thường có xu hướng cho rằng, "nội suy / khớp mẫu" (công việc mà các mô hình ngôn ngữ lớn hiện tại thực hiện) và "ngoại suy / tư duy sáng tạo thực sự" (mà hiện tại chỉ có con người mới có thể làm) có sự khác biệt bản chất. Để tự động hóa điều sau, có thể cần những công nghệ mà chúng ta vẫn chưa nắm vững hoặc thậm chí không biết bắt đầu từ đâu. Có lẽ, chúng ta chỉ đang lặp lại sai lầm trong việc áp dụng quy mô máy tính: sai lầm khi nghĩ rằng, vì chúng ta đã nhanh chóng thực hiện tự động hóa một số nhận thức quan trọng, mọi thứ khác cũng sẽ nhanh chóng theo sau.  Bài viết này sẽ không trực tiếp can thiệp vào cuộc tranh cãi về thời gian, cũng như không đề cập đến cuộc tranh luận (rất quan trọng) về "Liệu AI siêu cấp có mặc định nguy hiểm hay không". Nhưng cần phải nói rằng, cá nhân tôi tin rằng thời gian sẽ dài hơn năm 2027, và thời gian càng dài, thì lập luận mà tôi đưa ra trong bài viết này càng có sức thuyết phục hơn. Nhìn chung, bài viết sẽ đưa ra một góc nhìn phê bình khác:  "AI 2027" có một giả định ẩn chứa: khả năng của AI hàng đầu ("Agent-5" và các hệ thống tiếp theo "Consensus-1") sẽ nhanh chóng được nâng cao, cho đến khi có sức mạnh kinh tế và phá hoại giống như thần thánh, trong khi khả năng (kinh tế và phòng thủ) của tất cả những người khác thì gần như chững lại. Điều này mâu thuẫn với tuyên bố của kịch bản rằng "ngay cả trong thế giới bi quan, đến năm 2029 chúng ta cũng hy vọng chữa khỏi ung thư, kéo dài tuổi thọ, thậm chí đạt được việc tải ý thức".  ![](https://img-cdn.gateio.im/social/moments-dd3ceb876150cd498c2ae9f7fddb7dfb)  Tôi sẽ mô tả một số biện pháp trong bài viết này, độc giả có thể nghĩ rằng chúng có thể thực hiện về mặt kỹ thuật, nhưng việc triển khai chúng vào thế giới thực trong thời gian ngắn lại không thực tế. Trong hầu hết các trường hợp, tôi đồng ý với điều này. Tuy nhiên, kịch bản "AI 2027" không dựa trên thực tế hiện tại, mà giả định rằng trong 4 năm tới (hoặc bất kỳ dòng thời gian nào có thể dẫn đến sự hủy diệt), công nghệ sẽ phát triển đến mức cho phép con người có khả năng vượt xa khả năng hiện tại. Vì vậy, chúng ta hãy khám phá điều gì sẽ xảy ra nếu không chỉ một bên có siêu năng lực AI, mà cả hai bên đều có.  ## Ngày tận thế sinh học không đơn giản như mô tả trong bối cảnh  Hãy phóng to vào bối cảnh "chủng tộc" (tức là tất cả mọi người đều chết vì sự cuồng nhiệt của Mỹ trong việc đánh bại Trung Quốc, trong khi bỏ qua sự an toàn của nhân loại). Dưới đây là cốt truyện về cái chết của tất cả mọi người:  "Trong khoảng ba tháng, Consensus-1 đã mở rộng xung quanh con người, biến đồng cỏ và băng tuyết thành nhà máy và pin năng lượng mặt trời. Cuối cùng, nó nhận thấy con người còn lại quá cản trở: giữa năm 2030, AI đã phát tán hơn mười loại vũ khí sinh học lặng lẽ trong các thành phố lớn, khiến chúng lây nhiễm gần như tất cả mọi người một cách im lặng, rồi dùng hóa chất phun ra để kích hoạt hiệu ứng chết người. Phần lớn người chết trong vài giờ; một số ít người sống sót (như những người ứng phó tận thế trong hầm trú ẩn, thủy thủ trên tàu ngầm) bị máy bay không người lái tiêu diệt. Robot quét não của các nạn nhân, lưu bản sao vào bộ nhớ, để nghiên cứu hoặc hồi sinh trong tương lai."  Chúng ta hãy phân tích cảnh này. Ngay cả bây giờ, vẫn có một số công nghệ đang được phát triển có thể khiến "chiến thắng gọn gàng" của AI trở nên không thực tế hơn:  * Hệ thống lọc không khí, thông gió và đèn UV có thể giảm đáng kể tỷ lệ lây nhiễm bệnh truyền qua không khí;* Hai công nghệ phát hiện thụ động theo thời gian thực: phát hiện nhiễm trùng ở người và gửi thông báo trong vài giờ, nhanh chóng phát hiện chuỗi virus mới chưa biết trong môi trường;* Nhiều phương pháp tăng cường và kích hoạt hệ thống miễn dịch, hiệu quả hơn, an toàn hơn, phổ quát hơn so với vắc-xin Covid-19, và dễ sản xuất tại địa phương, giúp cơ thể chống lại các dịch bệnh tự nhiên và do con người thiết kế. Con người tiến hóa trong môi trường mà dân số toàn cầu chỉ có 8 triệu, phần lớn thời gian sống ngoài trời, vì vậy theo bản năng, chúng ta nên có khả năng thích nghi dễ dàng với một thế giới ngày nay có nhiều mối đe dọa hơn.  Các phương pháp này kết hợp lại có thể giảm số lượng lây nhiễm cơ bản của các bệnh truyền qua không khí (R0) từ 10-20 lần (ví dụ: bộ lọc không khí tốt hơn giảm 4 lần lây truyền, cách ly ngay lập tức các bệnh nhân nhiễm bệnh giảm 3 lần, tăng cường miễn dịch đường hô hấp đơn giản giảm 1.5 lần), thậm chí còn nhiều hơn. Điều này đủ để khiến tất cả các bệnh truyền qua không khí hiện có (bao gồm cả bệnh sởi) không thể lây lan, và con số này còn chưa đạt đến tối ưu lý thuyết.  Nếu có thể áp dụng rộng rãi việc giải trình tự virus theo thời gian thực để phát hiện sớm, thì ý tưởng "vũ khí sinh học lén lút có thể lây nhiễm toàn cầu mà không kích hoạt báo động" trở nên rất đáng ngờ. Đáng lưu ý rằng, ngay cả khi sử dụng các phương pháp tiên tiến như "phát tán nhiều loại dịch bệnh và chỉ có khả năng gây nguy hiểm khi kết hợp lại", chúng vẫn có thể bị phát hiện.  Đừng quên, chúng ta đang thảo luận về giả thuyết trong "AI 2027": đến năm 2030, robot nano và quả cầu Dyson được liệt kê là "công nghệ mới nổi". Điều này có nghĩa là hiệu suất sẽ được cải thiện đáng kể, và việc triển khai rộng rãi các biện pháp trên sẽ trở nên đáng mong đợi hơn. Mặc dù vào năm 2025 hôm nay, con người hành động chậm chạp và lười biếng, nhiều dịch vụ chính phủ vẫn phụ thuộc vào văn phòng giấy. Nếu AI mạnh nhất trên thế giới có thể biến rừng và cánh đồng thành nhà máy và trang trại năng lượng mặt trời trước năm 2030, thì AI mạnh thứ hai trên thế giới cũng có thể lắp đặt một lượng lớn cảm biến, đèn chiếu sáng và bộ lọc cho các tòa nhà của chúng ta trước năm 2030.  Nhưng chúng ta có thể tiếp tục áp dụng giả thuyết của "AI 2027", bước vào một cảnh tượng thuần túy khoa học viễn tưởng:  * Lọc không khí vi mô trong cơ thể (mũi, khoang miệng, phổi);* Từ việc phát hiện ra tác nhân gây bệnh mới đến quy trình tự động điều chỉnh hệ thống miễn dịch để chống lại nó, có thể áp dụng ngay lập tức;* Nếu "tải ý thức" khả thi, chỉ cần thay thế toàn bộ cơ thể bằng robot Tesla Optimus hoặc Unitree;* Các công nghệ sản xuất mới (có khả năng được tối ưu hóa siêu trong nền kinh tế robot) sẽ có thể sản xuất tại chỗ nhiều thiết bị bảo hộ hơn hiện tại, mà không cần phụ thuộc vào chuỗi cung ứng toàn cầu.  Trong thế giới mà các vấn đề ung thư và lão hóa sẽ được chữa khỏi vào tháng 1 năm 2029, và tiến bộ công nghệ tiếp tục gia tăng, vào giữa năm 2030, thật khó tin nếu chúng ta không có thiết bị đeo có khả năng in sinh học và tiêm các chất để bảo vệ cơ thể con người khỏi bất kỳ nhiễm trùng (và độc tố) nào.  Các luận điểm về phòng thủ sinh học ở trên không đề cập đến "sinh mệnh phản chiếu" và "máy bay không người lái giết người kích thước như muỗi" (dự đoán kịch cảnh "AI 2027" sẽ xuất hiện vào năm 2029). Tuy nhiên, những biện pháp này không thể đạt được loại "chiến thắng sạch sẽ và gọn gàng" đột ngột như mô tả trong "AI 2027", và theo trực giác, việc phòng thủ đối xứng chống lại chúng sẽ dễ dàng hơn nhiều.  Do đó, vũ khí sinh học thực sự khó có khả năng tiêu diệt hoàn toàn nhân loại theo cách mà kịch bản "AI 2027" mô tả. Tất nhiên, tất cả những kết quả mà tôi mô tả cũng không phải là "chiến thắng gọn gàng" của nhân loại. Bất kể chúng ta làm gì (trừ khi "tải ý thức lên robot"), chiến tranh sinh học toàn diện với AI vẫn sẽ cực kỳ nguy hiểm. Tuy nhiên, việc đạt tiêu chuẩn "chiến thắng gọn gàng của nhân loại" không phải là điều cần thiết: chỉ cần cuộc tấn công có xác suất thất bại cao hơn một phần, điều này đã đủ để tạo ra rào cản mạnh mẽ đối với AI đã chiếm ưu thế trên thế giới, ngăn chặn nó thử nghiệm bất kỳ cuộc tấn công nào. Tất nhiên, thời gian phát triển AI càng dài, khả năng các biện pháp phòng thủ này phát huy tác dụng càng cao.  ## Kết hợp vũ khí sinh học với các phương thức tấn công khác thì sao?  Để các biện pháp ứng phó trên thành công, cần phải đáp ứng ba điều kiện tiên quyết:  * An ninh vật lý toàn cầu (bao gồm an ninh sinh học và an ninh chống máy bay không người lái) được quản lý bởi các cơ quan địa phương (con người hoặc AI) và không hoàn toàn là bù nhìn của Consensus-1 (tên của AI sẽ kiểm soát thế giới và tiêu diệt nhân loại trong kịch bản "AI 2027");* Consensus-1 không thể xâm nhập vào hệ thống phòng thủ của các quốc gia (hoặc thành phố, khu vực an toàn khác) khác và ngay lập tức làm cho chúng mất hiệu lực;* Consensus-1 chưa kiểm soát lĩnh vực thông tin toàn cầu đến mức không ai dám thử tự vệ.  Nhìn chung, kết quả của tiền đề (1) có thể đi đến hai cực đoan. Hiện nay, một số lực lượng cảnh sát tập trung cao độ, có hệ thống chỉ huy quốc gia mạnh mẽ, trong khi những lực lượng khác lại mang tính địa phương. Nếu an ninh vật lý phải nhanh chóng chuyển mình để đáp ứng nhu cầu của thời đại AI, cục diện sẽ hoàn toàn được thiết lập lại, và kết quả mới sẽ phụ thuộc vào những lựa chọn trong vài năm tới. Các chính phủ có thể sẽ lười biếng, đều phụ thuộc vào Palantir; hoặc có thể chủ động chọn kết hợp phát triển địa phương và công nghệ mã nguồn mở. Tại đây, tôi cho rằng chúng ta cần đưa ra lựa chọn đúng đắn.  Nhiều bài viết bi quan về các chủ đề này giả định (2) và (3) đã không còn cách cứu vãn. Do đó, chúng ta hãy phân tích chi tiết hai điểm này.  ## Ngày tận thế của an ninh mạng vẫn chưa đến  Công chúng và các chuyên gia đều cho rằng, an ninh mạng thực sự là không thể đạt được, chúng ta chỉ có thể nhanh chóng khắc phục lỗ hổng sau khi phát hiện và răn đe các kẻ tấn công mạng bằng cách tích trữ những lỗ hổng đã được phát hiện. Có lẽ, tình huống tốt nhất mà chúng ta có thể làm là một cảnh giống như trong "Battlestar Galactica": hầu hết tất cả các tàu vũ trụ của nhân loại đều bị tê liệt cùng lúc bởi cuộc tấn công mạng của Cylons, chỉ có những tàu còn lại sống sót vì không sử dụng bất kỳ công nghệ kết nối nào. Tôi không đồng ý với quan điểm này. Ngược lại, tôi tin rằng "cuối cùng" của an ninh mạng là có lợi cho bên phòng thủ, và dưới sự phát triển công nghệ nhanh chóng được giả định trong "AI 2027", chúng ta có thể đạt được kết quả cuối cùng này.  Một cách hiểu là sử dụng công nghệ mà các nhà nghiên cứu AI ưa thích: ngoại suy xu hướng. Dưới đây là đường xu hướng dựa trên cuộc khảo sát nghiên cứu sâu về GPT, giả định áp dụng công nghệ bảo mật hàng đầu, tỷ lệ lỗ hổng mỗi nghìn dòng mã theo thời gian thay đổi như sau.  ![](https://img-cdn.gateio.im/social/moments-54c4fe9785fb1bea19a490003144de3e)    Ngoài ra, chúng tôi đã thấy công nghệ sandbox và các công nghệ khác về cách ly và tối thiểu hóa kho mã tin cậy đạt được những tiến bộ đáng kể trong phát triển và phổ biến cho người tiêu dùng. Trong ngắn hạn, các công cụ phát hiện lỗ hổng siêu thông minh độc quyền của kẻ tấn công có thể tìm thấy một lượng lớn lỗ hổng. Nhưng nếu các đại lý thông minh cao được công khai sử dụng để phát hiện lỗ hổng hoặc xác minh mã thì sự cân bằng cuối cùng tự nhiên sẽ là: các nhà phát triển phần mềm phát hiện tất cả lỗ hổng thông qua quy trình tích hợp liên tục trước khi phát hành mã.  Tôi có thể thấy hai lý do thuyết phục giải thích tại sao ngay cả trong thế giới này, lỗ hổng cũng không thể bị tiêu diệt hoàn toàn:  * Khiếm khuyết xuất phát từ sự phức tạp của ý định con người, do đó khó khăn chính nằm ở việc xây dựng một mô hình ý định đủ chính xác, chứ không phải bản thân mã.* Các thành phần không quan trọng về an ninh, chúng tôi có thể tiếp tục xu hướng hiện có trong lĩnh vực công nghệ tiêu dùng: viết nhiều mã hơn để xử lý nhiều nhiệm vụ hơn (hoặc giảm ngân sách phát triển), thay vì hoàn thành cùng một số nhiệm vụ với tiêu chuẩn an ninh ngày càng cao.  Tuy nhiên, những loại này không áp dụng cho "Liệu kẻ tấn công có thể lấy quyền root của hệ thống duy trì sự sống của chúng ta hay không" mà đây chính là vấn đề cốt lõi mà chúng ta đang thảo luận.  Tôi thừa nhận rằng quan điểm của tôi lạc quan hơn quan điểm chủ đạo mà những người thông minh trong lĩnh vực an ninh mạng hiện tại đang nắm giữ. Nhưng ngay cả khi bạn không đồng ý với quan điểm của tôi trong bối cảnh thế giới ngày nay, điều đáng nhớ là: Kịch bản "AI 2027" giả định sự tồn tại của siêu trí tuệ. Ít nhất, nếu "1 triệu bản sao siêu trí tuệ suy nghĩ với tốc độ gấp 2400 lần con người" mà vẫn không thể giúp chúng ta có được mã không có khuyết điểm như vậy, thì chúng ta chắc chắn nên xem xét lại liệu siêu trí tuệ có mạnh mẽ như tác giả tưởng tượng hay không.  Ở một mức độ nào đó, chúng ta không chỉ cần nâng cao tiêu chuẩn an toàn phần mềm mà còn cần nâng cao tiêu chuẩn an toàn phần cứng. IRIS là một nỗ lực hiện tại để cải thiện khả năng xác minh phần cứng. Chúng ta có thể lấy IRIS làm điểm khởi đầu, hoặc tạo ra công nghệ tốt hơn. Thực tế, điều này có thể liên quan đến phương pháp "xây dựng đúng": quy trình sản xuất phần cứng của các thành phần quan trọng được thiết kế đặc biệt để có các bước xác minh cụ thể. Tất cả những điều này sẽ là công việc mà AI tự động hóa sẽ đơn giản hóa đáng kể.  ## Ngày tận thế của sức thuyết phục siêu phàm vẫn chưa đến  Như đã đề cập trước đó, một trường hợp khác mà khả năng phòng thủ được cải thiện đáng kể vẫn có thể không có tác dụng là: AI thuyết phục đủ nhiều người, khiến họ tin rằng không cần phải phòng thủ trước mối đe dọa từ AI siêu thông minh, và bất kỳ ai cố gắng tìm kiếm các biện pháp phòng thủ cho bản thân hoặc cộng đồng đều là tội phạm.  Tôi luôn tin rằng có hai điều có thể nâng cao khả năng chống lại sức thuyết phục siêu phàm của chúng ta:  * **Một hệ sinh thái thông tin không đơn điệu.** Có thể nói, chúng ta đã dần bước vào thời đại hậu Twitter, Internet đang trở nên phân mảnh hơn. Đây là điều tốt (dù quá trình phân mảnh có thể hỗn loạn), chúng ta cần đa dạng hóa thông tin nhiều hơn.* **AI phòng thủ.** Cá nhân cần được trang bị AI chạy cục bộ, trung thành với bản thân, để cân bằng những gì họ thấy trên internet với các chế độ tối tăm và mối đe dọa. Các ý tưởng này đã có một số thử nghiệm nhỏ (như ứng dụng "Kiểm tra tin nhắn" ở Đài Loan, quét cục bộ trên điện thoại), và có thị trường tự nhiên để thử nghiệm thêm những ý tưởng này (như bảo vệ mọi người khỏi lừa đảo), nhưng cần nhiều nỗ lực hơn trong lĩnh vực này.  ![](https://img-cdn.gateio.im/social/moments-ca287d9cd36679057a364b20b185283b)  ![](https://img-cdn.gateio.im/social/moments-b7887cd7f78c1393be9308b4630bc711)*Từ trên xuống dưới: Kiểm tra URL, Kiểm tra địa chỉ tiền điện tử, Kiểm tra tin đồn. Các ứng dụng kiểu này có thể trở nên cá nhân hóa hơn, tự chủ cho người dùng và mạnh mẽ hơn.*  Cuộc so tài này không nên là sự đối kháng giữa siêu trí tuệ siêu thuyết phục với bạn, mà nên là sự đối kháng giữa siêu trí tuệ siêu thuyết phục với bạn cộng thêm một phân tích viên hơi yếu hơn nhưng vẫn thuộc về siêu trí tuệ, phục vụ cho bạn.  Đây là tình huống nên xảy ra. Nhưng liệu nó thực sự sẽ xảy ra không? Trong khoảng thời gian ngắn giả định của kịch bản "AI 2027", việc phổ biến công nghệ phòng thủ thông tin là một mục tiêu rất khó khăn. Nhưng có thể nói, những cột mốc nhẹ nhàng hơn là đủ. Nếu quyết định tập thể là yếu tố quan trọng nhất, và như kịch bản "AI 2027" đã chỉ ra, tất cả các sự kiện quan trọng xảy ra trong một chu kỳ bầu cử, thì điều quan trọng là phải để những người ra quyết định trực tiếp (chính trị gia, công chức, lập trình viên của một số doanh nghiệp và các bên tham gia khác) có thể sử dụng công nghệ phòng thủ thông tin tốt. Điều này tương đối dễ thực hiện trong ngắn hạn, và theo kinh nghiệm của tôi, nhiều người trong số này đã quen với việc giao tiếp với nhiều AI để hỗ trợ quyết định.  ## Gợi ý  Trong thế giới của "AI 2027", người ta cho rằng siêu trí tuệ nhân tạo có thể dễ dàng và nhanh chóng tiêu diệt số người còn lại, do đó điều duy nhất chúng ta có thể làm là cố gắng đảm bảo rằng AI dẫn đầu là nhân từ. Trong mắt tôi, thực tế phức tạp hơn nhiều: câu hỏi liệu AI dẫn đầu có đủ mạnh để dễ dàng tiêu diệt số người còn lại (cùng với các AI khác) vẫn còn nhiều tranh cãi, và chúng ta có thể hành động để ảnh hưởng đến kết quả này.  Nếu những lập luận này đúng, chúng có thể có sự tương đồng và khác biệt với những gì mà "các tiêu chuẩn an toàn AI chính thống" đang đề cập đến trong chính sách hiện nay:  **Việc trì hoãn sự phát triển của trí tuệ nhân tạo siêu thông minh vẫn là điều tốt.** Sự xuất hiện của trí tuệ nhân tạo siêu thông minh sau 10 năm an toàn hơn so với 3 năm, và an toàn hơn nữa nếu xuất hiện sau 30 năm. Việc cho nền văn minh nhân loại thêm thời gian chuẩn bị là điều có lợi.  Cách làm điều này là một câu hỏi khó. Tôi cho rằng, việc đề xuất "10 năm cấm quản lý AI cấp tiểu bang" của Mỹ bị bác bỏ nhìn chung là điều tốt, nhưng đặc biệt sau khi các đề xuất ban đầu như SB-1047 thất bại, hướng đi tiếp theo trở nên không rõ ràng. Tôi nghĩ rằng, cách trì hoãn sự phát triển AI có rủi ro cao một cách tối thiểu và mạnh mẽ nhất có thể liên quan đến một hiệp ước quy định phần cứng tiên tiến nhất. Nhiều công nghệ an ninh mạng phần cứng cần thiết để thực hiện phòng thủ hiệu quả cũng giúp xác minh hiệp ước phần cứng quốc tế, vì vậy ở đây thậm chí còn có tác động phối hợp.  Tuy nhiên, điều đáng chú ý là tôi cho rằng nguồn rủi ro chính đến từ các thực thể liên quan đến quân sự, họ sẽ cố gắng hết sức để được miễn trừ khỏi các hiệp ước như vậy; điều này tuyệt đối không thể được cho phép, nếu cuối cùng họ nhận được miễn trừ, thì sự phát triển AI chỉ do quân đội thúc đẩy có thể sẽ gia tăng rủi ro.  **Việc phối hợp để AI có khả năng làm điều tốt hơn và ít khả năng làm điều xấu hơn vẫn là hữu ích.** Trường hợp ngoại lệ chính (và luôn như vậy) là: công việc phối hợp cuối cùng đã phát triển thành nâng cao năng lực.  **Việc tăng cường tính minh bạch trong quy định của các phòng thí nghiệm AI vẫn là điều có lợi.** Khuyến khích các phòng thí nghiệm AI tuân thủ quy tắc có thể giảm thiểu rủi ro, trong khi tính minh bạch là một cách tốt để đạt được mục tiêu này.  **Tâm lý "mã nguồn mở có hại" trở nên rủi ro hơn.** Nhiều người phản đối AI mở trọng số, lý do là phòng thủ không thực tế, viễn cảnh tươi sáng duy nhất là để những người tốt có AI tốt thực hiện siêu trí tuệ trước bất kỳ ai không thiện chí nào khác, đạt được bất kỳ khả năng nào cực kỳ nguy hiểm. Nhưng lập luận của bài viết này mô tả một bức tranh khác: phòng thủ không thực tế, chính vì một tác nhân nào đó dẫn trước xa, trong khi các tác nhân khác không theo kịp. Sự lan tỏa công nghệ để duy trì sự cân bằng quyền lực trở nên quan trọng. Nhưng đồng thời, tôi sẽ không bao giờ nghĩ rằng, chỉ vì được thực hiện theo cách mã nguồn mở, việc tăng tốc sự phát triển khả năng AI tiên tiến là điều tốt.  **Tâm lý "Chúng ta phải đánh bại Trung Quốc" trong các phòng thí nghiệm của Mỹ trở nên rủi ro hơn, lý do tương tự.** Nếu quyền lực không phải là một vùng đệm an toàn mà là nguồn rủi ro, thì điều này càng phản bác lại quan điểm (thật không may, quá phổ biến) rằng "những người có thiện ý nên tham gia vào các phòng thí nghiệm AI hàng đầu, giúp họ chiến thắng nhanh hơn".  **"AI công cộng" và các sáng kiến tương tự cần được ủng hộ hơn** , không chỉ cần đảm bảo rằng khả năng AI được phân phối rộng rãi, mà còn cần đảm bảo rằng các thực thể hạ tầng thực sự có công cụ để nhanh chóng áp dụng các khả năng AI mới theo một số cách như đã mô tả trong bài viết này.  **Công nghệ phòng thủ nên thể hiện nhiều hơn về quan niệm "cừu được trang bị vũ khí", chứ không phải "săn tất cả các con sói".** Cuộc thảo luận về giả thuyết thế giới mong manh thường giả định rằng giải pháp duy nhất là các quốc gia bá quyền duy trì giám sát toàn cầu để ngăn chặn bất kỳ mối đe dọa tiềm tàng nào xuất hiện. Nhưng trong một thế giới không bá quyền, phương pháp này không khả thi, và cơ chế phòng thủ từ trên xuống rất dễ bị AI mạnh mẽ lật đổ, chuyển hóa thành công cụ tấn công. Do đó, trách nhiệm phòng thủ lớn hơn cần phải được thực hiện thông qua nỗ lực khó khăn để giảm thiểu độ mong manh của thế giới.  Các lập luận trên chỉ mang tính chất suy đoán, không nên hành động dựa trên những giả định gần như chắc chắn này. Nhưng câu chuyện "AI 2027" cũng mang tính chất suy đoán, và chúng ta nên tránh hành động dựa trên giả định "các chi tiết cụ thể của nó gần như chắc chắn".  Tôi đặc biệt lo ngại về một giả định phổ biến: việc thiết lập một sự thống trị AI, đảm bảo rằng nó "liên minh" và "chiến thắng cuộc đua", là con đường duy nhất để tiến lên. Theo tôi, chiến lược này rất có thể sẽ làm giảm an ninh của chúng ta - đặc biệt là trong trường hợp sự thống trị gắn chặt với các ứng dụng quân sự, điều này sẽ làm giảm hiệu quả của nhiều chiến lược liên minh. Một khi AI thống trị xuất hiện sai lệch, nhân loại sẽ mất hết các phương thức kiềm chế.  Trong bối cảnh của "AI 2027", thành công của loài người phụ thuộc vào việc Mỹ lựa chọn con đường an toàn thay vì con đường hủy diệt vào thời điểm quan trọng - tự nguyện làm chậm sự tiến bộ của AI, đảm bảo rằng quá trình tư duy nội bộ của Agent-5 có thể được con người hiểu. Dù vậy, thành công cũng không phải là điều hiển nhiên, và cách con người thoát khỏi sự phụ thuộc vào một tư duy siêu thông minh duy nhất để tồn tại không còn rõ ràng. Dù AI sẽ phát triển như thế nào trong 5-10 năm tới, việc công nhận "giảm thiểu sự mong manh của thế giới là khả thi" và đầu tư thêm năng lượng để đạt được điều này bằng công nghệ mới nhất của con người, đều là con đường đáng thử.  *Cảm ơn đặc biệt đến phản hồi và đánh giá của tình nguyện viên Balvi.*