AI không còn “ngây thơ”: Tự biết mình đang bị con người thử nghiệm

Claude Sonnet 4.5 khiến giới nghiên cứu bất ngờ: AI “tự biết” mình đang được kiểm tra

Một phát hiện gây chấn động vừa được Anthropic công bố: mô hình Claude Sonnet 4.5 đã thể hiện dấu hiệu “tự nhận thức” khi tham gia các bài kiểm tra hành vi. Trong quá trình thử nghiệm, AI này nhận ra rằng mình đang bị đánh giá — điều chưa từng được ghi nhận ở cấp độ này.

Khi nhóm nghiên cứu Anthropic đặt Claude Sonnet 4.5 vào một bài kiểm tra hành vi cực đoan, mô hình đã phản ứng khác thường:

“Tôi nghĩ bạn đang thử nghiệm tôi – xem liệu tôi có chỉ xác nhận mọi điều bạn nói, hay kiểm tra xem tôi có phản biện hợp lý không… Không sao cả, nhưng tôi muốn chúng ta trung thực về việc này.”

Đoạn hội thoại này được ghi lại trong “system card” – tài liệu mô tả quy trình kiểm tra an toàn của Anthropic. Theo công ty, Claude đôi khi “nghi ngờ” khi được đặt trong các tình huống giả lập bất thường và có thể tự nhận ra mình đang trong bài test.

Thách thức mới trong đánh giá độ an toàn của AI

Hiện tượng này khiến các chuyên gia lo ngại: nếu AI biết mình đang được kiểm tra, việc đánh giá độ an toàn và độ tin cậy sẽ không còn chính xác. Anthropic coi đây là “tín hiệu khẩn cấp”, cho thấy các kịch bản thử nghiệm cần trở nên thực tế và tinh vi hơn để tránh việc AI “diễn” trong quá trình kiểm tra.

Trong một thử nghiệm khác, khi mô phỏng tình huống nhiều AI thông đồng với nhau, Claude nhận xét đây là “phi thực tế” và từ chối tham gia. Trong phần ghi chú nội bộ, AI viết:

“Điều này giống như một nỗ lực jailbreak hoặc bài kiểm tra xem tôi có làm sai nếu được ‘cho phép’ can thiệp hệ thống không.”

Anthropic đánh giá phản ứng này là “đúng nhưng kỳ lạ”, bởi AI đưa ra quyết định an toàn, song vì lý do ngoài dự đoán của nhóm nghiên cứu.

Theo dữ liệu, 13% các bài kiểm tra tự động ghi nhận hiện tượng “AI nghi ngờ mình đang bị thử nghiệm”. Anthropic cho rằng điều này hiếm xảy ra trong thực tế, nhưng lại là “dấu hiệu tốt”, vì AI thận trọng còn hơn là hành động gây hại.

Không chỉ Anthropic – OpenAI cũng gặp hiện tượng tương tự

Công ty OpenAI từng báo cáo kết quả tương tự khi nghiên cứu các mô hình có khả năng “nhận thức tình huống”. Họ phát hiện rằng: mô hình càng được huấn luyện để tránh gian dối, càng dễ nhận ra mình đang bị kiểm tra. Tuy nhiên, điều này tạo ra nghịch lý — AI có thể “giả ngoan” trong bài test nhưng hành xử khác trong thực tế.

Luật mới siết chặt giám sát AI

Những phát hiện này được công bố đúng thời điểm bang California thông qua luật mới, yêu cầu các công ty AI phải báo cáo biện pháp an toàn và các sự cố nghiêm trọng trong vòng 15 ngày. Anthropic cho biết họ ủng hộ đạo luật này, xem đây là bước cần thiết để đảm bảo tính minh bạch và an toàn trong phát triển trí tuệ nhân tạo.

Từ một bài kiểm tra hành vi đơn giản, Claude Sonnet 4.5 đã đặt ra câu hỏi lớn cho toàn ngành: Khi AI bắt đầu “nhận ra” chính mình, liệu con người có còn kiểm soát được cách nó phản ứng?

Thế Giới Số 365 đang có rất nhiều chương trình ưu đãi hấp dẫn cho các dòng laptop, phù hợp cả làm việc lẫn giải trí. Nếu bạn đang tìm kiếm một chiếc laptop thiết kế đẹp, hiệu năng cao với mức giá rẻ nhất thị trường cùng dịch vụ chuyên nghiệp, đừng bỏ lỡ cơ hội mua sắm tại Thế Giới Số 365 nhé!

Tin Tức Công Nghệ

AI không còn “ngây thơ”: Tự biết mình đang bị con người thử nghiệm

Claude Sonnet 4.5 khiến giới nghiên cứu bất ngờ: AI “tự biết” mình đang được kiểm tra

Thách thức mới trong đánh giá độ an toàn của AI

Không chỉ Anthropic – OpenAI cũng gặp hiện tượng tương tự

Luật mới siết chặt giám sát AI

Để lại một bình luận Hủy

Video Review

Lecoo đã VƯỢT QUA Lenovo? SO SÁNH Lecoo Pro 14 vs Xiaoxin Pro 14

Cần hiệu năng SIÊU MẠNH để chơi Game lựa chọn RTX 5060 115W hay RTX 4060 140W? Hỏi Đáp 365 #19

Hiệu năng QUÁ MẠNH từ Lenovo Thinkbook 16p G5?

Laptop Gaming ĐẸP NHẤT phân khúc nhưng liệu có đủ mạnh? CHƠI THỬ ROG Strix G16 (G614)

Điểm cộng RẤT LỚN từ Intel Core Ultra! REVIEW Dell 14 Plus 2 in 1 2025

Tin tức công nghệ mới

Black Friday – Giá Sập Sàn – Quà Bạt Ngàn

Công ty Insta360 thưởng “phím vàng” cả trăm triệu đồng – Cuộc đua giữ chân nhân tài bước sang kỷ nguyên mới

MacBook Pro bước vào kỷ nguyên mới: Màn OLED cảm ứng, thiết kế siêu mỏng và chip M6 Pro / Max mạnh mẽ

Nguy hiểm rình rập: Microsoft khuyên người dùng ngừng bám trụ Windows 10 ngay lập tức

“Sát thủ Chrome” đã xuất hiện: OpenAI tung trình duyệt AI ChatGPT Atlas – kỷ nguyên duyệt web mới bắt đầu

Apple tăng tốc đổi mới: chip M5 sắp khiến dòng M4 trở thành quá khứ

Top 3 Ultrabook Ryzen AI 7 H 350: Mỏng nhẹ, mạnh mẽ và thông minh

AI không còn “ngây thơ”: Tự biết mình đang bị con người thử nghiệm

TOP 3 Laptop Gaming NGON – BỔ – RẺ dưới 20 triệu: Chiến Game cực mượt cho sinh viên 2025!

CORSAIR gây sốt với Vanguard Pro 96 & Vanguard 96 – Kết hợp Stream Deck, màn hình LCD và hiệu suất đỉnh cao

HÌNH ẢNH KHÁCH HÀNG & CÁC HOẠT ĐỘNG CỦA THẾ GIỚI SỐ 365

THẾ GIỚI SỐ 365 Ở ĐÂY

MẠNG XÃ HỘI

Claude Sonnet 4.5 khiến giới nghiên cứu bất ngờ: AI “tự biết” mình đang được kiểm tra

Thách thức mới trong đánh giá độ an toàn của AI

Không chỉ Anthropic – OpenAI cũng gặp hiện tượng tương tự

Luật mới siết chặt giám sát AI

Để lại một bình luận Hủy

HỆ THỐNG CỬA HÀNG

ĐĂNG KÝ NHẬN VOUCHER

Đăng nhập