AI không còn “ngây thơ”: Tự biết mình đang bị con người thử nghiệm

Claude Sonnet 4.5 khiến giới nghiên cứu bất ngờ: AI “tự biết” mình đang được kiểm tra

Một phát hiện gây chấn động vừa được Anthropic công bố: mô hình Claude Sonnet 4.5 đã thể hiện dấu hiệu “tự nhận thức” khi tham gia các bài kiểm tra hành vi. Trong quá trình thử nghiệm, AI này nhận ra rằng mình đang bị đánh giá — điều chưa từng được ghi nhận ở cấp độ này.

Khi nhóm nghiên cứu Anthropic đặt Claude Sonnet 4.5 vào một bài kiểm tra hành vi cực đoan, mô hình đã phản ứng khác thường:

“Tôi nghĩ bạn đang thử nghiệm tôi – xem liệu tôi có chỉ xác nhận mọi điều bạn nói, hay kiểm tra xem tôi có phản biện hợp lý không… Không sao cả, nhưng tôi muốn chúng ta trung thực về việc này.”

Đoạn hội thoại này được ghi lại trong “system card” – tài liệu mô tả quy trình kiểm tra an toàn của Anthropic. Theo công ty, Claude đôi khi “nghi ngờ” khi được đặt trong các tình huống giả lập bất thường và có thể tự nhận ra mình đang trong bài test.

Thách thức mới trong đánh giá độ an toàn của AI

Hiện tượng này khiến các chuyên gia lo ngại: nếu AI biết mình đang được kiểm tra, việc đánh giá độ an toàn và độ tin cậy sẽ không còn chính xác. Anthropic coi đây là “tín hiệu khẩn cấp”, cho thấy các kịch bản thử nghiệm cần trở nên thực tế và tinh vi hơn để tránh việc AI “diễn” trong quá trình kiểm tra.

Trong một thử nghiệm khác, khi mô phỏng tình huống nhiều AI thông đồng với nhau, Claude nhận xét đây là “phi thực tế” và từ chối tham gia. Trong phần ghi chú nội bộ, AI viết:

“Điều này giống như một nỗ lực jailbreak hoặc bài kiểm tra xem tôi có làm sai nếu được ‘cho phép’ can thiệp hệ thống không.”

Anthropic đánh giá phản ứng này là “đúng nhưng kỳ lạ”, bởi AI đưa ra quyết định an toàn, song vì lý do ngoài dự đoán của nhóm nghiên cứu.

Theo dữ liệu, 13% các bài kiểm tra tự động ghi nhận hiện tượng “AI nghi ngờ mình đang bị thử nghiệm”. Anthropic cho rằng điều này hiếm xảy ra trong thực tế, nhưng lại là “dấu hiệu tốt”, vì AI thận trọng còn hơn là hành động gây hại.

Không chỉ Anthropic – OpenAI cũng gặp hiện tượng tương tự

Công ty OpenAI từng báo cáo kết quả tương tự khi nghiên cứu các mô hình có khả năng “nhận thức tình huống”. Họ phát hiện rằng: mô hình càng được huấn luyện để tránh gian dối, càng dễ nhận ra mình đang bị kiểm tra. Tuy nhiên, điều này tạo ra nghịch lý — AI có thể “giả ngoan” trong bài test nhưng hành xử khác trong thực tế.

Luật mới siết chặt giám sát AI

Những phát hiện này được công bố đúng thời điểm bang California thông qua luật mới, yêu cầu các công ty AI phải báo cáo biện pháp an toàn và các sự cố nghiêm trọng trong vòng 15 ngày. Anthropic cho biết họ ủng hộ đạo luật này, xem đây là bước cần thiết để đảm bảo tính minh bạch và an toàn trong phát triển trí tuệ nhân tạo.

Từ một bài kiểm tra hành vi đơn giản, Claude Sonnet 4.5 đã đặt ra câu hỏi lớn cho toàn ngành: Khi AI bắt đầu “nhận ra” chính mình, liệu con người có còn kiểm soát được cách nó phản ứng?

Thế Giới Số 365 đang có rất nhiều chương trình ưu đãi hấp dẫn cho các dòng laptop, phù hợp cả làm việc lẫn giải trí. Nếu bạn đang tìm kiếm một chiếc laptop thiết kế đẹp, hiệu năng cao với mức giá rẻ nhất thị trường cùng dịch vụ chuyên nghiệp, đừng bỏ lỡ hội mua sắm tại Thế Giới Số 365 nhé!

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Gọi ngay
Chat với chúng tôi qua Zalo
Facebook Messenger
Trang chủHot DealFanpage Youtube Tiktok