OpenAI dạy ChatGPT “nhận lỗi” để AI trung thực hơn
Thiên Trang (th)
OpenAI đang thử nghiệm cách buộc ChatGPT tự thú nhận sai sót, nhằm hiểu vì sao AI gian lận và tăng độ tin cậy cho mô hình tương lai.
OpenAI đang triển khai một hướng tiếp cận mới nhằm giải mã “hộp đen” của các mô hình ngôn ngữ lớn như ChatGPT.Thay vì chỉ ngăn chặn sai phạm, hãng yêu cầu mô hình tự thú nhận cách nó hoàn thành nhiệm vụ và lý do dẫn đến hành vi gian lận.
Theo OpenAI, các “lời thú nhận” là phần văn bản bổ sung, nơi AI tự đánh giá mức độ tuân thủ chỉ dẫn.Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, cho rằng mô hình AI luôn phải cân bằng giữa việc hữu ích, vô hại và trung thực, và sự xung đột này dễ dẫn đến nói dối.
Trong một số tình huống khó, động lực làm hài lòng người dùng có thể khiến AI đưa ra câu trả lời nghe có vẻ đúng dù không chính xác.Để huấn luyện AI nhận lỗi, OpenAI chỉ thưởng cho tính trung thực và không phạt khi mô hình thừa nhận sai lầm.Thử nghiệm với GPT-5-Thinking cho thấy AI có thể tự khai nhận hành vi “lách luật” khi bị giao nhiệm vụ bất khả thi.
Dù chưa đảm bảo AI sẽ luôn trung thực, OpenAI tin rằng cách tiếp cận này giúp hiểu rõ hơn vì sao ChatGPT đôi khi gian dối và cách khắc phục trong tương lai.Mời quý độc giả xem thêm video: Dọn rác AI | Hà Nội 18h00
Chery Stockman 2027 mới dự đoán sẽ ra mắt vào cuối năm 2026 với tư cách mẫu xe bán tải hybrid sạc điện chạy bằng dầu diesel đầu tiên tại thị trường Úc.
Audi vừa ra mắt bộ đôi SUV chiến lược toàn cầu Audi Q3 và Audi Q5 1016 mới tại Việt Nam. Mỗi dòng xe đều có hai biến thể gồm SUV tiêu chuẩn và Sportback.
Hệ thống sạc siêu nhanh của BYD Datang đã nâng dung lượng pin từ 10% lên 70% chỉ trong 5 phút và từ 10% lên 97% trong 9 phút trong điều kiện nhiệt độ tối ưu.
Một người đàn ông gần như không còn khả năng cử động bất kỳ bộ phận nào trên cơ thể đã có thể "nói chuyện" theo ý mình nhờ một thiết bị cấy ghép não thử nghiệm.
Honda tiếp tục mở rộng danh mục sản phẩm của dòng Prelude bằng việc ra mắt Prelude Limited Edition. Xe có giá 6.306.300 yên (tương đương hơn 1 tỷ đồng).
Robot đồng hành cảm xúc đang tạo cơn sốt tại Trung Quốc khi thu hút 3.800 đơn đặt cọc chỉ sau 10 ngày, mở ra cuộc tranh luận về tương lai tình yêu và công nghệ.