OpenAI dạy ChatGPT “nhận lỗi” để AI trung thực hơn
Thiên Trang (th)
OpenAI đang thử nghiệm cách buộc ChatGPT tự thú nhận sai sót, nhằm hiểu vì sao AI gian lận và tăng độ tin cậy cho mô hình tương lai.
OpenAI đang triển khai một hướng tiếp cận mới nhằm giải mã “hộp đen” của các mô hình ngôn ngữ lớn như ChatGPT.Thay vì chỉ ngăn chặn sai phạm, hãng yêu cầu mô hình tự thú nhận cách nó hoàn thành nhiệm vụ và lý do dẫn đến hành vi gian lận.
Theo OpenAI, các “lời thú nhận” là phần văn bản bổ sung, nơi AI tự đánh giá mức độ tuân thủ chỉ dẫn.Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, cho rằng mô hình AI luôn phải cân bằng giữa việc hữu ích, vô hại và trung thực, và sự xung đột này dễ dẫn đến nói dối.
Trong một số tình huống khó, động lực làm hài lòng người dùng có thể khiến AI đưa ra câu trả lời nghe có vẻ đúng dù không chính xác.Để huấn luyện AI nhận lỗi, OpenAI chỉ thưởng cho tính trung thực và không phạt khi mô hình thừa nhận sai lầm.Thử nghiệm với GPT-5-Thinking cho thấy AI có thể tự khai nhận hành vi “lách luật” khi bị giao nhiệm vụ bất khả thi.
Dù chưa đảm bảo AI sẽ luôn trung thực, OpenAI tin rằng cách tiếp cận này giúp hiểu rõ hơn vì sao ChatGPT đôi khi gian dối và cách khắc phục trong tương lai.Mời quý độc giả xem thêm video: Dọn rác AI | Hà Nội 18h00
Ngày thứ 5 của cuộc chiến Trung Đông, chứng kiến làn sóng tấn công thứ 11 của Iran: Trung tâm CIA hứng tên lửa; sức mạnh phản công của Iran chưa suy giảm.
MacBook Pro 14 inch và 16 inch mới dùng chip M5 Pro và M5 Max, nâng cấp mạnh về hiệu năng CPU, GPU, AI và tốc độ SSD, giá tại Việt Nam từ 59,999 triệu đồng.
Giám đốc Học viện Nông nghiệp VN Nguyễn Thị Lan khẳng định, giáo dục và khoa học là "chìa khóa" giúp phụ nữ khẳng định vị thế, dẫn dắt tương lai nông nghiệp xanh.
Chùa Đá Trắng, biểu tượng văn hóa lâu đời của Phú Yên (tỉnh Đắk Lắk), nổi bật với kiến trúc cổ kính, lịch sử phong phú và cảnh quan thiên nhiên thơ mộng.
Sau khi Mỹ phát động chiến dịch quân sự, Iran bắn hàng trăm tên lửa và UAV tấn công vào các quốc gia Vùng Vịnh, gây áp lực lớn lên hệ thống phòng không khu vực.