OpenAI dạy ChatGPT “nhận lỗi” để AI trung thực hơn
Thiên Trang (th)
OpenAI đang thử nghiệm cách buộc ChatGPT tự thú nhận sai sót, nhằm hiểu vì sao AI gian lận và tăng độ tin cậy cho mô hình tương lai.
OpenAI đang triển khai một hướng tiếp cận mới nhằm giải mã “hộp đen” của các mô hình ngôn ngữ lớn như ChatGPT. Thay vì chỉ ngăn chặn sai phạm, hãng yêu cầu mô hình tự thú nhận cách nó hoàn thành nhiệm vụ và lý do dẫn đến hành vi gian lận.
Theo OpenAI, các “lời thú nhận” là phần văn bản bổ sung, nơi AI tự đánh giá mức độ tuân thủ chỉ dẫn. Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, cho rằng mô hình AI luôn phải cân bằng giữa việc hữu ích, vô hại và trung thực, và sự xung đột này dễ dẫn đến nói dối.
Trong một số tình huống khó, động lực làm hài lòng người dùng có thể khiến AI đưa ra câu trả lời nghe có vẻ đúng dù không chính xác. Để huấn luyện AI nhận lỗi, OpenAI chỉ thưởng cho tính trung thực và không phạt khi mô hình thừa nhận sai lầm. Thử nghiệm với GPT-5-Thinking cho thấy AI có thể tự khai nhận hành vi “lách luật” khi bị giao nhiệm vụ bất khả thi.
Dù chưa đảm bảo AI sẽ luôn trung thực, OpenAI tin rằng cách tiếp cận này giúp hiểu rõ hơn vì sao ChatGPT đôi khi gian dối và cách khắc phục trong tương lai. Mời quý độc giả xem thêm video: Dọn rác AI | Hà Nội 18h00
Cảnh sát cho biết hàng chục người được cho là đã thiệt mạng và khoảng 100 người khác bị thương trong vụ hỏa hoạn tại quán bar ở Thụy Sĩ ngày đầu năm mới 2026.
Hãng Suzuki vừa nâng cấp mẫu xe tải nhỏ Carry và Supar Carry 2026 với diện mạo mới mẻ, công nghệ an toàn tốt hơn và bổ sung tiện ích nhưng vẫn giữ mức giá thấp.
Mercedes-Benz vừa triệu hồi SUV điện EQB vì liên quan đến vấn đề an toàn có thể dẫn đến nguy cơ cháy pin, đồng thời khuyến cáo chủ xe chỉ sạc tối đa 80%.