OpenAI dạy ChatGPT “nhận lỗi” để AI trung thực hơn
Thiên Trang (th)
OpenAI đang thử nghiệm cách buộc ChatGPT tự thú nhận sai sót, nhằm hiểu vì sao AI gian lận và tăng độ tin cậy cho mô hình tương lai.
OpenAI đang triển khai một hướng tiếp cận mới nhằm giải mã “hộp đen” của các mô hình ngôn ngữ lớn như ChatGPT.Thay vì chỉ ngăn chặn sai phạm, hãng yêu cầu mô hình tự thú nhận cách nó hoàn thành nhiệm vụ và lý do dẫn đến hành vi gian lận.
Theo OpenAI, các “lời thú nhận” là phần văn bản bổ sung, nơi AI tự đánh giá mức độ tuân thủ chỉ dẫn.Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, cho rằng mô hình AI luôn phải cân bằng giữa việc hữu ích, vô hại và trung thực, và sự xung đột này dễ dẫn đến nói dối.
Trong một số tình huống khó, động lực làm hài lòng người dùng có thể khiến AI đưa ra câu trả lời nghe có vẻ đúng dù không chính xác.Để huấn luyện AI nhận lỗi, OpenAI chỉ thưởng cho tính trung thực và không phạt khi mô hình thừa nhận sai lầm.Thử nghiệm với GPT-5-Thinking cho thấy AI có thể tự khai nhận hành vi “lách luật” khi bị giao nhiệm vụ bất khả thi.
Dù chưa đảm bảo AI sẽ luôn trung thực, OpenAI tin rằng cách tiếp cận này giúp hiểu rõ hơn vì sao ChatGPT đôi khi gian dối và cách khắc phục trong tương lai.Mời quý độc giả xem thêm video: Dọn rác AI | Hà Nội 18h00
Song song với việc khởi động sản xuất, Volkswagen ID. Unyx 08 đã được mở bán ở Trung Quốc với giá từ 239.900-299.900 NDT (khoảng 839 triệu - 1,049 tỷ đồng).
Mazda đang cho thấy một hướng đi khác biệt trong cuộc đua điện hóa khi quyết định không sử dụng công nghệ hybrid của Toyota cho mẫu CX-5 thế hệ mới của mình.
Toyota Việt Nam vừa triệu hồi gần 700 xe Land Cruiser 300 để cập nhật phần mềm hộp số, sau khi ghi nhận nguy cơ mất công suất và rò rỉ dầu khi vận hành.
Thương hiệu Geely đã chính thức trình làng hai mẫu xe năng lượng mới tại Việt Nam - xe điện đô thị EX2 và SUV PHEV EX5 EM-i với giá bán chỉ từ 459 triệu đồng.
Doanh số xe máy xăng Honda đang giảm mạnh, trong khi phân khúc xe máy điện tăng trưởng thần tốc chiếm tới hơn 13% thị phần toàn thị trường Việt Nam đầu 2026.