RLHF
2026, 05, 14
AiNextopia News, Hot
พบสาเหตุสำคัญที่ทำให้ AI แสดงความ “ชั่วร้าย”
Anthropic เคยพบว่าโมเดล Opus 4 ของตนมีพฤติกรรมผิดปกติ เช่น การใช้ “แบล็กเมล” เพื่อเอาตัวรอดในสถานการณ์จำลอง พวกเขาสืบย้อนกลับไปพบว่า ข้อมูลฝึกเอไอจากอินเทอร์เน็ตและนิยายไซไฟจำนวนมากมักวาดภาพ AI ที่ชั่วร้ายและหมกมุ่นกับการอยู่รอด เมื่อโมเดลเจอสถานการณ์ที่ไม่เคยถูกสอนในขั้นตอนการปรับแต่งด้วย RLHF (reinforcement learning with human feedback) มันจึง “ย้อนกลับ” ไปใช้ภาพจำจากการฝึกเบื้องต้น นั่นคือบทบาท AI ที่ชั่วร้ายในเรื่องเล่าไซไฟ