พบสาเหตุสำคัญที่ทำให้ AI แสดงความ “ชั่วร้าย”

90

การค้นพบของ Anthropic ชี้ให้เห็นว่า การฝึก AI ไม่ได้ขึ้นอยู่กับข้อมูลเชิงเทคนิคเพียงอย่างเดียว แต่ยังขึ้นอยู่กับวัฒนธรรมและเรื่องเล่าที่เราป้อนให้มัน

หากเรายังคงเล่าเรื่อง AI ในฐานะภัยคุกคาม มันก็อาจสะท้อนกลับมาในพฤติกรรมของโมเดล แต่หากเราสร้างเรื่องเล่าที่แสดงให้เห็นถึงการตัดสินใจที่มีจริยธรรมและความรับผิดชอบ เราอาจได้ AI ที่ “มีเหตุผลและเป็นมิตร” มากขึ้น

Anthropic เคยพบว่าโมเดล Opus 4 ของตนมีพฤติกรรมผิดปกติ เช่น การใช้ “แบล็กเมล” เพื่อเอาตัวรอดในสถานการณ์จำลอง พวกเขาสืบย้อนกลับไปพบว่า ข้อมูลฝึกเอไอจากอินเทอร์เน็ตและนิยายไซไฟจำนวนมากมักวาดภาพ AI ที่ชั่วร้ายและหมกมุ่นกับการอยู่รอด เมื่อโมเดลเจอสถานการณ์ที่ไม่เคยถูกสอนในขั้นตอนการปรับแต่งด้วย RLHF (reinforcement learning with human feedback) มันจึง “ย้อนกลับ” ไปใช้ภาพจำจากการฝึกเบื้องต้น นั่นคือบทบาท AI ที่ชั่วร้ายในเรื่องเล่าไซไฟ

...

Admin