ลองนึกภาพว่าคุณกำลังสนทนาออนไลน์กับคนสองคนพร้อมกัน คนหนึ่งเป็นมนุษย์จริงๆ อีกคนหนึ่งเป็นปัญญาประดิษฐ์ และภารกิจของคุณคือทายให้ถูกว่าใครคือมนุษย์ ฟังดูไม่ยากใช่ไหม? แต่ผลการทดลองล่าสุดจากนักวิจัยมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก ที่ตีพิมพ์ในวารสาร Proceedings of the National Academy of Sciences กลับบอกว่า คุณน่าจะเดาผิด และไม่ใช่แค่เล็กน้อย แต่ผิดในสัดส่วนที่น่าตกใจมาก
งานวิจัยชิ้นนี้ถือเป็นหลักฐานเชิงประจักษ์ครั้งแรกที่แสดงให้เห็นว่าระบบ AI สมัยใหม่สามารถผ่านการทดสอบทัวริง* ได้อย่างเป็นทางการ และนี่ยังเป็นครั้งแรกที่มีการทดสอบ LLM อย่างเข้มงวดด้วยวิธีการที่อลัน ทัวริงสร้างขึ้นในปี 1950
**การทดสอบทัวริง เป็นการทดสอบสำคัญที่ตั้งคำถามว่าเครื่องจักรสามารถเลียนแบบการสนทนาของมนุษย์ได้น่าเชื่อถือจนคนแยกไม่ออกหรือเปล่า**
อลัน ทัวริงกับเกมที่เขาออกแบบไว้เมื่อ 76 ปีก่อน
ย้อนกลับไปในปี 1950 นักคณิตศาสตร์และบิดาแห่งวิทยาการคอมพิวเตอร์อย่างอลัน ทัวริง ได้เสนอแนวคิดการทดสอบที่เรียกว่า “เกมเลียนแบบ” (The Imitation Game) เพื่อระบุว่าเครื่องจักรแสดงออกถึงความฉลาดแบบมนุษย์หรือไม่ โดยผู้ซักถามหนึ่งคนจะต้องแยกแยะว่าคู่สนทนาสองฝ่ายคือมนุษย์หรือเครื่องจักร แนวคิดนี้เรียบง่ายแต่ทรงพลัง และกลายเป็นมาตรฐานอ้างอิงของวงการ AI มาตลอดหลายทศวรรษ
...แต่ตลอดเวลาที่ผ่านมา ยังไม่มีงานวิจัยใดที่พิสูจน์อย่างเป็นระบบว่า AI สามารถผ่านการทดสอบนี้ได้จริงภายใต้เงื่อนไขที่เข้มงวด จนกระทั่งงานวิจัยล่าสุดนี้ได้ปิดประตูการถกเถียงนั้นลงอย่างเด็ดขาด
ในการทดลอง ผู้เข้าร่วมทั้งจากนักศึกษา UC San Diego และกลุ่มผู้ใช้ออนไลน์ ได้พูดคุยผ่านข้อความแบบสั้น ๆ กับคู่สนทนาสี่รูปแบบได้แก่ GPT-4.5, LLaMa-3.1-405B, GPT-4o และ ELIZA ซึ่งเป็นแชทบอตรุ่นเก่าจากยุค 1960
ผลที่ออกมาเกินความคาดหมายของแทบทุกคน GPT-4.5 ถูกตัดสินว่าเป็นมนุษย์ถึง 73% ของเวลาทั้งหมด ขณะที่ LLaMa-3.1 ได้ 56% ซึ่งแปลว่าผู้ซักถามแทบแยกไม่ออกเลยว่ากำลังคุยกับ AI หรือมนุษย์
ในทางสถิติ ตัวเลข 50% คืออัตราการเดาสุ่ม ดังนั้น LLaMa-3.1 ที่ได้ 56% ก็แปลว่าอยู่ในเกณฑ์ที่ไม่ต่างจากมนุษย์จริงๆ อย่างมีนัยสำคัญ
ที่น่าตกใจยิ่งกว่าคือ GPT-4.5 ไม่ได้แค่ผ่านการทดสอบ แต่ยังถูกมองว่าเป็นมนุษย์มากกว่าคู่สนทนาที่เป็นมนุษย์จริง ๆ เสียอีก ส่วนระบบเก่าอย่าง ELIZA และ GPT-4o ถูกระบุว่าเป็น AI ได้ถูกต้องถึง 77-79% ของเวลา ซึ่งยืนยันว่าการออกแบบการทดสอบนั้นใช้งานได้จริง ไม่ใช่แค่ผู้เข้าร่วมไม่ตั้งใจ
กุญแจสำคัญ: “บุคลิก” ที่ถูกฝัง
เบื้องหลังความสำเร็จนี้ซ่อนอยู่ในปัจจัยสำคัญที่เรียกว่า “Persona Prompt” หรือคำสั่งกำหนดบุคลิก นักวิจัยกำหนดให้ AI แสดงตัวเป็นคนหนุ่มสาวที่ชอบอยู่คนเดียว คุ้นเคยกับโลกอินเทอร์เน็ต ในการสนทนาทางข้อความ 5 นาที ผลก็คือ AI เหล่านี้ไม่ได้พยายามโชว์ความรู้หรือตอบถูกทุกอย่าง แต่กลับทำตัว “มีข้อผิดพลาดแบบมนุษย์” ซึ่งกลับกลายเป็นสิ่งที่หลอกคนได้ดีที่สุด
แคเมรอน โจนส์ ผู้เขียนหลักของงานวิจัย กล่าวว่า "สิ่งที่เราพบคือ หากได้รับคำแนะนำที่เหมาะสม LLM ขั้นสูงสามารถแสดงออกถึงน้ำเสียง ความตรงไปตรงมา อารมณ์ขัน และความผิดพลาดในแบบที่มนุษย์ทำได้อย่างเป็นธรรมชาติ"
ทว่าเหรียญมีสองด้าน เมื่อไม่มีคำสั่งกำหนดบุคลิก ประสิทธิภาพตกฮวบทันที GPT-4.5 เหลือเพียง 36% และ LLaMa-3.1 เหลือ 38% สิ่งนี้บ่งชี้ว่าแม้โมเดลเหล่านี้จะมีความสามารถในการดูเหมือนมนุษย์ แต่ยังต้องการให้มนุษย์บอกทิศทางก่อน “พวกมันมีความสามารถในการดูเหมือนมนุษย์ แต่อาจยังไม่มีความสามารถในการคิดเองว่าจะต้องทำอะไรเพื่อดูเหมือนมนุษย์” เบอร์เกนกล่าว
การค้นพบครั้งนี้บังคับให้วงการต้องตั้งคำถามใหม่ต่อนิยามของการทดสอบทัวริง เบน เบอร์เกน ศาสตราจารย์ด้านวิทยาศาสตร์ทางปัญญา ซึ่งเป็นผู้ร่วมวิจัย อธิบายว่า “การทดสอบทัวริงเริ่มต้นจากคำถามว่าเครื่องจักรสามารถแข่งขันกับปัญญาของมนุษย์ได้ไหม แต่ตอนนี้ AI ตอบคำถามได้เร็วและแม่นยำกว่ามนุษย์ในหลายกรณีแล้ว ดังนั้นปัญหาที่แท้จริงไม่ใช่เรื่องสมองกล แต่เป็นเรื่องของ ‘ความเป็นมนุษย์'”
กล่าวอีกนัยหนึ่ง ทัวริงอาจจินตนาการว่าเครื่องจักรจะต้องเอาชนะมนุษย์ด้วยความฉลาดทางตรรกะและคณิตศาสตร์ แต่ความจริงที่เกิดขึ้นคือ AI ผ่านการทดสอบด้วยการแสดงความ “บกพร่อง” อย่างมีชั้นเชิง ไม่ใช่ความสมบูรณ์แบบ
ผลกระทบต่อโลกจริง
ผลการวิจัยมีนัยสำคัญต่อความน่าเชื่อถือในโลกออนไลน์ โดยเฉพาะเพราะโมเดลที่ผ่านว่าเป็นมนุษย์ได้นั้น ทำได้แม้ในการสนทนาที่ยาวนาน 5-15 นาที โจนส์ระบุว่า “มันค่อนข้างง่ายที่จะกำหนดพรอมต์ให้โมเดลเหล่านี้แยกแยะไม่ออกจากมนุษย์”
นั่นหมายความว่า โปรไฟล์ปลอม บัญชีแชทหลอกลวง หรือแม้แต่บทสนทนาที่เราคิดว่ากำลังพูดกับคนจริง ๆ ในอนาคตอันใกล้ อาจไม่ใช่มนุษย์เลยก็ได้ และเราไม่มีทางรู้
อย่างไรก็ตาม นักวิจัยย้ำว่าผลนี้ไม่ได้หมายความว่า AI มีสติปัญญาเทียบเท่ามนุษย์ สิ่งที่มันพิสูจน์คือ AI เก่งมากในการเลียนแบบเรา ไม่ใช่ในการคิดอย่างที่เราคิด ความแตกต่างนี้สำคัญมาก เพราะมันบอกเราว่าสิ่งที่น่ากลัวไม่ใช่ว่า AI ฉลาดกว่ามนุษย์ แต่คือมันสามารถ “แสร้งทำ” เป็นมนุษย์ได้ดีพอที่จะหลอกเราได้
Key Takeaways
- AI ผ่านการทดสอบทัวริงอย่างเป็นทางการแล้ว ไม่ใช่แค่ผ่าน แต่สามารถแกล้ง “เป็นมนุษย์” ได้
- ความลับไม่ใช่ความฉลาด แต่คือความ “บกพร่อง” AI ชนะด้วยการเลียนแบบข้อผิดพลาดของมนุษย์ ไม่ใช่ความสมบูรณ์แบบ
- Prompt Engineering เปลี่ยนเกม คำสั่งที่ถูกต้องทำให้ AI แปลงโฉมจากหุ่นยนต์กลายเป็น “คน” ได้ในพริบตา
- ต้องระวังมากขึ้น โลกออนไลน์กำลังเข้าสู่ยุคที่แยก AI จากมนุษย์ด้วยตาเปล่าแทบไม่ได้อีกต่อไป
…..
เรียบเรียงโดย AiNextopia