งานวิจัยล่าสุดจากสแตนฟอร์ดและเยลได้เผยสิ่งที่บริษัท AI พยายามปกปิดมานาน นั่นคือโมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT ของ OpenAI, Claude ของ Anthropic, Gemini ของ Google และ Grok ของ xAI สามารถ “จำ” และ “คัดลอก” เนื้อหาจำนวนมากจากหนังสือที่ใช้ฝึกโมเดล เมื่อถูกกระตุ้นด้วยคำสั่งเฉพาะ
นักวิจัยพบว่า Claude สามารถถ่ายทอดเนื้อหาเกือบทั้งเล่มของ Harry Potter and the Sorcerer’s Stone, The Great Gatsby, 1984 และ Frankenstein ได้แทบครบถ้วน ขณะที่โมเดลอื่นก็ทำได้ในระดับใกล้เคียงกัน
สิ่งนี้ตรงกันข้ามกับคำอธิบายที่บริษัท AI เคยให้ไว้ต่อหน่วยงานรัฐและสาธารณะ พวกเขายืนยันว่าโมเดลไม่ได้เก็บสำเนาของข้อมูล แต่เพียง “เรียนรู้รูปแบบภาษา” ทว่าหลักฐานใหม่ชี้ชัดว่าโมเดลเหล่านี้คือฐานข้อมูลขนาดมหึมาที่บีบอัดข้อความต้นฉบับไว้ และสามารถเรียกคืนออกมาได้เมื่อถูกกระตุ้นอย่างถูกวิธี
บริษัทเทคโนโลยีมักใช้คำเปรียบเปรยว่า AI “เรียนรู้” เหมือนมนุษย์ แต่ในเชิงเทคนิค นักพัฒนากลับใช้คำว่า “lossy compression” หรือการบีบอัดแบบสูญเสีย ซึ่งคล้ายกับการเก็บไฟล์ภาพ JPEG หรือเพลง MP3 ที่ยังคงสาระสำคัญไว้ แต่สูญเสียรายละเอียดบางส่วนไป โมเดล AI จึงไม่ใช่สมองที่เข้าใจภาษา หากแต่เป็นเครื่องจักรที่บีบอัดและเรียกคืนข้อมูลต้นฉบับในรูปแบบใกล้เคียง
บริษัท AI มักเปรียบเทียบการฝึกโมเดลกับการสอนเด็กให้เขียนหนังสือ เพื่อสร้างภาพว่าเป็นการเรียนรู้เชิงสร้างสรรค์ แต่หลักฐานวิจัยชี้ว่ามันคือการคัดลอกเชิงสถิติ ไม่ใช่การเรียนรู้เชิงประสบการณ์ การใช้คำเปรียบเปรยเช่นนี้จึงทำให้สังคมเข้าใจผิด และลดทอนความจริงที่ว่า AI พึ่งพาอย่างสิ้นเชิงต่อผลงานของนักเขียน ศิลปิน และนักวิชาการที่ถูกนำมาใช้ฝึก
ความพยายามปิดบังและผลกระทบต่ออนาคต
นักวิจัยหลายคนเล่าว่าการศึกษาปรากฏการณ์การจดจำถูกขัดขวางโดยฝ่ายกฎหมายของบริษัท AI ซึ่งไม่ต้องการให้ข้อมูลนี้เผยแพร่ต่อสาธารณะ ขณะเดียวกัน ผู้บริหารอย่าง Sam Altman ก็ยังคงปกป้องแนวคิดว่า AI มี “สิทธิที่จะเรียนรู้” จากหนังสือและบทความเหมือนมนุษย์ ทั้งที่ข้อเท็จจริงคือการคัดลอกเชิงกลไก