วิกฤตการจดจำของ AI กับความจริงที่ไม่อยากให้รู้

วิกฤตการจดจำของ AI ไม่ใช่เพียงประเด็นทางเทคนิค แต่เป็นการเปิดโปงความจริงที่บริษัทเทคโนโลยีไม่อยากให้สังคมรู้ โมเดลไม่ได้ “เรียนรู้” อย่างมนุษย์ แต่ “จำและคัดลอก” ผลงานที่ใช้ฝึก

ซึ่งนำไปสู่ความเสี่ยงทางกฎหมาย จริยธรรม และความเข้าใจผิดในวงกว้าง หากไม่แก้ไขอย่างโปร่งใส อุตสาหกรรมอาจต้องเผชิญการฟ้องร้อง การทำลายโมเดล และการสูญเสียความไว้วางใจจากสาธารณะ

งานวิจัยล่าสุดจากสแตนฟอร์ดและเยลได้เผยสิ่งที่บริษัท AI พยายามปกปิดมานาน นั่นคือโมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT ของ OpenAI, Claude ของ Anthropic, Gemini ของ Google และ Grok ของ xAI สามารถ “จำ” และ “คัดลอก” เนื้อหาจำนวนมากจากหนังสือที่ใช้ฝึกโมเดล เมื่อถูกกระตุ้นด้วยคำสั่งเฉพาะ

นักวิจัยพบว่า Claude สามารถถ่ายทอดเนื้อหาเกือบทั้งเล่มของ Harry Potter and the Sorcerer’s Stone, The Great Gatsby, 1984 และ Frankenstein ได้แทบครบถ้วน ขณะที่โมเดลอื่นก็ทำได้ในระดับใกล้เคียงกัน

สิ่งนี้ตรงกันข้ามกับคำอธิบายที่บริษัท AI เคยให้ไว้ต่อหน่วยงานรัฐและสาธารณะ พวกเขายืนยันว่าโมเดลไม่ได้เก็บสำเนาของข้อมูล แต่เพียง “เรียนรู้รูปแบบภาษา” ทว่าหลักฐานใหม่ชี้ชัดว่าโมเดลเหล่านี้คือฐานข้อมูลขนาดมหึมาที่บีบอัดข้อความต้นฉบับไว้ และสามารถเรียกคืนออกมาได้เมื่อถูกกระตุ้นอย่างถูกวิธี

บริษัทเทคโนโลยีมักใช้คำเปรียบเปรยว่า AI “เรียนรู้” เหมือนมนุษย์ แต่ในเชิงเทคนิค นักพัฒนากลับใช้คำว่า “lossy compression” หรือการบีบอัดแบบสูญเสีย ซึ่งคล้ายกับการเก็บไฟล์ภาพ JPEG หรือเพลง MP3 ที่ยังคงสาระสำคัญไว้ แต่สูญเสียรายละเอียดบางส่วนไป โมเดล AI จึงไม่ใช่สมองที่เข้าใจภาษา หากแต่เป็นเครื่องจักรที่บีบอัดและเรียกคืนข้อมูลต้นฉบับในรูปแบบใกล้เคียง

ตัวอย่างจาก Stable Diffusion ยิ่งตอกย้ำภาพนี้ โมเดลสามารถสร้างภาพที่แทบเหมือนต้นฉบับจากชุดข้อมูลที่ใช้ฝึก แม้จะมีร่องรอยความพร่าเลือนหรือ “artifact” แบบไฟล์บีบอัดก็ตาม สิ่งนี้แสดงให้เห็นว่า AI ไม่ได้สร้างงานใหม่จาก “แนวคิด” แต่ดึงองค์ประกอบจากงานต้นฉบับมาประกอบใหม่

...

Admin