การแข่งขันระหว่าง AI chatbot รายใหญ่กำลังเปิดเผยความจริงที่ซับซ้อนกว่าที่ข่าวพาดหัวจะสื่อได้ ความนิยมและความสามารถที่แท้จริงไม่เสมอไปที่จะเดินไปด้วยกัน
Claude ชนะในมิติของการเขียนและความรู้สึกที่ดีในการสนทนา
Grok ชนะในมิติของตรรกวิทยาและความเสถียรในการคำนวณแต่ไม่มีใครชนะในทุกสนาม และนั่นเองที่ทำให้คำถาม “AI ตัวไหนฉลาดที่สุด?”
ยังคงเป็นคำถามที่ตอบได้เพียงว่า “แล้วแต่ว่าฉลาดในแบบใด”
ในช่วงกลางปี 2026 กระแสย้ายจาก ChatGPT ไปสู่ Claude กำลังแรง ผู้ใช้งานจำนวนมากแห่กันออกจาก ChatGPT ด้วยความไม่พอใจต่อท่าทีทางจริยธรรมของ OpenAI โดยเฉพาะข้อตกลงความร่วมมือกับกองทัพสหรัฐฯ ที่จุดชนวนให้เกิดกระแส “cancel ChatGPT” ขึ้นในวงกว้าง
Claude จาก Anthropic จึงกลายเป็นปลายทางยอดนิยม ส่วนหนึ่งเพราะสาธารณชนรู้สึกว่ามันเขียนได้ดีกว่า ตอบได้แยบยลกว่า และดูเหมือนจะ “คิด” ได้ลึกกว่า แต่ความรู้สึกกับข้อเท็จจริงนั้น บางครั้งเดินคนละทาง
...รายงานใหม่จาก OmniCalculator เผยให้เห็นว่า ทั้ง ChatGPT และ Claude ต่างก็ไม่ใช่ AI ที่ฉลาดที่สุดในตลาดฟรี และผู้ที่ครองตำแหน่งนั้นคือชื่อที่หลายคนอาจยังไม่คาดถึง นั่นคือ Grok ผลิตผลจากบริษัท xAI ของ Elon Musk
เมื่อวัดจากความสามารถด้านคณิตศาสตร์อย่างเป็นรูปธรรม Grok 4.2 ครองอันดับสูงสุด ไม่ใช่เรื่องของโวหาร ไม่ใช่เรื่องของน้ำเสียง แต่คือความสามารถในการคิดเชิงตรรกะและแก้ปัญหาเชิงคณิตศาสตร์อย่างแม่นยำและสม่ำเสมอ
หัวใจของการค้นพบนี้อยู่ที่สิ่งที่นักวิจัยเรียกว่า “ความไม่เสถียรในกระบวนการคิด” หรือพฤติกรรมที่ AI กลับลำ แก้ไข หรือขัดแย้งกับคำตอบของตัวเองระหว่างกระบวนการแก้ปัญหาหลายขั้นตอน
โมเดลรุ่นเก่าของทั้ง ChatGPT และ Claude มีแนวโน้มที่จะแก้ไขหรือตั้งคำถามกับคำตอบของตัวเองสูงถึงประมาณ 60% ในสถานการณ์แก้ปัญหาที่ซับซ้อน
ลองนึกถึงนักเรียนที่เขียนคำตอบแล้วลบ เขียนใหม่ แล้วลบอีกครั้ง ซ้ำแล้วซ้ำเล่า ความไม่มั่นใจเช่นนี้อาจไม่เด่นชัดในการใช้งานทั่วไป แต่จะปรากฏชัดเจนเมื่อต้องการความแม่นยำและความสอดคล้องในการใช้เหตุผลหลายขั้น
Grok 4.2 สามารถลดอัตราความไม่เสถียรดังกล่าวเหลือเพียง 33.1% ซึ่งหมายความว่ามันสามารถยืนหยัดกับกระบวนการคิดของตัวเองได้ดีกว่าคู่แข่งอย่างมีนัยสำคัญ เปรียบเหมือนนักคณิตศาสตร์ที่วางปากกาลงหลังจากเขียนคำตอบ และมั่นใจในสิ่งที่ตัวเองคำนวณมา
แต่นั่นก็ไม่ได้หมายความว่า Claude กำลังจะพ่ายแพ้ในทุกสมรภูมิ เพราะสิ่งที่ทำให้ผู้คนหลงรัก Claude มีต้นตอที่ต่างออกไปโดยสิ้นเชิง รายงานของ OmniCalculator ยกให้ Claude 4.6 เป็นผู้นำในด้านคุณภาพการเขียน โดยสามารถประมวลผลและตอบสนองต่อเอกสารยาว ๆ ได้โดยไม่เสียความสอดคล้อง และรักษาน้ำเสียงที่สม่ำเสมอตลอดการสนทนา สำหรับผู้ใช้ทั่วไปที่ต้องการเขียนอีเมล ร่างรายงาน หรือสื่อสารความคิดอย่างมีประสิทธิภาพ ทักษะเหล่านี้มีคุณค่ามากกว่าความสามารถในการแก้สมการซับซ้อนอย่างเปรียบไม่ได้
ยิ่งไปกว่านั้น ยังมีมิติที่จับต้องได้ยากแต่ทรงพลัง นั่นคือ “บุคลิกภาพ” ที่ AI แต่ละตัวสร้างความประทับใจให้ผู้ใช้ Claude มีแนวโน้มยอมรับความไม่แน่ใจในสิ่งที่ตัวเองรู้ ซึ่งทำให้คำตอบดูมีน้ำหนักและรอบคอบ มากกว่าจะฟังดูมั่นใจเกินจริง
บุคลิกนี้สร้างความรู้สึกว่ากำลังคิดอย่างลึกซึ้ง ไม่ว่าเบื้องหลังการใช้เหตุผลจะเป็นเช่นไรก็ตาม นี่คือความสามารถที่ไม่มีในตำรา ไม่มีในสูตรคณิตศาสตร์ใด แต่กลับเป็นสิ่งที่ทำให้มนุษย์รู้สึกว่า “ใช่ นี่คือ AI ที่ฉันอยากคุยด้วย”
ภาพรวมที่เกิดขึ้นจึงเป็นเรื่องที่น่าครุ่นคิด ในยุคที่เรามักจินตนาการถึง “AI ที่ฉลาดที่สุด” เป็นภาพเดียว ความเป็นจริงกลับเป็นว่าความฉลาดนั้นแตกออกเป็นส่วน ๆ ตามบริบทการใช้งาน ไม่มีโมเดลใดที่ทำงานได้อย่างสมบูรณ์แบบในทุกด้าน
แม้แต่ตัวที่ทำคะแนนสูงสุดก็ยังพลาดได้ในปัญหาที่ดูเหมือนง่าย โมเดลที่ดีที่สุดสำหรับการร่างอีเมลอาจไม่ใช่โมเดลที่ดีที่สุดในการแก้ปัญหาเชิงเทคนิค และ AI ที่เชื่อถือได้มากที่สุดสำหรับการเขียนโค้ดอาจผลิตข้อความที่ฟังดูไม่เป็นธรรมชาติ
สิ่งที่เราเรียกว่า “ความฉลาด” ในมนุษย์ก็ไม่เคยเป็นสิ่งเดียวที่วัดได้ด้วยตัวเลขเดียว ไม่ว่าจะเป็น IQ คะแนนสอบ หรือรางวัลใดก็ตาม และเช่นเดียวกัน ความฉลาดของ AI ก็ไม่อาจถูกรวบรวมไว้ในตัวชี้วัดเดียว บางทีนั่นอาจเป็นข้อเท็จจริงที่ควรเตือนใจเราทุกครั้งที่กำลังจะตัดสินว่าใคร “ฉลาดที่สุด”
| โมเดล AI | จุดแข็งหลัก | จุดอ่อน/ข้อจำกัด | ความนิยม |
|---|---|---|---|
| ChatGPT | – ฐานผู้ใช้ใหญ่ที่สุด – ใช้งานง่ายและแพร่หลาย | – การให้เหตุผลเชิงตรรกะยังไม่แม่นยำเท่า Grok – โทนการเขียนบางครั้งมั่นใจเกินไป | ยังคงเป็นแพลตฟอร์มที่มีผู้ใช้มากที่สุด |
| Claude 4.6 | – คุณภาพการเขียนสูง – จัดการเอกสารยาวได้ดี – โทนการสื่อสารรอบคอบ ไม่มั่นใจเกินไป | – คะแนนด้านคณิตศาสตร์และตรรกะต่ำกว่า Grok | กำลังได้รับความนิยมเพิ่มขึ้นอย่างต่อเนื่อง |
| Grok 4.2 | – เหนือกว่าในด้านคณิตศาสตร์และการให้เหตุผลเชิงตรรกะ – คำตอบเสถียร ไม่เปลี่ยนกลางทาง | – โทนการเขียนและการสื่อสารยังไม่โดดเด่นเท่า Claude | ยังใหม่ แต่ผลทดสอบทำให้ได้รับความสนใจ |
Key Takeaways
- ผลทดสอบจาก OmniCalculator ชี้ว่า Grok 4.2 ของ xAI มีความสามารถด้านตรรกวิทยาและคณิตศาสตร์สูงกว่า ChatGPT และ Claude ในกลุ่ม AI ฟรี
- Claude 4.6 ยังคงเป็นเจ้าแห่งการเขียน โดยรักษาน้ำเสียงและความสอดคล้องได้ดีเยี่ยมในเอกสารยาว
- อัตราการ “กลับลำคำตอบ” ของโมเดลรุ่นเก่า (ChatGPT, Claude) สูงถึง ~60% ในปัญหาซับซ้อน เทียบกับ Grok 4.2 ที่ลดลงเหลือ 33.1%
- กระแสย้ายจาก ChatGPT มา Claude ขับเคลื่อนด้วยทั้งเหตุผลทางจริยธรรม (ดีล OpenAI กับทหาร) และความชอบด้านสไตล์การตอบ
- ไม่มี AI ตัวใดเหมาะกับทุกงาน ความฉลาดของ AI เป็น เรื่องของบริบท ไม่ใช่ตัวชี้วัดสากล
….
เรียบเรียงโดย AiNextopia
อ้างอิง : Everyone’s switching from ChatGPT to Claude — but new tests say neither is the smartest free AI, and the real winner might surprise you.