Skip to Content

ผู้เชี่ยวชาญ AI เตรียมพร้อม 'การสอบครั้งสุดท้ายของมนุษยชาติ' เพื่อเอาชนะเทคโนโลยีอันทรงพลัง

AI experts ready 'Humanity's Last Exam' to stump powerful tech

ผู้เชี่ยวชาญ AI เตรียมพร้อม 'การสอบครั้งสุดท้ายของมนุษยชาติ' เพื่อเอาชนะเทคโนโลยีอันทรงพลัง


การประกาศดังกล่าวเกิดขึ้นไม่กี่วันหลังจากที่ผู้สร้าง ChatGPT เปิดเผยตัวอย่างโมเดลใหม่ที่เรียกว่า OpenAI o1 ซึ่ง "ทำลายมาตรฐานการใช้เหตุผลที่ได้รับความนิยมมากที่สุดได้

ทีมผู้เชี่ยวชาญด้านเทคโนโลยีได้ออกประกาศเชิญชวนทั่วโลก  เพื่อขอคำถามที่ยากที่สุดในการทดสอบระบบปัญญาประดิษฐ์ ซึ่งปัญญาประดิษฐ์ ซึ่งได้ผ่านการทดสอบมาตรฐานที่นิยมใช้กันอย่างง่ายดาย

 โครงการนี้มีชื่อว่า "การสอบครั้งสุดท้ายของมนุษยชาติ" โดยมุ่งหวังที่เพื่อพิจารณาว่าเมื่อไหร่ที่ AI ระดับผู้เชี่ยวชาญจะมาถึง โดยมีเป้าหมายเพื่อให้ยังคงความเกี่ยวข้องแม้ว่าความสามารถของมันจะพัฒนาขึ้นในปีต่อๆ ไปก็ตาม ตามคำกล่าวของผู้จัดงาน ซึ่งเป็นองค์กรไม่แสวงหากำไรที่ชื่อว่า Center for AI Safety (CAIS) และบริษัทสตาร์ทอัพ Scale AI

การประกาศเชิญชวนดังกล่าวเกิดขึ้นไม่กี่วันหลังจากที่ผู้สร้าง ChatGPT ได้เปิดตัวโมเดลใหม่ที่เรียกว่า OpenAI o1 ซึ่ง "ทำลายมาตรฐานการใช้เหตุผลยอดนิยม" Dan Hendrycks กรรมการบริหารของ CAIS และที่ปรึกษาของบริษัทสตาร์ทอัพ xAI ของ Elon Musk กล่าว

Hendrycks เป็นผู้ร่วมเขียนบทความในปี 2021 จำนวน 2 บทความ ซึ่งเสนอการทดสอบระบบ AI ที่ใช้กันอย่างแพร่หลายในปัจจุบัน โดยบทความหนึ่งเป็นการทดสอบความรู้ระดับปริญญาตรีเกี่ยวกับหัวข้อต่างๆ เช่น ประวัติศาสตร์สหรัฐอเมริกา และอีกบทความหนึ่งเป็นการทดสอบความสามารถของโมเดลในการคิดวิเคราะห์ผ่านการแข่งขันคณิตศาสตร์ระดับสูง การทดสอบแบบระดับปริญญาตรีมียอดดาวน์โหลดจาก Hugging Face ซึ่งเป็นฮับ AI ออนไลน์มากกว่าชุดข้อมูลใดๆที่เกี่ยวข้อง

 

ในช่วงเวลาที่มีการเขียนบทความเหล่านั้น ระบบ AI ให้คำตอบที่ดูเหมือนจะสุ่มสี่สุ่มห้าต่อคำถามในข้อสอบ "ตอนนี้พวกมันถูกทำลายแล้ว" Hendrycks กล่าว

ตัวอย่างเช่น โมเดลของ Claude จากห้องแล็บ AI ชื่อ Anthropic  ได้ทำคะแนนจากการทดสอบระดับนักศึกษาปริญญาตรีได้ประมาณ 77% ในปี 2023  และเพิ่มขึ้นเกือบ 89% ในปีถัดไป ตามตารางคะแนนความสามารถที่โดดเด่น

 

เนื่องจากผลลัพธ์เหล่านี้ ทำให้การทดสอบมาตรฐานทั่วไปมีความหมายน้อยลง

ตามรายงานดัชนี AI ของมหาวิทยาลัยสแตนฟอร์ดเมื่อเดือนเมษายน พบว่า AI มีผลการทดสอบที่ไม่ดีในการทดสอบที่ใช้น้อยกว่า เช่น การจัดแผนการและปริศนาการจดจำรูปแบบทางภาพ ตัวอย่างเช่น ในการทดสอบการจดจำรูปแบบ ARC-AGI หนึ่งเวอร์ชัน OpenAI o1 ได้คะแนนประมาณ 21% ตามที่ผู้จัดการแข่งขัน ARC กล่าว

 

นักวิจัย AI บางคนโต้แย้งว่าผลลัพธ์เช่นนี้แสดงให้เห็นการวางแผนและการใช้เหตุผลเชิงนามธรรมเป็นการวัดสติปัญญาที่ดีกว่า แม้ว่า Hendrycks จะกล่าวว่าลักษณะภาพของ ARC ทำให้ไม่เหมาะกับการประเมินโมเดลภาษา "การสอบครั้งสุดท้ายของมนุษยชาติ" จะต้องมีการใช้เหตุผลเชิงนามธรรม เขากล่าว

ผู้สังเกตการณ์ในอุตสาหกรรมกล่าวว่าคำตอบจากเกณฑ์มาตรฐานทั่วไปอาจลงเอยในข้อมูลที่ใช้ในการฝึกฝนระบบ AI Hendrycks กล่าวว่าคำถามบางข้อใน "การสอบครั้งสุดท้ายของมนุษยชาติ" จะถูกเก็บเป็นความลับเพื่อให้แน่ใจว่าคำตอบของระบบ AI ไม่ได้มาจากการท่องจำเท่านั้น

การสอบจะมีคำถามจากแหล่งข้อมูลสาธารณะอย่างน้อย 1,000 ข้อ กำหนดส่งในวันที่ 1 พฤศจิกายน ซึ่งผู้ที่ไม่ใช่ผู้เชี่ยวชาญตอบได้ยาก ผลงานที่ส่งเข้าประกวดจะได้รับการตรวจสอบโดยผู้เชี่ยวชาญ โดยผลงานที่ได้รับรางวัลจะได้รับสิทธิ์เป็นผู้เขียนร่วม และรางวัลมูลค่าสูงสุด 5,000 ดอลลาร์ ซึ่งสนับสนุนโดย Scale AI

Alexand Wang ซีอีโอของ Scale กล่าวว่า "เราต้องการการทดสอบที่ยากขึ้นสำหรับโมเดลระดับผู้เชี่ยวชาญ เพื่อวัดความก้าวหน้าอย่างรวดเร็วของ AI"

แต่มีข้อจำกัดหนึ่งคือ ผู้จัดงานไม่ต้องการคำถามเกี่ยวกับอาวุธ เนื่องจากบางคนกล่าวว่าจะเป็นอันตรายเกินไปหากระบบ AI ศึกษาเรื่องนี้.

ที่มา 

Economic Times | AI experts ready 'Humanity's Last Exam' to stump powerful tech


ผู้เชี่ยวชาญ AI เตรียมพร้อม 'การสอบครั้งสุดท้ายของมนุษยชาติ' เพื่อเอาชนะเทคโนโลยีอันทรงพลัง
Ocelli Eyes 22 กันยายน ค.ศ. 2024
แชร์โพสต์นี้
เก็บถาวร
Microsoft เลือกโรงไฟฟ้านิวเคลียร์ Three Mile Island เพื่อจ่ายพลังงานให้กับ AI
Microsoft เลือกโรงไฟฟ้านิวเคลียร์ Three Mile Island เพื่อจ่ายพลังงานให้กับ AI