ตัวอย่างการวิเคราะห์ข้อมูลด้วยกลไกความใส่ใจ ภายในแบบจำลองภาษาขนาดใหญ่
แบบจำลองภาษาขนาดใหญ่ (large language model, LLM ) เป็นแบบจำลองภาษา ที่ประกอบขึ้นจากโครงข่ายประสาทเทียม ที่มีพารามิเตอร์จำนวนมาก (หลายสิบล้านถึงพันล้าน) ที่ สามารถทำการเรียนรู้แบบสอนตัวเอง หรือทำการเรียนรู้แบบกึ่งมีผู้สอน โดยใช้ข้อความที่ไม่มีฉลากกำกับจำนวนมาก[ 1]
แบบจำลองภาษาขนาดใหญ่เริ่มปรากฏขึ้นประมาณปี 2018 และได้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงานที่หลากหลาย เป็นตัวเปลี่ยนจุดสนใจของการวิจัยการประมวลภาษาธรรมชาติ ไปจากกระบวนทัศน์ ก่อนหน้าที่มักใช้การเรียนรู้แบบมีผู้สอน สำหรับงานเฉพาะ แม้ว่าการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่จะประสบผลสำเร็จอย่างน่าทึ่ง การพัฒนาแบบจำลองภาษาขนาดใหญ่ยังอยู่ในช่วงเริ่มต้น และนักวิจัยจำนวนมากกำลังมีส่วนร่วมในการปรับปรุงแบบจำลองภาษาขนาดใหญ่[ 2]
แม้ว่าจะไม่มีคำจำกัดความที่เป็นทางการของคำว่าแบบจำลองภาษาขนาดใหญ่ แต่ก็มักจะหมายถึงแบบจำลองการเรียนรู้เชิงลึก ที่มีพารามิเตอร์นับล้านถึงพันล้านหรือมากกว่านั้นซึ่งได้รับการฝึกล่วงหน้าโดยคลังข้อความ ขนาดใหญ่ แบบจำลองภาษาขนาดใหญ่เป็นแบบจำลองการใช้งานทั่วไปที่มีความเป็นเลิศในงานต่าง ๆ มากมาย ซึ่งแตกต่างจากแบบจำลองที่ได้รับการฝึกสำหรับงานเฉพาะด้าน เช่น การวิเคราะห์ความรู้สึก , การรู้จำเอนทิตีที่มีชื่อ และ การให้เหตุผลทางคณิตศาสตร์ [ 3] ความสามารถและขอบเขตของแบบจำลองภาษาขนาดใหญ่นั้นนอกจากจะมาจากความก้าวหน้าในการออกแบบแล้ว ยังได้มาจากปริมาณทรัพยากร (ข้อมูล ขนาดพารามิเตอร์ พลังการคำนวณ) [ 4] ปรากฎว่าแบบจำลองภาษาประสาทที่มีพารามิเตอร์จำนวนมากสามารถจับไวยากรณ์และความหมายของภาษามนุษย์ได้มาก เมื่อได้รับการฝึกฝนมาอย่างดีในงานง่าย ๆ อย่างการทำนายคำถัดไปในประโยค นอกจากนี้ แบบจำลองภาษาขนาดใหญ่ยังแสดงความรู้ทั่วไปเกี่ยวกับโลกและสามารถ "จดจำ" ข้อเท็จจริงจำนวนมากในระหว่างการฝึก
จากการวิเคราะห์อภิมาน ปี 2023 ซึ่งถือว่ามีความน่าเชื่อถือสูง มีนักวิจัยทั่วโลกที่ให้ความสนใจกับความคิดสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่ เราสามารถใช้แบบจำลองภาษาขนาดใหญ่เพื่อทำงานที่แบบจำลองภาษาขนาดเล็กไม่สามารถทำได้ นักวิชาการบางคนมองว่านี่เป็นความสร้างสรรค์ อย่างไรก็ตาม ก็มีคนโต้แย้งว่านี่เป็นผลจากการเลือกตัวชี้วัด ไม่ใช่ความสร้างสรรค์แต่อย่างใด ข้อโต้แย้งระบุว่าข้อได้เปรียบเชิงสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่อาจไม่สามารถมองเห็นได้หากเลือกตัวชี้วัดที่แตกต่างไป[ 5]
อ้างอิง
↑ Goled, Shraddha (May 7, 2021). "Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ" . Analytics India Magazine . สืบค้นเมื่อ 2023-05-13 .
↑ "Responsible AI - Week 3" . Coursera (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2023-07-23 .
↑ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 August 2022). "Emergent Abilities of Large Language Models" . Transactions on Machine Learning Research (ภาษาอังกฤษ). ISSN 2835-8856 .
↑ Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF) .
↑ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). "Are Emergent Abilities of Large Language Models a Mirage?" . doi :10.48550/ARXIV.2304.15004 .