PROFILBARU.COM

แบบจำลองภาษาขนาดใหญ่ (large language model, LLM) เป็นแบบจำลองภาษาที่ประกอบขึ้นจากโครงข่ายประสาทเทียมที่มีพารามิเตอร์จำนวนมาก (หลายสิบล้านถึงพันล้าน) ที่ สามารถทำการเรียนรู้แบบสอนตัวเอง หรือทำการเรียนรู้แบบกึ่งมีผู้สอน โดยใช้ข้อความที่ไม่มีฉลากกำกับจำนวนมาก^[1]

แบบจำลองภาษาขนาดใหญ่เริ่มปรากฏขึ้นประมาณปี 2018 และได้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงานที่หลากหลาย เป็นตัวเปลี่ยนจุดสนใจของการวิจัยการประมวลภาษาธรรมชาติไปจากกระบวนทัศน์ก่อนหน้าที่มักใช้การเรียนรู้แบบมีผู้สอนสำหรับงานเฉพาะ แม้ว่าการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่จะประสบผลสำเร็จอย่างน่าทึ่ง การพัฒนาแบบจำลองภาษาขนาดใหญ่ยังอยู่ในช่วงเริ่มต้น และนักวิจัยจำนวนมากกำลังมีส่วนร่วมในการปรับปรุงแบบจำลองภาษาขนาดใหญ่^[2]

แม้ว่าจะไม่มีคำจำกัดความที่เป็นทางการของคำว่าแบบจำลองภาษาขนาดใหญ่ แต่ก็มักจะหมายถึงแบบจำลองการเรียนรู้เชิงลึก ที่มีพารามิเตอร์นับล้านถึงพันล้านหรือมากกว่านั้นซึ่งได้รับการฝึกล่วงหน้าโดยคลังข้อความขนาดใหญ่ แบบจำลองภาษาขนาดใหญ่เป็นแบบจำลองการใช้งานทั่วไปที่มีความเป็นเลิศในงานต่าง ๆ มากมาย ซึ่งแตกต่างจากแบบจำลองที่ได้รับการฝึกสำหรับงานเฉพาะด้าน เช่น การวิเคราะห์ความรู้สึก, การรู้จำเอนทิตีที่มีชื่อ และ การให้เหตุผลทางคณิตศาสตร์^[3] ความสามารถและขอบเขตของแบบจำลองภาษาขนาดใหญ่นั้นนอกจากจะมาจากความก้าวหน้าในการออกแบบแล้ว ยังได้มาจากปริมาณทรัพยากร (ข้อมูล ขนาดพารามิเตอร์ พลังการคำนวณ) ^[4] ปรากฎว่าแบบจำลองภาษาประสาทที่มีพารามิเตอร์จำนวนมากสามารถจับไวยากรณ์และความหมายของภาษามนุษย์ได้มาก เมื่อได้รับการฝึกฝนมาอย่างดีในงานง่าย ๆ อย่างการทำนายคำถัดไปในประโยค นอกจากนี้ แบบจำลองภาษาขนาดใหญ่ยังแสดงความรู้ทั่วไปเกี่ยวกับโลกและสามารถ "จดจำ" ข้อเท็จจริงจำนวนมากในระหว่างการฝึก

จากการวิเคราะห์อภิมานปี 2023 ซึ่งถือว่ามีความน่าเชื่อถือสูง มีนักวิจัยทั่วโลกที่ให้ความสนใจกับความคิดสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่ เราสามารถใช้แบบจำลองภาษาขนาดใหญ่เพื่อทำงานที่แบบจำลองภาษาขนาดเล็กไม่สามารถทำได้ นักวิชาการบางคนมองว่านี่เป็นความสร้างสรรค์ อย่างไรก็ตาม ก็มีคนโต้แย้งว่านี่เป็นผลจากการเลือกตัวชี้วัด ไม่ใช่ความสร้างสรรค์แต่อย่างใด ข้อโต้แย้งระบุว่าข้อได้เปรียบเชิงสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่อาจไม่สามารถมองเห็นได้หากเลือกตัวชี้วัดที่แตกต่างไป^[5]

อ้างอิง

↑ Goled, Shraddha (May 7, 2021). "Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ". Analytics India Magazine. สืบค้นเมื่อ 2023-05-13.
↑ "Responsible AI - Week 3". Coursera (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2023-07-23.
↑ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (ภาษาอังกฤษ). ISSN 2835-8856.
↑ Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF). {{cite journal}}: Cite journal ต้องการ |journal= (help)
↑ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). "Are Emergent Abilities of Large Language Models a Mirage?". doi:10.48550/ARXIV.2304.15004. {{cite journal}}: Cite journal ต้องการ |journal= (help)

[:1-1] Goled, Shraddha (May 7, 2021). "Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ". Analytics India Magazine. สืบค้นเมื่อ 2023-05-13.

[2] "Responsible AI - Week 3". Coursera (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2023-07-23.

[emergentpaper-3] Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (ภาษาอังกฤษ). ISSN 2835-8856.

[Bowman-4] Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF). {{cite journal}}: Cite journal ต้องการ |journal= (help)

[5] Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). "Are Emergent Abilities of Large Language Models a Mirage?". doi:10.48550/ARXIV.2304.15004. {{cite journal}}: Cite journal ต้องการ |journal= (help)

[1]

[2]

[3]

[4]

[5]