ألكسنت هي بنية شبكة عصبية تلافيفية، صممها أليكس كريجفسكي بالتعاون مع إيليا سوتسكيفروجيوفري هينتون، مشرف أليكس كريجفسكي في مرحلة الدكتوراة.[1][2]
شاركت ألكسنت في تحدي إميج نت للتعرف البصري في 30 سبتمبر 2012.[3] حققت الشبكة نسبة الخطأ الأقل من بين الخمسة الأوائل بنسبة 15.3%، أي أقل من 10.8 نقطة مئوية من نسبة الحاصل علي المرتبة الثانية. كانت النتيجة الأولية للورقة الأصلية هي أن عمق النموذج كان ضروريًا لأدائه العالي، والذي كان مكلفًا من الناحية الحسابية، ولكنه أصبح ممكنًا بسبب استخدام وحدات معالجة الرسومات أثناء تدريب التصميم.[2]
مقدمة
فوزألكسنت بأسرع تطبيق للشبكات العصبية التلافيفية على وحدة معالجة الرسومات لم يكن الأول في مسابقة التعرف على الصور. فقد كانت أول شبكة تلافيفية عصبية تنفذ على وحدة معالجة الرسوميات عام (2006) من تنفيذ تشيلابيلا أسرع بأربع مرات من التنفيذ المكافئ على وحدة المعالجة المركزية.[4] كذلك يوجد نموذج تصميمي أخر سمي الشبكة التلافيفية العميقة من تقديم دان سيريان عام 2011 والذي قدم من قبل معهد دالي مولي لأبحاث الذكاء الاصطناعي والذي كان أسرع 60 مرة عند تنفيذه على وحدة معالجة الرسومات [5] و الذى تفوق على نسخته السابقة في إصدار أحدث في أغسطس 2011.[6] كما فازت شبكة دان سيريان التلافيفة العميقة بما لا يقل عن أربع مسابقات للصور بين 15 مايو 2011 و10 سبتمبر 2012. [7][8] أيضا قدمت تحسناً بصورة ملحوظة في أفضل أداء على العديد من قواعد بيانات للصور المختلفة. [9]
وفقًا للورقة البحثية التي قدمت تصميم ألكسنت[2] فإن تصميم شبكة دان سيريان الأول يشبه تصميم شبكة ألكسنت. نفذ كليهما في الأصل باستخدام منصة الحوسبة المتوزعة كودا للتشغيل والتي تدعم وحدة معالجة الرسوميات. في الواقع، يعد كليهما مجرد أشكال مختلفة لتصميمات الشبكات التلافيفة التي قدمها يان ليكون عام 1989. [10][11] والذي طبق خوارزمية الانتشار الخلفي على نسخ مختلفة من بنية الشبكات العصبية التلافيفة الأصلية لصاحبها كونيهيكو فوكوشيما والتي كانت تسمى آنذاك نيوكونييترون. [12][13] عُدلت البنية لاحقًا بواسطة طريقة جيه ونج التي تسمى مضاعفة المرشحات .[14][8]
في عام 2015، تفوقت الشبكة التلافيفة العميقة جدًا التابعة لشركة مايكروسوفت للأبحاث -آسيا والتي تحتوي على أكثر من 100 طبقة على ألكسنت في الأداء، وفازت في مسابقة أميج نت عام 2015.[15]
بنية الشبكة
تحتوي ألكسنت على ثماني طبقات؛ كانت الخمس الأولى منها عبارة عن طبقات تلافيفية، ويتبع بعضها طبقات تسمى بطبقات التجميع وفق القيمة القصوى، وكانت أخر ثلاث طبقات عبارة عن طبقات الاتصال الكامل. قُسمت الشبكة، باستثناء الطبقة الأخيرة، إلى نسختين كل منهما تعمل على وحدة معالجة رسومات منفصلة.[2] يمكن كتابة الهيكل بأكمله كـما يلي:
حيث:
CNN هي شبكة عصبونية التفافية
RN وهي تطبيع الاستجابة المحلية
MP و هي طبقة تجميع وفق القيمة القصوى
FC و هي طبقة الاتصال الكامل (باستخدام دالة التفعيل من نوع وحدة التصحيح الخطي )
Linear و هي طبقة اتصال كامل بدون دالة تفعيل
DO و هي تقنية تعطيل جزئي لبعض الخلايا العصبية الإصطناعية في الشبكة
كما استخدمت دالة تفعيل وحدة التصحيح الخطي من النوع الغير المشبعة، والتي أظهرت تحسنًا في أداء التدريب على دالة الظل الزائديةودالة سينية.[2]
أهمية بنية ألكسنت
تعتبر ألكسنت واحدة من أكثر الأبحاث المنشورة تأثيرًا في الرؤية الحاسوبية، حيث حفزت العديد من الأبحاث المنشورة التي تستخدم الشبكات العصبية التلافيفية ووحدات معالجة الرسوميات لتسريع التعلم العميق.[16] اعتبارًا من أوائل عام 2023، استشهد ببحث ألكسنت أكثر من 120,000 مرة وفقًا لـموقع جوجل سكولار. [17]
^Cireșan، Dan؛ Ueli Meier؛ Jonathan Masci؛ Luca M. Gambardella؛ Jurgen Schmidhuber (2011). "شبكات عصبية تلافيفية مرنة وعالية الأداء لتصنيف الصور"(PDF). وقائع المؤتمر الدولي الثاني والعشرون المشترك للذكاء الاصطناعي-Volume Volume Two. ج. 2: 1237–1242. مؤرشف من الأصل(PDF) في 2023-10-27. اطلع عليه بتاريخ 2013-11-17.
^Weng، J؛ Ahuja، N؛ Huang، TS (1993). "تعلم التعرف على الكائنات ثلاثية الأبعاد وتقسيمها من صور ثنائية الأبعاد". وقائع المؤتمر الدولي الرابع في الرؤية الحاسوبية: 121–128.