تحليل العنصر الرئيسي أو التحليل عبرالمركبات الرئيسية (بالإنجليزية: Principal component analysis) هي عملية رياضيّة تنتمي إلى شعبة تحليل البيانات، و التي تتمثل في تحويل عدد من المتغيراتالمترابطة إلى عدد أقل من المتغيرات غير المترابطة. المتغيرات الناتجة عن عملية التحويل تسمى بالمركبات (أو المكونات أو المحاور) الرئيسية. القيمة المضافة للعملية هي تسهيل تأويل المعطيات المعقدة، عبر تمكين الباحث والإحصائي من تحقيق أمثل توافق بين التقليل من عدد المتغيرات الواصفة للمعطيات، و فقدان المعلومة الأصلية (التباين) الناتج عن اختزال الأبعاد الأصلية.
بصفة عامة، تستعمل الطريقة في الحالات التالية (لائحة غير حصرية):
في إطار مقاربة استكشافية و وصفية: عندما يكون عدد المتغيرات المفسرة للساكنة الإحصائية كبيرا، يتعذر على الإدراك البشري مقاربة المعطيات عبر رسم بياني شامل، تحليل المركبات الرئيسية يمكن من إيجاد أمثل فضاء (من بعدين أو ثلاثة أبعاد)، يمكن من إسقاط البيانات الأصلية، و استنباط بنيتها العامة، بسرعة. في هذا المستوى من الاستعمال، تحليل المركبات الرئيسية يلعب دورا موجها (و ملهما) لتحاليل إحصائية أكثر عمقا، و يمكن من السبر السريع للبيانات و المتغيرات الناشزة.[4]
في تحييد ارتباط المتغيرات الواصفة للبيانات: المحاور (أو المركبات) الناتجة عن التحليل غير مرتبطة في ما بينها، مما يمكن من استعمالها كمتغيرات جديدة لوصف البيانات.
في تنقية المعطيات من الضجيج: في حالة اعتبار الباحث للمحاور الغير الرئيسية، غير مفيدة انطلاقا من نسبة مساهمتها في تفسير القصور الذاتي/التباين الأصلي.
مفاهيم أولية
نعتبر عينة إحصائية مكونة من فردا، حسب قيمهم بالمتغيراتX1, …, XN.
تمثل العينة رياضياتيا عبر مصفوفة M ب K سطرا و N أعمدة:
لكل متغير Xn، نمثل القيم المحققة ب X1, n, …, XK, n.
نمثل المتوسط ب و الانحراف المعياري ب σXn.
إذا كانت القيم المتحققة الممثلة في المصفوفة M ذات احتمالات حدوث متساوية، فإن لكل عنصر نفس الثقل عند حساب خصائص العينة. أما إذا أردنا تمييز كل فرد بثقل معين (قي حالة العينات المعدلة أو المجمعة)، نطبق وزنا على كل تحقق للمتغيرات. تمثل الأوزان (التي يساوي مجموعها 1) في مصفوفة قطرية D حجمها K:
في الحالة البديهية، التي تكون فيها الأوزان متساوية:
، بحيث هي مصفوفة الوحدة.
كل سطر من المصفوفة، الذي يمثل الفرد i، نعتبره نقطة داخل فضاء تآلفي بعده N، بينما كل عمود من المصفوفة، يعتبر متجهة إحداثيات في فضاء متجهي بعده K.
هاتان المقاربتان هما عماد تحليل العنصر الرئيسي، لأن من خلالهما سيتم إيجاد أمثل فضاء (سهل الإدراك ذي بعدين أو ثلاثة) لوصف المعطيات و استنتاج خصائصها الإحصائية. هذه العملية تستلزم عمليات تحويل أولية، مبنية على معارف الجبر الخطي و مفاهيم الجداء القياسي و المعيار و المسافة الأقليديين.
عملية تحويل العينة
نعتبر المتجهة التي هي مركز ثقل عينة البيانات، و نشير إليها ب g.
بحيث هي متجهة داخل كل إحداثياتها تساوي 1.
عملية التحويل تتمثل في تركيز العينات حول مركز ثقلها:
عملية التحويل هاته ضرورية إذا أراد الباحث تحييد تأثير العوامل التالية:
عامل وحدة القياس: إذا كانت طبيعة البيانات المدروسة مختلفة (أوزان و مسافات مثلا)، عملية التحويل عبر التركيز و الاختزال تمكن من مقاربة موضوعية للبيانات لا تتأثر بوحدات القياس المختارة.
عامل التباين: في حالة عدم القيام بعملية التحويل، إذا كان لمتغير تباين كبير، فسيجذب المكونات الرئيسية إليه، حاجبا المعلومات الكامنة في المتغيرات الأخرى.
رغم ذلك، للعملية سلبية في حالة وجود متغير يلعب فقط دور ضجيجإحصائي؛ في هذه الحالة سيكون له نفس المكانة التفسيرية للمتغيرات الأخرى؛ مما يفرض على الباحث مواجهة و مقارنة نتائج تحليل العنصر الرئيسي بعملية تحويل بآخر بدونها، حتى تكون الدراسة أكثر موضوعية.
حساب مصفوفات التغاير و الارتباط
بعد تحويل المصفوفة إلى أو ، يعطي جداؤهما مع منقولتيهما:
مصفوفة تغاير المتغيرات XN، …، X1 إذا لم يتم اختزال :
في ما يلي، نعتبر مجموعة البيانات في شكلها المحول (المركز أو المركز المختزل، حسب سياق الدراسة). كل Xn يتم تعويضه ب أو .
تستعمل المصفوفة للإشارة إلى أو ، حسب التحويل المختار.
المبدأ الأساسي لتحليل العنصر الرئيسي هو إيجاد أمثل محور u، يكون توليفة خطية ل Xn، بحيث يكون تباين البيانات، حول هذا المحور قصويا.
بتعبير رياضي، الهدف يتحول إلى إيجاد متجهة u، يكون ناتج إسقاط العينة عليها ذا تباين قصوي. إسقاط عينة المتغيرات X على المتجهة u يكتب كما يلي:
القيم للمصفوفة القطرية تكون مرتبة تنازليا (من الأكبر إلى الأصغر).
المتجهة v التي وفقها تكون قيمة قصوية هي المتجهة الذاتية ل C الموافقة للقيمة الذاتية .
و بذلك تكون
و يستمر البحث عن محاور الإسقاط الأخرى، بنفس الطريقة، مع إضافة شرط إضافي: أن يكون كل محور مستنتج متعامدا على ما سبقه. المحاور المستنتجة، هي ما يصطلح عليه بالعناصر الرئيسية، و كل محور k يفسر جزءا من التباين الأصلي للعينة مقداره القيمة الذاتية λk.