السير الذاتية صفات التحليلات

خوارزميات تجميع البيانات. الخوارزميات على أساس نظرية الرسم البياني

تحليل الكتلة هو

يوم جيد. أنا هنا أحترم الأشخاص الذين يحبون عملهم.

مكسيم ، صديقي ، ينتمي إلى هذه الفئة. يعمل باستمرار مع الأرقام ، ويحللها ، ويقدم التقارير ذات الصلة.

بالأمس تناولنا الغداء معًا ، لذلك أخبرني لمدة نصف ساعة تقريبًا عن تحليل الكتلة - ما هو وفي أي الحالات يكون تطبيقه معقولًا وسريعًا. حسنا ماذا عني؟

لدي ذاكرة جيدة ، لذلك سأزودك بكل هذه البيانات ، بالمناسبة ، والتي عرفتها بالفعل في شكلها الأصلي والأكثر إفادة.

تم تصميم التحليل العنقودي لتقسيم مجموعة من الكائنات إلى مجموعات متجانسة (مجموعات أو فئات). هذه مهمة تصنيف البيانات متعدد المتغيرات.

هناك حوالي 100 خوارزمية تجميع مختلفة ، ومع ذلك ، فإن الأكثر شيوعًا هي تحليل الكتلة الهرمي وتجميع الوسائل k.

أين يتم تطبيق التحليل العنقودي؟ في التسويق ، هذا هو تقسيم المنافسين والمستهلكين.

في الإدارة: تقسيم الموظفين إلى مجموعات ذات مستويات مختلفة من التحفيز ، تصنيف الموردين ، تحديد حالات الإنتاج المماثلة التي يحدث فيها الزواج.

في الطب ، تصنيف الأعراض والمرضى والأدوية. في علم الاجتماع ، تقسيم المستجيبين إلى مجموعات متجانسة. في الواقع ، أثبت التحليل العنقودي نفسه جيدًا في جميع مجالات الحياة البشرية.

يكمن جمال هذه الطريقة في أنها تعمل حتى في حالة وجود القليل من البيانات وعدم تلبية متطلبات الحالة الطبيعية لتوزيعات المتغيرات العشوائية والمتطلبات الأخرى للطرق الكلاسيكية للتحليل الإحصائي.

دعونا نشرح جوهر التحليل العنقودي دون اللجوء إلى المصطلحات الصارمة:
لنفترض أنك أجريت دراسة استقصائية للموظفين وتريد تحديد الطريقة الأكثر فعالية لإدارة موظفيك.

أي أنك تريد تقسيم الموظفين إلى مجموعات واختيار أدوات التحكم الأكثر فعالية لكل منهم. في الوقت نفسه ، يجب أن تكون الاختلافات بين المجموعات واضحة ، وداخل المجموعة ، يجب أن يكون المستجيبون متشابهين قدر الإمكان.

لحل المشكلة ، يُقترح استخدام التحليل العنقودي الهرمي.

نتيجة لذلك ، سوف نحصل على شجرة ، تبحث في أي منها يجب أن نقرر عدد الفئات (المجموعات) التي نريد تقسيم الموظفين إليها.

لنفترض أننا قررنا تقسيم فريق العمل إلى ثلاث مجموعات ، ثم لدراسة المستجيبين الذين وقعوا في كل مجموعة ، نحصل على جهاز لوحي بالمحتوى التالي:


دعونا نشرح كيف يتم تشكيل الجدول أعلاه. يحتوي العمود الأول على رقم المجموعة - المجموعة التي تنعكس بياناتها في الصف.

على سبيل المثال ، الكتلة الأولى 80٪ ذكور. يقع 90٪ من المجموعة الأولى ضمن الفئة العمرية من 30 إلى 50 عامًا ، ويعتقد 12٪ من المستجيبين أن الفوائد مهمة جدًا. وهلم جرا.

دعنا نحاول عمل صور للمشاركين في كل مجموعة:

  1. المجموعة الأولى تتكون بشكل رئيسي من الرجال البالغين الذين يشغلون مناصب قيادية. الحزمة الاجتماعية (MED ، LGOTI ، وقت الفراغ) لا تهمهم. إنهم يفضلون الحصول على راتب جيد ، بدلاً من الحصول على مساعدة من صاحب العمل.
  2. المجموعة الثانية ، على العكس من ذلك ، تفضل الحزمة الاجتماعية. وهي تتألف بشكل رئيسي من "كبار السن" الذين يشغلون مناصب منخفضة. الراتب مهم بالتأكيد بالنسبة لهم ، ولكن هناك أولويات أخرى.
  3. المجموعة الثالثة هي "الأصغر". على عكس السابقتين ، هناك اهتمام واضح بالتعلم وفرص النمو المهني. هذه الفئة من الموظفين لديها فرصة جيدة لتجديد المجموعة الأولى قريبًا.

وبالتالي ، عند التخطيط لحملة لإدخال أساليب فعالة لإدارة الموظفين ، من الواضح أنه في حالتنا من الممكن زيادة الحزمة الاجتماعية للمجموعة الثانية على حساب الأجور ، على سبيل المثال.

إذا تحدثنا عن المتخصصين الذين يجب إرسالهم للتدريب ، فيمكننا بالتأكيد أن نوصي بالاهتمام بالمجموعة الثالثة.

المصدر: http://www.nickart.spb.ru/analysis/cluster.php

ميزات التحليل العنقودي

الكتلة هي سعر الأصل في فترة زمنية معينة تم خلالها إجراء المعاملات. يتم الإشارة إلى الحجم الناتج للمشتريات والمبيعات برقم داخل الكتلة.

يحتوي شريط أي TF ، كقاعدة عامة ، على عدة مجموعات. يتيح لك هذا الاطلاع بالتفصيل على أحجام المشتريات والمبيعات وتوازنها في كل شريط على حدة ، لكل مستوى سعر.


التغيير في سعر أحد الأصول يستلزم حتمًا سلسلة من تحركات الأسعار على الأدوات الأخرى أيضًا.

انتباه!

في معظم الحالات ، يحدث فهم حركة الاتجاه بالفعل في الوقت الذي تتطور فيه بسرعة ، ويكون دخول السوق على طول الاتجاه محفوفًا بالوقوع في موجة تصحيحية.

بالنسبة للتداولات الناجحة ، من الضروري فهم الوضع الحالي والقدرة على توقع تحركات الأسعار المستقبلية. يمكن تعلم ذلك من خلال تحليل الرسم البياني العنقودي.

بمساعدة تحليل الكتلة ، يمكنك رؤية نشاط المشاركين في السوق داخل أصغر شريط أسعار. هذا هو التحليل الأكثر دقة وتفصيلاً ، حيث يوضح التوزيع النقطي لأحجام المعاملات لكل مستوى من مستويات أسعار الأصول.

في السوق هناك مواجهة مستمرة بين مصالح البائعين والمشترين. وكل حركة سعر صغيرة (علامة) هي الانتقال إلى حل وسط - مستوى السعر - الذي يناسب كلا الطرفين في الوقت الحالي.

لكن السوق ديناميكي ، وعدد البائعين والمشترين يتغير باستمرار. إذا كان البائعون يهيمنون على السوق في وقت ما ، فعندئذٍ في اللحظة التالية ، على الأرجح ، سيكون هناك مشترين.

كما أن عدد المعاملات المكتملة عند مستويات الأسعار المجاورة ليس هو نفسه. ومع ذلك ، أولاً ، ينعكس وضع السوق في الحجم الإجمالي للمعاملات ، وبعد ذلك فقط على السعر.

إذا رأيت تصرفات المشاركين المهيمنين في السوق (البائعين أو المشترين) ، فيمكنك التنبؤ بحركة السعر نفسها.

لتطبيق تحليل الكتلة بنجاح ، تحتاج أولاً إلى فهم ماهية الكتلة والدلتا.


تسمى الكتلة حركة السعر ، والتي تنقسم إلى مستويات تمت فيها المعاملات بأحجام معروفة. توضح الدلتا الفرق بين البيع والشراء الذي يحدث في كل مجموعة.

تتيح لك كل مجموعة أو مجموعة دلتا معرفة ما إذا كان البائعون أو المشترين يهيمنون على السوق في وقت معين.

يكفي فقط حساب إجمالي الدلتا من خلال جمع المبيعات والمشتريات. إذا كانت دلتا سلبية ، فإن السوق في ذروة البيع ، وهناك معاملات بيع زائدة عن الحاجة. عندما تكون الدلتا إيجابية ، فمن الواضح أن المشترين يهيمنون على السوق.

يمكن أن تأخذ الدلتا نفسها قيمة عادية أو حرجة. يتم تمييز قيمة حجم دلتا فوق القيمة العادية في الكتلة باللون الأحمر.

إذا كانت الدلتا معتدلة ، فإن هذا يميز حالة ثابتة في السوق. مع قيمة دلتا العادية ، يتم ملاحظة حركة الاتجاه في السوق ، ولكن القيمة الحرجة دائمًا ما تكون نذيرًا لانعكاس السعر.

تداول الفوركس مع CA

للحصول على أقصى ربح ، يجب أن تكون قادرًا على تحديد انتقال دلتا من مستوى معتدل إلى مستوى عادي. في الواقع ، في هذه الحالة ، يمكنك ملاحظة بداية الانتقال من الحركة المستوية إلى حركة الاتجاه وتكون قادرًا على تحقيق أكبر قدر من الأرباح.

يعد مخطط الكتلة أكثر وضوحًا ، حيث يمكنك رؤية مستويات كبيرة من تراكم الأحجام وتوزيعها ، وبناء مستويات الدعم والمقاومة. هذا يسمح للمتداول بالعثور على المدخل الدقيق للتجارة.

باستخدام دلتا ، يمكن للمرء أن يحكم على هيمنة المبيعات أو المشتريات في السوق. يسمح لك تحليل الكتلة بمراقبة المعاملات وتتبع أحجامها داخل شريط أي TF.

هذا مهم بشكل خاص عند الاقتراب من مستويات دعم أو مقاومة كبيرة. الأحكام العنقودية هي المفتاح لفهم السوق.

المصدر: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

مجالات وميزات تطبيق التحليل العنقودي

يتضمن مصطلح تحليل الكتلة (الذي قدمه تريون لأول مرة ، 1939) مجموعة من خوارزميات التصنيف المختلفة.

السؤال الشائع الذي يطرحه الباحثون في العديد من المجالات هو كيفية تنظيم البيانات المرصودة في هياكل مرئية ، أي توسيع التصنيفات.

وفقًا للنظام الحديث المتعارف عليه في علم الأحياء ، ينتمي الإنسان إلى الرئيسيات والثدييات والسلى والفقاريات والحيوانات.

لاحظ أنه في هذا التصنيف ، كلما ارتفع مستوى التجميع ، قل التشابه بين الأعضاء في الفئة المقابلة.

لدى الإنسان أوجه تشابه أكبر مع الرئيسيات الأخرى (أي القردة) أكثر من تشابهها مع الأعضاء "البعيدين" في عائلة الثدييات (أي الكلاب) ، وهكذا.

لاحظ أن المناقشة السابقة تشير إلى خوارزميات التجميع ، ولكنها لا تذكر أي شيء عن اختبار الدلالة الإحصائية.

في الواقع ، لا يعتبر تحليل الكتلة طريقة إحصائية عادية بقدر ما هو "مجموعة" من خوارزميات مختلفة "لتوزيع الأشياء في مجموعات".

هناك وجهة نظر مفادها أنه على عكس العديد من الإجراءات الإحصائية الأخرى ، يتم استخدام طرق التحليل العنقودي في معظم الحالات عندما لا يكون لديك أي فرضيات مسبقة حول الفصول ، ولكنك لا تزال في المرحلة الوصفية من البحث.

انتباه!

يجب أن يكون مفهوماً أن تحليل الكتلة يحدد "القرار الأكثر أهمية على الأرجح".

لذلك ، لا ينطبق اختبار الأهمية الإحصائية هنا حقًا ، حتى في الحالات التي تُعرف فيها مستويات p (على سبيل المثال ، في طريقة K-mean).

تُستخدم تقنية التجميع في مجموعة متنوعة من المجالات. قدم Hartigan (1975) نظرة عامة ممتازة على العديد من الدراسات المنشورة التي تحتوي على النتائج التي تم الحصول عليها من خلال طرق التحليل العنقودي.

على سبيل المثال ، في مجال الطب ، يؤدي تجميع الأمراض أو علاجها أو أعراض الأمراض إلى تصنيفات مستخدمة على نطاق واسع.

في مجال الطب النفسي ، يعد التشخيص الصحيح لمجموعات الأعراض مثل جنون العظمة والفصام وما إلى ذلك أمرًا بالغ الأهمية لنجاح العلاج. في علم الآثار ، باستخدام التحليل العنقودي ، يحاول الباحثون إنشاء تصنيفات للأدوات الحجرية ، والأشياء الجنائزية ، وما إلى ذلك.

هناك تطبيقات واسعة للتحليل العنقودي في أبحاث التسويق. بشكل عام ، كلما كان من الضروري تصنيف "جبال" المعلومات إلى مجموعات مناسبة لمزيد من المعالجة ، يتبين أن التحليل العنقودي مفيد للغاية وفعال.

تجميع الأشجار

يوضح المثال الموجود في قسم الغرض الأساسي الغرض من خوارزمية الصلة (التجميع الشجري).

الغرض من هذه الخوارزمية هو دمج الكائنات (على سبيل المثال ، الحيوانات) في مجموعات كبيرة بما يكفي باستخدام قدر من التشابه أو المسافة بين الكائنات. النتيجة النموذجية لمثل هذا التجميع هي شجرة هرمية.

ضع في اعتبارك مخطط شجرة أفقي. يبدأ الرسم التخطيطي بكل كائن في الفصل (على الجانب الأيسر من الرسم التخطيطي).

تخيل الآن أنك تدريجيًا (بخطوات صغيرة جدًا) "تضعف" معيارك فيما يتعلق بالأشياء الفريدة وما هو غير ذلك.

بمعنى آخر ، تقوم بتخفيض العتبة المتعلقة بقرار دمج كائنين أو أكثر في مجموعة واحدة.

نتيجة لذلك ، تقوم بربط المزيد والمزيد من الكائنات معًا وتجميع (دمج) المزيد والمزيد من مجموعات العناصر المختلفة بشكل متزايد.

أخيرًا ، في الخطوة الأخيرة ، يتم دمج جميع الكائنات معًا. في هذه المخططات ، تمثل المحاور الأفقية مسافة التجميع (في مخططات التخطيط العمودية ، تمثل المحاور الرأسية مسافة التجميع).

لذلك ، بالنسبة لكل عقدة في الرسم البياني (حيث يتم تكوين كتلة جديدة) ، يمكنك رؤية مقدار المسافة التي ترتبط بها العناصر المقابلة في مجموعة واحدة جديدة.

عندما تحتوي البيانات على "هيكل" واضح من حيث مجموعات العناصر المتشابهة مع بعضها البعض ، فمن المحتمل أن تنعكس هذه البنية في الشجرة الهرمية من خلال الفروع المختلفة.

نتيجة للتحليل الناجح بواسطة طريقة الانضمام ، يصبح من الممكن اكتشاف الكتل (الفروع) وتفسيرها.

يتم استخدام طريقة الاتحاد أو تجميع الأشجار في تكوين مجموعات من الاختلاف أو المسافة بين الكائنات. يمكن تحديد هذه المسافات في فضاء أحادي البعد أو متعدد الأبعاد.

على سبيل المثال ، إذا كان عليك تجميع أنواع الطعام في المقهى ، فيمكنك أن تأخذ في الاعتبار عدد السعرات الحرارية الموجودة فيه ، والسعر ، والتقييم الذاتي للذوق ، وما إلى ذلك.

الطريقة الأكثر مباشرة لحساب المسافات بين الكائنات في الفضاء متعدد الأبعاد هي حساب المسافات الإقليدية.

إذا كان لديك مساحة ثنائية أو ثلاثية الأبعاد ، فإن هذا المقياس هو المسافة الهندسية الفعلية بين الكائنات في الفضاء (كما لو تم قياس المسافات بين الكائنات باستخدام شريط قياس).

ومع ذلك ، فإن خوارزمية التجميع لا "تهتم" بما إذا كانت المسافات "المقدمة" لذلك حقيقية أو بعض مقاييس المسافة المشتقة الأخرى ، والتي تكون أكثر أهمية للباحث ؛ والتحدي الذي يواجه الباحثين هو اختيار الطريقة الصحيحة لتطبيقات محددة.

المسافة الإقليدية.يبدو أن هذا هو النوع الأكثر شيوعًا للمسافات. إنها ببساطة مسافة هندسية في فضاء متعدد الأبعاد وتحسب على النحو التالي:

لاحظ أنه يتم حساب المسافة الإقليدية (ومربعها) من البيانات الأصلية ، وليس من البيانات الموحدة.

هذه هي الطريقة المعتادة لحسابها ، والتي لها مزايا معينة (على سبيل المثال ، لا تتغير المسافة بين كائنين عند إدخال كائن جديد في التحليل ، والذي قد يتحول إلى شيء غريب).

انتباه!

ومع ذلك ، يمكن أن تتأثر المسافات بشكل كبير بالاختلافات بين المحاور التي يتم من خلالها حساب المسافات. على سبيل المثال ، إذا تم قياس أحد المحاور بالسنتيمتر ، ثم قمت بتحويله إلى ملليمترات (بضرب القيم في 10) ، فإن المسافة الإقليدية النهائية (أو مربع المسافة الإقليدية) المحسوبة من الإحداثيات يتغير بشكل كبير ، ونتيجة لذلك ، يمكن أن تكون نتائج التحليل العنقودي مختلفة تمامًا عن النتائج السابقة.

مربع المسافة الإقليدية.قد ترغب أحيانًا في ضبط المسافة الإقليدية القياسية لإعطاء وزن أكبر للأجسام البعيدة.

يتم حساب هذه المسافة على النحو التالي:

مسافة كتلة المدينة (مسافة مانهاتن).هذه المسافة هي ببساطة متوسط ​​الاختلافات على الإحداثيات.

في معظم الحالات ، يؤدي قياس المسافة هذا إلى نفس النتائج مثل مسافة إقليدس المعتادة.

ومع ذلك ، لاحظ أنه بالنسبة لهذا المقياس ، فإن تأثير الفروق الفردية الكبيرة (القيم المتطرفة) ينخفض ​​(لأنها ليست مربعة). يتم حساب مسافة مانهاتن باستخدام الصيغة:

مسافة Chebyshev.يمكن أن تكون هذه المسافة مفيدة عندما يرغب المرء في تعريف كائنين على أنهما "مختلفان" إذا كانا يختلفان في أي إحداثي واحد (أي بعد واحد). يتم حساب مسافة Chebyshev بالصيغة:

قوة المسافة.في بعض الأحيان يكون من المرغوب فيه زيادة الوزن أو إنقاصه تدريجيًا المرتبط بأبعاد تختلف فيها الكائنات المقابلة اختلافًا كبيرًا.

يمكن تحقيق ذلك باستخدام مسافة قانون الطاقة. يتم حساب مسافة الطاقة بالصيغة:

حيث r و p معلمات معرّفة من قبل المستخدم. يمكن لبعض الأمثلة الحسابية أن توضح كيف "يعمل" هذا المقياس.

المعلمة p مسؤولة عن الترجيح التدريجي للاختلافات في الإحداثيات الفردية ، والمعلمة r مسؤولة عن الترجيح التدريجي للمسافات الكبيرة بين الكائنات. إذا كانت المعلمتان - r و p تساوي اثنين ، فإن هذه المسافة تتزامن مع المسافة الإقليدية.

نسبة الخلاف.يستخدم هذا المقياس عندما تكون البيانات فئوية. يتم حساب هذه المسافة بالصيغة:

قواعد الرابطة أو الرابطة

في الخطوة الأولى ، عندما يكون كل كائن كتلة منفصلة ، يتم تحديد المسافات بين هذه الكائنات بواسطة المقياس المختار.

ومع ذلك ، عندما ترتبط عدة كائنات معًا ، يُطرح السؤال ، كيف يجب تحديد المسافات بين المجموعات؟

بمعنى آخر ، تحتاج إلى قاعدة صلة أو ارتباط لمجموعتين. هناك العديد من الاحتمالات هنا: على سبيل المثال ، يمكنك ربط مجموعتين معًا عندما يكون أي كائنين في المجموعتين أقرب إلى بعضهما البعض من مسافة الارتباط المقابلة.

بمعنى آخر ، يمكنك استخدام "قاعدة الجوار الأقرب" لتحديد المسافة بين المجموعات ؛ تسمى هذه الطريقة طريقة الارتباط الفردي.

هذه القاعدة تبني عناقيد "ليفية" ، أي العناقيد "مرتبطة ببعضها البعض" فقط بواسطة عناصر فردية تصادف أنها أقرب إلى بعضها البعض من العناصر الأخرى.

بدلاً من ذلك ، يمكنك استخدام العناصر المجاورة في المجموعات البعيدة عن بعضها البعض عن كل أزواج الميزات الأخرى. تسمى هذه الطريقة طريقة الارتباط الكامل.

هناك أيضًا العديد من الطرق الأخرى للانضمام إلى المجموعات ، على غرار تلك التي تمت مناقشتها.

اتصال واحد (أقرب طريقة جار). كما هو موضح أعلاه ، في هذه الطريقة ، يتم تحديد المسافة بين مجموعتين من خلال المسافة بين أقرب كائنين (أقرب جيران) في مجموعات مختلفة.

يجب أن تقوم هذه القاعدة ، بمعنى ما ، بربط الكائنات معًا لتشكيل مجموعات ، وتميل المجموعات الناتجة إلى تمثيل "سلاسل" طويلة.

اتصال كامل (طريقة أقرب الجيران).في هذه الطريقة ، يتم تعريف المسافات بين المجموعات على أنها أكبر مسافة بين أي كائنين في مجموعات مختلفة (أي "الجيران الأبعد").

يعني الزوج غير مرجح.في هذه الطريقة ، يتم حساب المسافة بين مجموعتين مختلفتين على أنها متوسط ​​المسافة بين جميع أزواج الكائنات الموجودة فيها.

تكون هذه الطريقة فعالة عندما تشكل الكائنات في الواقع "بساتين" مختلفة ، ولكنها تعمل بشكل جيد بنفس القدر في حالات التكتلات الممتدة (النوع "المتسلسل").

لاحظ أنه في كتابهم Sneath and Sokal (1973) قدم الاختصار UPGMA للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية غير الموزونة باستخدام المتوسطات الحسابية.

وزوج مرجح يعني.تتطابق هذه الطريقة مع طريقة المتوسط ​​الزوجي غير الموزون ، باستثناء أن حجم المجموعات المعنية (أي عدد العناصر التي تحتوي عليها) يُستخدم كعامل ترجيح في الحسابات.

لذلك ، يجب استخدام الطريقة المقترحة (بدلاً من الطريقة السابقة) عند افتراض أحجام الكتلة غير المتكافئة.

قدم Sneath and Sokal (1973) الاختصار WPGMA للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية الموزونة باستخدام المتوسطات الحسابية.

طريقة النقطه الوسطى غير مرجح. في هذه الطريقة ، يتم تعريف المسافة بين مجموعتين على أنها المسافة بين مركزي جاذبيتهم.

انتباه!

استخدم Sneath and Sokal (1973) الاختصار UPGMC للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية غير الموزونة باستخدام متوسط ​​النقطه الوسطى.

طريقة النقطه الوسطى المرجحة (الوسيط). هذه الطريقة مماثلة للطريقة السابقة ، باستثناء أنه يتم استخدام الأوزان في العمليات الحسابية لمراعاة الفرق بين أحجام الكتلة (أي عدد العناصر الموجودة فيها).

لذلك ، إذا كانت هناك (أو يشتبه في وجود) فروق ذات دلالة إحصائية في أحجام الكتلة ، فإن هذه الطريقة هي الأفضل من الطريقة السابقة.

استخدم Sneath and Sokal (1973) الاختصار WPGMC للإشارة إليه على أنه طريقة المجموعة الزوجية الموزونة باستخدام متوسط ​​النقطه الوسطى.

طريقة وارد.تختلف هذه الطريقة عن جميع الطرق الأخرى لأنها تستخدم طرق ANOVA لتقدير المسافات بين المجموعات.

تقلل الطريقة من مجموع المربعات (SS) لأي مجموعتين (افتراضيتين) يمكن تشكيلهما في كل خطوة.

يمكن العثور على التفاصيل في Ward (1963). بشكل عام ، تبدو الطريقة فعالة للغاية ، لكنها تميل إلى إنشاء مجموعات صغيرة.

في وقت سابق تمت مناقشة هذه الطريقة من حيث "الكائنات" التي يجب تجميعها. في جميع أنواع التحليل الأخرى ، عادة ما يتم التعبير عن السؤال الذي يهم الباحث من حيث الملاحظات أو المتغيرات.

اتضح أن التجميع ، من خلال الملاحظات والمتغيرات على حد سواء ، يمكن أن يؤدي إلى نتائج مثيرة للاهتمام للغاية.

على سبيل المثال ، تخيل أن باحثًا طبيًا يقوم بجمع بيانات عن الخصائص (المتغيرات) المختلفة لحالات المرضى (الملاحظات) المصابين بأمراض القلب.

قد يرغب المحقق في تجميع الملاحظات (للمرضى) لتحديد مجموعات من المرضى الذين يعانون من أعراض مماثلة.

في الوقت نفسه ، قد يرغب الباحث في تجميع المتغيرات لتحديد مجموعات المتغيرات المرتبطة بحالة فيزيائية مماثلة.

بعد هذه المناقشة حول ما إذا كان سيتم تجميع الملاحظات أو المتغيرات ، قد يتساءل المرء ، لماذا لا تتجمع في كلا الاتجاهين؟

تحتوي الوحدة النمطية لتحليل الكتلة على إجراء ربط ثنائي الاتجاه فعال للقيام بذلك.

ومع ذلك ، يتم استخدام التجميع ثنائي الاتجاه (نادرًا نسبيًا) في الظروف التي يُتوقع فيها أن تساهم كل من الملاحظات والمتغيرات في وقت واحد في اكتشاف مجموعات ذات مغزى.

لذا ، بالعودة إلى المثال السابق ، يمكننا أن نفترض أن الباحث الطبي يحتاج إلى تحديد مجموعات من المرضى المتشابهة فيما يتعلق بمجموعات معينة من خصائص الحالة الجسدية.

تنشأ الصعوبة في تفسير النتائج التي تم الحصول عليها من حقيقة أن أوجه التشابه بين المجموعات المختلفة قد تأتي من (أو تكون سببًا) بعض الاختلاف في المجموعات الفرعية للمتغيرات.

لذلك ، فإن المجموعات الناتجة غير متجانسة بطبيعتها. ربما يبدو الأمر ضبابيًا بعض الشيء في البداية ؛ في الواقع ، بالمقارنة مع طرق التحليل العنقودية الأخرى الموصوفة ، ربما يكون التجميع ثنائي الاتجاه هو الطريقة الأقل استخدامًا.

ومع ذلك ، يعتقد بعض الباحثين أنه يوفر أداة قوية لتحليل البيانات الاستكشافية (لمزيد من المعلومات ، انظر وصف هارتيجان لهذه الطريقة (Hartigan ، 1975)).

K تعني الطريقة

تختلف طريقة التجميع هذه بشكل كبير عن الطرق التجميعية مثل الاتحاد (تجميع الأشجار) والاتحاد ثنائي الاتجاه. افترض أن لديك بالفعل فرضيات حول عدد المجموعات (عن طريق الملاحظة أو المتغير).

يمكنك إخبار النظام بتشكيل ثلاث مجموعات بالضبط بحيث تكون مختلفة قدر الإمكان.

هذا هو بالضبط نوع المشكلة التي تحلها خوارزمية K-Means. بشكل عام ، طريقة K-mean يبني بالضبط K مجموعات متباعدة متباعدة قدر الإمكان.

في مثال الحالة الجسدية ، قد يكون لدى الباحث الطبي "حدس" من تجربته السريرية أن مرضاهم ينقسمون عمومًا إلى ثلاث فئات مختلفة.

انتباه!

إذا كان الأمر كذلك ، فإن وسائل المقاييس المختلفة للمعلمات الفيزيائية لكل مجموعة ستوفر طريقة كمية لتمثيل فرضيات المحقق (على سبيل المثال ، المرضى في المجموعة 1 لديهم معلمة عالية من 1 ، معلمة أقل من 2 ، إلخ).

من وجهة نظر حسابية ، يمكنك التفكير في هذه الطريقة على أنها تحليل للتباين "معكوس". يبدأ البرنامج بـ K عناقيد تم اختيارها عشوائيًا ، ثم يغير انتماء الكائنات إليها من أجل:

  1. تقليل التباين داخل المجموعات ،
  2. تعظيم التباين بين المجموعات.

تشبه هذه الطريقة التحليل العكسي للتباين (ANOVA) من حيث أن اختبار الأهمية في ANOVA يقارن التباين بين المجموعة مقابل التباين داخل المجموعة في اختبار الفرضية التي تعني أن المجموعة تختلف عن بعضها البعض.

في K-mean clustering ، ينقل البرنامج الكائنات (أي الملاحظات) من مجموعة (عنقود) إلى أخرى من أجل الحصول على النتيجة الأكثر أهمية عند إجراء تحليل التباين (ANOVA).

عادةً ، بمجرد الحصول على نتائج تحليل الكتلة K-mean ، يمكن للمرء حساب الوسائل لكل عنقود لكل بُعد لتقييم كيفية اختلاف المجموعات عن بعضها البعض.

من الناحية المثالية ، يجب أن تحصل على وسائل مختلفة جدًا لمعظم ، إن لم يكن كل ، القياسات المستخدمة في التحليل.

المصدر: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

تصنيف الأشياء حسب خصائصها

تحليل الكتلة (تحليل الكتلة) - مجموعة من الأساليب الإحصائية متعددة الأبعاد لتصنيف الكائنات وفقًا لخصائصها ، وتقسيم مجموعة من الكائنات إلى مجموعات متجانسة قريبة من حيث تحديد المعايير ، واختيار كائنات مجموعة معينة.

الكتلة هي مجموعة من الكائنات التي تم تحديدها كنتيجة لتحليل الكتلة بناءً على مقياس معين للتشابه أو الاختلاف بين الكائنات.

الهدف هو الموضوعات المحددة للدراسة التي يجب تصنيفها. الكائنات في التصنيف ، كقاعدة عامة ، هي ملاحظات. على سبيل المثال ، مستهلكو المنتجات أو البلدان أو المناطق أو المنتجات ، إلخ.

على الرغم من أنه من الممكن إجراء تحليل الكتلة بواسطة المتغيرات. يحدث تصنيف الكائنات في التحليل العنقودي متعدد الأبعاد وفقًا لعدة معايير في وقت واحد.

يمكن أن تكون هذه متغيرات كمية وفئوية ، اعتمادًا على طريقة تحليل الكتلة. لذلك ، فإن الهدف الرئيسي من تحليل الكتلة هو العثور على مجموعات من الكائنات المتشابهة في العينة.

يمكن تقسيم مجموعة الأساليب الإحصائية متعددة الأبعاد لتحليل الكتلة إلى طرق هرمية (تكتلية وتقسيمية) وغير هرمية (طريقة k-mean ، تحليل الكتلة على مرحلتين).

ومع ذلك ، لا يوجد تصنيف مقبول بشكل عام للطرق ، وأحيانًا تتضمن طرق التحليل العنقودي أيضًا طرقًا لإنشاء أشجار القرار ، والشبكات العصبية ، والتحليل التمييزي ، والانحدار اللوجستي.

نطاق التحليل العنقودي ، نظرًا لتعدد استخداماته ، واسع جدًا. يستخدم التحليل العنقودي في الاقتصاد والتسويق وعلم الآثار والطب وعلم النفس والكيمياء والبيولوجيا والإدارة العامة وعلم فقه اللغة والأنثروبولوجيا وعلم الاجتماع ومجالات أخرى.

فيما يلي بعض الأمثلة على تطبيق التحليل العنقودي:

  • الطب - تصنيف الأمراض وأعراضها وطرق العلاج وتصنيف مجموعات المرضى ؛
  • التسويق - مهام تحسين خط إنتاج الشركة ، وتقسيم السوق حسب مجموعات السلع أو المستهلكين ، وتحديد المستهلك المحتمل ؛
  • علم الاجتماع - تقسيم المستجيبين إلى مجموعات متجانسة ؛
  • الطب النفسي - التشخيص الصحيح لمجموعات الأعراض أمر بالغ الأهمية لنجاح العلاج ؛
  • علم الأحياء - تصنيف الكائنات الحية حسب المجموعة ؛
  • الاقتصاد - تصنيف موضوعات الاتحاد الروسي حسب جاذبية الاستثمار.

المصدر: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

معلومات عامة حول التحليل العنقودي

يتضمن تحليل الكتلة مجموعة من خوارزميات التصنيف المختلفة. السؤال الشائع الذي يطرحه الباحثون في العديد من المجالات هو كيفية تنظيم البيانات المرصودة في هياكل مرئية.

على سبيل المثال ، يهدف علماء الأحياء إلى تقسيم الحيوانات إلى أنواع مختلفة من أجل وصف الاختلافات بينها بشكل هادف.

تتمثل مهمة تحليل الكتلة في تقسيم المجموعة الأولية من الكائنات إلى مجموعات من كائنات متشابهة ومتقاربة. تسمى هذه المجموعات المجموعات.

بمعنى آخر ، يعد تحليل الكتلة إحدى طرق تصنيف الكائنات وفقًا لخصائصها. من المرغوب فيه أن يكون لنتائج التصنيف تفسير مفيد.

يتم استخدام النتائج التي تم الحصول عليها من خلال طرق التحليل العنقودي في مختلف المجالات. في التسويق ، هو تقسيم المنافسين والمستهلكين.

في الطب النفسي ، يعد التشخيص الصحيح للأعراض مثل جنون العظمة والفصام وما إلى ذلك أمرًا بالغ الأهمية لنجاح العلاج.

في الإدارة ، يعتبر تصنيف الموردين أمرًا مهمًا ، وتحديد حالات الإنتاج المماثلة التي يحدث فيها الزواج. في علم الاجتماع ، تقسيم المستجيبين إلى مجموعات متجانسة. في الاستثمار في المحفظة ، من المهم تجميع الأوراق المالية وفقًا لتشابهها في اتجاه العائد من أجل تجميع ، بناءً على المعلومات التي تم الحصول عليها حول سوق الأوراق المالية ، محفظة استثمارية مثالية تسمح بتعظيم العائد على الاستثمارات لدرجة معينة من المخاطر .

بشكل عام ، كلما كان من الضروري تصنيف كمية كبيرة من المعلومات من هذا النوع وتقديمها في شكل مناسب لمزيد من المعالجة ، تبين أن التحليل العنقودي مفيد للغاية وفعال.

يسمح تحليل الكتلة بالنظر في كمية كبيرة إلى حد ما من المعلومات وضغط بشكل كبير على مجموعات كبيرة من المعلومات الاجتماعية والاقتصادية ، مما يجعلها مضغوطة ومرئية.

انتباه!

يعتبر التحليل العنقودي ذا أهمية كبيرة فيما يتعلق بمجموعات السلاسل الزمنية التي تميز التنمية الاقتصادية (على سبيل المثال ، الظروف الاقتصادية العامة والسلع).

من الممكن هنا تحديد الفترات التي كانت فيها قيم المؤشرات المقابلة قريبة جدًا ، وكذلك تحديد مجموعات السلاسل الزمنية ، والتي تكون ديناميكياتها متشابهة إلى حد كبير.

في مشاكل التنبؤ الاجتماعي والاقتصادي ، من الواعد جدًا الجمع بين التحليل العنقودي والأساليب الكمية الأخرى (على سبيل المثال ، مع تحليل الانحدار).

المميزات والعيوب

يسمح تحليل الكتلة بتصنيف موضوعي لأي كائنات تتميز بعدد من الميزات. هناك عدد من الفوائد التي يمكن الحصول عليها من هذا:

  1. يمكن تفسير المجموعات الناتجة ، أي لوصف نوع المجموعات الموجودة بالفعل.
  2. يمكن استبعاد المجموعات الفردية. يكون هذا مفيدًا في الحالات التي حدثت فيها أخطاء معينة في مجموعة البيانات ، ونتيجة لذلك تنحرف قيم مؤشرات الكائنات الفردية بشكل حاد. عند تطبيق تحليل الكتلة ، تقع هذه الكائنات في مجموعة منفصلة.
  3. لمزيد من التحليل ، يمكن فقط اختيار المجموعات التي لها خصائص الاهتمام.

مثل أي طريقة أخرى ، فإن التحليل العنقودي له عيوب وقيود معينة. على وجه الخصوص ، يعتمد تكوين المجموعات وعددها على معايير التقسيم المختارة.

عند تقليل مصفوفة البيانات الأولية إلى نموذج أكثر إحكاما ، قد تحدث بعض التشوهات ، وقد تُفقد الميزات الفردية للكائنات الفردية أيضًا بسبب استبدالها بخصائص القيم المعممة لمعلمات الكتلة.

طُرق

حاليًا ، هناك أكثر من مائة خوارزميات تجميع مختلفة معروفة. يتم تفسير تنوعها ليس فقط من خلال الأساليب الحسابية المختلفة ، ولكن أيضًا من خلال المفاهيم المختلفة الكامنة وراء التجميع.

تطبق حزمة Statistica طرق التجميع التالية.

  • الخوارزميات الهرمية - التجميع الشجري. تعتمد الخوارزميات الهرمية على فكرة التجميع المتسلسل. في الخطوة الأولى ، يتم اعتبار كل كائن على أنه كتلة منفصلة. في الخطوة التالية ، سيتم دمج بعض المجموعات الأقرب لبعضها البعض في مجموعة منفصلة.
  • طريقة K- يعني. هذه الطريقة هي الأكثر شيوعا. إنه ينتمي إلى مجموعة ما يسمى بالطرق المرجعية لتحليل الكتلة. يتم تعيين عدد المجموعات K بواسطة المستخدم.
  • جمعية ثنائية الاتجاه. عند استخدام هذه الطريقة ، يتم إجراء التجميع في وقت واحد بواسطة المتغيرات (الأعمدة) ونتائج الملاحظة (الصفوف).

يتم تنفيذ إجراء الربط ثنائي الاتجاه عندما يكون من المتوقع أن يوفر التجميع المتزامن على المتغيرات والملاحظات نتائج ذات مغزى.

نتائج الإجراء عبارة عن إحصائيات وصفية حول المتغيرات والحالات ، بالإضافة إلى مخطط ألوان ثنائي الأبعاد يتم فيه ترميز قيم البيانات بالألوان.

من خلال توزيع اللون ، يمكنك الحصول على فكرة عن المجموعات المتجانسة.

تطبيع المتغيرات

يرتبط تقسيم المجموعة الأولية من الكائنات إلى مجموعات بحساب المسافات بين الكائنات واختيار الكائنات ، والتي تكون المسافة بينها هي الأصغر على الإطلاق.

الأكثر شيوعًا هي المسافة الإقليدية (الهندسية) المألوفة لنا جميعًا. يتوافق هذا المقياس مع الأفكار البديهية حول قرب الأجسام في الفضاء (كما لو تم قياس المسافات بين الأشياء باستخدام شريط قياس).

ولكن بالنسبة لمقياس معين ، يمكن أن تتأثر المسافة بين الأشياء بشدة بالتغيرات في المقاييس (وحدات القياس). على سبيل المثال ، إذا تم قياس إحدى الميزات بالمليمترات ثم تم تحويل قيمتها إلى سنتيمترات ، فإن المسافة الإقليدية بين الكائنات ستتغير بشكل كبير. سيؤدي هذا إلى حقيقة أن نتائج التحليل العنقودي قد تختلف بشكل كبير عن النتائج السابقة.

إذا تم قياس المتغيرات بوحدات قياس مختلفة ، فإن تطبيعها الأولي مطلوب ، أي تحويل البيانات الأولية ، مما يحولها إلى كميات بلا أبعاد.

يؤدي التطبيع إلى تشويه هندسة المساحة الأصلية بشدة ، مما قد يؤدي إلى تغيير نتائج التجميع

في حزمة Statistica ، يتم تسوية أي متغير x وفقًا للصيغة:

للقيام بذلك ، انقر بزر الماوس الأيمن على اسم المتغير وحدد تسلسل الأوامر من القائمة التي تفتح: Fill / Standardize Block / Standardize Columns. ستصبح قيم المتغير العادي مساوية للصفر ، وستصبح الفروق مساوية للواحد.

طريقة K تعني في Statistica

تقسم طريقة K-mean مجموعة من الكائنات إلى عدد معين K من مجموعات مختلفة تقع على أكبر مسافة ممكنة من بعضها البعض.

عادةً ، بمجرد الحصول على نتائج تحليل الكتلة K-mean ، يمكن للمرء حساب المتوسطات لكل مجموعة لكل بُعد لتقييم كيفية اختلاف المجموعات عن بعضها البعض.

من الناحية المثالية ، يجب أن تحصل على وسائل مختلفة جدًا لمعظم القياسات المستخدمة في التحليل.

تعد القيم الإحصائية F التي تم الحصول عليها لكل بُعد مؤشرًا آخر لمدى تمييز البعد المقابل بين المجموعات.

كمثال ، ضع في اعتبارك نتائج دراسة استقصائية شملت 17 موظفًا في مؤسسة حول الرضا عن مؤشرات الجودة المهنية. يحتوي الجدول على إجابات لأسئلة الاستبيان على مقياس من عشر نقاط (1 هو الحد الأدنى للدرجة ، 10 هو الحد الأقصى).

تتوافق أسماء المتغيرات مع إجابات الأسئلة التالية:

  1. SLT - مجموعة من الأهداف الشخصية وأهداف المنظمة ؛
  2. OSO - الشعور بالإنصاف في الأجور ؛
  3. TBD - القرب الإقليمي من المنزل ؛
  4. PEW - الشعور بالرفاهية الاقتصادية ؛
  5. CR - النمو الوظيفي ؛
  6. ZhSR - الرغبة في تغيير الوظائف ؛
  7. OSB هو شعور بالرفاهية الاجتماعية.

باستخدام هذه البيانات ، من الضروري تقسيم الموظفين إلى مجموعات واختيار أدوات التحكم الأكثر فعالية لكل منهم.

في الوقت نفسه ، يجب أن تكون الاختلافات بين المجموعات واضحة ، وداخل المجموعة ، يجب أن يكون المستجيبون متشابهين قدر الإمكان.

حتى الآن ، تعطي معظم الاستطلاعات الاجتماعية نسبة مئوية فقط من الأصوات: يتم النظر في العدد الرئيسي للإجابات الإيجابية ، أو النسبة المئوية لأولئك غير الراضين ، ولكن لا يتم النظر في هذه المسألة بشكل منهجي.

في أغلب الأحيان ، لا يُظهر المسح اتجاهات الوضع. في بعض الحالات ، من الضروري عدم حساب عدد الأشخاص "المؤيدين" أو "المعارضين" ، ولكن حساب المسافة ، أو قياس التشابه ، أي تحديد مجموعات الأشخاص الذين يفكرون في الأمر نفسه.

يمكن استخدام إجراءات تحليل الكتلة لتحديد ، على أساس بيانات المسح ، بعض العلاقات القائمة بالفعل للميزات وإنشاء تصنيفها على هذا الأساس.

انتباه!

إن وجود أي فرضيات مسبقة لعالم اجتماع عند العمل مع إجراءات التحليل العنقودي ليس شرطًا ضروريًا.

في برنامج Statistica ، يتم إجراء تحليل الكتلة على النحو التالي.

عند اختيار عدد المجموعات ، يجب أن تسترشد بما يلي: يجب ألا يكون عدد المجموعات ، إن أمكن ، كبيرًا جدًا.

يجب أن تكون المسافة التي تم فيها ضم كائنات مجموعة معينة ، إذا أمكن ، أقل بكثير من المسافة التي ينضم عندها شيء آخر إلى هذه المجموعة.

عند اختيار عدد المجموعات ، غالبًا ما توجد عدة حلول صحيحة في نفس الوقت.

نحن مهتمون ، على سبيل المثال ، بكيفية ارتباط الإجابات على أسئلة الاستبيان بالموظفين العاديين وإدارة المؤسسة. لذلك ، نختار K = 2. لمزيد من التقسيم ، يمكنك زيادة عدد المجموعات.

  1. اختيار الملاحظات مع أقصى مسافة بين مراكز الكتلة ؛
  2. فرز المسافات واختيار الملاحظات على فترات منتظمة (الإعداد الافتراضي) ؛
  3. خذ مراكز المراقبة الأولى وأرفق باقي الأشياء بها.

الخيار 1 مناسب لأغراضنا.

غالبًا ما "تفرض" العديد من خوارزميات التجميع بنية غير متأصلة في البيانات وتسبب إرباكًا للباحث. لذلك ، من الضروري للغاية تطبيق العديد من خوارزميات التحليل العنقودي واستخلاص النتائج بناءً على تقييم عام لنتائج الخوارزميات.

يمكن عرض نتائج التحليل في مربع الحوار الذي يظهر:

إذا حددت علامة التبويب رسم بياني للوسائل ، فسيتم رسم رسم بياني لإحداثيات مراكز المجموعات:


يتوافق كل سطر متقطع في هذا الرسم البياني مع إحدى المجموعات العنقودية. يتوافق كل قسم من المحور الأفقي للرسم البياني مع أحد المتغيرات المدرجة في التحليل.

يتوافق المحور الرأسي مع متوسط ​​قيم المتغيرات للكائنات المضمنة في كل مجموعة.

يمكن ملاحظة أن هناك اختلافات كبيرة في موقف مجموعتين من الناس تجاه مهنة الخدمة في جميع القضايا تقريبًا. فقط في قضية واحدة يوجد إجماع كامل - بمعنى الرفاهية الاجتماعية (OSB) ، أو بالأحرى ، الافتقار إليها (2.5 نقطة من 10).

يمكن افتراض أن المجموعة 1 تمثل العمال وأن المجموعة 2 تمثل الإدارة. يشعر المدراء برضا أكبر عن التطوير الوظيفي (CR) ، وهو مزيج من الأهداف الشخصية والأهداف التنظيمية (SOLs).

لديهم شعور أعلى بالرفاهية الاقتصادية (SEW) وشعور بالمساواة في الأجور (SWA).

فهم أقل قلقًا بشأن القرب من المنزل مقارنة بالعمال ، ربما بسبب مشاكل النقل الأقل. أيضًا ، لدى المديرين رغبة أقل في تغيير الوظائف (JSR).

على الرغم من حقيقة أن العمال ينقسمون إلى فئتين ، إلا أنهم يقدمون نفس الإجابات نسبيًا على معظم الأسئلة. بمعنى آخر ، إذا كان هناك شيء لا يناسب المجموعة العامة للموظفين ، فإن الأمر نفسه لا يناسب الإدارة العليا ، والعكس صحيح.

يتيح لنا تنسيق الرسوم البيانية أن نستنتج أن رفاهية مجموعة ما تنعكس في رفاهية مجموعة أخرى.

المجموعة 1 غير راضية عن القرب الإقليمي من المنزل. هذه المجموعة هي الجزء الرئيسي من العمال الذين يأتون بشكل رئيسي إلى الشركة من أجزاء مختلفة من المدينة.

لذلك ، من الممكن أن تعرض على الإدارة العليا تخصيص جزء من الأرباح لبناء مساكن لموظفي المؤسسة.

شوهدت اختلافات كبيرة في موقف مجموعتين من الناس تجاه مهنة الخدمة. هؤلاء الموظفون الراضون عن النمو الوظيفي ، والذين لديهم تطابق كبير بين الأهداف الشخصية وأهداف المنظمة ، ليس لديهم رغبة في تغيير وظائفهم ويشعرون بالرضا عن نتائج عملهم.

على العكس من ذلك ، فإن الموظفين الذين يرغبون في تغيير وظائفهم وغير راضين عن نتائج عملهم غير راضين عن المؤشرات المذكورة أعلاه. يجب أن تولي الإدارة العليا اهتمامًا خاصًا للوضع الحالي.

يتم عرض نتائج تحليل التباين لكل سمة من خلال الضغط على زر تحليل التباين.

يتم عرض مجاميع مربعات انحرافات الكائنات عن مراكز الكتلة (SS داخل) ومجموع مربعات الانحرافات بين مراكز الكتلة (SS Between) وقيم إحصائيات F ومستويات الأهمية p.

انتباه!

على سبيل المثال ، مستويات الأهمية للمتغيرين كبيرة جدًا ، وهو ما يفسره العدد القليل من الملاحظات. في النسخة الكاملة من الدراسة ، والتي يمكن العثور عليها في الورقة ، تم رفض الفرضيات حول تكافؤ الوسائل لمراكز الكتلة عند مستويات أهمية أقل من 0.01.

يعرض زر حفظ التصنيفات والمسافات عدد الكائنات المضمنة في كل مجموعة ومسافات الكائنات إلى مركز كل مجموعة.

يوضح الجدول أرقام الحالة (CASE_NO) التي تتكون منها العناقيد بأرقام CLUSTER والمسافات من مركز كل مجموعة (DISTANCE).

يمكن كتابة المعلومات حول الكائنات التي تنتمي إلى المجموعات في ملف واستخدامها في مزيد من التحليل. في هذا المثال ، أظهرت مقارنة النتائج التي تم الحصول عليها مع الاستبيانات أن المجموعة 1 تتكون أساسًا من العمال العاديين ، والمجموعة 2 - من المديرين.

وبالتالي ، يمكن ملاحظة أنه عند معالجة نتائج المسح ، تبين أن التحليل العنقودي طريقة قوية تسمح باستخلاص النتائج التي لا يمكن الوصول إليها من خلال إنشاء رسم بياني للمتوسطات أو عن طريق حساب النسبة المئوية للرضا عن مؤشرات مختلفة من جودة الحياة العملية.

تجميع الشجرة هو مثال على خوارزمية هرمية ، مبدأها هو تجميع العناصر الأقرب بالتسلسل أولاً ، ثم المزيد والمزيد من العناصر البعيدة عن بعضها البعض في كتلة.

تبدأ معظم هذه الخوارزميات من مصفوفة تشابه (مسافات) ، ويتم اعتبار كل عنصر على حدة في البداية كمجموعة منفصلة.

بعد تحميل وحدة تحليل الكتلة واختيار الانضمام (التجميع الشجري) ، يمكنك تغيير المعلمات التالية في نافذة إدخال معلمات التجميع:

  • البيانات الأولية (الإدخال). يمكن أن تكون في شكل مصفوفة من البيانات المدروسة (البيانات الأولية) وفي شكل مصفوفة المسافات (مصفوفة المسافة).
  • تجميع الملاحظات (العنقودية) (الحالات (الأولية)) أو المتغيرات (المتغير (الأعمدة)) ، ووصف حالة الكائن.
  • مقاييس المسافة. هنا يمكنك تحديد المقاييس التالية: المسافات الإقليدية ، والمسافات الإقليدية المربعة ، ومسافة المدينة (مانهاتن) ، ومقياس مسافة تشيبيتشيف ، والقوة ...) ، والنسبة المئوية للاختلاف (نسبة الخلاف).
  • طريقة التجميع (قاعدة الدمج (الربط)). الخيارات التالية ممكنة هنا: الارتباط الفردي ، الارتباط الكامل ، متوسط ​​مجموعة الزوج غير الموزون ، متوسط ​​مجموعة الزوجين الموزون) ، النقطه الوسطى غير الموزون للمجموعة الزوجية ، النقطه الوسطى المرجحة للمجموعة الزوجية (الوسيط) ، طريقة وارد.

نتيجة للتجميع ، يتم بناء مخطط شجري أفقي أو عمودي - رسم بياني يتم من خلاله تحديد المسافات بين الكائنات والعناقيد عندما يتم دمجها بشكل تسلسلي.

يتيح لك الهيكل الشجري للرسم البياني تحديد المجموعات بناءً على الحد المحدد - مسافة معينة بين المجموعات.

بالإضافة إلى ذلك ، يتم عرض مصفوفة المسافات بين الكائنات الأصلية (مصفوفة المسافة) ؛ يعني والانحرافات المعيارية لكل كائن مصدر (الإحصاء المميز).

بالنسبة للمثال المدروس ، سنقوم بإجراء تحليل عنقودي للمتغيرات باستخدام الإعدادات الافتراضية. يظهر مخطط الأسنان الناتج في الشكل.


يرسم المحور الرأسي للتشجير المسافات بين الكائنات وبين الكائنات والعناقيد. إذن ، المسافة بين المتغيرين SEB و OSD تساوي خمسة. يتم دمج هذه المتغيرات في الخطوة الأولى في مجموعة واحدة.

يتم رسم المقاطع الأفقية لمخطط dendrogram على مستويات مقابلة لمسافات العتبة المحددة لخطوة تجميع معينة.

يتضح من الرسم البياني أن السؤال "الرغبة في تغيير الوظائف" (JSR) يشكل مجموعة منفصلة. بشكل عام ، فإن الرغبة في الإغراق في أي مكان تزور الجميع على قدم المساواة. علاوة على ذلك ، فإن المجموعة المنفصلة هي مسألة القرب الإقليمي من المنزل (LHB).

من حيث الأهمية ، فهي في المرتبة الثانية ، مما يؤكد الاستنتاج حول الحاجة إلى بناء المساكن ، والتي تم إجراؤها وفقًا لنتائج الدراسة باستخدام طريقة K-mean.

يتم الجمع بين مشاعر الرفاهية الاقتصادية (PEW) والمساواة في الأجور (PWA) - وهذه مجموعة من القضايا الاقتصادية. يتم أيضًا الجمع بين التقدم الوظيفي (CR) ومجموعة الأهداف الشخصية وأهداف المنظمة (COL).

طرق التجميع الأخرى ، بالإضافة إلى اختيار أنواع أخرى من المسافات ، لا تؤدي إلى تغيير كبير في مخطط الأسنان.

نتائج:

  1. يعد تحليل الكتلة أداة قوية لتحليل البيانات الاستكشافية والبحث الإحصائي في أي مجال موضوع.
  2. يطبق برنامج Statistica كلا من الأساليب الهرمية والهيكلية لتحليل الكتلة. تعود مزايا هذه الحزمة الإحصائية إلى قدراتها الرسومية. يتم توفير تمثيلات بيانية ثنائية وثلاثية الأبعاد للمجموعات التي تم الحصول عليها في فضاء المتغيرات المدروسة ، وكذلك نتائج الإجراء الهرمي لتجميع الكائنات.
  3. من الضروري تطبيق العديد من خوارزميات التحليل العنقودي واستخلاص النتائج بناءً على تقييم عام لنتائج الخوارزميات.
  4. يمكن اعتبار تحليل الكتلة ناجحًا إذا تم إجراؤه بطرق مختلفة ، وتمت مقارنة النتائج والعثور على أنماط شائعة ، وتم العثور على مجموعات مستقرة بغض النظر عن طريقة التجميع.
  5. يسمح لك تحليل الكتلة بتحديد مواقف المشكلة وتحديد طرق حلها. لذلك ، يمكن اعتبار طريقة الإحصاء غير البارامترية هذه جزءًا لا يتجزأ من تحليل النظام.

أنواع المدخلات

  • الوصف الإرشادي للأشياء. يتم وصف كل كائن من خلال مجموعة من خصائصه تسمى علامات. يمكن أن تكون الميزات رقمية أو غير رقمية.
  • مصفوفة المسافة بين الأشياء. يتم وصف كل كائن من خلال المسافات إلى جميع الكائنات الأخرى في مجموعة التدريب.

أهداف التجميع

  • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من كائنات متشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
  • ضغط البيانات. إذا كانت العينة الأولية كبيرة بشكل مفرط ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
  • كشف الجدة. كشف الجدة). يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم ضمان درجة عالية من التشابه للكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

في جميع هذه الحالات ، يمكن تطبيق المجموعات الهرمية ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، وما إلى ذلك. وتسمى هذه المهام مهام التصنيف.

نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة.

مثال كلاسيكي على التصنيف القائم على التشابه هو التسمية ذات الحدين للكائنات الحية التي اقترحها كارل لينيوس في منتصف القرن الثامن عشر. تم إنشاء أنظمة مماثلة في العديد من مجالات المعرفة من أجل تنظيم المعلومات حول عدد كبير من الكائنات.

طرق التجميع

بيان رسمي لمشكلة التجميع

يجب أن تكون مجموعة من الكائنات ، تكون مجموعة من الأرقام (الأسماء والتسميات) من المجموعات. تم إعطاء دالة المسافة بين الأشياء. هناك مجموعة تدريب محدودة من الأشياء. مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ، وتختلف كائنات المجموعات المختلفة اختلافًا كبيرًا. في هذه الحالة ، يتم تعيين رقم عنقود لكل كائن.

خوارزمية التجميعهي وظيفة تربط أي كائن برقم عنقود. تُعرف المجموعة في بعض الحالات مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للمجموعات ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

المؤلفات

  1. Aivazyan S. A. ، Buchstaber V. M. ، Enyukov I. S. ، Meshalkin L. D.الإحصاء التطبيقي: التصنيف وتقليل الأبعاد. - م: المالية والإحصاء ، 1989.
  2. Zhuravlev Yu. I. ، Ryazanov V. V. ، Senko O. V."تعرُّف". الطرق الرياضية. نظام البرمجيات. تطبيقات عملية. - م: فازيس ، 2006. ISBN 5-7036-0108-8.
  3. زاجورويكو ن.الأساليب التطبيقية لتحليل البيانات والمعرفة. - نوفوسيبيرسك: IM SO RAN ، 1999. ISBN 5-86134-060-9.
  4. ماندل آي د.التحليل العنقودي. - م: المالية والإحصاء ، 1988. ISBN 5-279-00050-7.
  5. شليزنجر م ، Glavach V.عشر محاضرات في التعرف الإحصائي والبنيوي. - كييف: نوكوفا دومكا ، 2004. ISBN 966-00-0341-2.
  6. هاستي T. ، تيبشيراني ر ، فريدمان ج.عناصر التعلم الإحصائي. - سبرينغر ، 2001. ISBN 0-387-95284-5.
  7. جين مورتي فلينتجميع البيانات: مراجعة. // ACM Comput. البقاء على قيد الحياة. 31 (3) , 1999

روابط خارجية

بالروسية

  • www.MachineLearning.ru - مورد ويكي احترافي مخصص للتعلم الآلي واستخراج البيانات
  • نيكولينكو. شرائح محاضرة حول خوارزميات التجميع

باللغة الإنجليزية

  • COMPACT - حزمة مقارنة للتقييم العنقودي. حزمة ماتلاب مجانية ، 2006.
  • P. Berkhin ، مسح تقنيات التنقيب عن البيانات العنقودية، برنامج Accrue ، 2002.
  • جاين ومورتي وفلين: تجميع البيانات: مراجعة، شركات ACM. Surv. ، 1999.
  • للحصول على عرض تقديمي آخر للوسائل الهرمية والوسائل k والوسائل c الضبابية ، راجع هذه المقدمة للتجميع. يحتوي أيضًا على شرح لمزيج Gaussians.
  • ديفيد داوي صفحة نمذجة الخليط- روابط نموذج التجميع والمزيج الأخرى.
  • برنامج تعليمي عن التجميع
  • الكتاب المدرسي عبر الإنترنت: نظرية المعلومات والاستدلال وخوارزميات التعلم ، بقلم ديفيد ج. يشتمل MacKay على فصول حول تجميع الوسائل k ، وتجميع الوسائل k الناعمة ، والاشتقاقات بما في ذلك خوارزمية E-M والعرض المتغير لخوارزمية E-M.
  • "الجين المنظم ذاتيًا" ، برنامج تعليمي يشرح التجميع من خلال التعلم التنافسي والخرائط ذاتية التنظيم.
  • kernlab - حزمة R للتعلم الآلي المستند إلى kernel (بما في ذلك تنفيذ المجموعات الطيفية)
  • البرنامج التعليمي - برنامج تعليمي مع إدخال خوارزميات التجميع (الوسائل k ، fuzzy-c-mean ، التسلسل الهرمي ، خليط من gaussians) + بعض العروض التفاعلية (تطبيقات Java الصغيرة)
  • برامج التنقيب عن البيانات - تستخدم برامج التنقيب عن البيانات بشكل متكرر تقنيات التجميع.
  • Java Competitve Learning Application مجموعة من الشبكات العصبية غير الخاضعة للإشراف للتجميع. مكتوب بلغة جافا. كاملة مع جميع التعليمات البرمجية المصدر.

التحليل العنقودي

يميل معظم الباحثين إلى الاعتقاد بأن مصطلح "تحليل الكتلة" (eng. تَجَمَّع- مجموعة ، تجلط ، حفنة) من قبل عالم الرياضيات ر. تريون. في وقت لاحق ، نشأ عدد من المصطلحات التي تعتبر الآن مرادفة لمصطلح "تحليل الكتلة": التصنيف التلقائي ؛ علم النبات.

تحليل الكتلة هو إجراء إحصائي متعدد الأبعاد يجمع البيانات التي تحتوي على معلومات حول عينة من الكائنات ، ثم يرتب الكائنات في مجموعات متجانسة نسبيًا (مجموعات) (Q-clustering ، أو Q-technology ، تحليل الكتلة المناسب). الكتلة - مجموعة من العناصر تتميز بخاصية مشتركة ، والهدف الرئيسي من تحليل الكتلة هو العثور على مجموعات من الكائنات المتشابهة في العينة. نطاق تطبيقات التحليل العنقودي واسع جدًا: فهو يستخدم في علم الآثار والطب وعلم النفس والكيمياء وعلم الأحياء والإدارة العامة وعلم فقه اللغة والأنثروبولوجيا والتسويق وعلم الاجتماع والتخصصات الأخرى. ومع ذلك ، أدت عالمية التطبيق إلى ظهور عدد كبير من المصطلحات والطرق والنهج غير المتوافقة التي تجعل من الصعب استخدام التحليل العنقودي بشكل لا لبس فيه وتفسيره باستمرار. يقترح Orlov A.I التمييز على النحو التالي:

المهام والشروط

يقوم تحليل الكتلة بتنفيذ ما يلي الأهداف الرئيسية:

  • تطوير التصنيف أو التصنيف.
  • استكشاف المخططات المفاهيمية المفيدة لتجميع الكائنات.
  • توليد الفرضيات على أساس استكشاف البيانات.
  • اختبار الفرضيات أو البحث لتحديد ما إذا كانت الأنواع (المجموعات) المحددة بطريقة أو بأخرى موجودة بالفعل في البيانات المتاحة.

بغض النظر عن موضوع الدراسة ، يتضمن استخدام التحليل العنقودي الخطوات التالية:

  • أخذ العينات للتجميع. من المفهوم أنه من المنطقي تجميع البيانات الكمية فقط.
  • تعريف مجموعة من المتغيرات التي سيتم من خلالها تقييم الكائنات في العينة ، أي مساحة الميزة.
  • حساب قيم مقياس أو آخر للتشابه (أو الاختلاف) بين الكائنات.
  • تطبيق طريقة التحليل العنقودي لإنشاء مجموعات من الكائنات المتشابهة.
  • التحقق من صحة نتائج الحل العنقودي.

يقدم تحليل الكتلة ما يلي متطلبات البيانات:

  1. يجب ألا ترتبط المؤشرات ببعضها البعض ؛
  2. يجب ألا تتعارض المؤشرات مع نظرية القياسات ؛
  3. يجب أن يكون توزيع المؤشرات قريبًا من المعتاد ؛
  4. يجب أن تفي المؤشرات بمتطلبات "الاستقرار" ، مما يعني عدم تأثير العوامل العشوائية على قيمها ؛
  5. يجب أن تكون العينة متجانسة ولا تحتوي على "قيم متطرفة".

يمكنك العثور على وصف لاثنين من المتطلبات الأساسية للبيانات - التوحيد والاكتمال:

يتطلب التجانس أن تكون جميع الكيانات الممثلة في جدول من نفس الطبيعة. شرط الاكتمال هو أن المجموعات أناو يقدم وصفاً كاملاً لمظاهر الظاهرة قيد الدراسة. إذا نظرنا إلى الجدول الذي أناعبارة عن مجموعة و ي- مجموعة المتغيرات التي تصف هذا المجتمع ، ثم يجب أن تكون عينة تمثيلية من المجتمع المدروس ، ونظام الخصائص ييجب أن يعطي تمثيل ناقل مرضي للأفراد أنامن وجهة نظر الباحث.

إذا كان تحليل الكتلة مسبوقًا بتحليل عامل ، فلن تحتاج العينة إلى "إصلاح" - يتم تنفيذ المتطلبات المذكورة تلقائيًا بواسطة إجراء نمذجة العوامل نفسه (هناك ميزة أخرى - توحيد z بدون عواقب سلبية على العينة ؛ إذا يتم تنفيذه مباشرة للتحليل العنقودي ، ويمكن أن يؤدي إلى انخفاض في وضوح فصل المجموعات). خلاف ذلك ، يجب تعديل العينة.

تصنيف مشاكل التكتل

أنواع المدخلات

في العلم الحديث ، يتم استخدام العديد من الخوارزميات لمعالجة بيانات الإدخال. يسمى التحليل عن طريق مقارنة الكائنات بناءً على الميزات (الأكثر شيوعًا في العلوم البيولوجية) س- نوع التحليل ، وفي حالة مقارنة الميزات ، على أساس العناصر - ر- نوع التحليل. هناك محاولات لاستخدام أنواع مختلطة من التحليل (على سبيل المثال ، RQالتحليل) ، لكن هذه المنهجية لم يتم تطويرها بشكل صحيح بعد.

أهداف التجميع

  • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من كائنات متشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
  • ضغط البيانات. إذا كانت العينة الأولية كبيرة بشكل مفرط ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
  • كشف الجدة. كشف الجدة). يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم ضمان درجة عالية من التشابه للكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

في جميع هذه الحالات ، يمكن تطبيق التجميع الهرمي ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، وما إلى ذلك. وتسمى هذه المهام مهام التصنيف. نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة.

طرق التجميع

لا يوجد تصنيف مقبول بشكل عام لطرق التجميع ، ولكن يمكن ملاحظة محاولة قوية من قبل V. S. Berikov و G. S. Lbov. إذا قمنا بتعميم التصنيفات المختلفة لطرق التجميع ، فيمكننا التمييز بين عدد من المجموعات (يمكن أن تُنسب بعض الطرق إلى عدة مجموعات في وقت واحد ، وبالتالي يُقترح اعتبار هذا التصنيف بمثابة تقريب للتصنيف الحقيقي لطرق التجميع):

  1. النهج الاحتمالي. من المفترض أن كل عنصر قيد الدراسة ينتمي إلى إحدى فئات k. يعتقد بعض المؤلفين (على سبيل المثال ، أ. أ. أورلوف) أن هذه المجموعة لا تنتمي إلى التجمع على الإطلاق ويعارضونها تحت اسم "التمييز" ، أي اختيار تخصيص الأشياء لإحدى المجموعات المعروفة (عينات التدريب).
  2. مناهج تعتمد على أنظمة الذكاء الاصطناعي. مجموعة مشروطة للغاية ، نظرًا لوجود الكثير من أساليب الذكاء الاصطناعي وهي مختلفة جدًا من الناحية المنهجية.
  3. نهج منطقي. يتم تنفيذ مخطط dendrogram باستخدام شجرة القرار.
  4. النهج النظري للرسم البياني.
    • خوارزميات تجميع الرسم البياني
  5. النهج الهرمي. يفترض وجود مجموعات متداخلة (مجموعات من أوامر مختلفة). الخوارزميات ، بدورها ، تنقسم إلى تكتل (موحد) وقسمي (فصل). وفقًا لعدد الميزات ، يتم تمييز طرق التصنيف الأحادية والمتحركة أحيانًا.
    • المجموعات أو التصنيف التقسيمي الهرمي. تعتبر مشاكل التجميع في التصنيف الكمي.
  6. أساليب أخرى. غير مدرج في المجموعات السابقة.
    • خوارزميات التجميع الإحصائي
    • فرقة العنقودية
    • خوارزميات عائلة كراب
    • خوارزمية تعتمد على طريقة الغربلة
    • DBSCAN إلخ.

يتم الجمع بين النهجين 4 و 5 أحيانًا تحت اسم النهج الهيكلي أو الهندسي ، والذي يحتوي على مفهوم أكثر رسمية للقرب. على الرغم من الاختلافات الكبيرة بين الطرق المدرجة ، إلا أنها تعتمد جميعها على الطريقة الأصلية " فرضية الاكتناز»: في مساحة الكائن ، يجب أن تنتمي جميع الكائنات القريبة إلى نفس المجموعة ، ويجب أن تكون جميع الكائنات المختلفة ، على التوالي ، في مجموعات مختلفة.

بيان رسمي لمشكلة التجميع

يجب أن تكون مجموعة من الكائنات ، تكون مجموعة من الأرقام (الأسماء والتسميات) من المجموعات. تم إعطاء دالة المسافة بين الأشياء. هناك مجموعة تدريب محدودة من الأشياء. مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ، وتختلف كائنات المجموعات المختلفة اختلافًا كبيرًا. في هذه الحالة ، يتم تعيين رقم عنقود لكل كائن.

خوارزمية التجميعهي وظيفة تربط أي كائن برقم عنقود. تُعرف المجموعة في بعض الحالات مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للمجموعات ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

يختلف التجميع (التعلم غير الخاضع للإشراف) عن التصنيف (التعلم الخاضع للإشراف) في أن تسميات الكائنات الأصلية لم يتم تعيينها في البداية ، وقد تكون المجموعة نفسها غير معروفة.

حل مشكلة التجميع غامض بشكل أساسي ، وهناك عدة أسباب لذلك (وفقًا لعدد من المؤلفين):

  • لا يوجد أفضل معيار فريد لجودة التجميع. يُعرف عدد من المعايير الاستكشافية ، بالإضافة إلى عدد من الخوارزميات التي ليس لها معيار محدد بوضوح ، ولكنها تنفذ مجموعة معقولة إلى حد ما "عن طريق البناء". كل منهم يمكن أن يعطي نتائج مختلفة. لذلك ، لتحديد جودة التجميع ، يلزم وجود خبير في مجال الموضوع ، يمكنه تقييم جدوى اختيار المجموعات.
  • عادة ما يكون عدد المجموعات غير معروف مسبقًا ويتم تحديده وفقًا لبعض المعايير الذاتية. هذا صحيح فقط لأساليب التمييز ، لأنه في طرق التجميع ، يتم اختيار المجموعات باستخدام نهج رسمي يعتمد على تدابير القرب.
  • تعتمد نتيجة التجميع بشكل كبير على المقياس ، والذي يكون اختياره ، كقاعدة عامة ، ذاتيًا أيضًا ويحدده خبير. لكن من الجدير بالذكر أن هناك عددًا من التوصيات لاختيار إجراءات التقارب لمختلف المهام.

طلب

في علم الأحياء

في علم الأحياء ، للتكتل العديد من التطبيقات في مجموعة متنوعة من المجالات. على سبيل المثال ، في المعلوماتية الحيوية ، يتم استخدامه لتحليل الشبكات المعقدة من الجينات المتفاعلة ، والتي تتكون أحيانًا من مئات أو حتى آلاف العناصر. يسمح لك تحليل الكتلة بتحديد الشبكات الفرعية ، والاختناقات ، والمحاور ، والخصائص المخفية الأخرى للنظام قيد الدراسة ، مما يسمح لك في النهاية بمعرفة مساهمة كل جين في تكوين الظاهرة قيد الدراسة.

في مجال البيئة ، يتم استخدامه على نطاق واسع لتحديد المجموعات المتجانسة مكانيًا من الكائنات الحية ، والمجتمعات ، وما إلى ذلك. أقل شيوعًا ، يتم استخدام طرق التحليل العنقودي لدراسة المجتمعات بمرور الوقت. يؤدي عدم تجانس بنية المجتمعات إلى ظهور طرق غير تافهة لتحليل الكتلة (على سبيل المثال ، طريقة Czekanowski).

بشكل عام ، تجدر الإشارة إلى أنه تاريخيًا ، تُستخدم مقاييس التشابه في كثير من الأحيان كمقاييس تقارب في علم الأحياء ، بدلاً من مقاييس الفروق (المسافة).

في علم الاجتماع

عند تحليل نتائج البحث الاجتماعي ، يوصى بإجراء التحليل باستخدام طرق عائلة تكتلية هرمية ، وهي طريقة وارد ، حيث يتم تحسين الحد الأدنى من التشتت داخل المجموعات ، ونتيجة لذلك ، تكون المجموعات ذات الأحجام المتساوية تقريبًا تم انشاؤها. طريقة وارد هي الأكثر نجاحًا في تحليل البيانات الاجتماعية. كمقياس للاختلاف ، تكون المسافة الإقليدية التربيعية أفضل ، مما يساهم في زيادة تباين المجموعات. النتيجة الرئيسية لتحليل الكتلة الهرمية هي مخطط شجيرة أو "مخطط جليدي". عند تفسيرها ، يواجه الباحثون مشكلة من نفس النوع مثل تفسير نتائج تحليل العوامل - عدم وجود معايير واضحة لتحديد المجموعات. يوصى باستخدام طريقتين كطريقتين رئيسيتين - التحليل البصري للتشجير ومقارنة نتائج المجموعات التي يتم إجراؤها بواسطة طرق مختلفة.

يتضمن التحليل المرئي لمخطط dendrogram "قطع" الشجرة عند المستوى الأمثل للتشابه بين عناصر العينة. يجب "قطع" "غصن الكرمة" (مصطلحات Oldenderfer MS و Blashfield R.K.) عند حوالي 5 على مقياس Rescaled Distance Cluster Combine ، وبالتالي تحقيق مستوى تشابه بنسبة 80٪. إذا كان تحديد المجموعات بواسطة هذه التسمية أمرًا صعبًا (يتم دمج عدة مجموعات صغيرة في واحدة كبيرة عليها) ، فيمكنك اختيار تسمية أخرى. تم اقتراح هذه التقنية من قبل Oldenderfer و Blashfield.

الآن تبرز مسألة استقرار الحل العنقودي المعتمد. في الواقع ، التحقق من ثبات التجمع يأتي للتحقق من موثوقيتها. هناك قاعدة عامة هنا - يتم الحفاظ على تصنيف ثابت عندما تتغير طرق التجميع. يمكن التحقق من نتائج التحليل العنقودي الهرمي عن طريق التحليل العنقودي التكراري للوسائل k. إذا كانت التصنيفات التي تمت مقارنتها لمجموعات المستجيبين لها نصيب من المصادفات تزيد عن 70٪ (أكثر من ثلثي المصادفات) ، فسيتم اتخاذ قرار جماعي.

من المستحيل التحقق من كفاية الحل دون اللجوء إلى نوع آخر من التحليل. من الناحية النظرية على الأقل ، لم يتم حل هذه المشكلة. يشرح التحليل العنقودي الكلاسيكي لأولدندرفر وبلاشفيلد خمس طرق إضافية لاختبار القوة ويرفضها في النهاية:

في علوم الكمبيوتر

  • تجميع نتائج البحث - تُستخدم في التجميع "الذكي" للنتائج عند البحث عن الملفات ، ومواقع الويب ، والكائنات الأخرى ، مما يسمح للمستخدم بالتنقل بسرعة ، وتحديد مجموعة فرعية من الواضح أنها أكثر صلة بالموضوع وتستبعد مجموعة معروفة أقل صلة - والتي يمكن أن تزيد من قابلية الاستخدام من الواجهة مقارنة بالمخرجات في شكل بسيط مرتبة حسب قائمة الصلة.
    • Clusty - محرك البحث العنقودي Vivísimo
    • Nigma - محرك بحث روسي مع تجميع تلقائي للنتائج
    • Quintura - مجموعات مرئية على شكل سحابة من الكلمات الرئيسية
  • تقطيع الصورة تقطيع الصورة) - يمكن استخدام التجميع لتقسيم صورة رقمية إلى مناطق متميزة لغرض الكشف عن الحواف. كشف الحد) أو التعرف على الأشياء.
  • بيانات التعدين بيانات التعدين)- يصبح التجميع في التنقيب عن البيانات ذا قيمة عندما يعمل كإحدى مراحل تحليل البيانات ، وبناء حل تحليلي كامل. غالبًا ما يكون من الأسهل للمحلل تحديد مجموعات من الكائنات المتشابهة ودراسة ميزاتها وبناء نموذج منفصل لكل مجموعة بدلاً من إنشاء نموذج عام واحد لجميع البيانات. تستخدم هذه التقنية باستمرار في التسويق ، وتسليط الضوء على مجموعات العملاء والمشترين والسلع وتطوير استراتيجية منفصلة لكل منهم.

أنظر أيضا

ملحوظات

الروابط

بالروسية
  • www.MachineLearning.ru - مورد ويكي احترافي مخصص للتعلم الآلي واستخراج البيانات
باللغة الإنجليزية
  • COMPACT - حزمة مقارنة للتقييم العنقودي. حزمة ماتلاب مجانية ، 2006.
  • P. Berkhin ، مسح تقنيات التنقيب عن البيانات العنقودية، برنامج Accrue ، 2002.
  • جاين ومورتي وفلين: تجميع البيانات: مراجعة، شركات ACM. Surv. ، 1999.
  • للحصول على عرض تقديمي آخر للوسائل الهرمية والوسائل k والوسائل c الضبابية ، راجع هذه المقدمة للتجميع. يحتوي أيضًا على شرح لمزيج Gaussians.
  • ديفيد داوي صفحة نمذجة الخليط- روابط نموذج التجميع والمزيج الأخرى.
  • برنامج تعليمي عن التجميع
  • الكتاب المدرسي عبر الإنترنت: نظرية المعلومات والاستدلال وخوارزميات التعلم ، بقلم ديفيد ج. يشتمل MacKay على فصول حول تجميع الوسائل k ، وتجميع الوسائل k الناعمة ، والاشتقاقات بما في ذلك خوارزمية E-M والعرض المتغير لخوارزمية E-M.
  • "الجين المنظم ذاتيًا" ، برنامج تعليمي يشرح التجميع من خلال التعلم التنافسي والخرائط ذاتية التنظيم.
  • kernlab - حزمة R للتعلم الآلي المستند إلى kernel (بما في ذلك تنفيذ المجموعات الطيفية)
  • البرنامج التعليمي - برنامج تعليمي مع إدخال خوارزميات التجميع (الوسائل k ، fuzzy-c-mean ، التسلسل الهرمي ، خليط من gaussians) + بعض العروض التفاعلية (تطبيقات Java الصغيرة)
  • برامج التنقيب عن البيانات - تستخدم برامج التنقيب عن البيانات بشكل متكرر تقنيات التجميع.
  • Java Competitve Learning Application مجموعة من الشبكات العصبية غير الخاضعة للإشراف للتجميع. مكتوب بلغة جافا. كاملة مع جميع التعليمات البرمجية المصدر.
  • برنامج التعلم الآلي - يحتوي أيضًا على الكثير من برامج التجميع.

نعلم أن الأرض هي أحد الكواكب الثمانية التي تدور حول الشمس. الشمس مجرد نجم من بين حوالي 200 مليار نجم في مجرة ​​درب التبانة. من الصعب جدًا فهم هذا الرقم. بمعرفة هذا ، يمكن للمرء أن يفترض عدد النجوم في الكون - حوالي 4 × 10 ^ 22. يمكننا أن نرى حوالي مليون نجم في السماء ، على الرغم من أن هذا ليس سوى جزء صغير من العدد الفعلي للنجوم. إذن لدينا سؤالان:

  1. ما هي المجرة؟
  2. وما علاقة المجرات بموضوع المقال (التحليل العنقودي)؟


المجرة عبارة عن مجموعة من النجوم والغاز والغبار والكواكب والسحب بين النجوم. عادة ما تشبه المجرات الشكل الحلزوني أو التويد. في الفضاء ، يتم فصل المجرات عن بعضها البعض. غالبًا ما تكون الثقوب السوداء الضخمة هي مراكز معظم المجرات.

كما سنناقش في القسم التالي ، هناك العديد من أوجه التشابه بين تحليل المجرات والعنقود. توجد المجرات في الفضاء ثلاثي الأبعاد ، والتحليل العنقودي هو تحليل متعدد الأبعاد يتم إجراؤه في الفضاء ذي الأبعاد n.

الملاحظة: الثقب الأسود هو مركز المجرة. سوف نستخدم فكرة مماثلة للنقط الوسطى لتحليل الكتلة.

التحليل العنقودي

لنفترض أنك رئيس التسويق وعلاقات العملاء في شركة اتصالات. أنت تدرك أن جميع العملاء مختلفون وأنك بحاجة إلى استراتيجيات مختلفة للوصول إلى عملاء مختلفين. سوف تقدر قوة هذه الأداة مثل تقسيم العملاء لتحسين التكاليف. لصقل معرفتك بالتحليل العنقودي ، ضع في اعتبارك المثال التالي ، الذي يوضح 8 عملاء ومتوسط ​​مدة المحادثة (محليًا ودوليًا). فيما يلي البيانات:

للحصول على تصور أفضل ، دعنا نرسم رسمًا بيانيًا حيث سيكون المحور السيني هو متوسط ​​مدة المكالمات الدولية ، والمحور الصادي - متوسط ​​مدة المكالمات المحلية. يوجد أدناه الرسم البياني:

الملاحظة: هذا مشابه لتحليل موقع النجوم في سماء الليل (هنا يتم استبدال النجوم بالمستهلكين). بالإضافة إلى ذلك ، بدلاً من مساحة ثلاثية الأبعاد ، لدينا مساحة ثنائية الأبعاد ، محددة بمدة المكالمات المحلية والدولية ، كمحور x و y.
الآن ، عند الحديث عن المجرات ، تمت صياغة المشكلة على النحو التالي - للعثور على موقع الثقوب السوداء ؛ في التحليل العنقودي يطلق عليهم النقط الوسطى. للكشف عن النقط الوسطى ، سنبدأ بأخذ النقاط التعسفية كموقف للنقط الوسطى.

المسافة الإقليدية لإيجاد النقط المركزية للعناقيد

في حالتنا ، سنضع عشوائياً نقطتين (C1 و C2) عند النقاط ذات الإحداثيات (1 ، 1) و (3 ، 4). لماذا اخترنا هذين النقطتين الوسطى؟ يظهر لنا العرض المرئي للنقاط على الرسم البياني أن هناك مجموعتين سنقوم بتحليلهما. ومع ذلك ، سنرى لاحقًا أن الإجابة على هذا السؤال لن تكون بهذه البساطة لمجموعة كبيرة من البيانات.
بعد ذلك ، سنقيس المسافة بين النقطتين الوسطى (C1 و C2) وجميع النقاط على الرسم البياني باستخدام صيغة إقليدس لإيجاد المسافة بين نقطتين.

ملاحظة: يمكن أيضًا حساب المسافة باستخدام معادلات أخرى ، على سبيل المثال ،

  1. مربع المسافة الإقليدية - لإعطاء وزن للأشياء البعيدة عن بعضها البعض
  2. مسافة مانهاتن - للحد من تأثير الانبعاثات
  3. مسافة القدرة - لزيادة / تقليل التأثير على إحداثيات محددة
  4. نسبة الخلاف - للحصول على بيانات فئوية
  5. وإلخ.
العمود 3 و 4 (المسافة من C1 و C2) هي المسافة المحسوبة باستخدام هذه الصيغة. على سبيل المثال ، للمستخدم الأول

يتم حساب الانتماء إلى النقط الوسطى (العمود الأخير) وفقًا لمبدأ القرب من النقط الوسطى (C1 و C2). المستهلك الأول أقرب إلى centroid # 1 (1.41 مقارنة بـ 2.24) وبالتالي ينتمي إلى المجموعة مع centroid C1.

يوجد أدناه رسم بياني يوضح النقطتين الوسطى C1 و C2 (تم تصويرهما على أنهما ماسة زرقاء وبرتقالية). يتم عرض المستهلكين بلون النقطه الوسطى المقابلة التي تم تعيينهم لها.

نظرًا لأننا اخترنا النقط الوسطى بشكل تعسفي ، فإن الخطوة الثانية هي جعل هذا الخيار تكراريًا. يتم اختيار الموضع الجديد للنقط الوسطى كمتوسط ​​لنقاط المجموعة المقابلة. لذلك ، على سبيل المثال ، بالنسبة للنقطة الوسطى الأولى (هؤلاء هم المستهلكون 1 و 2 و 3). لذلك ، فإن إحداثي x الجديد للنقطة الوسطى C1 هو متوسط ​​إحداثيات x لهؤلاء المستهلكين (2 + 1 + 1) / 3 = 1.33. سنحصل على إحداثيات جديدة لـ C1 (1.33 ، 2.33) و C2 (4.4 ، 4.2) ، المؤامرة الجديدة أدناه:

أخيرًا ، سنضع النقط الوسطى في وسط المجموعة المعنية. الجدول في الأسفل:

مواضع الثقوب السوداء (مراكز الكتلة) في مثالنا هي C1 (1.75 ، 2.25) و C2 (4.75 ، 4.75). المجموعتان أعلاه تشبهان مجرتين منفصلتين في الفضاء عن بعضهما البعض.

لذلك ، دعونا نلقي نظرة على الأمثلة أكثر. دعونا نواجه مهمة تقسيم المستهلكين وفقًا لمعيارين: العمر والدخل. لنفترض أن لدينا مستهلكين تتراوح أعمارهم بين 37 و 44 بدخل 90 ألف دولار و 62 ألف دولار على التوالي. إذا أردنا قياس المسافة الإقليدية بين النقطتين (37 ، 90000) و (44 ، 62000) ، فسنرى أنه في هذه الحالة "يهيمن" متغير الدخل على متغير العمر ويؤثر تغييره بشدة على المسافة. نحتاج إلى نوع من الإستراتيجية لحل هذه المشكلة ، وإلا فإن تحليلنا سيعطي نتيجة غير صحيحة. الحل لهذه المشكلة هو رفع قيمنا إلى مقاييس مماثلة. التطبيع هو الحل لمشكلتنا.

تطبيع البيانات

هناك العديد من الطرق لتطبيع البيانات. على سبيل المثال ، التطبيع بين الحد الأدنى والحد الأقصى. لهذا التطبيع ، يتم استخدام الصيغة التالية

في هذه الحالة ، X * هي قيمة طبيعية ، والحد الأدنى والحد الأقصى للإحداثيات الدنيا والأقصى على المجموعة X بأكملها
(ملاحظة ، هذه الصيغة تضع جميع الإحداثيات في المقطع)
تأمل في مثالنا ، دع الحد الأقصى للدخل 130 ألف دولار والحد الأدنى 45 ألف دولار. القيمة الطبيعية للدخل للمستهلك أ هي

سنقوم بهذا التمرين لجميع النقاط لكل متغير (تنسيق). دخل المستهلك الثاني (62000) سيصبح 0.2 بعد إجراء التطبيع. بالإضافة إلى ذلك ، يجب أن يكون الحد الأدنى والحد الأقصى للعمر 23 و 58 على التوالي. بعد التطبيع ، ستكون أعمار مستهلكينا 0.4 و 0.6.

من السهل أن نرى أن جميع بياناتنا الآن تتراوح بين 0 و 1. لذلك ، لدينا الآن مجموعات بيانات موحدة على مقاييس قابلة للمقارنة.

تذكر ، قبل إجراء تحليل الكتلة ، من الضروري إجراء التطبيع.

أنواع المدخلات

  • الوصف الإرشادي للأشياء. يتم وصف كل كائن من خلال مجموعة من خصائصه تسمى علامات. يمكن أن تكون الميزات رقمية أو غير رقمية.
  • مصفوفة المسافة بين الأشياء. يتم وصف كل كائن من خلال المسافات إلى جميع الكائنات الأخرى في مجموعة التدريب.

مصفوفة المسافةيمكن حسابها من مصفوفة أوصاف الميزات للكائنات بعدد لا حصر له من الطرق ، اعتمادًا على كيفية تقديم وظيفة المسافة (متري) بين أوصاف الميزات. غالبًا ما يتم استخدام المقياس الإقليدي ، ولكن هذا الاختيار في معظم الحالات هو إرشادي ولا يرجع إلا إلى اعتبارات الملاءمة.

المشكلة العكسية - استعادة أوصاف الميزات بواسطة مصفوفة المسافات الزوجية بين الكائنات - في الحالة العامة ليس لها حل ، والحل التقريبي ليس فريدًا وقد يكون به خطأ كبير. تم حل هذه المشكلة من خلال طرق القياس متعددة الأبعاد.

وهكذا ، فإن صياغة مشكلة التجميع حسب مصفوفة المسافةهو أكثر عمومية. من ناحية أخرى ، في ظل وجود أوصاف للميزات ، غالبًا ما يكون من الممكن بناء طرق تجميع أكثر كفاءة.

أهداف التجميع

  • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من كائنات متشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
  • ضغط البيانات. إذا كانت العينة الأولية كبيرة بشكل مفرط ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
  • كشف الحداثة. يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم ضمان درجة عالية (أو ثابتة) من التشابه للكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

في كل هذه الحالات ، يمكن تطبيق المجموعات الهرمية ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، وما إلى ذلك. وتسمى هذه المهام مهام التصنيف.

نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة. بصريا ، يتم تمثيل التصنيف كرسم بياني يسمى dendrogram.

مثال كلاسيكي على التصنيف القائم على التشابه هو التسمية ذات الحدين للكائنات الحيةاقترحه كارل لينيوس في منتصف القرن الثامن عشر. تم إنشاء أنظمة مماثلة في العديد من مجالات المعرفة من أجل تنظيم المعلومات حول عدد كبير من الكائنات.

وظائف المسافة

طرق التجميع

  • خوارزميات التجميع الإحصائي
  • المجموعات الهرمية أو التصنيف

بيان رسمي لمشكلة التجميع

يجب أن تكون مجموعة من الكائنات ، تكون مجموعة من الأرقام (الأسماء والتسميات) من المجموعات. تم إعطاء دالة المسافة بين الأشياء. هناك مجموعة تدريب محدودة من الأشياء. مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ، وتختلف كائنات المجموعات المختلفة اختلافًا كبيرًا. في هذه الحالة ، يتم تعيين رقم عنقود لكل كائن.

خوارزمية التجميعهي وظيفة تربط أي كائن برقم عنقود. تُعرف المجموعة في بعض الحالات مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للمجموعات ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

يختلف التجميع (التعلم غير الخاضع للإشراف) عن التصنيف (التعلم الخاضع للإشراف) في أن تسميات الكائنات الأصلية لم يتم تعيينها في البداية ، وقد تكون المجموعة نفسها غير معروفة.

حل مشكلة التجميع غامض بشكل أساسي ، وهناك عدة أسباب لذلك:

  • لا يوجد أفضل معيار فريد لجودة التجميع. يُعرف عدد من المعايير الاستكشافية ، بالإضافة إلى عدد من الخوارزميات التي ليس لها معيار محدد بوضوح ، ولكنها تنفذ مجموعة معقولة إلى حد ما "عن طريق البناء". كل منهم يمكن أن يعطي نتائج مختلفة.
  • عادة ما يكون عدد المجموعات غير معروف مسبقًا ويتم تحديده وفقًا لبعض المعايير الذاتية.
  • تعتمد نتيجة التجميع بشكل كبير على المقياس ، والذي يكون اختياره ، كقاعدة عامة ، ذاتيًا أيضًا ويحدده خبير.

الروابط

  • Vorontsov K.V. طرق تدريس الرياضيات بالسوابق. معهد موسكو للفيزياء والتكنولوجيا (2004) ، VMiK MSU (2007).
  • سيرجي نيكولينكو. شرائح المحاضرة "خوارزميات التجميع 1" و "خوارزميات التجميع 2". دورة نظم التعلم الذاتي.

المؤلفات

  1. Aivazyan S. A. ، Buchstaber V. M. ، Enyukov I. S. ، Meshalkin L. D.الإحصاء التطبيقي: التصنيف وتقليل الأبعاد. - م: المالية والإحصاء ، 1989.
  2. Zhuravlev Yu. I. ، Ryazanov V. V. ، Senko O. V."تعرُّف". الطرق الرياضية. نظام البرمجيات. تطبيقات عملية. - م: فازيس ، 2006.
  3. زاجورويكو ن.الأساليب التطبيقية لتحليل البيانات والمعرفة. - نوفوسيبيرسك: IM SO RAN، 1999.
  4. ماندل آي د.التحليل العنقودي. - م: المالية والإحصاء ، 1988.
  5. شليزنجر م ، Glavach V.عشر محاضرات في التعرف الإحصائي والبنيوي. - كييف: نوكوفا دومكا 2004.
  6. هاستي T. ، تيبشيراني ر ، فريدمان ج.عناصر التعلم الإحصائي. - سبرينغر ، 2001..