ชีวประวัติ ลักษณะเฉพาะ การวิเคราะห์

อัลกอริทึมการจัดกลุ่มข้อมูล อัลกอริทึมตามทฤษฎีกราฟ

การวิเคราะห์คลัสเตอร์คือ

ขอให้เป็นวันที่ดี. ที่นี่ฉันมีความเคารพต่อผู้ที่เป็นแฟนผลงานของพวกเขา

Maxim เพื่อนของฉันอยู่ในหมวดหมู่นี้ ทำงานกับตัวเลข วิเคราะห์ สร้างรายงานที่เกี่ยวข้องอย่างต่อเนื่อง

เมื่อวานนี้เรารับประทานอาหารกลางวันด้วยกัน ดังนั้นเป็นเวลาเกือบครึ่งชั่วโมง เขาจึงเล่าให้ฉันฟังเกี่ยวกับการวิเคราะห์กลุ่ม - มันคืออะไร และในกรณีใดบ้าง การใช้งานนั้นสมเหตุสมผลและเหมาะสม แล้วฉันล่ะ?

ฉันมีความจำดีดังนั้นฉันจะให้ข้อมูลทั้งหมดนี้แก่คุณซึ่งฉันรู้อยู่แล้วในรูปแบบดั้งเดิมและให้ข้อมูลมากที่สุด

การวิเคราะห์คลัสเตอร์ได้รับการออกแบบมาเพื่อแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน (คลัสเตอร์หรือคลาส) นี่เป็นงานของการจำแนกข้อมูลหลายตัวแปร

มีอัลกอริธึมการจัดกลุ่มที่แตกต่างกันประมาณ 100 แบบ อย่างไรก็ตาม ที่ใช้บ่อยที่สุดคือการวิเคราะห์กลุ่มแบบลำดับชั้นและการจัดกลุ่มแบบ k-mean

การวิเคราะห์คลัสเตอร์ใช้ที่ไหน ในด้านการตลาด นี่คือการแบ่งกลุ่มของคู่แข่งและผู้บริโภค

ในการจัดการ: การแบ่งบุคลากรออกเป็นกลุ่มที่มีแรงจูงใจในระดับต่างๆ การจำแนกซัพพลายเออร์ การระบุสถานการณ์การผลิตที่คล้ายคลึงกันซึ่งเกิดการแต่งงานขึ้น

ในทางอายุรกรรม การจำแนก อาการ ผู้ป่วย ยา. ในสังคมวิทยา การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ในความเป็นจริง การวิเคราะห์กลุ่มได้พิสูจน์ตัวเองเป็นอย่างดีในขอบเขตของชีวิตมนุษย์ทั้งหมด

ความสวยงามของวิธีนี้คือใช้งานได้แม้ในขณะที่มีข้อมูลน้อย และไม่เป็นไปตามข้อกำหนดสำหรับการแจกแจงปกติของตัวแปรสุ่มและข้อกำหนดอื่น ๆ ของวิธีการวิเคราะห์ทางสถิติแบบดั้งเดิม

ให้เราอธิบายสาระสำคัญของการวิเคราะห์คลัสเตอร์โดยไม่ต้องใช้คำศัพท์ที่เข้มงวด:
สมมติว่าคุณทำแบบสำรวจพนักงานและต้องการทราบว่าคุณจะจัดการพนักงานของคุณได้อย่างมีประสิทธิภาพสูงสุดได้อย่างไร

นั่นคือ คุณต้องการแบ่งพนักงานออกเป็นกลุ่มๆ และเลือกคันโยกควบคุมที่มีประสิทธิภาพสูงสุดสำหรับแต่ละคน ในเวลาเดียวกัน ความแตกต่างระหว่างกลุ่มควรชัดเจน และภายในกลุ่ม ผู้ตอบควรเหมือนกันมากที่สุด

เพื่อแก้ปัญหา ขอเสนอให้ใช้การวิเคราะห์คลัสเตอร์แบบลำดับชั้น

เป็นผลให้เราได้ต้นไม้โดยดูว่าเราต้องตัดสินใจว่าเราต้องการแบ่งพนักงานออกเป็นกี่คลาส (กลุ่ม)

สมมติว่าเราตัดสินใจแบ่งพนักงานออกเป็นสามกลุ่ม จากนั้นเพื่อศึกษาผู้ตอบแบบสอบถามที่อยู่ในแต่ละกลุ่ม เราจะได้แท็บเล็ตที่มีเนื้อหาดังต่อไปนี้:


ให้เราอธิบายว่าตารางด้านบนเกิดขึ้นได้อย่างไร คอลัมน์แรกมีจำนวนคลัสเตอร์ ซึ่งเป็นกลุ่มที่มีข้อมูลอยู่ในแถว

ตัวอย่างเช่น กลุ่มแรกเป็นผู้ชาย 80% 90% ของกลุ่มแรกอยู่ในกลุ่มอายุตั้งแต่ 30 ถึง 50 ปี และ 12% ของผู้ตอบแบบสอบถามเชื่อว่าผลประโยชน์มีความสำคัญมาก และอื่น ๆ

มาลองสร้างภาพของผู้ตอบแบบสอบถามในแต่ละคลัสเตอร์:

  1. กลุ่มแรกส่วนใหญ่เป็นผู้ชายวัยผู้ใหญ่ที่มีตำแหน่งผู้นำ แพ็คเกจโซเชียล (MED, LGOTI, เวลาว่าง TIME) ไม่สนใจพวกเขา พวกเขาต้องการได้รับเงินเดือนที่ดีมากกว่าความช่วยเหลือจากนายจ้าง
  2. ในทางกลับกัน กลุ่มที่สองชอบแพ็คเกจโซเชียลมากกว่า ส่วนใหญ่ประกอบด้วยคน "สูงอายุ" ที่ดำรงตำแหน่งต่ำ เงินเดือนเป็นสิ่งสำคัญสำหรับพวกเขาอย่างแน่นอน แต่ก็มีลำดับความสำคัญอื่น ๆ
  3. กลุ่มที่สามคือ มีความสนใจที่ชัดเจนในการเรียนรู้และโอกาสในการเติบโตทางวิชาชีพ พนักงานประเภทนี้มีโอกาสที่จะเติมเต็มกลุ่มแรกในไม่ช้า

ดังนั้น เมื่อวางแผนการรณรงค์เพื่อแนะนำวิธีการจัดการบุคลากรที่มีประสิทธิภาพ เห็นได้ชัดว่าในสถานการณ์ของเรา มีความเป็นไปได้ที่จะเพิ่มแพ็คเกจทางสังคมสำหรับกลุ่มที่สองเพื่อลดความเสียหาย เช่น ค่าจ้าง

หากเราพูดถึงว่าควรส่งผู้เชี่ยวชาญคนใดไปฝึกอบรม เราขอแนะนำให้ให้ความสนใจกับกลุ่มที่สามอย่างแน่นอน

ที่มา: http://www.niccart.spb.ru/analysis/cluster.php

คุณสมบัติของการวิเคราะห์คลัสเตอร์

คลัสเตอร์คือราคาของสินทรัพย์ในช่วงเวลาหนึ่งที่มีการทำธุรกรรม ปริมาณการซื้อและการขายที่ได้จะระบุด้วยตัวเลขภายในคลัสเตอร์

แถบของ TF ใด ๆ ตามกฎแล้วมีหลายคลัสเตอร์ ซึ่งช่วยให้คุณเห็นรายละเอียดปริมาณการซื้อ การขาย และยอดคงเหลือในแต่ละแถบสำหรับแต่ละระดับราคา


การเปลี่ยนแปลงในราคาของสินทรัพย์หนึ่งอย่างหลีกเลี่ยงไม่ได้ทำให้เกิดการเคลื่อนไหวของราคาในตราสารอื่นๆ ด้วยเช่นกัน

ความสนใจ!

ในกรณีส่วนใหญ่ ความเข้าใจเกี่ยวกับการเคลื่อนไหวของเทรนด์จะเกิดขึ้นแล้วในขณะที่มันกำลังพัฒนาอย่างรวดเร็ว และการเข้าสู่ตลาดตามเทรนด์นั้นเต็มไปด้วยการตกลงสู่คลื่นแก้ไข

สำหรับการเทรดที่ประสบความสำเร็จ จำเป็นต้องเข้าใจสถานการณ์ปัจจุบันและสามารถคาดการณ์การเคลื่อนไหวของราคาในอนาคตได้ สามารถเรียนรู้ได้โดยการวิเคราะห์กราฟคลัสเตอร์

ด้วยความช่วยเหลือของการวิเคราะห์คลัสเตอร์ คุณสามารถดูกิจกรรมของผู้เข้าร่วมตลาดได้แม้ในแถบราคาที่เล็กที่สุด นี่คือการวิเคราะห์ที่แม่นยำและมีรายละเอียดมากที่สุด เนื่องจากแสดงการกระจายจุดของปริมาณธุรกรรมสำหรับแต่ละระดับราคาสินทรัพย์

ในตลาดมีการเผชิญหน้ากันอย่างต่อเนื่องระหว่างผลประโยชน์ของผู้ขายและผู้ซื้อ และทุกการเคลื่อนไหวของราคาที่เล็กที่สุด (ขีด) คือการย้ายไปสู่การประนีประนอม - ระดับราคา - ซึ่งเหมาะสมกับทั้งสองฝ่ายในขณะนี้

แต่ตลาดเป็นแบบไดนามิก จำนวนผู้ขายและผู้ซื้อเปลี่ยนแปลงตลอดเวลา หากในช่วงเวลาหนึ่งตลาดถูกครอบงำโดยผู้ขาย ช่วงเวลาต่อไปก็น่าจะมีผู้ซื้อ

จำนวนธุรกรรมที่เสร็จสมบูรณ์ในระดับราคาใกล้เคียงก็ไม่เท่ากันเช่นกัน และประการแรก สถานการณ์ตลาดจะสะท้อนให้เห็นในปริมาณธุรกรรมทั้งหมด และต่อด้วยราคาเท่านั้น

หากคุณเห็นการกระทำของผู้เข้าร่วมตลาดที่โดดเด่น (ผู้ขายหรือผู้ซื้อ) คุณก็สามารถทำนายการเคลื่อนไหวของราคาได้

หากต้องการใช้การวิเคราะห์คลัสเตอร์ให้สำเร็จ คุณต้องเข้าใจก่อนว่าคลัสเตอร์และเดลต้าคืออะไร


คลัสเตอร์เรียกว่าการเคลื่อนไหวของราคา ซึ่งแบ่งออกเป็นระดับที่ทำธุรกรรมด้วยปริมาณที่รู้จัก เดลต้าแสดงความแตกต่างระหว่างการซื้อและการขายที่เกิดขึ้นในแต่ละคลัสเตอร์

แต่ละคลัสเตอร์หรือกลุ่มเดลต้า ช่วยให้คุณทราบได้ว่าผู้ซื้อหรือผู้ขายเป็นผู้ครองตลาดในช่วงเวลาหนึ่งๆ

การคำนวณเดลต้าทั้งหมดโดยสรุปยอดขายและการซื้อก็เพียงพอแล้ว หากเดลต้าเป็นลบ แสดงว่าตลาดมีการขายมากเกินไป มีธุรกรรมการขายซ้ำซ้อน เมื่อเดลต้าเป็นบวก ตลาดจะถูกครอบงำโดยผู้ซื้ออย่างชัดเจน

ตัวเดลต้าสามารถรับค่าปกติหรือค่าวิกฤตได้ ค่าของปริมาณเดลต้าที่สูงกว่าค่าปกติในคลัสเตอร์จะถูกเน้นด้วยสีแดง

หากค่าเดลต้าอยู่ในระดับปานกลาง แสดงว่าเป็นสถานะที่คงที่ในตลาด ด้วยค่าเดลต้าปกติ ความเคลื่อนไหวของเทรนด์จะถูกสังเกตในตลาด แต่ค่าวิกฤตมักเป็นลางสังหรณ์ของการกลับตัวของราคา

การซื้อขายฟอเร็กซ์กับ CA

เพื่อให้ได้กำไรสูงสุด คุณต้องสามารถกำหนดการเปลี่ยนแปลงของเดลต้าจากระดับปานกลางเป็นระดับปกติได้ ในกรณีนี้ คุณสามารถสังเกตเห็นจุดเริ่มต้นของการเปลี่ยนแปลงจากการพักตัวเป็นการเคลื่อนไหวตามแนวโน้มและสามารถรับผลกำไรสูงสุดได้

แผนภูมิคลัสเตอร์เป็นภาพที่ชัดเจนยิ่งขึ้น คุณสามารถดูระดับการสะสมและการกระจายปริมาณที่มีนัยสำคัญ สร้างแนวรับและแนวต้าน สิ่งนี้ทำให้ผู้ซื้อขายสามารถค้นหารายการที่แน่นอนในการซื้อขาย

การใช้เดลต้าสามารถตัดสินความเด่นของการขายหรือการซื้อในตลาดได้ การวิเคราะห์คลัสเตอร์ช่วยให้คุณสามารถสังเกตธุรกรรมและติดตามปริมาณภายในแถบของ TF ใดก็ได้

นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อเข้าใกล้แนวรับหรือแนวต้านที่สำคัญ การตัดสินแบบคลัสเตอร์เป็นกุญแจสำคัญในการทำความเข้าใจตลาด

ที่มา: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

พื้นที่และคุณสมบัติของการประยุกต์ใช้การวิเคราะห์คลัสเตอร์

คำว่า การวิเคราะห์กลุ่ม (เปิดตัวครั้งแรกโดย Tryon, 1939) จริงๆ แล้วรวมถึงชุดของอัลกอริทึมการจัดหมวดหมู่ที่แตกต่างกัน

คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาคือวิธีการจัดระเบียบข้อมูลที่สังเกตให้เป็นโครงสร้างภาพ เช่น ขยายอนุกรมวิธาน

ตามระบบสมัยใหม่ที่ยอมรับในชีววิทยา มนุษย์จัดอยู่ในกลุ่มไพรเมต สัตว์เลี้ยงลูกด้วยนม น้ำคร่ำ สัตว์มีกระดูกสันหลัง และสัตว์ต่างๆ

โปรดทราบว่าในการจำแนกประเภทนี้ ระดับการรวมที่สูงขึ้น ความคล้ายคลึงกันระหว่างสมาชิกในชั้นเรียนที่สอดคล้องกันก็จะน้อยลง

มนุษย์มีความคล้ายคลึงกันกับไพรเมตอื่นๆ (เช่น ลิง) มากกว่ากับสมาชิกที่ "ห่างเหิน" ของครอบครัวสัตว์เลี้ยงลูกด้วยนม (เช่น สุนัข) เป็นต้น

โปรดทราบว่าการสนทนาก่อนหน้านี้อ้างถึงอัลกอริทึมการจัดกลุ่ม แต่ไม่ได้กล่าวถึงการทดสอบนัยสำคัญทางสถิติ

อันที่จริงแล้ว การวิเคราะห์คลัสเตอร์ไม่ใช่วิธีการทางสถิติธรรมดามากเท่ากับเป็น "ชุด" ของอัลกอริทึมต่างๆ สำหรับ "การกระจายอ็อบเจกต์ไปยังคลัสเตอร์"

มีมุมมองที่ไม่เหมือนกับขั้นตอนทางสถิติอื่นๆ ตรงที่ วิธีการวิเคราะห์กลุ่มจะถูกใช้ในกรณีส่วนใหญ่เมื่อคุณไม่มีสมมติฐานเบื้องต้นเกี่ยวกับคลาส แต่ยังอยู่ในขั้นตอนการอธิบายของการวิจัย

ความสนใจ!

ควรเข้าใจว่าการวิเคราะห์กลุ่มเป็นตัวกำหนด "การตัดสินใจที่มีความหมายมากที่สุด"

ดังนั้น การทดสอบนัยสำคัญทางสถิติจึงใช้ไม่ได้จริงๆ แม้ในกรณีที่ทราบระดับ p (เช่น ในวิธี K-mean)

เทคนิคการจัดกลุ่มใช้ในหลากหลายสาขา Hartigan (1975) ได้ให้ภาพรวมที่ยอดเยี่ยมของการศึกษาที่ตีพิมพ์จำนวนมากซึ่งมีผลที่ได้จากวิธีการวิเคราะห์แบบกลุ่ม

ตัวอย่างเช่น ในด้านการแพทย์ การจัดกลุ่มของโรค การรักษาโรค หรืออาการของโรคนำไปสู่การจัดอนุกรมวิธานที่ใช้กันอย่างแพร่หลาย

ในด้านจิตเวชศาสตร์ การวินิจฉัยที่ถูกต้องของกลุ่มอาการ เช่น โรคหวาดระแวง โรคจิตเภท ฯลฯ มีความสำคัญอย่างยิ่งต่อการรักษาให้ประสบความสำเร็จ ในทางโบราณคดี นักวิจัยกำลังพยายามสร้างอนุกรมวิธานของเครื่องมือหิน วัตถุเกี่ยวกับศพ ฯลฯ โดยใช้การวิเคราะห์กลุ่ม ในทางโบราณคดี

มีการประยุกต์ใช้การวิเคราะห์กลุ่มในการวิจัยการตลาดอย่างกว้างขวาง โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนก "ภูเขา" ของข้อมูลออกเป็นกลุ่มที่เหมาะสมสำหรับการประมวลผลเพิ่มเติม การวิเคราะห์กลุ่มจะมีประโยชน์และมีประสิทธิภาพมาก

การจัดกลุ่มต้นไม้

ตัวอย่างในส่วนวัตถุประสงค์หลักจะอธิบายถึงวัตถุประสงค์ของอัลกอริทึมการรวม (การจัดกลุ่มต้นไม้)

จุดประสงค์ของอัลกอริทึมนี้คือการรวมวัตถุ (เช่น สัตว์) เป็นกลุ่มใหญ่เพียงพอโดยใช้การวัดความคล้ายคลึงหรือระยะห่างระหว่างวัตถุ ผลลัพธ์ทั่วไปของการจัดกลุ่มดังกล่าวคือต้นไม้แบบลำดับชั้น

พิจารณาแผนภาพต้นไม้แนวนอน ไดอะแกรมเริ่มต้นด้วยแต่ละอ็อบเจกต์ในคลาส (ทางด้านซ้ายของไดอะแกรม)

ตอนนี้ลองนึกภาพว่าค่อยๆ (ในขั้นตอนเล็ก ๆ ) คุณ "ลด" เกณฑ์ของคุณสำหรับสิ่งที่เป็นเอกลักษณ์และสิ่งที่ไม่

กล่าวอีกนัยหนึ่ง คุณจะลดเกณฑ์ที่เกี่ยวข้องกับการตัดสินใจรวมสองออบเจ็กต์ขึ้นไปในคลัสเตอร์เดียว

เป็นผลให้คุณเชื่อมโยงวัตถุเข้าด้วยกันมากขึ้นและรวม (รวม) คลัสเตอร์ขององค์ประกอบที่แตกต่างกันมากขึ้นเรื่อยๆ

สุดท้าย ในขั้นตอนสุดท้าย วัตถุทั้งหมดจะถูกรวมเข้าด้วยกัน ในแผนภูมิเหล่านี้ แกนแนวนอนแสดงถึงระยะการรวม (ใน dendrograms แนวตั้ง แกนแนวตั้งแสดงถึงระยะการรวม)

ดังนั้น สำหรับแต่ละโหนดในกราฟ (ที่เกิดคลัสเตอร์ใหม่) คุณจะเห็นระยะทางที่องค์ประกอบที่เกี่ยวข้องเชื่อมโยงกับคลัสเตอร์เดี่ยวใหม่

เมื่อข้อมูลมี "โครงสร้าง" ที่ชัดเจนในแง่ของกลุ่มของออบเจกต์ที่คล้ายกัน โครงสร้างนี้ก็น่าจะสะท้อนให้เห็นในแผนผังลำดับชั้นตามสาขาต่างๆ

ผลจากการวิเคราะห์ที่ประสบความสำเร็จโดยวิธีการรวม ทำให้สามารถตรวจจับคลัสเตอร์ (สาขา) และตีความได้

วิธีการจัดกลุ่มแบบยูเนี่ยนหรือทรีใช้ในการสร้างกลุ่มของความแตกต่างหรือระยะห่างระหว่างวัตถุ ระยะทางเหล่านี้สามารถกำหนดในพื้นที่หนึ่งมิติหรือหลายมิติ

ตัวอย่างเช่น หากคุณต้องจัดกลุ่มประเภทของอาหารในร้านกาแฟ คุณสามารถคำนึงถึงจำนวนแคลอรี่ที่บรรจุในนั้น ราคา การประเมินรสชาติตามอัตวิสัย เป็นต้น

วิธีที่ตรงที่สุดในการคำนวณระยะทางระหว่างวัตถุในปริภูมิหลายมิติคือการคำนวณระยะทางแบบยุคลิด

หากคุณมีสเปซ 2 มิติหรือ 3 มิติ การวัดนี้คือระยะห่างทางเรขาคณิตจริงระหว่างวัตถุในอวกาศ (ราวกับว่าระยะห่างระหว่างวัตถุถูกวัดด้วยตลับเมตร)

อย่างไรก็ตาม อัลกอริธึมการรวมกลุ่มไม่ได้ "สนใจ" ว่าระยะทาง "ให้" สำหรับระยะทางนั้นเป็นจริงหรือมาตรวัดระยะทางอื่นๆ ซึ่งมีความหมายมากกว่าสำหรับนักวิจัย และความท้าทายสำหรับนักวิจัยคือการเลือกวิธีที่เหมาะสมสำหรับการใช้งานเฉพาะ

ระยะทางแบบยุคลิดนี่ดูเหมือนจะเป็นระยะทางที่พบมากที่สุด เป็นเพียงระยะทางเรขาคณิตในปริภูมิหลายมิติและคำนวณได้ดังนี้:

โปรดทราบว่าระยะทางแบบยุคลิด (และกำลังสอง) คำนวณจากข้อมูลต้นฉบับ ไม่ใช่จากข้อมูลมาตรฐาน

นี่เป็นวิธีปกติในการคำนวณซึ่งมีข้อดีบางประการ (เช่น ระยะห่างระหว่างวัตถุสองชิ้นจะไม่เปลี่ยนแปลงเมื่อมีการแนะนำวัตถุใหม่เข้ามาในการวิเคราะห์ ซึ่งอาจกลายเป็นค่าผิดปกติ)

ความสนใจ!

อย่างไรก็ตาม ระยะทางอาจได้รับผลกระทบอย่างมากจากความแตกต่างระหว่างแกนที่ใช้คำนวณระยะทาง ตัวอย่างเช่น หากแกนใดแกนหนึ่งวัดเป็นเซนติเมตร แล้วแปลงเป็นมิลลิเมตร (โดยการคูณค่าด้วย 10) ระยะทางแบบยุคลิดสุดท้าย (หรือกำลังสองของระยะทางแบบยุคลิด) ที่คำนวณจากพิกัดจะ เปลี่ยนแปลงอย่างรวดเร็ว และเป็นผลให้ผลลัพธ์ของการวิเคราะห์คลัสเตอร์อาจแตกต่างอย่างมากจากผลก่อนหน้านี้

กำลังสองของระยะทางแบบยุคลิดบางครั้งคุณอาจต้องการยกกำลังสองของระยะห่างแบบยุคลิดมาตรฐานเพื่อให้น้ำหนักวัตถุที่อยู่ไกลมากขึ้น

ระยะทางนี้คำนวณดังนี้:

ระยะทางระหว่างเมือง (ระยะทางแมนฮัตตัน)ระยะทางนี้เป็นเพียงค่าเฉลี่ยของความแตกต่างของพิกัด

ในกรณีส่วนใหญ่ การวัดระยะทางนี้จะนำไปสู่ผลลัพธ์เดียวกันกับการวัดระยะทางแบบยุคลิดตามปกติ

อย่างไรก็ตาม โปรดทราบว่าสำหรับการวัดนี้ อิทธิพลของความแตกต่างขนาดใหญ่ของแต่ละบุคคล (ค่าผิดปกติ) จะลดลง (เนื่องจากไม่ได้กำลังสอง) ระยะทางแมนฮัตตันคำนวณโดยใช้สูตร:

ระยะทางเชบีเชฟระยะนี้มีประโยชน์เมื่อต้องการนิยามวัตถุสองชิ้นว่า "ต่างกัน" หากวัตถุทั้งสองต่างกันในพิกัดใดพิกัดหนึ่ง (มิติใดมิติหนึ่ง) ระยะทาง Chebyshev คำนวณโดยสูตร:

ระยะห่างของพลังงานบางครั้งก็ต้องการเพิ่มหรือลดน้ำหนักที่เกี่ยวข้องกับมิติที่วัตถุที่เกี่ยวข้องแตกต่างกันมาก

สามารถทำได้โดยใช้ระยะทางของกฎหมายพลังงาน ระยะทางกำลังคำนวณโดยสูตร:

โดยที่ r และ p เป็นพารามิเตอร์ที่ผู้ใช้กำหนด ตัวอย่างการคำนวณบางส่วนสามารถแสดงให้เห็นว่าการวัดนี้ "ทำงาน" อย่างไร

พารามิเตอร์ p รับผิดชอบการถ่วงน้ำหนักทีละน้อยของความแตกต่างในแต่ละพิกัด พารามิเตอร์ r รับผิดชอบการถ่วงน้ำหนักแบบก้าวหน้าของระยะห่างระหว่างวัตถุ หากพารามิเตอร์ทั้งสอง - r และ p มีค่าเท่ากับ 2 แสดงว่าระยะทางนี้ตรงกับระยะทางแบบยุคลิด

เปอร์เซ็นต์ของความขัดแย้งมาตรการนี้ใช้เมื่อข้อมูลเป็นหมวดหมู่ ระยะทางนี้คำนวณโดยสูตร:

สมาคมหรือกฎของสมาคม

ในขั้นตอนแรก เมื่อวัตถุแต่ละชิ้นเป็นกลุ่มที่แยกจากกัน ระยะห่างระหว่างวัตถุเหล่านี้จะถูกกำหนดโดยการวัดที่เลือก

อย่างไรก็ตาม เมื่อมีการเชื่อมโยงวัตถุหลายชิ้นเข้าด้วยกัน คำถามก็เกิดขึ้น ระยะห่างระหว่างกลุ่มจะกำหนดได้อย่างไร

กล่าวอีกนัยหนึ่ง คุณต้องมีกฎการเข้าร่วมหรือลิงก์สำหรับสองคลัสเตอร์ มีความเป็นไปได้หลายอย่าง เช่น คุณสามารถเชื่อมโยงสองคลัสเตอร์เข้าด้วยกันได้เมื่อวัตถุสองชิ้นในสองคลัสเตอร์อยู่ใกล้กันมากกว่าระยะลิงก์ที่สัมพันธ์กัน

กล่าวอีกนัยหนึ่ง คุณใช้ "กฎเพื่อนบ้านที่ใกล้ที่สุด" เพื่อกำหนดระยะห่างระหว่างคลัสเตอร์ วิธีนี้เรียกว่าวิธีการเชื่อมโยงเดียว

กฎนี้สร้างคลัสเตอร์ "เส้นใย" เช่น กลุ่ม "เชื่อมโยงกัน" โดยองค์ประกอบแต่ละรายการที่อยู่ใกล้กันมากกว่าองค์ประกอบอื่นเท่านั้น

อีกทางหนึ่ง คุณสามารถใช้เพื่อนบ้านในกลุ่มที่อยู่ห่างจากคู่คุณลักษณะอื่น ๆ ทั้งหมดมากที่สุด วิธีการนี้เรียกว่าวิธีการเชื่อมโยงแบบเต็ม

นอกจากนี้ยังมีวิธีการอื่น ๆ อีกมากมายในการเข้าร่วมคลัสเตอร์ คล้ายกับที่ได้กล่าวไปแล้ว

การเชื่อมต่อแบบเดี่ยว (วิธีเพื่อนบ้านที่ใกล้ที่สุด) ตามที่อธิบายไว้ข้างต้น ในวิธีนี้ ระยะห่างระหว่างสองกลุ่มถูกกำหนดโดยระยะห่างระหว่างสองวัตถุที่อยู่ใกล้ที่สุด (เพื่อนบ้านที่ใกล้ที่สุด) ในกลุ่มที่แตกต่างกัน

ตามกฎแล้ว กฎนี้ต้องสตริงวัตถุเข้าด้วยกันเพื่อสร้างคลัสเตอร์ และคลัสเตอร์ที่เป็นผลลัพธ์มักจะแสดงด้วย "สตริง" แบบยาว

การเชื่อมต่อแบบเต็ม (วิธีการของเพื่อนบ้านที่ห่างไกลที่สุด)ในวิธีนี้ ระยะห่างระหว่างกลุ่มถูกกำหนดให้เป็นระยะทางที่ใหญ่ที่สุดระหว่างวัตถุสองชิ้นใดๆ ในกลุ่มที่แตกต่างกัน (เช่น "เพื่อนบ้านที่อยู่ไกลที่สุด")

ค่าเฉลี่ยแบบคู่ที่ไม่ได้ถ่วงน้ำหนักในวิธีนี้ ระยะห่างระหว่างกลุ่มที่แตกต่างกันสองกลุ่มจะถูกคำนวณเป็นระยะทางเฉลี่ยระหว่างคู่ของวัตถุทั้งหมดในกลุ่มนั้น

วิธีนี้ใช้ได้ผลเมื่อวัตถุสร้าง "สวน" ที่แตกต่างกันจริง ๆ แต่ก็ใช้ได้ดีพอ ๆ กันในกรณีของคลัสเตอร์แบบขยาย (ประเภท "โซ่")

โปรดทราบว่าในหนังสือของพวกเขา Sneath and Sokal (1973) แนะนำตัวย่อ UPGMA เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเลขคณิต

ค่าเฉลี่ยแบบคู่ถ่วงน้ำหนักวิธีการนี้เหมือนกันกับวิธีการหาค่าเฉลี่ยแบบคู่ที่ไม่ได้ถ่วงน้ำหนัก ยกเว้นขนาดของกลุ่มที่เกี่ยวข้อง (กล่าวคือ จำนวนของออบเจกต์ที่มีอยู่) จะถูกใช้เป็นปัจจัยถ่วงน้ำหนักในการคำนวณ

ดังนั้นควรใช้วิธีที่เสนอ (แทนที่จะใช้วิธีก่อนหน้า) เมื่อสันนิษฐานว่าขนาดคลัสเตอร์ไม่เท่ากัน

Sneath และ Sokal (1973) แนะนำตัวย่อ WPGMA เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเลขคณิต

วิธีเซนทรอยด์แบบไม่ถ่วงน้ำหนัก ในวิธีนี้ ระยะห่างระหว่างสองกลุ่มถูกกำหนดให้เป็นระยะห่างระหว่างจุดศูนย์ถ่วง

ความสนใจ!

Sneath และ Sokal (1973) ใช้ตัวย่อว่า UPGMC เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเซนทรอยด์

วิธี centroid ถ่วงน้ำหนัก (ค่ามัธยฐาน) วิธีนี้เหมือนกับวิธีก่อนหน้า ยกเว้นว่ามีการใช้น้ำหนักในการคำนวณเพื่อพิจารณาความแตกต่างระหว่างขนาดคลัสเตอร์ (เช่น จำนวนของออบเจกต์ในนั้น)

ดังนั้น หากมี (หรือสงสัยว่า) มีความแตกต่างอย่างมีนัยสำคัญในขนาดคลัสเตอร์ วิธีนี้จะดีกว่าวิธีก่อนหน้า

Sneath and Sokal (1973) ใช้ตัวย่อว่า WPGMC เพื่ออ้างถึงวิธีการแบบกลุ่มคู่ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเซนทรอยด์

วิธีการวอร์ดวิธีนี้แตกต่างจากวิธีอื่นๆ เนื่องจากใช้วิธี ANOVA ในการประมาณระยะทางระหว่างคลัสเตอร์

วิธีการนี้ช่วยลดผลรวมของกำลังสอง (SS) สำหรับสองกลุ่ม (สมมุติฐาน) ใดๆ ที่สามารถสร้างได้ในแต่ละขั้นตอน

สามารถดูรายละเอียดได้ใน Ward (1963) โดยทั่วไป วิธีการนี้ดูเหมือนจะมีประสิทธิภาพมาก แต่ก็มีแนวโน้มที่จะสร้างคลัสเตอร์ขนาดเล็ก

ก่อนหน้านี้มีการกล่าวถึงวิธีการนี้ในแง่ของ "วัตถุ" ที่ควรจัดกลุ่ม ในการวิเคราะห์ประเภทอื่นๆ ทั้งหมด คำถามที่ผู้วิจัยสนใจมักจะแสดงออกในรูปของข้อสังเกตหรือตัวแปร

ปรากฎว่าการจัดกลุ่มทั้งจากการสังเกตและโดยตัวแปรสามารถนำไปสู่ผลลัพธ์ที่น่าสนใจทีเดียว

ตัวอย่างเช่น จินตนาการว่านักวิจัยทางการแพทย์กำลังรวบรวมข้อมูลลักษณะต่างๆ (ตัวแปร) ของอาการของผู้ป่วย (การสังเกต) ที่เป็นโรคหัวใจ

ผู้วิจัยอาจต้องการจัดกลุ่มการสังเกต (ของผู้ป่วย) เพื่อระบุกลุ่มของผู้ป่วยที่มีอาการคล้ายคลึงกัน

ในขณะเดียวกัน ผู้วิจัยอาจต้องการจัดกลุ่มตัวแปรเพื่อระบุกลุ่มของตัวแปรที่เกี่ยวข้องกับสถานะทางกายภาพที่คล้ายคลึงกันe

หลังจากการอภิปรายนี้ว่าควรจัดกลุ่มการสังเกตหรือตัวแปรหรือไม่ อาจมีบางคนถามว่าทำไมไม่จัดกลุ่มทั้งสองทิศทาง

โมดูลการวิเคราะห์คลัสเตอร์มีขั้นตอนการเข้าร่วมแบบสองทางที่มีประสิทธิภาพเพื่อดำเนินการดังกล่าว

อย่างไรก็ตาม มีการใช้การรวมสองทาง (ค่อนข้างน้อย) ในสถานการณ์ที่คาดว่าทั้งการสังเกตและตัวแปรจะนำไปสู่การค้นพบคลัสเตอร์ที่มีความหมายพร้อมกัน

ดังนั้น เมื่อย้อนกลับไปที่ตัวอย่างก่อนหน้านี้ เราสามารถสรุปได้ว่านักวิจัยทางการแพทย์จำเป็นต้องระบุกลุ่มของผู้ป่วยที่คล้ายคลึงกันโดยสัมพันธ์กับกลุ่มลักษณะสภาพร่างกายบางกลุ่ม

ความยากลำบากในการตีความผลลัพธ์ที่ได้นั้นเกิดจากข้อเท็จจริงที่ว่าความคล้ายคลึงกันระหว่างกลุ่มต่างๆ อาจมาจาก (หรือเป็นสาเหตุของ) ความแตกต่างบางอย่างในชุดย่อยของตัวแปร

ดังนั้นกลุ่มผลลัพธ์จึงมีความแตกต่างกันโดยเนื้อแท้ บางทีมันอาจจะดูคลุมเครือเล็กน้อยในตอนแรก เมื่อเทียบกับวิธีการวิเคราะห์คลัสเตอร์อื่นๆ ที่อธิบายไว้ การรวมสองทางน่าจะเป็นวิธีที่ใช้กันน้อยที่สุด

อย่างไรก็ตาม นักวิจัยบางคนเชื่อว่ามันเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ (สำหรับข้อมูลเพิ่มเติม โปรดดูคำอธิบายของ Hartigan เกี่ยวกับวิธีนี้ (Hartigan, 1975))

K หมายถึงวิธีการ

วิธีการจัดกลุ่มนี้แตกต่างอย่างมากจากวิธีการรวมกลุ่ม เช่น ยูเนียน (การจัดกลุ่มต้นไม้) และทูเวย์ยูเนี่ยน สมมติว่าคุณมีสมมติฐานเกี่ยวกับจำนวนของกลุ่มอยู่แล้ว (โดยการสังเกตหรือตามตัวแปร)

คุณสามารถบอกให้ระบบสร้างคลัสเตอร์สามกลุ่มเพื่อให้มีความแตกต่างกันมากที่สุดเท่าที่จะเป็นไปได้

นี่คือประเภทของปัญหาที่อัลกอริทึม K-Means แก้ปัญหา โดยทั่วไปแล้ว วิธี K-mean จะสร้างกลุ่ม K ที่แตกต่างกันอย่างชัดเจนโดยเว้นระยะห่างให้มากที่สุดเท่าที่จะเป็นไปได้

ในตัวอย่างสภาพร่างกาย นักวิจัยทางการแพทย์อาจมี "ลางสังหรณ์" จากประสบการณ์ทางคลินิกว่าโดยทั่วไปแล้ว ผู้ป่วยจะแบ่งออกเป็นสามประเภทที่แตกต่างกัน

ความสนใจ!

ถ้าเป็นเช่นนั้น ค่าเฉลี่ยของการวัดค่าพารามิเตอร์ทางกายภาพต่างๆ สำหรับแต่ละคลัสเตอร์จะให้วิธีเชิงปริมาณในการแสดงสมมติฐานของผู้วิจัย (เช่น ผู้ป่วยในกลุ่มที่ 1 มีพารามิเตอร์สูงที่ 1 พารามิเตอร์ที่ต่ำกว่าที่ 2 เป็นต้น)

จากมุมมองของการคำนวณ คุณสามารถคิดว่าวิธีนี้เป็นการวิเคราะห์ความแปรปรวน "ในทางกลับกัน" โปรแกรมเริ่มต้นด้วยกลุ่ม K ที่เลือกแบบสุ่ม จากนั้นเปลี่ยนสิ่งที่เป็นของวัตถุเหล่านั้นเพื่อ:

  1. ลดความแปรปรวนภายในคลัสเตอร์
  2. เพิ่มความแปรปรวนระหว่างคลัสเตอร์

วิธีนี้คล้ายกับการวิเคราะห์ความแปรปรวนแบบย้อนกลับ (ANOVA) โดยที่การทดสอบนัยสำคัญใน ANOVA จะเปรียบเทียบระหว่างความแปรปรวนระหว่างกลุ่มกับความแปรปรวนภายในกลุ่มในการทดสอบสมมติฐานว่าความหมายของกลุ่มแตกต่างกัน

ในการจัดกลุ่มแบบ K-mean โปรแกรมจะย้ายวัตถุ (เช่น การสังเกต) จากกลุ่มหนึ่ง (กลุ่ม) ไปยังอีกกลุ่มหนึ่ง เพื่อให้ได้ผลลัพธ์ที่สำคัญที่สุดเมื่อทำการวิเคราะห์ความแปรปรวน (ANOVA)

โดยทั่วไป เมื่อได้รับผลลัพธ์ของการวิเคราะห์คลัสเตอร์ K-mean เราสามารถคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์สำหรับแต่ละมิติเพื่อประเมินว่าคลัสเตอร์แตกต่างกันอย่างไร

ตามหลักการแล้ว คุณควรได้รับค่าเฉลี่ยที่แตกต่างกันมากสำหรับการวัดส่วนใหญ่ที่ใช้ในการวิเคราะห์ หากไม่ใช่ทั้งหมด

ที่มา: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

การจำแนกประเภทของวัตถุตามลักษณะ

การวิเคราะห์กลุ่ม (การวิเคราะห์กลุ่ม) - ชุดของวิธีการทางสถิติหลายมิติสำหรับการจำแนกวัตถุตามลักษณะการแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกันซึ่งใกล้เคียงกันในแง่ของการกำหนดเกณฑ์การเลือกวัตถุของกลุ่มใดกลุ่มหนึ่ง

คลัสเตอร์คือกลุ่มของวัตถุที่ระบุโดยเป็นผลมาจากการวิเคราะห์กลุ่มตามการวัดความเหมือนหรือความแตกต่างระหว่างวัตถุที่กำหนด

วัตถุ คือ วิชาเฉพาะที่ต้องการจำแนก ตามกฎแล้ววัตถุในการจำแนกประเภทคือการสังเกต ตัวอย่างเช่น ผู้บริโภคผลิตภัณฑ์ ประเทศหรือภูมิภาค ผลิตภัณฑ์ ฯลฯ

แม้ว่าจะสามารถทำการวิเคราะห์กลุ่มตามตัวแปรได้ การจำแนกประเภทของวัตถุในการวิเคราะห์คลัสเตอร์หลายมิติเกิดขึ้นตามเกณฑ์หลายประการพร้อมกัน

สิ่งเหล่านี้สามารถเป็นได้ทั้งตัวแปรเชิงปริมาณและเชิงหมวดหมู่ ขึ้นอยู่กับวิธีการวิเคราะห์กลุ่ม ดังนั้น เป้าหมายหลักของการวิเคราะห์กลุ่มคือการค้นหากลุ่มของวัตถุที่คล้ายกันในตัวอย่าง

ชุดของวิธีการทางสถิติหลายมิติของการวิเคราะห์กลุ่มสามารถแบ่งออกเป็นวิธีการแบบลำดับชั้น (การรวมและการแบ่งแยก) และแบบไม่มีลำดับชั้น (วิธี k-mean, การวิเคราะห์กลุ่มแบบสองขั้นตอน)

อย่างไรก็ตาม ไม่มีการจำแนกประเภทของวิธีการที่เป็นที่ยอมรับโดยทั่วไป และบางครั้งวิธีการวิเคราะห์แบบกลุ่มยังรวมถึงวิธีการสำหรับการสร้างแผนผังการตัดสินใจ โครงข่ายประสาทเทียม การวิเคราะห์แบบจำแนก และการถดถอยโลจิสติก

ขอบเขตของการวิเคราะห์คลัสเตอร์นั้นกว้างมากเนื่องจากความสามารถรอบด้าน การวิเคราะห์คลัสเตอร์ใช้ในเศรษฐศาสตร์ การตลาด โบราณคดี การแพทย์ จิตวิทยา เคมี ชีววิทยา รัฐประศาสนศาสตร์ ภาษาศาสตร์ มานุษยวิทยา สังคมวิทยา และสาขาอื่นๆ

ต่อไปนี้คือตัวอย่างบางส่วนของการใช้การวิเคราะห์คลัสเตอร์:

  • ยา - การจำแนกโรค อาการ วิธีการรักษา การจำแนกกลุ่มผู้ป่วย
  • การตลาด - ภารกิจในการเพิ่มประสิทธิภาพสายผลิตภัณฑ์ของ บริษัท แบ่งส่วนตลาดตามกลุ่มสินค้าหรือผู้บริโภค ระบุผู้บริโภคที่มีศักยภาพ
  • สังคมวิทยา - การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน
  • จิตเวชศาสตร์ - การวินิจฉัยกลุ่มอาการที่ถูกต้องเป็นสิ่งสำคัญสำหรับการรักษาที่ประสบความสำเร็จ
  • ชีววิทยา - การจำแนกสิ่งมีชีวิตตามกลุ่ม
  • เศรษฐกิจ - การจำแนกประเภทของสหพันธรัฐรัสเซียตามความน่าดึงดูดใจในการลงทุน

ที่มา: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

ข้อมูลทั่วไปเกี่ยวกับการวิเคราะห์คลัสเตอร์

การวิเคราะห์คลัสเตอร์ประกอบด้วยชุดของอัลกอริธึมการจำแนกประเภทต่างๆ คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาคือ จะจัดระเบียบข้อมูลที่สังเกตได้เป็นโครงสร้างภาพได้อย่างไร

ตัวอย่างเช่น นักชีววิทยาตั้งเป้าที่จะจำแนกสัตว์ออกเป็นสายพันธุ์ต่างๆ เพื่ออธิบายความแตกต่างระหว่างสัตว์เหล่านี้อย่างมีความหมาย

งานของการวิเคราะห์คลัสเตอร์คือการแบ่งชุดเริ่มต้นของวัตถุออกเป็นกลุ่มของวัตถุที่คล้ายกันและใกล้เคียงกัน กลุ่มเหล่านี้เรียกว่าคลัสเตอร์

กล่าวอีกนัยหนึ่ง การวิเคราะห์คลัสเตอร์เป็นวิธีหนึ่งในการจำแนกวัตถุตามคุณลักษณะ เป็นที่พึงปรารถนาที่ผลการจำแนกประเภทมีการตีความที่มีความหมาย

ผลลัพธ์ที่ได้จากวิธีการวิเคราะห์แบบกลุ่มถูกนำไปใช้ในสาขาต่างๆ ในด้านการตลาด คือ การแบ่งกลุ่มของคู่แข่งและผู้บริโภค

ในทางจิตเวชศาสตร์ การวินิจฉัยอาการที่ถูกต้อง เช่น โรคหวาดระแวง โรคจิตเภท ฯลฯ เป็นสิ่งสำคัญอย่างยิ่งสำหรับการรักษาที่ประสบความสำเร็จ

ในการจัดการ การจำแนกประเภทของซัพพลายเออร์เป็นสิ่งสำคัญ การระบุสถานการณ์การผลิตที่คล้ายคลึงกันซึ่งเกิดการแต่งงานขึ้น ในสังคมวิทยา การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ในการลงทุนแบบพอร์ตโฟลิโอ สิ่งสำคัญคือต้องจัดกลุ่มหลักทรัพย์ตามความคล้ายคลึงกันในแนวโน้มของผลตอบแทน เพื่อรวบรวมตามข้อมูลที่ได้รับเกี่ยวกับตลาดหุ้น พอร์ตการลงทุนที่เหมาะสมที่สุดที่ช่วยให้ผลตอบแทนจากการลงทุนสูงสุดสำหรับระดับความเสี่ยงที่กำหนด .

โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนกประเภทข้อมูลจำนวนมากและนำเสนอในรูปแบบที่เหมาะสมสำหรับการประมวลผลต่อไป การวิเคราะห์คลัสเตอร์จะมีประโยชน์และมีประสิทธิภาพมาก

การวิเคราะห์คลัสเตอร์ช่วยให้พิจารณาข้อมูลจำนวนมากพอสมควรและบีบอัดอาร์เรย์ข้อมูลทางเศรษฐกิจและสังคมจำนวนมาก ทำให้ข้อมูลมีขนาดกะทัดรัดและมองเห็นได้

ความสนใจ!

การวิเคราะห์คลัสเตอร์มีความสำคัญอย่างยิ่งเมื่อเทียบกับชุดของอนุกรมเวลาที่แสดงลักษณะการพัฒนาเศรษฐกิจ (ตัวอย่างเช่น สภาพเศรษฐกิจทั่วไปและสินค้าโภคภัณฑ์)

ที่นี่เป็นไปได้ที่จะแยกช่วงเวลาที่ค่าของตัวบ่งชี้ที่สอดคล้องกันค่อนข้างใกล้เคียงกันรวมทั้งกำหนดกลุ่มของอนุกรมเวลาซึ่งไดนามิกจะคล้ายกันมากที่สุด

ในปัญหาของการพยากรณ์ทางเศรษฐกิจและสังคม เป็นไปได้มากที่จะรวมการวิเคราะห์กลุ่มเข้ากับวิธีการเชิงปริมาณอื่นๆ (เช่น กับการวิเคราะห์การถดถอย)

ข้อดีและข้อเสีย

การวิเคราะห์คลัสเตอร์ช่วยให้สามารถจำแนกวัตถุประสงค์ของออบเจกต์ใดๆ ที่มีลักษณะเฉพาะได้หลายอย่าง มีประโยชน์มากมายที่จะได้รับจากสิ่งนี้:

  1. ผลลัพธ์ของคลัสเตอร์สามารถตีความได้ นั่นคือเพื่ออธิบายประเภทของกลุ่มที่มีอยู่จริง
  2. สามารถคัดแยกแต่ละคลัสเตอร์ได้ สิ่งนี้มีประโยชน์ในกรณีที่เกิดข้อผิดพลาดบางอย่างในชุดข้อมูล อันเป็นผลมาจากค่าของตัวบ่งชี้สำหรับแต่ละวัตถุเบี่ยงเบนอย่างรวดเร็ว เมื่อใช้การวิเคราะห์คลัสเตอร์ ออบเจ็กต์ดังกล่าวจะจัดอยู่ในคลัสเตอร์ที่แยกต่างหาก
  3. สำหรับการวิเคราะห์เพิ่มเติม สามารถเลือกได้เฉพาะคลัสเตอร์ที่มีลักษณะเฉพาะที่น่าสนใจเท่านั้น

เช่นเดียวกับวิธีอื่นๆ การวิเคราะห์คลัสเตอร์มีข้อเสียและข้อจำกัดบางประการ องค์ประกอบและจำนวนของคลัสเตอร์ขึ้นอยู่กับเกณฑ์การแบ่งพาร์ติชันที่เลือก

เมื่อลดอาร์เรย์ข้อมูลเริ่มต้นให้อยู่ในรูปแบบที่กะทัดรัดมากขึ้น การบิดเบือนบางอย่างอาจเกิดขึ้น และคุณลักษณะเฉพาะของวัตถุแต่ละชิ้นอาจหายไปเนื่องจากการแทนที่ด้วยคุณลักษณะของค่าทั่วไปของพารามิเตอร์คลัสเตอร์

วิธีการ

ปัจจุบัน รู้จักอัลกอริทึมการทำคลัสเตอร์ที่แตกต่างกันมากกว่าร้อยรายการ ความหลากหลายของพวกมันไม่ได้อธิบายด้วยวิธีการคำนวณที่แตกต่างกันเท่านั้น แต่ยังอธิบายได้ด้วยแนวคิดที่แตกต่างกันในการจัดกลุ่ม

แพ็คเกจ Statistica ใช้วิธีการทำคลัสเตอร์ต่อไปนี้

  • อัลกอริธึมลำดับชั้น - การจัดกลุ่มต้นไม้ อัลกอริทึมแบบลำดับชั้นขึ้นอยู่กับแนวคิดของการจัดกลุ่มตามลำดับ ในขั้นตอนเริ่มต้น แต่ละอ็อบเจ็กต์จะถูกพิจารณาเป็นคลัสเตอร์ที่แยกจากกัน ในขั้นตอนถัดไป คลัสเตอร์บางส่วนที่อยู่ใกล้กันมากที่สุดจะรวมกันเป็นคลัสเตอร์แยกต่างหาก
  • วิธี K-mean วิธีนี้เป็นวิธีที่ใช้กันมากที่สุด มันอยู่ในกลุ่มของวิธีการอ้างอิงที่เรียกว่าการวิเคราะห์คลัสเตอร์ จำนวนคลัสเตอร์ K ถูกกำหนดโดยผู้ใช้
  • สมาคมสองทาง เมื่อใช้วิธีนี้ การจัดกลุ่มจะดำเนินการพร้อมกันทั้งโดยตัวแปร (คอลัมน์) และโดยผลการสังเกต (แถว)

ขั้นตอนการรวมสองทางจะดำเนินการเมื่อคาดว่าการจัดกลุ่มตัวแปรและการสังเกตพร้อมกันจะให้ผลลัพธ์ที่มีความหมาย

ผลลัพธ์ของขั้นตอนคือสถิติเชิงพรรณนาเกี่ยวกับตัวแปรและกรณีและปัญหา รวมถึงแผนภูมิสีสองมิติซึ่งค่าข้อมูลเป็นรหัสสี

โดยการกระจายสี คุณจะได้แนวคิดเกี่ยวกับกลุ่มที่เป็นเนื้อเดียวกัน

การทำให้เป็นมาตรฐานของตัวแปร

การแบ่งชุดเริ่มต้นของวัตถุออกเป็นกลุ่มนั้นสัมพันธ์กับการคำนวณระยะทางระหว่างวัตถุและตัวเลือกของวัตถุซึ่งระยะห่างระหว่างวัตถุนั้นเล็กที่สุด

ระยะทางที่ใช้กันมากที่สุดคือระยะทางแบบยุคลิด (ทางเรขาคณิต) ที่เราทุกคนคุ้นเคย เมตริกนี้สอดคล้องกับแนวคิดเชิงสัญชาตญาณเกี่ยวกับความใกล้ชิดของวัตถุในอวกาศ (ราวกับว่าระยะห่างระหว่างวัตถุถูกวัดด้วยตลับเมตร)

แต่สำหรับเมตริกที่กำหนด ระยะห่างระหว่างวัตถุอาจได้รับผลกระทบอย่างมากจากการเปลี่ยนแปลงมาตราส่วน (หน่วยการวัด) ตัวอย่างเช่น ถ้าหนึ่งในคุณลักษณะวัดเป็นมิลลิเมตร แล้วค่าของมันถูกแปลงเป็นเซนติเมตร ระยะห่างแบบยุคลิดระหว่างวัตถุจะเปลี่ยนไปอย่างมาก สิ่งนี้จะนำไปสู่ความจริงที่ว่าผลลัพธ์ของการวิเคราะห์กลุ่มอาจแตกต่างอย่างมากจากผลก่อนหน้านี้

หากมีการวัดตัวแปรในหน่วยการวัดที่แตกต่างกัน จำเป็นต้องมีการปรับมาตรฐานเบื้องต้น นั่นคือ การแปลงข้อมูลเริ่มต้น ซึ่งจะแปลงเป็นปริมาณไร้มิติ

การทำให้เป็นมาตรฐานจะบิดเบือนรูปทรงเรขาคณิตของพื้นที่เดิมอย่างมาก ซึ่งสามารถเปลี่ยนผลลัพธ์ของการจัดกลุ่มได้

ในแพ็คเกจ Statistica ตัวแปร x ใดๆ จะถูกทำให้เป็นมาตรฐานตามสูตร:

ในการดำเนินการนี้ ให้คลิกขวาที่ชื่อตัวแปรและเลือกลำดับของคำสั่งจากเมนูที่เปิดขึ้น: เติม/ กำหนดมาตรฐานบล็อก/ กำหนดคอลัมน์มาตรฐาน ค่าของตัวแปรนอร์มัลไลซ์จะเท่ากับศูนย์และความแปรปรวนจะเท่ากับหนึ่ง

วิธี K-mean ใน Statistica

วิธี K-mean แยกชุดของวัตถุออกเป็นจำนวน K ที่กำหนดของกลุ่มต่างๆ ซึ่งอยู่ห่างจากกันมากที่สุด

โดยทั่วไป เมื่อได้รับผลลัพธ์ของการวิเคราะห์คลัสเตอร์ K-mean แล้ว เราสามารถคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์สำหรับแต่ละมิติเพื่อประเมินว่าคลัสเตอร์แตกต่างกันอย่างไร

ตามหลักการแล้ว คุณควรได้รับค่าเฉลี่ยที่แตกต่างกันมากสำหรับการวัดส่วนใหญ่ที่ใช้ในการวิเคราะห์

ค่าสถิติ F ที่ได้รับสำหรับแต่ละมิติเป็นอีกตัวบ่งชี้ว่ามิติที่สอดคล้องกันแยกแยะระหว่างคลัสเตอร์ได้ดีเพียงใด

ตัวอย่างเช่น พิจารณาผลการสำรวจพนักงาน 17 คนขององค์กรเกี่ยวกับความพึงพอใจต่อตัวบ่งชี้คุณภาพอาชีพ ตารางประกอบด้วยคำตอบของคำถามแบบสอบถามในระดับคะแนนเต็มสิบ (1 คือคะแนนต่ำสุด 10 คือคะแนนสูงสุด)

ชื่อตัวแปรสอดคล้องกับคำตอบของคำถามต่อไปนี้:

  1. SLT - การรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร
  2. OSO - ความยุติธรรมในค่าจ้าง;
  3. TBD - ความใกล้ชิดกับบ้าน;
  4. PEW - ความรู้สึกของความเป็นอยู่ที่ดีทางเศรษฐกิจ
  5. CR - การเติบโตของอาชีพ
  6. ZhSR - ความปรารถนาที่จะเปลี่ยนงาน
  7. OSB คือความรู้สึกของความเป็นอยู่ที่ดีทางสังคม

การใช้ข้อมูลนี้จำเป็นต้องแบ่งพนักงานออกเป็นกลุ่มและเลือกคันโยกควบคุมที่มีประสิทธิภาพสูงสุดสำหรับแต่ละคน

ในเวลาเดียวกัน ความแตกต่างระหว่างกลุ่มควรชัดเจน และภายในกลุ่ม ผู้ตอบควรเหมือนกันมากที่สุด

จนถึงปัจจุบัน การสำรวจทางสังคมวิทยาส่วนใหญ่ให้คะแนนเสียงเพียงร้อยละ: พิจารณาคำตอบเชิงบวกในจำนวนหลัก หรือร้อยละของผู้ที่ไม่พอใจ แต่ปัญหานี้ไม่ได้รับการพิจารณาอย่างเป็นระบบ

บ่อยครั้งที่การสำรวจไม่แสดงแนวโน้มของสถานการณ์ ในบางกรณี ไม่จำเป็นต้องนับจำนวนคนที่ "เพื่อ" หรือ "ต่อต้าน" แต่ให้นับระยะทางหรือการวัดความคล้ายคลึงกัน นั่นคือเพื่อกำหนดกลุ่มคนที่คิดเรื่องเดียวกัน

ขั้นตอนการวิเคราะห์คลัสเตอร์สามารถใช้เพื่อระบุตามข้อมูลการสำรวจ ความสัมพันธ์ที่มีอยู่จริงบางอย่างของคุณสมบัติและสร้างการจำแนกประเภทบนพื้นฐานนี้

ความสนใจ!

การปรากฏตัวของสมมติฐานเบื้องต้นของนักสังคมวิทยาเมื่อทำงานกับขั้นตอนการวิเคราะห์กลุ่มไม่ใช่เงื่อนไขที่จำเป็น

ในโปรแกรม Statistica การวิเคราะห์คลัสเตอร์จะดำเนินการดังนี้

เมื่อเลือกจำนวนคลัสเตอร์ ให้ปฏิบัติตามคำแนะนำต่อไปนี้: จำนวนคลัสเตอร์ไม่ควรใหญ่เกินไป หากเป็นไปได้

ถ้าเป็นไปได้ ระยะทางที่วัตถุของคลัสเตอร์หนึ่งมารวมกันควรน้อยกว่าระยะทางที่สิ่งอื่นมารวมกับคลัสเตอร์นี้มาก

เมื่อเลือกจำนวนคลัสเตอร์ ส่วนใหญ่มักจะมีวิธีแก้ปัญหาที่ถูกต้องหลายอย่างพร้อมกัน

ตัวอย่างเช่น เราสนใจว่าคำตอบสำหรับคำถามของแบบสอบถามมีความสัมพันธ์กับพนักงานทั่วไปและการจัดการขององค์กรอย่างไร ดังนั้น เราเลือก K=2 สำหรับการแบ่งส่วนเพิ่มเติม คุณสามารถเพิ่มจำนวนคลัสเตอร์ได้

  1. เลือกการสังเกตที่มีระยะห่างสูงสุดระหว่างศูนย์กลางคลัสเตอร์
  2. จัดเรียงระยะทางและเลือกการสังเกตตามช่วงเวลาปกติ (การตั้งค่าเริ่มต้น)
  3. นำศูนย์สังเกตการณ์แห่งแรกและติดวัตถุที่เหลือเข้ากับพวกเขา

ตัวเลือกที่ 1 เหมาะกับวัตถุประสงค์ของเรา

อัลกอริธึมการจัดกลุ่มจำนวนมากมักจะ "กำหนด" โครงสร้างที่ไม่มีอยู่ในข้อมูลและทำให้ผู้วิจัยสับสน ดังนั้นจึงมีความจำเป็นอย่างยิ่งที่จะต้องใช้อัลกอริธึมการวิเคราะห์คลัสเตอร์หลายๆ ชุดและทำการสรุปตามการประเมินทั่วไปของผลลัพธ์ของอัลกอริทึม

สามารถดูผลการวิเคราะห์ในกล่องโต้ตอบที่ปรากฏขึ้น:

หากคุณเลือกแท็บกราฟของค่าเฉลี่ย กราฟของพิกัดของศูนย์กลางคลัสเตอร์จะถูกลงจุด:


เส้นแบ่งแต่ละเส้นบนกราฟนี้สอดคล้องกับกลุ่มใดกลุ่มหนึ่ง แต่ละส่วนของแกนนอนของกราฟสอดคล้องกับหนึ่งในตัวแปรที่รวมอยู่ในการวิเคราะห์

แกนตั้งสอดคล้องกับค่าเฉลี่ยของตัวแปรสำหรับวัตถุที่รวมอยู่ในแต่ละคลัสเตอร์

สังเกตได้ว่าทัศนคติของคนทั้งสองกลุ่มที่มีต่ออาชีพบริการมีความแตกต่างกันอย่างมีนัยสำคัญในเกือบทุกประเด็น มีเพียงประเด็นเดียวเท่านั้นที่มีความเป็นเอกฉันท์อย่างสมบูรณ์ - ในแง่ของความเป็นอยู่ที่ดีทางสังคม (OSB) หรือค่อนข้างขาด (2.5 คะแนนเต็ม 10)

สามารถสันนิษฐานได้ว่าคลัสเตอร์ 1 เป็นตัวแทนของผู้ปฏิบัติงานและคลัสเตอร์ 2 แสดงถึงการจัดการ ผู้จัดการมีความพึงพอใจมากขึ้นกับการพัฒนาอาชีพ (CR) การรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร (SOLs)

พวกเขามีความรู้สึกที่สูงขึ้นของความเป็นอยู่ที่ดีทางเศรษฐกิจ (SEW) และความรู้สึกของการจ่ายค่าตอบแทน (SWA)

พวกเขากังวลเรื่องความใกล้บ้านน้อยกว่าคนงาน อาจเป็นเพราะปัญหาด้านการขนส่งน้อยกว่า นอกจากนี้ ผู้จัดการมีความต้องการเปลี่ยนงานน้อยลง (JSR)

แม้ว่าคนงานจะถูกแบ่งออกเป็นสองประเภท แต่พวกเขาก็ให้คำตอบที่ค่อนข้างเหมือนกันสำหรับคำถามส่วนใหญ่ กล่าวอีกนัยหนึ่ง ถ้าบางอย่างไม่เหมาะกับกลุ่มพนักงานทั่วไป สิ่งเดียวกันนั้นก็ไม่เหมาะกับผู้บริหารระดับสูง และในทางกลับกัน

การประสานกันของกราฟช่วยให้เราสรุปได้ว่าความเป็นอยู่ที่ดีของกลุ่มหนึ่งสะท้อนให้เห็นในความเป็นอยู่ที่ดีของอีกกลุ่มหนึ่ง

กลุ่มที่ 1 ไม่พอใจกับความใกล้ชิดกับบ้าน กลุ่มนี้เป็นส่วนหลักของคนงานที่มาจากส่วนต่าง ๆ ของเมืองมาที่องค์กรเป็นหลัก

ดังนั้นจึงเป็นไปได้ที่จะเสนอให้ผู้บริหารระดับสูงจัดสรรผลกำไรส่วนหนึ่งให้กับการก่อสร้างที่อยู่อาศัยสำหรับพนักงานขององค์กร

ความแตกต่างที่สำคัญเห็นได้จากทัศนคติของคนทั้งสองกลุ่มที่มีต่ออาชีพบริการ พนักงานที่พอใจกับการเติบโตของอาชีพซึ่งมีเป้าหมายส่วนตัวและเป้าหมายขององค์กรสูงไม่มีความปรารถนาที่จะเปลี่ยนงานและรู้สึกพอใจกับผลงานของพวกเขา

ในทางกลับกัน พนักงานที่ต้องการเปลี่ยนงานและไม่พอใจกับผลงานของพวกเขาจะไม่พอใจกับตัวบ่งชี้ข้างต้น ผู้บริหารระดับสูงควรให้ความสนใจเป็นพิเศษกับสถานการณ์ปัจจุบัน

ผลลัพธ์ของการวิเคราะห์ความแปรปรวนสำหรับแต่ละแอตทริบิวต์จะแสดงโดยการกดปุ่มวิเคราะห์ความแปรปรวน

ผลรวมของส่วนเบี่ยงเบนกำลังสองของวัตถุจากศูนย์กลางคลัสเตอร์ (SS ภายใน) และผลรวมของส่วนเบี่ยงเบนกำลังสองระหว่างศูนย์กลางของคลัสเตอร์ (SS ระหว่าง) ค่าสถิติ F และระดับนัยสำคัญ p จะแสดงขึ้น

ความสนใจ!

สำหรับตัวอย่างของเรา ระดับนัยสำคัญของตัวแปรทั้งสองนั้นค่อนข้างใหญ่ ซึ่งอธิบายได้จากการสังเกตจำนวนน้อย ในเวอร์ชันเต็มของการศึกษาซึ่งสามารถพบได้ในบทความนี้ สมมติฐานเกี่ยวกับความเท่าเทียมกันของค่าเฉลี่ยสำหรับศูนย์คลัสเตอร์ถูกปฏิเสธที่ระดับนัยสำคัญน้อยกว่า 0.01

ปุ่มบันทึกการจัดประเภทและระยะทางจะแสดงจำนวนของวัตถุที่รวมอยู่ในแต่ละคลัสเตอร์และระยะทางของวัตถุไปยังศูนย์กลางของแต่ละคลัสเตอร์

ตารางแสดงหมายเลขเคส (CASE_NO) ที่ประกอบเป็นคลัสเตอร์ด้วยหมายเลข CLUSTER และระยะห่างจากจุดศูนย์กลางของแต่ละคลัสเตอร์ (DISTANCE)

ข้อมูลเกี่ยวกับออบเจกต์ที่อยู่ในคลัสเตอร์สามารถเขียนลงในไฟล์และใช้ในการวิเคราะห์เพิ่มเติมได้ ในตัวอย่างนี้ การเปรียบเทียบผลลัพธ์ที่ได้รับกับแบบสอบถามพบว่า กลุ่มที่ 1 ประกอบด้วยพนักงานธรรมดาเป็นส่วนใหญ่ และกลุ่มที่ 2 เป็นผู้จัดการ

ดังนั้น จะเห็นได้ว่าเมื่อประมวลผลผลลัพธ์ของการสำรวจ การวิเคราะห์กลุ่มกลายเป็นวิธีการที่มีประสิทธิภาพที่ช่วยให้สามารถสรุปผลที่ไม่สามารถเข้าถึงได้โดยการสร้างฮิสโตแกรมของค่าเฉลี่ยหรือโดยการคำนวณเปอร์เซ็นต์ของผู้ที่พอใจกับตัวบ่งชี้ต่างๆ ของ คุณภาพชีวิตในการทำงาน

การจัดกลุ่มต้นไม้เป็นตัวอย่างของอัลกอริทึมแบบลำดับชั้น หลักการของการจัดกลุ่มคือจัดกลุ่มองค์ประกอบที่ใกล้ที่สุดก่อน จากนั้นตามด้วยองค์ประกอบที่ห่างไกลจากกันและกันมากขึ้นเรื่อย ๆ ในคลัสเตอร์

อัลกอริทึมเหล่านี้ส่วนใหญ่เริ่มต้นจากเมทริกซ์ของความคล้ายคลึง (ระยะทาง) และในตอนแรก แต่ละองค์ประกอบจะถูกพิจารณาว่าเป็นคลัสเตอร์ที่แยกจากกัน

หลังจากโหลดโมดูลการวิเคราะห์คลัสเตอร์และเลือกการเข้าร่วม (การจัดกลุ่มต้นไม้) คุณสามารถเปลี่ยนพารามิเตอร์ต่อไปนี้ในหน้าต่างรายการพารามิเตอร์การทำคลัสเตอร์:

  • ข้อมูลเริ่มต้น (อินพุต) พวกเขาสามารถอยู่ในรูปของเมทริกซ์ของข้อมูลที่ศึกษา (ข้อมูลดิบ) และในรูปแบบของเมทริกซ์ของระยะทาง (เมทริกซ์ระยะทาง)
  • การสังเกตแบบกลุ่ม (Cluster) (กรณี (ดิบ)) หรือตัวแปร (ตัวแปร (คอลัมน์)) อธิบายสถานะของวัตถุ
  • มาตรการระยะทาง ที่นี่คุณสามารถเลือกมาตรการต่อไปนี้: ระยะทางแบบยุคลิด, ระยะทางแบบยุคลิดกำลังสอง, ระยะทาง City-block (แมนฮัตตัน), เมตริกระยะทาง Chebychev, กำลัง ... ), เปอร์เซ็นต์ของความขัดแย้ง (เปอร์เซ็นต์ความขัดแย้ง)
  • วิธีการจัดกลุ่ม (กฎการควบรวม (เชื่อมโยง)) ตัวเลือกต่อไปนี้เป็นไปได้ที่นี่: การเชื่อมโยงเดี่ยว, การเชื่อมโยงที่สมบูรณ์, ค่าเฉลี่ยของกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนัก, ค่าเฉลี่ยของกลุ่มคู่ที่ถ่วงน้ำหนัก ), เซนทรอยด์กลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนัก, เซนทรอยด์กลุ่มคู่ถ่วงน้ำหนัก (ค่ามัธยฐาน), วิธีการของวอร์ด

อันเป็นผลมาจากการจัดกลุ่มสร้าง dendrogram แนวนอนหรือแนวตั้ง - กราฟที่กำหนดระยะห่างระหว่างวัตถุและกลุ่มเมื่อรวมกันตามลำดับ

โครงสร้างแบบต้นไม้ของกราฟทำให้คุณสามารถกำหนดคลัสเตอร์โดยขึ้นอยู่กับเกณฑ์ที่เลือก - ระยะห่างที่กำหนดระหว่างคลัสเตอร์

นอกจากนี้ยังแสดงเมทริกซ์ของระยะทางระหว่างวัตถุต้นฉบับ (เมทริกซ์ระยะทาง) ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่ละวัตถุต้นทาง (สถิติแบบแยกส่วน)

สำหรับตัวอย่างที่พิจารณาแล้ว เราจะดำเนินการวิเคราะห์กลุ่มของตัวแปรด้วยการตั้งค่าเริ่มต้น dendrogram ที่ได้จะแสดงในรูป


แกนแนวตั้งของ dendrogram วางแผนระยะห่างระหว่างวัตถุและระหว่างวัตถุและกลุ่ม ดังนั้น ระยะห่างระหว่างตัวแปร SEB และ OSD จึงเท่ากับ 5 ตัวแปรเหล่านี้ในขั้นตอนแรกจะรวมกันเป็นคลัสเตอร์เดียว

ส่วนแนวนอนของ dendrogram จะถูกวาดที่ระดับที่สอดคล้องกับระยะทางเกณฑ์ที่เลือกสำหรับขั้นตอนการจัดกลุ่มที่กำหนด

ดังจะเห็นได้จากกราฟว่าคำถาม “ความปรารถนาที่จะเปลี่ยนงาน” (JSR) แยกกลุ่มออกจากกัน โดยทั่วไปแล้วความปรารถนาที่จะทิ้งทุกที่จะมาเยือนทุกคนอย่างเท่าเทียมกัน นอกจากนี้ คลัสเตอร์ที่แยกจากกันคือคำถามเกี่ยวกับความใกล้ชิดระหว่างดินแดนกับบ้าน (LHB)

ในแง่ของความสำคัญนั้นอยู่ในอันดับที่สองซึ่งยืนยันข้อสรุปเกี่ยวกับความจำเป็นในการก่อสร้างที่อยู่อาศัยซึ่งจัดทำขึ้นตามผลการศึกษาโดยใช้วิธี K-mean

ความรู้สึกของความเป็นอยู่ที่ดีทางเศรษฐกิจ (PEW) และส่วนของการจ่าย (PWA) ถูกรวมเข้าด้วยกัน - นี่เป็นประเด็นทางเศรษฐกิจ ความก้าวหน้าในอาชีพ (CR) และการรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร (COL) ก็รวมกันเช่นกัน

วิธีการจัดกลุ่มอื่น ๆ รวมถึงการเลือกระยะทางประเภทอื่น ๆ จะไม่ทำให้เกิดการเปลี่ยนแปลงที่สำคัญใน dendrogram

ผลลัพธ์:

  1. การวิเคราะห์คลัสเตอร์เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจและการวิจัยทางสถิติในทุกสาขาวิชา
  2. โปรแกรม Statistica ใช้ทั้งวิธีการแบบลำดับชั้นและแบบโครงสร้างของการวิเคราะห์คลัสเตอร์ ข้อดีของแพ็คเกจสถิตินี้เกิดจากความสามารถด้านกราฟิก มีการแสดงกราฟิกสองมิติและสามมิติของกลุ่มที่ได้รับในพื้นที่ของตัวแปรที่ศึกษาตลอดจนผลลัพธ์ของขั้นตอนลำดับชั้นสำหรับการจัดกลุ่มวัตถุ
  3. มีความจำเป็นที่จะต้องใช้อัลกอริทึมการวิเคราะห์คลัสเตอร์หลายตัวและสรุปผลตามการประเมินทั่วไปของผลลัพธ์ของอัลกอริทึม
  4. การวิเคราะห์คลัสเตอร์ถือว่าประสบความสำเร็จหากดำเนินการด้วยวิธีต่างๆ เปรียบเทียบผลลัพธ์และพบรูปแบบทั่วไป และพบคลัสเตอร์ที่เสถียรโดยไม่คำนึงถึงวิธีการจัดกลุ่ม
  5. การวิเคราะห์คลัสเตอร์ทำให้คุณสามารถระบุสถานการณ์ปัญหาและร่างแนวทางแก้ไขได้ ดังนั้น วิธีสถิติแบบไม่มีพารามิเตอร์นี้จึงถือเป็นส่วนสำคัญของการวิเคราะห์ระบบได้

ประเภทอินพุต

  • คำอธิบายบ่งชี้ของวัตถุ แต่ละวัตถุอธิบายด้วยชุดของคุณลักษณะที่เรียกว่า สัญญาณ. คุณลักษณะอาจเป็นตัวเลขหรือไม่ใช่ตัวเลขก็ได้
  • เมทริกซ์ระยะทางระหว่างวัตถุ วัตถุแต่ละชิ้นอธิบายด้วยระยะห่างจากวัตถุอื่นๆ ในชุดการฝึก

เป้าหมายของการรวมกลุ่ม

  • ทำความเข้าใจข้อมูลโดยการระบุโครงสร้างคลัสเตอร์ การแบ่งตัวอย่างออกเป็นกลุ่มของวัตถุที่คล้ายกันทำให้การประมวลผลข้อมูลเพิ่มเติมและการตัดสินใจง่ายขึ้นโดยใช้วิธีการวิเคราะห์ของตัวเองกับแต่ละกลุ่ม (กลยุทธ์ "แบ่งและพิชิต")
  • การบีบอัดข้อมูล หากตัวอย่างเริ่มต้นมีขนาดใหญ่เกินไป ก็สามารถลดขนาดลงได้ โดยเหลือหนึ่งในตัวแทนทั่วไปที่สุดจากแต่ละคลัสเตอร์
  • การตรวจจับความแปลกใหม่ การตรวจจับความแปลกใหม่). มีการเลือกวัตถุที่ผิดปกติซึ่งไม่สามารถแนบกับคลัสเตอร์ใดๆ

ในกรณีแรก พวกเขาพยายามทำให้จำนวนคลัสเตอร์น้อยลง ในกรณีที่สอง สิ่งสำคัญคือต้องแน่ใจว่ามีความคล้ายคลึงกันในระดับสูงของอ็อบเจ็กต์ภายในแต่ละคลัสเตอร์ และอาจมีคลัสเตอร์จำนวนเท่าใดก็ได้ ในกรณีที่สาม วัตถุแต่ละชิ้นที่ไม่เข้ากับคลัสเตอร์ใด ๆ เป็นสิ่งที่น่าสนใจที่สุด

ในทุกกรณีเหล่านี้ การจัดกลุ่มแบบลำดับชั้นสามารถประยุกต์ใช้ได้ เมื่อกลุ่มขนาดใหญ่ถูกแบ่งออกเป็นกลุ่มย่อย ซึ่งในทางกลับกัน การแบ่งกลุ่มให้เล็กลง เป็นต้น งานดังกล่าวเรียกว่างานอนุกรมวิธาน

ผลลัพธ์ของอนุกรมวิธานคือโครงสร้างลำดับชั้นแบบต้นไม้ นอกจากนี้ แต่ละอ็อบเจกต์ยังแสดงลักษณะการแจงนับของกลุ่มทั้งหมดที่มันเป็นสมาชิก โดยปกติจะเรียงจากใหญ่ไปหาเล็ก

ตัวอย่างคลาสสิกของอนุกรมวิธานตามความคล้ายคลึงกันคือระบบการตั้งชื่อแบบทวินามของสิ่งมีชีวิตที่เสนอโดย Carl Linnaeus ในช่วงกลางศตวรรษที่ 18 การจัดระบบที่คล้ายกันถูกสร้างขึ้นในความรู้หลายสาขาเพื่อจัดระเบียบข้อมูลเกี่ยวกับวัตถุจำนวนมาก

วิธีการจัดกลุ่ม

คำชี้แจงอย่างเป็นทางการของปัญหาการทำคลัสเตอร์

อนุญาต เป็นชุดของวัตถุ เป็นชุดของตัวเลข (ชื่อ ป้ายกำกับ) ของกลุ่ม มีการกำหนดฟังก์ชันระยะห่างระหว่างวัตถุ มีชุดของวัตถุการฝึกอบรมจำกัด จำเป็นต้องแยกตัวอย่างออกเป็นส่วนย่อยที่ไม่ทับซ้อนกัน เรียกว่า กระจุกเพื่อให้แต่ละคลัสเตอร์ประกอบด้วยอ็อบเจ็กต์ใกล้เคียงในหน่วยเมตริก และอ็อบเจ็กต์ของคลัสเตอร์ต่างๆ ต่างกันอย่างมีนัยสำคัญ ในกรณีนี้ แต่ละวัตถุจะได้รับหมายเลขคลัสเตอร์

อัลกอริทึมการจัดกลุ่มเป็นฟังก์ชันที่เชื่อมโยงวัตถุใด ๆ กับหมายเลขคลัสเตอร์ ชุดในบางกรณีเป็นที่รู้จักกันล่วงหน้า แต่บ่อยครั้งที่งานคือการกำหนดจำนวนที่เหมาะสมที่สุดของคลัสเตอร์จากมุมมองของหนึ่งหรืออีกคนหนึ่ง เกณฑ์คุณภาพการรวมกลุ่ม

วรรณกรรม

  1. Aivazyan S. A. , Buchstaber V. M. , Enyukov I. S. , Meshalkin L. D.สถิติประยุกต์: การจำแนกประเภทและการลดขนาด. - ม.: การเงินและสถิติ, 2532.
  2. Zhuravlev Yu. I. , Ryazanov V. V. , Senko O. V."การยอมรับ". วิธีการทางคณิตศาสตร์. ระบบซอฟต์แวร์. การใช้งานจริง. - ม.: Fazis, 2549 ISBN 5-7036-0108-8
  3. Zagoruiko N. G.วิธีการประยุกต์การวิเคราะห์ข้อมูลและความรู้ - โนโวซีบีร์สค์: IM SO RAN, 1999 ISBN 5-86134-060-9
  4. แมนเดล ไอ.ดี.การวิเคราะห์คลัสเตอร์ - ม.: การเงินและสถิติ 2531 ISBN 5-279-00050-7
  5. ชเลซิงเงอร์ เอ็ม, กลาวาช วี.สิบการบรรยายเกี่ยวกับการจดจำทางสถิติและโครงสร้าง - เคียฟ: Naukova Dumka, 2004 ISBN 966-00-0341-2
  6. Hastie T., Tibshirani R., Friedman J.องค์ประกอบของการเรียนรู้ทางสถิติ - สปริงเกอร์ 2544 ISBN 0-387-95284-5
  7. เชน เมอร์ตี ฟลินน์การจัดกลุ่มข้อมูล: บทวิจารณ์ // ACM คอมพิวเตอร์ เอาตัวรอด 31 (3) , 1999

ลิงก์ภายนอก

เป็นภาษารัสเซีย

  • www.MachineLearning.ru - ทรัพยากร wiki ระดับมืออาชีพที่ทุ่มเทให้กับการเรียนรู้ของเครื่องและการขุดข้อมูล
  • เอส. นิโคเลนโก. สไลด์บรรยายเรื่องอัลกอริทึมการจัดกลุ่ม

เป็นภาษาอังกฤษ

  • COMPACT - แพ็คเกจเปรียบเทียบสำหรับการประเมินการจัดกลุ่ม. แพ็คเกจ Matlab ฟรี 2549
  • พี. เบอร์คิน การสำรวจเทคนิคการทำเหมืองข้อมูลแบบคลัสเตอร์, แอคครูว์ ซอฟต์แวร์, 2545.
  • เชน เมอร์ตี และฟลินน์: การจัดกลุ่มข้อมูล: บทวิจารณ์, บช.น. รอด., 2542.
  • สำหรับการนำเสนออื่นๆ ของค่าเฉลี่ยแบบลำดับชั้น ค่าเฉลี่ย k และค่าเฉลี่ยแบบฟัซซี โปรดดูบทนำเกี่ยวกับการจัดกลุ่ม มีคำอธิบายส่วนผสมของ Gaussians ด้วย
  • เดวิด โดว์, หน้าแบบจำลองส่วนผสม- ลิงค์แบบจำลองการจัดกลุ่มและแบบผสมอื่น ๆ
  • บทช่วยสอนเกี่ยวกับการจัดกลุ่ม
  • หนังสือเรียนออนไลน์: ทฤษฎีสารสนเทศ การอนุมาน และอัลกอริทึมการเรียนรู้ โดย David J.C. MacKay รวมบทต่างๆ เกี่ยวกับการจัดกลุ่มค่าเฉลี่ย k การจัดกลุ่มค่าเฉลี่ย k แบบอ่อน และรากเหง้า รวมถึงอัลกอริทึม E-M และมุมมองแบบแปรผันของอัลกอริทึม E-M
  • "ยีนที่จัดระเบียบตนเอง" บทช่วยสอนที่อธิบายการจัดกลุ่มผ่านการเรียนรู้แบบแข่งขันและแผนที่การจัดระเบียบตนเอง
  • kernlab - แพ็คเกจ R สำหรับการเรียนรู้ของเครื่องที่ใช้เคอร์เนล (รวมถึงการใช้งานการจัดกลุ่มสเปกตรัม)
  • บทช่วยสอน - บทช่วยสอนพร้อมการแนะนำอัลกอริทึมการทำคลัสเตอร์ (k-mean, fuzzy-c-means, ลำดับชั้น, ส่วนผสมของเกาส์เซียน) + การสาธิตเชิงโต้ตอบ (java applet)
  • ซอฟต์แวร์ขุดข้อมูล - ซอฟต์แวร์ขุดข้อมูลมักใช้เทคนิคการทำคลัสเตอร์
  • Java Competitve Learning Application ชุดของ Neural Networks ที่ไม่มีผู้ดูแลสำหรับการทำคลัสเตอร์ เขียนด้วยภาษาจาวา กรอกด้วยซอร์สโค้ดทั้งหมด

การวิเคราะห์คลัสเตอร์

นักวิจัยส่วนใหญ่มีแนวโน้มที่จะเชื่อว่าเป็นครั้งแรกที่คำว่า "การวิเคราะห์กลุ่ม" (อังกฤษ กลุ่ม- พวง, ก้อน, พวง) ถูกเสนอโดยนักคณิตศาสตร์ R. Trion ต่อจากนั้น มีคำศัพท์หลายคำที่ตอนนี้ถือว่ามีความหมายเหมือนกันกับคำว่า "การวิเคราะห์กลุ่ม": การจำแนกประเภทอัตโนมัติ; บอตรีวิทยา.

การวิเคราะห์คลัสเตอร์เป็นขั้นตอนทางสถิติหลายมิติที่รวบรวมข้อมูลที่มีข้อมูลเกี่ยวกับตัวอย่างของออบเจกต์ จากนั้นจัดเรียงออบเจ็กต์ให้เป็นกลุ่มที่เป็นเนื้อเดียวกัน (คลัสเตอร์) (คลัสเตอร์แบบ Q หรือเทคนิค Q การวิเคราะห์คลัสเตอร์เหมาะสม) คลัสเตอร์ - กลุ่มขององค์ประกอบที่มีลักษณะทั่วไป เป้าหมายหลักของการวิเคราะห์คลัสเตอร์คือการค้นหากลุ่มของวัตถุที่คล้ายกันในตัวอย่าง ช่วงของการประยุกต์ใช้การวิเคราะห์กลุ่มกว้างมาก: ใช้ในโบราณคดี การแพทย์ จิตวิทยา เคมี ชีววิทยา รัฐประศาสนศาสตร์ ภาษาศาสตร์ มานุษยวิทยา การตลาด สังคมวิทยา และสาขาวิชาอื่นๆ อย่างไรก็ตาม ความเป็นสากลของแอปพลิเคชันได้นำไปสู่การเกิดขึ้นของคำศัพท์ วิธีการ และแนวทางที่เข้ากันไม่ได้จำนวนมาก ซึ่งทำให้ยากต่อการใช้อย่างชัดเจนและตีความการวิเคราะห์คลัสเตอร์อย่างสม่ำเสมอ Orlov A. I. แนะนำให้แยกแยะดังนี้:

งานและเงื่อนไข

การวิเคราะห์คลัสเตอร์ดำเนินการดังต่อไปนี้ เป้าหมายหลัก:

  • การพัฒนารูปแบบหรือการจำแนกประเภท
  • สำรวจโครงร่างแนวคิดที่เป็นประโยชน์สำหรับการจัดกลุ่มวัตถุ
  • การสร้างสมมติฐานจากการสำรวจข้อมูล
  • การทดสอบสมมติฐานหรือการวิจัยเพื่อตรวจสอบว่าประเภท (กลุ่ม) ที่ระบุไม่ทางใดก็ทางหนึ่งมีอยู่จริงในข้อมูลที่มีอยู่

โดยไม่คำนึงถึงหัวข้อการศึกษา การใช้การวิเคราะห์กลุ่มที่เกี่ยวข้อง ขั้นตอนถัดไป:

  • การสุ่มตัวอย่างสำหรับการจัดกลุ่ม เป็นที่เข้าใจกันว่าควรจัดกลุ่มข้อมูลเชิงปริมาณเท่านั้น
  • คำจำกัดความของชุดของตัวแปรซึ่งวัตถุในตัวอย่างจะถูกประเมิน นั่นคือ พื้นที่คุณลักษณะ
  • การคำนวณค่าของการวัดความเหมือน (หรือความแตกต่าง) อย่างใดอย่างหนึ่งระหว่างวัตถุ
  • การประยุกต์ใช้วิธีการวิเคราะห์คลัสเตอร์เพื่อสร้างกลุ่มของวัตถุที่คล้ายกัน
  • การตรวจสอบผลลัพธ์ของโซลูชันคลัสเตอร์

การวิเคราะห์คลัสเตอร์นำเสนอสิ่งต่อไปนี้ ข้อกำหนดด้านข้อมูล:

  1. ตัวบ่งชี้ไม่ควรสัมพันธ์กัน
  2. ตัวบ่งชี้ไม่ควรขัดแย้งกับทฤษฎีการวัด
  3. การกระจายของตัวบ่งชี้ควรใกล้เคียงกับปกติ
  4. ตัวบ่งชี้ต้องเป็นไปตามข้อกำหนดของ "ความเสถียร" ซึ่งหมายถึงการไม่มีอิทธิพลต่อค่าของพวกเขาโดยปัจจัยสุ่ม
  5. ตัวอย่างควรเป็นเนื้อเดียวกัน ไม่มี "ค่าผิดปกติ"

คุณสามารถค้นหาคำอธิบายของข้อกำหนดพื้นฐานสองประการสำหรับข้อมูล - ความสม่ำเสมอและความสมบูรณ์:

ความเป็นเนื้อเดียวกันต้องการให้เอนทิตีทั้งหมดที่แสดงในตารางมีลักษณะเดียวกัน ข้อกำหนดสำหรับความสมบูรณ์คือชุด ฉันและ เจนำเสนอคำอธิบายที่สมบูรณ์ของอาการของปรากฏการณ์ภายใต้การพิจารณา หากเราพิจารณาตารางที่ ฉันเป็นของสะสมและ เจ- ชุดของตัวแปรที่อธิบายถึงประชากรนี้ควรเป็นกลุ่มตัวอย่างที่เป็นตัวแทนจากประชากรที่ศึกษาและระบบลักษณะเฉพาะ เจควรให้การแสดงเวกเตอร์ที่น่าพอใจของบุคคล ฉันจากมุมมองของนักวิจัย

หากการวิเคราะห์คลัสเตอร์นำหน้าด้วยการวิเคราะห์ปัจจัย ตัวอย่างก็ไม่จำเป็นต้อง "ซ่อมแซม" - ข้อกำหนดที่ระบุไว้จะดำเนินการโดยอัตโนมัติโดยขั้นตอนการสร้างแบบจำลองปัจจัย ดำเนินการโดยตรงสำหรับการวิเคราะห์กลุ่ม อาจทำให้ความชัดเจนในการแยกกลุ่มลดลง) มิฉะนั้นจะต้องปรับตัวอย่าง

ประเภทของปัญหาการรวมกลุ่ม

ประเภทอินพุต

ในวิทยาศาสตร์สมัยใหม่ มีการใช้อัลกอริทึมหลายอย่างสำหรับการประมวลผลข้อมูลอินพุต การวิเคราะห์โดยการเปรียบเทียบวัตถุตามคุณลักษณะ (พบมากที่สุดในวิทยาศาสตร์ชีวภาพ) เรียกว่า ถาม- ประเภทของการวิเคราะห์ และในกรณีของการเปรียบเทียบคุณลักษณะ บนพื้นฐานของวัตถุ - - ประเภทของการวิเคราะห์ มีความพยายามที่จะใช้ประเภทการวิเคราะห์แบบผสมผสาน (ตัวอย่างเช่น อาร์.คิวการวิเคราะห์) แต่วิธีการนี้ยังไม่ได้รับการพัฒนาอย่างเหมาะสม

เป้าหมายของการรวมกลุ่ม

  • ทำความเข้าใจข้อมูลโดยการระบุโครงสร้างคลัสเตอร์ การแบ่งตัวอย่างออกเป็นกลุ่มของวัตถุที่คล้ายกันทำให้การประมวลผลข้อมูลเพิ่มเติมและการตัดสินใจง่ายขึ้นโดยใช้วิธีการวิเคราะห์ของตัวเองกับแต่ละกลุ่ม (กลยุทธ์ "แบ่งและพิชิต")
  • การบีบอัดข้อมูล หากตัวอย่างเริ่มต้นมีขนาดใหญ่เกินไป ก็สามารถลดขนาดลงได้ โดยเหลือหนึ่งในตัวแทนทั่วไปที่สุดจากแต่ละคลัสเตอร์
  • การตรวจจับความแปลกใหม่ การตรวจจับความแปลกใหม่). มีการเลือกวัตถุที่ผิดปกติซึ่งไม่สามารถแนบกับคลัสเตอร์ใดๆ

ในกรณีแรก พวกเขาพยายามทำให้จำนวนคลัสเตอร์น้อยลง ในกรณีที่สอง สิ่งสำคัญคือต้องแน่ใจว่ามีความคล้ายคลึงกันในระดับสูงของอ็อบเจ็กต์ภายในแต่ละคลัสเตอร์ และอาจมีคลัสเตอร์จำนวนเท่าใดก็ได้ ในกรณีที่สาม วัตถุแต่ละชิ้นที่ไม่เข้ากับคลัสเตอร์ใด ๆ เป็นสิ่งที่น่าสนใจที่สุด

ในทุกกรณีเหล่านี้ การจัดกลุ่มแบบลำดับชั้นสามารถประยุกต์ใช้ได้ เมื่อกลุ่มขนาดใหญ่ถูกแบ่งออกเป็นกลุ่มที่เล็กลง ซึ่งจะแยกให้เล็กลงอีก เป็นต้น งานดังกล่าวเรียกว่างานอนุกรมวิธาน ผลลัพธ์ของอนุกรมวิธานคือโครงสร้างลำดับชั้นแบบต้นไม้ นอกจากนี้ แต่ละอ็อบเจกต์ยังแสดงลักษณะการแจงนับของกลุ่มทั้งหมดที่มันเป็นสมาชิก โดยปกติจะเรียงจากใหญ่ไปหาเล็ก

วิธีการจัดกลุ่ม

ไม่มีการจำแนกประเภทของวิธีการจัดกลุ่มที่ยอมรับโดยทั่วไป แต่สามารถสังเกตความพยายามที่มั่นคงของ V. S. Berikov และ G. S. Lbov หากเราสรุปการจำแนกประเภทต่างๆ ของวิธีการจัดกลุ่ม เราจะสามารถแยกแยะกลุ่มต่างๆ ได้ (บางวิธีอาจมาจากหลายกลุ่มพร้อมกัน ดังนั้นจึงเสนอให้พิจารณาการจัดประเภทนี้เป็นค่าประมาณของการจำแนกวิธีการจัดกลุ่มที่แท้จริง):

  1. แนวทางความน่าจะเป็น. สันนิษฐานว่าแต่ละอ็อบเจกต์ภายใต้การพิจารณาเป็นของหนึ่งในคลาส k ผู้เขียนบางคน (เช่น A. I. Orlov) เชื่อว่ากลุ่มนี้ไม่ได้อยู่ในการจัดกลุ่มเลยและคัดค้านภายใต้ชื่อ "การเลือกปฏิบัติ" นั่นคือการเลือกกำหนดวัตถุให้กับกลุ่มที่รู้จักกลุ่มใดกลุ่มหนึ่ง (ตัวอย่างการฝึกอบรม)
  2. แนวทางตามระบบปัญญาประดิษฐ์. กลุ่มที่มีเงื่อนไขมาก เนื่องจากมีวิธีการของ AI จำนวนมากและมีระเบียบวิธีที่แตกต่างกันมาก
  3. วิธีการเชิงตรรกะ. การสร้าง dendrogram ดำเนินการโดยใช้แผนผังการตัดสินใจ
  4. แนวทางทฤษฎีกราฟ.
    • อัลกอริทึมการจัดกลุ่มกราฟ
  5. วิธีการตามลำดับชั้น. การมีอยู่ของกลุ่มที่ซ้อนกัน (คลัสเตอร์ของคำสั่งซื้อที่แตกต่างกัน) จะถือว่า ในทางกลับกัน อัลกอริทึมจะแบ่งออกเป็นแบบรวม (รวม) และหาร (แยก) ตามจำนวนคุณสมบัติบางครั้งวิธีการจำแนกประเภท monothetic และ polythetic นั้นแตกต่างกัน
    • การแบ่งกลุ่มตามลำดับชั้นหรืออนุกรมวิธาน ปัญหาการจัดกลุ่มจะพิจารณาในอนุกรมวิธานเชิงปริมาณ
  6. วิธีการอื่นๆ. ไม่รวมอยู่ในกลุ่มก่อนหน้า
    • อัลกอริทึมการจัดกลุ่มทางสถิติ
    • กลุ่มคลัสเตอร์
    • อัลกอริทึมของตระกูล KRAB
    • อัลกอริทึมตามวิธีการกรอง
    • DBSCAN เป็นต้น

แนวทางที่ 4 และ 5 บางครั้งรวมกันภายใต้ชื่อแนวทางเชิงโครงสร้างหรือทางเรขาคณิต ซึ่งมีแนวคิดเรื่องความใกล้ชิดที่เป็นทางการมากกว่า แม้จะมีความแตกต่างอย่างมีนัยสำคัญระหว่างวิธีการที่ระบุไว้ แต่ทั้งหมดก็ขึ้นอยู่กับต้นฉบับ " สมมติฐานความกระชับ»: ในพื้นที่วัตถุ วัตถุที่ปิดทั้งหมดจะต้องอยู่ในคลัสเตอร์เดียวกัน และวัตถุที่ต่างกันทั้งหมด ตามลำดับ จะต้องอยู่ในคลัสเตอร์ที่แตกต่างกัน

คำชี้แจงอย่างเป็นทางการของปัญหาการทำคลัสเตอร์

อนุญาต เป็นชุดของวัตถุ เป็นชุดของตัวเลข (ชื่อ ป้ายกำกับ) ของกลุ่ม มีการกำหนดฟังก์ชันระยะห่างระหว่างวัตถุ มีชุดของวัตถุการฝึกอบรมจำกัด จำเป็นต้องแยกตัวอย่างออกเป็นส่วนย่อยที่ไม่ทับซ้อนกัน เรียกว่า กระจุกเพื่อให้แต่ละคลัสเตอร์ประกอบด้วยอ็อบเจ็กต์ใกล้เคียงในหน่วยเมตริก และอ็อบเจ็กต์ของคลัสเตอร์ต่างๆ ต่างกันอย่างมีนัยสำคัญ ในกรณีนี้ แต่ละวัตถุจะได้รับหมายเลขคลัสเตอร์

อัลกอริทึมการจัดกลุ่มเป็นฟังก์ชันที่เชื่อมโยงวัตถุใด ๆ กับหมายเลขคลัสเตอร์ ชุดในบางกรณีเป็นที่รู้จักกันล่วงหน้า แต่บ่อยครั้งที่งานคือการกำหนดจำนวนที่เหมาะสมที่สุดของคลัสเตอร์จากมุมมองของหนึ่งหรืออีกคนหนึ่ง เกณฑ์คุณภาพการรวมกลุ่ม

การจัดกลุ่ม (การเรียนรู้แบบไม่มีผู้สอน) แตกต่างจากการจัดหมวดหมู่ (การเรียนรู้แบบมีผู้สอน) ตรงที่ไม่มีการตั้งค่าป้ายกำกับของวัตถุดั้งเดิม และอาจไม่รู้จักชุดด้วยซ้ำ

วิธีแก้ปัญหาการจัดกลุ่มนั้นคลุมเครือโดยพื้นฐาน และมีเหตุผลหลายประการสำหรับสิ่งนี้ (อ้างอิงจากผู้เขียนหลายคน):

  • ไม่มีเกณฑ์ใดที่ดีที่สุดสำหรับคุณภาพของการจัดกลุ่ม รู้จักเกณฑ์ฮิวริสติกจำนวนหนึ่ง รวมถึงอัลกอริทึมจำนวนหนึ่งที่ไม่มีเกณฑ์ที่กำหนดไว้อย่างชัดเจน แต่ดำเนินการจัดกลุ่มที่สมเหตุสมผลพอสมควร "โดยการสร้าง" ทั้งหมดสามารถให้ผลลัพธ์ที่แตกต่างกัน ดังนั้น เพื่อกำหนดคุณภาพของการจัดกลุ่ม จึงจำเป็นต้องมีผู้เชี่ยวชาญในสาขาวิชาที่สามารถประเมินความหมายของการเลือกกลุ่มได้
  • จำนวนของกลุ่มมักจะไม่ทราบล่วงหน้าและตั้งค่าตามเกณฑ์อัตนัย สิ่งนี้เป็นจริงสำหรับวิธีการเลือกปฏิบัติเท่านั้น เนื่องจากในวิธีการจัดกลุ่ม กลุ่มจะถูกเลือกโดยใช้วิธีการที่เป็นทางการตามมาตรการความใกล้ชิด
  • ผลลัพธ์การจัดกลุ่มขึ้นอยู่กับเมตริกอย่างมาก ซึ่งตัวเลือกตามกฎก็เป็นอัตนัยเช่นกันและกำหนดโดยผู้เชี่ยวชาญ แต่เป็นที่น่าสังเกตว่ามีคำแนะนำมากมายสำหรับการเลือกมาตรการความใกล้ชิดสำหรับงานต่างๆ

แอปพลิเคชัน

ในทางชีววิทยา

ในทางชีววิทยา การจัดกลุ่มมีการใช้งานมากมายในหลากหลายสาขา ตัวอย่างเช่น ในชีวสารสนเทศศาสตร์ มันถูกใช้เพื่อวิเคราะห์เครือข่ายที่ซับซ้อนของยีนที่มีปฏิสัมพันธ์ ซึ่งบางครั้งประกอบด้วยองค์ประกอบหลายร้อยหรือหลายพันองค์ประกอบ การวิเคราะห์คลัสเตอร์ทำให้คุณสามารถระบุซับเน็ต คอขวด ฮับ และคุณสมบัติที่ซ่อนอยู่อื่นๆ ของระบบที่กำลังศึกษาอยู่ได้ ซึ่งในท้ายที่สุดแล้ว จะช่วยให้คุณค้นพบว่าแต่ละยีนมีส่วนช่วยในการก่อตัวของปรากฏการณ์ที่กำลังศึกษาอยู่

ในสาขานิเวศวิทยา มีการใช้กันอย่างแพร่หลายในการระบุกลุ่มสิ่งมีชีวิต ชุมชน ฯลฯ ที่เป็นเนื้อเดียวกันเชิงพื้นที่ โดยทั่วไปไม่นิยมใช้วิธีการวิเคราะห์กลุ่มเพื่อศึกษาชุมชนในช่วงเวลาหนึ่ง ความแตกต่างของโครงสร้างของชุมชนนำไปสู่การเกิดขึ้นของวิธีการวิเคราะห์กลุ่มที่ไม่สำคัญ (ตัวอย่างเช่น วิธี Czekanowski)

โดยทั่วไปแล้ว เป็นที่น่าสังเกตว่าในอดีต การวัดความคล้ายคลึงกันมักใช้เป็นการวัดความใกล้เคียงในชีววิทยามากกว่าการวัดความแตกต่าง (ระยะทาง)

ในสังคมวิทยา

เมื่อวิเคราะห์ผลการวิจัยทางสังคมวิทยาขอแนะนำให้ทำการวิเคราะห์โดยใช้วิธีการของตระกูล agglomerative แบบลำดับชั้น ได้แก่ วิธีวอร์ดซึ่งการกระจายขั้นต่ำได้รับการปรับให้เหมาะสมภายในกลุ่มเป็นผลให้กลุ่มมีขนาดเท่ากันโดยประมาณ ถูกสร้างขึ้น วิธีการของ Ward นั้นประสบความสำเร็จมากที่สุดในการวิเคราะห์ข้อมูลทางสังคมวิทยา ในการวัดความแตกต่าง ระยะทางแบบยุคลิดกำลังสองจะดีกว่า ซึ่งมีส่วนทำให้ความเปรียบต่างของกลุ่มเพิ่มขึ้น ผลลัพธ์หลักของการวิเคราะห์คลัสเตอร์แบบลำดับชั้นคือ dendrogram หรือ "icicle diagram" เมื่อแปลความหมาย นักวิจัยต้องเผชิญกับปัญหาแบบเดียวกับการตีความผลลัพธ์ของการวิเคราะห์ปัจจัย นั่นคือการขาดเกณฑ์ที่ชัดเจนในการระบุกลุ่ม ขอแนะนำให้ใช้สองวิธีเป็นหลัก - การวิเคราะห์ด้วยสายตาของ dendrogram และการเปรียบเทียบผลลัพธ์ของการจัดกลุ่มที่ดำเนินการโดยวิธีการต่างๆ

การวิเคราะห์ด้วยสายตาของ dendrogram นั้นเกี่ยวข้องกับการ "ตัด" ต้นไม้ในระดับที่เหมาะสมที่สุดของความคล้ายคลึงกันขององค์ประกอบตัวอย่าง “แขนงเถาวัลย์” (ศัพท์เฉพาะของ Oldenderfer MS และ Blashfield R.K.) ควรถูก “ตัดออก” ที่ประมาณ 5 ในระดับ Rescaled Distance Cluster Combine เพื่อให้ได้ระดับความคล้ายคลึงกัน 80% หากการเลือกคลัสเตอร์ตามป้ายกำกับนี้ทำได้ยาก (คลัสเตอร์ขนาดเล็กหลายกลุ่มรวมกันเป็นหนึ่งขนาดใหญ่บนนั้น) คุณสามารถเลือกป้ายกำกับอื่นได้ เทคนิคนี้เสนอโดย Oldenderfer และ Blashfield

ตอนนี้คำถามเกี่ยวกับความเสถียรของโซลูชันคลัสเตอร์ที่นำมาใช้จึงเกิดขึ้น อันที่จริงแล้ว การตรวจสอบความเสถียรของการจัดกลุ่มนั้นขึ้นอยู่กับการตรวจสอบความน่าเชื่อถือ มีกฎทั่วไปอยู่ที่นี่ - การจำแนกประเภทที่เสถียรจะถูกรักษาไว้เมื่อวิธีการทำคลัสเตอร์เปลี่ยนไป ผลของการวิเคราะห์คลัสเตอร์แบบลำดับชั้นสามารถตรวจสอบได้โดยการวิเคราะห์คลัสเตอร์ค่าเฉลี่ย k แบบวนซ้ำ หากการจำแนกประเภทเปรียบเทียบของกลุ่มผู้ตอบแบบสอบถามมีส่วนแบ่งของความบังเอิญมากกว่า 70% (มากกว่า 2/3 ของความบังเอิญ) จะมีการตัดสินใจแบบกลุ่ม

เป็นไปไม่ได้ที่จะตรวจสอบความเพียงพอของโซลูชันโดยไม่หันไปใช้การวิเคราะห์ประเภทอื่น อย่างน้อยในทางทฤษฎี ปัญหานี้ยังไม่ได้รับการแก้ไข การวิเคราะห์คลัสเตอร์แบบคลาสสิกของ Oldenderfer และ Blashfield อธิบายอย่างละเอียดและปฏิเสธวิธีทดสอบความทนทานเพิ่มเติมห้าวิธีในท้ายที่สุด:

ในวิทยาการคอมพิวเตอร์

  • ผลการค้นหาการจัดกลุ่ม - ใช้สำหรับการจัดกลุ่มผลลัพธ์ "อัจฉริยะ" เมื่อค้นหาไฟล์ เว็บไซต์ ออบเจ็กต์อื่นๆ ช่วยให้ผู้ใช้นำทางได้อย่างรวดเร็ว เลือกชุดย่อยที่เกี่ยวข้องอย่างชัดเจน และไม่รวมชุดที่เกี่ยวข้องน้อยกว่า ซึ่งสามารถเพิ่มความสามารถในการใช้งาน ของอินเทอร์เฟซเทียบกับผลลัพธ์ในรูปแบบง่าย ๆ เรียงตามรายการความเกี่ยวข้อง
    • Clustery - เครื่องมือค้นหาการจัดกลุ่มของ Vivísimo
    • Nigma - เครื่องมือค้นหาของรัสเซียพร้อมการจัดกลุ่มผลลัพธ์อัตโนมัติ
    • Quintura - การจัดกลุ่มภาพในรูปแบบของกลุ่มคำหลัก
  • การแบ่งส่วนภาพ การแบ่งส่วนภาพ) - การจัดกลุ่มสามารถใช้เพื่อแบ่งภาพดิจิทัลออกเป็นส่วนที่แตกต่างกันเพื่อวัตถุประสงค์ในการตรวจจับขอบ การตรวจจับขอบ) หรือการจดจำวัตถุ
  • การทำเหมืองข้อมูล การทำเหมืองข้อมูล)- การทำคลัสเตอร์ในการขุดข้อมูลจะมีประโยชน์เมื่อทำหน้าที่เป็นหนึ่งในขั้นตอนของการวิเคราะห์ข้อมูล โดยสร้างโซลูชันการวิเคราะห์ที่สมบูรณ์ บ่อยครั้งที่นักวิเคราะห์สามารถระบุกลุ่มของออบเจ็กต์ที่คล้ายกัน ศึกษาคุณลักษณะและสร้างแบบจำลองแยกต่างหากสำหรับแต่ละกลุ่มได้ง่ายกว่าการสร้างแบบจำลองทั่วไปเดียวสำหรับข้อมูลทั้งหมด เทคนิคนี้ใช้อย่างต่อเนื่องในด้านการตลาด โดยเน้นที่กลุ่มลูกค้า ผู้ซื้อสินค้า และพัฒนากลยุทธ์แยกต่างหากสำหรับแต่ละกลุ่ม

ดูสิ่งนี้ด้วย

หมายเหตุ

ลิงค์

เป็นภาษารัสเซีย
  • www.MachineLearning.ru - ทรัพยากร wiki ระดับมืออาชีพที่ทุ่มเทให้กับการเรียนรู้ของเครื่องและการขุดข้อมูล
เป็นภาษาอังกฤษ
  • COMPACT - แพ็คเกจเปรียบเทียบสำหรับการประเมินการจัดกลุ่ม. แพ็คเกจ Matlab ฟรี 2549
  • พี. เบอร์คิน การสำรวจเทคนิคการทำเหมืองข้อมูลแบบคลัสเตอร์, แอคครูว์ ซอฟต์แวร์, 2545.
  • เชน เมอร์ตี และฟลินน์: การจัดกลุ่มข้อมูล: บทวิจารณ์, บช.น. รอด., 2542.
  • สำหรับการนำเสนออื่นๆ ของค่าเฉลี่ยแบบลำดับชั้น ค่าเฉลี่ย k และค่าเฉลี่ยแบบฟัซซี โปรดดูบทนำเกี่ยวกับการจัดกลุ่ม มีคำอธิบายส่วนผสมของ Gaussians ด้วย
  • เดวิด โดว์, หน้าแบบจำลองส่วนผสม- ลิงค์แบบจำลองการจัดกลุ่มและแบบผสมอื่น ๆ
  • บทช่วยสอนเกี่ยวกับการจัดกลุ่ม
  • หนังสือเรียนออนไลน์: ทฤษฎีสารสนเทศ การอนุมาน และอัลกอริทึมการเรียนรู้ โดย David J.C. MacKay รวมบทต่างๆ เกี่ยวกับการจัดกลุ่มค่าเฉลี่ย k การจัดกลุ่มค่าเฉลี่ย k แบบอ่อน และรากเหง้า รวมถึงอัลกอริทึม E-M และมุมมองแบบแปรผันของอัลกอริทึม E-M
  • "ยีนที่จัดระเบียบตนเอง" บทช่วยสอนที่อธิบายการจัดกลุ่มผ่านการเรียนรู้แบบแข่งขันและแผนที่การจัดระเบียบตนเอง
  • kernlab - แพ็คเกจ R สำหรับการเรียนรู้ของเครื่องที่ใช้เคอร์เนล (รวมถึงการใช้งานการจัดกลุ่มสเปกตรัม)
  • บทช่วยสอน - บทช่วยสอนพร้อมการแนะนำอัลกอริทึมการทำคลัสเตอร์ (k-mean, fuzzy-c-means, ลำดับชั้น, ส่วนผสมของเกาส์เซียน) + การสาธิตเชิงโต้ตอบ (java applet)
  • ซอฟต์แวร์ขุดข้อมูล - ซอฟต์แวร์ขุดข้อมูลมักใช้เทคนิคการทำคลัสเตอร์
  • Java Competitve Learning Application ชุดของ Neural Networks ที่ไม่มีผู้ดูแลสำหรับการทำคลัสเตอร์ เขียนด้วยภาษาจาวา กรอกด้วยซอร์สโค้ดทั้งหมด
  • ซอฟต์แวร์การเรียนรู้ของเครื่อง - ยังมีซอฟต์แวร์การทำคลัสเตอร์มากมาย

เรารู้ว่าโลกเป็นหนึ่งในดาวเคราะห์ 8 ดวงที่หมุนรอบดวงอาทิตย์ ดวงอาทิตย์เป็นเพียงดาวฤกษ์ในดาราจักรทางช้างเผือกประมาณ 2 แสนล้านดวง มันยากมากที่จะเข้าใจตัวเลขนี้ เมื่อรู้สิ่งนี้ เราสามารถตั้งสมมติฐานเกี่ยวกับจำนวนดวงดาวในจักรวาล - ประมาณ 4X10^22 เราสามารถเห็นดวงดาวได้ประมาณหนึ่งล้านดวงบนท้องฟ้า แม้ว่านี่จะเป็นเพียงเสี้ยวเล็กๆ ของจำนวนดาวจริงๆ ดังนั้นเราจึงมีคำถามสองข้อ:

  1. กาแลคซีคืออะไร?
  2. และอะไรคือความเชื่อมโยงระหว่างกาแลคซีกับหัวข้อของบทความ (การวิเคราะห์คลัสเตอร์)


กาแล็กซีคือกลุ่มของดาวฤกษ์ แก๊ส ฝุ่น ดาวเคราะห์ และเมฆระหว่างดวงดาว โดยปกติแล้วกาแลคซีจะมีรูปร่างคล้ายก้นหอยหรือมีรูปร่างคล้ายสัตว์ ในอวกาศ กาแล็กซีจะแยกออกจากกัน หลุมดำขนาดใหญ่มักจะเป็นศูนย์กลางของดาราจักรส่วนใหญ่

ดังที่เราจะกล่าวถึงในส่วนถัดไป มีความคล้ายคลึงกันหลายประการระหว่างการวิเคราะห์กาแลคซีและกระจุกดาว กาแลคซีมีอยู่ในพื้นที่สามมิติ การวิเคราะห์คลัสเตอร์คือการวิเคราะห์หลายมิติที่ดำเนินการในปริภูมิ n มิติ

หมายเหตุ: หลุมดำเป็นศูนย์กลางของกาแล็กซี เราจะใช้แนวคิดที่คล้ายกันกับเซนทรอยด์ในการวิเคราะห์คลัสเตอร์

การวิเคราะห์คลัสเตอร์

สมมติว่าคุณเป็นหัวหน้าฝ่ายการตลาดและลูกค้าสัมพันธ์ของบริษัทโทรคมนาคม คุณเข้าใจว่าลูกค้าทุกคนแตกต่างกัน และคุณต้องการกลยุทธ์ที่แตกต่างกันในการเข้าถึงลูกค้าที่แตกต่างกัน คุณจะประทับใจกับพลังของเครื่องมือ เช่น การแบ่งกลุ่มลูกค้าเพื่อเพิ่มประสิทธิภาพต้นทุน หากต้องการทบทวนความรู้ของคุณเกี่ยวกับการวิเคราะห์คลัสเตอร์ ให้พิจารณาตัวอย่างต่อไปนี้ ซึ่งแสดงภาพลูกค้า 8 รายและระยะเวลาการสนทนาโดยเฉลี่ย (ในประเทศและต่างประเทศ) ด้านล่างนี้เป็นข้อมูล:

เพื่อความเข้าใจที่ดีขึ้น ลองวาดกราฟโดยแกน x จะเป็นระยะเวลาเฉลี่ยของการโทรระหว่างประเทศ และแกน y - ระยะเวลาเฉลี่ยของการโทรในประเทศ ด้านล่างนี้เป็นแผนภูมิ:

หมายเหตุ: สิ่งนี้คล้ายกับการวิเคราะห์ตำแหน่งของดวงดาวบนท้องฟ้ายามค่ำคืน (ที่นี่ดวงดาวจะถูกแทนที่ด้วยผู้บริโภค) นอกจากนี้ แทนที่จะเป็นพื้นที่ 3 มิติ เรามีพื้นที่ 2 มิติ ซึ่งกำหนดโดยระยะเวลาของการโทรในพื้นที่และระหว่างประเทศเป็นแกน x และ y
ตอนนี้เมื่อพูดถึงกาแลคซีปัญหาถูกกำหนดดังนี้ - เพื่อค้นหาตำแหน่งของหลุมดำ ในการวิเคราะห์คลัสเตอร์จะเรียกว่าเซนทรอยด์ ในการตรวจจับเซนทรอยด์ เราจะเริ่มต้นด้วยการกำหนดจุดตามอำเภอใจเป็นตำแหน่งของเซนทรอยด์

ระยะทางแบบยุคลิดสำหรับการค้นหาเซนทรอยด์สำหรับคลัสเตอร์

ในกรณีของเรา เราจะสุ่มวางเซนทรอยด์สองตัว (C1 และ C2) ที่จุดที่มีพิกัด (1, 1) และ (3, 4) ทำไมเราถึงเลือกเซนทรอยด์สองตัวนี้ การแสดงภาพจุดบนกราฟแสดงให้เราเห็นว่ามีสองกลุ่มที่เราจะวิเคราะห์ อย่างไรก็ตาม เราจะเห็นในภายหลังว่าคำตอบสำหรับคำถามนี้จะไม่ง่ายนักสำหรับชุดข้อมูลขนาดใหญ่
ต่อไป เราจะวัดระยะห่างระหว่างเซนทรอยด์ (C1 และ C2) และจุดทั้งหมดบนกราฟโดยใช้สูตรของ Euclid เพื่อหาระยะห่างระหว่างจุดสองจุด

หมายเหตุ: ระยะทางยังสามารถคำนวณโดยใช้สูตรอื่นๆ เช่น

  1. กำลังสองของระยะทางแบบยุคลิด - เพื่อให้น้ำหนักแก่วัตถุที่อยู่ห่างไกลจากกันมากขึ้น
  2. ระยะทางแมนฮัตตัน - เพื่อลดผลกระทบของการปล่อยมลพิษ
  3. ระยะกำลัง - เพื่อเพิ่ม / ลดอิทธิพลต่อพิกัดเฉพาะ
  4. เปอร์เซ็นต์การไม่เห็นด้วย - สำหรับข้อมูลที่เป็นหมวดหมู่
  5. และอื่น ๆ.
คอลัมน์ 3 และ 4 (ระยะทางจาก C1 และ C2) คือระยะทางที่คำนวณโดยใช้สูตรนี้ ตัวอย่างเช่น สำหรับผู้ใช้รายแรก

ที่เป็นของ centroids (คอลัมน์สุดท้าย) คำนวณตามหลักการของความใกล้ชิดกับ centroids (C1 และ C2) ผู้บริโภครายแรกอยู่ใกล้กับเซนทรอยด์ #1 (1.41 เทียบกับ 2.24) ดังนั้นจึงอยู่ในคลัสเตอร์ที่มีเซนทรอยด์ C1

ด้านล่างนี้เป็นกราฟที่แสดงเซนทรอยด์ C1 และ C2 (แสดงเป็นเพชรสีน้ำเงินและสีส้ม) ผู้บริโภคจะแสดงเป็นสีของเซนทรอยด์ที่สอดคล้องกันซึ่งได้รับมอบหมาย

เนื่องจากเราได้เลือกเซนทรอยด์โดยพลการ ขั้นตอนที่สองคือการทำให้ตัวเลือกนี้วนซ้ำ ตำแหน่งใหม่ของ centroids จะถูกเลือกเป็นค่าเฉลี่ยสำหรับคะแนนของคลัสเตอร์ที่เกี่ยวข้อง ตัวอย่างเช่น สำหรับเซนทรอยด์ตัวแรก (เหล่านี้คือผู้บริโภค 1, 2 และ 3) ดังนั้น พิกัด x ใหม่สำหรับเซนทรอยด์ C1 คือค่าเฉลี่ยของพิกัด x ของผู้บริโภคเหล่านี้ (2+1+1)/3 = 1.33 เราจะได้รับพิกัดใหม่สำหรับ C1 (1.33, 2.33) และ C2 (4.4, 4.2) พล็อตใหม่อยู่ด้านล่าง:

สุดท้าย เราจะวาง centroids ไว้ตรงกลางของคลัสเตอร์ที่เกี่ยวข้อง ตารางด้านล่าง:

ตำแหน่งของหลุมดำ (ศูนย์กลางกลุ่ม) ในตัวอย่างของเราคือ C1 (1.75, 2.25) และ C2 (4.75, 4.75) สองกระจุกข้างต้นเป็นเหมือนกาแลคซีสองแห่งที่แยกออกจากกันในอวกาศ

ลองดูตัวอย่างเพิ่มเติม ให้เราเผชิญกับงานในการแบ่งกลุ่มผู้บริโภคตามพารามิเตอร์สองตัว ได้แก่ อายุและรายได้ สมมติว่าเรามีผู้บริโภค 2 คนอายุ 37 และ 44 ปีโดยมีรายได้ 90,000 ดอลลาร์และ 62,000 ดอลลาร์ตามลำดับ หากเราต้องการวัดระยะทางแบบยุคลิดระหว่างจุด (37, 90000) และ (44, 62000) เราจะเห็นว่าในกรณีนี้ตัวแปรรายได้ "ครอบงำ" ตัวแปรอายุ และการเปลี่ยนแปลงมีผลอย่างมากต่อระยะทาง เราต้องการกลยุทธ์บางอย่างเพื่อแก้ปัญหานี้ มิฉะนั้น การวิเคราะห์ของเราจะให้ผลลัพธ์ที่ไม่ถูกต้อง วิธีแก้ไขปัญหานี้คือการนำค่าของเรามาเทียบเคียงกับมาตราส่วน การทำให้เป็นมาตรฐานเป็นวิธีแก้ปัญหาของเรา

การทำให้เป็นมาตรฐานของข้อมูล

มีหลายวิธีในการทำให้ข้อมูลเป็นมาตรฐาน ตัวอย่างเช่น การทำให้เป็นมาตรฐานขั้นต่ำ-สูงสุด สำหรับการทำให้เป็นมาตรฐานนี้ จะใช้สูตรต่อไปนี้

ในกรณีนี้ X* คือค่ามาตรฐาน ส่วนต่ำสุดและสูงสุดคือพิกัดต่ำสุดและสูงสุดของ X ทั้งชุด
(หมายเหตุ สูตรนี้จะวางพิกัดทั้งหมดในส่วน )
พิจารณาตัวอย่างของเรา ให้รายได้สูงสุดเป็น $130,000 และขั้นต่ำเป็น $45,000 ค่าปกติของรายได้สำหรับผู้บริโภค A คือ

เราจะทำแบบฝึกหัดนี้สำหรับทุกจุดสำหรับแต่ละตัวแปร (พิกัด) รายได้สำหรับผู้บริโภครายที่สอง (62,000) จะกลายเป็น 0.2 หลังจากขั้นตอนการทำให้เป็นมาตรฐาน นอกจากนี้ ให้อายุขั้นต่ำและสูงสุดคือ 23 และ 58 ตามลำดับ หลังจากการทำให้เป็นมาตรฐาน อายุของผู้บริโภคทั้งสองของเราจะเท่ากับ 0.4 และ 0.6

เป็นเรื่องง่ายที่จะเห็นว่าตอนนี้ข้อมูลทั้งหมดของเราอยู่ระหว่าง 0 ถึง 1 ดังนั้น เราจึงได้ปรับชุดข้อมูลให้เป็นมาตรฐานในสเกลที่เทียบเคียงได้

โปรดจำไว้ว่า ก่อนขั้นตอนการวิเคราะห์คลัสเตอร์ จำเป็นต้องทำการทำให้เป็นมาตรฐาน

ประเภทอินพุต

  • คำอธิบายบ่งชี้ของวัตถุ แต่ละวัตถุอธิบายด้วยชุดของคุณลักษณะที่เรียกว่า สัญญาณ. คุณลักษณะอาจเป็นตัวเลขหรือไม่ใช่ตัวเลขก็ได้
  • เมทริกซ์ระยะทางระหว่างวัตถุ วัตถุแต่ละชิ้นอธิบายด้วยระยะห่างจากวัตถุอื่นๆ ในชุดการฝึก

เมทริกซ์ระยะทางสามารถคำนวณได้จากเมทริกซ์ของคำอธิบายคุณลักษณะของออบเจกต์ในหลายวิธี ขึ้นอยู่กับวิธีการแนะนำฟังก์ชันระยะทาง (เมตริก) ระหว่างคำอธิบายคุณลักษณะ มักใช้เมตริกแบบยุคลิด แต่ตัวเลือกนี้ในกรณีส่วนใหญ่เป็นฮิวริสติกและเกิดจากการคำนึงถึงความสะดวกเท่านั้น

ปัญหาผกผัน - การคืนค่าคำอธิบายคุณลักษณะโดยเมทริกซ์ของระยะห่างระหว่างวัตถุแบบคู่ - ในกรณีทั่วไปไม่มีวิธีแก้ปัญหา และวิธีแก้ปัญหาโดยประมาณนั้นไม่ซ้ำกันและอาจมีข้อผิดพลาดที่สำคัญ ปัญหานี้แก้ไขได้ด้วยวิธีการปรับขนาดหลายมิติ

ดังนั้นการกำหนดปัญหาของการจัดกลุ่มโดย เมทริกซ์ระยะทางเป็นเรื่องทั่วไปมากขึ้น ในทางกลับกัน เมื่อมีคำอธิบายคุณลักษณะ ก็มักจะสามารถสร้างวิธีการจัดกลุ่มที่มีประสิทธิภาพมากขึ้นได้

เป้าหมายของการรวมกลุ่ม

  • ทำความเข้าใจข้อมูลโดยการระบุโครงสร้างคลัสเตอร์ การแบ่งตัวอย่างออกเป็นกลุ่มของวัตถุที่คล้ายกันทำให้การประมวลผลข้อมูลเพิ่มเติมและการตัดสินใจง่ายขึ้นโดยใช้วิธีการวิเคราะห์ของตัวเองกับแต่ละกลุ่ม (กลยุทธ์ "แบ่งและพิชิต")
  • การบีบอัดข้อมูล หากตัวอย่างเริ่มต้นมีขนาดใหญ่เกินไป ก็สามารถลดขนาดลงได้ โดยเหลือหนึ่งในตัวแทนทั่วไปที่สุดจากแต่ละคลัสเตอร์
  • การตรวจจับความแปลกใหม่ มีการเลือกวัตถุที่ผิดปกติซึ่งไม่สามารถแนบกับคลัสเตอร์ใดๆ

ในกรณีแรก พวกเขาพยายามทำให้จำนวนคลัสเตอร์น้อยลง ในกรณีที่สอง สิ่งสำคัญคือต้องแน่ใจว่ามีความคล้ายคลึงกันในระดับสูง (หรือคงที่) ของอ็อบเจ็กต์ภายในแต่ละคลัสเตอร์ และอาจมีคลัสเตอร์จำนวนเท่าใดก็ได้ ในกรณีที่สาม วัตถุแต่ละชิ้นที่ไม่เข้ากับคลัสเตอร์ใด ๆ เป็นสิ่งที่น่าสนใจที่สุด

ในทุกกรณีเหล่านี้ การจัดกลุ่มแบบลำดับชั้นสามารถประยุกต์ใช้ได้ เมื่อกลุ่มขนาดใหญ่ถูกแบ่งออกเป็นกลุ่มที่เล็กลง ซึ่งจะแยกให้เล็กลงอีก เป็นต้น งานดังกล่าวเรียกว่างานอนุกรมวิธาน

ผลลัพธ์ของอนุกรมวิธานคือโครงสร้างลำดับชั้นแบบต้นไม้ นอกจากนี้ แต่ละอ็อบเจกต์ยังแสดงลักษณะการแจงนับของกลุ่มทั้งหมดที่มันเป็นสมาชิก โดยปกติจะเรียงจากใหญ่ไปหาเล็ก ทางสายตา อนุกรมวิธานแสดงเป็นกราฟที่เรียกว่า เดนโดรแกรม

ตัวอย่างคลาสสิกของอนุกรมวิธานตามความคล้ายคลึงกันคือ ศัพท์ทวินามของสิ่งมีชีวิตเสนอโดย Carl Linnaeus ในกลางศตวรรษที่ 18 การจัดระบบที่คล้ายกันถูกสร้างขึ้นในความรู้หลายสาขาเพื่อจัดระเบียบข้อมูลเกี่ยวกับวัตถุจำนวนมาก

ฟังก์ชันระยะทาง

วิธีการจัดกลุ่ม

  • อัลกอริทึมการจัดกลุ่มทางสถิติ
  • การจัดกลุ่มตามลำดับชั้นหรืออนุกรมวิธาน

คำชี้แจงอย่างเป็นทางการของปัญหาการทำคลัสเตอร์

อนุญาต เป็นชุดของวัตถุ เป็นชุดของตัวเลข (ชื่อ ป้ายกำกับ) ของกลุ่ม มีการกำหนดฟังก์ชันระยะห่างระหว่างวัตถุ มีชุดของวัตถุการฝึกอบรมจำกัด จำเป็นต้องแยกตัวอย่างออกเป็นส่วนย่อยที่ไม่ทับซ้อนกัน เรียกว่า กระจุกเพื่อให้แต่ละคลัสเตอร์ประกอบด้วยอ็อบเจ็กต์ใกล้เคียงในหน่วยเมตริก และอ็อบเจ็กต์ของคลัสเตอร์ต่างๆ ต่างกันอย่างมีนัยสำคัญ ในกรณีนี้ แต่ละวัตถุจะได้รับหมายเลขคลัสเตอร์

อัลกอริทึมการจัดกลุ่มเป็นฟังก์ชันที่เชื่อมโยงวัตถุใด ๆ กับหมายเลขคลัสเตอร์ ชุดในบางกรณีเป็นที่รู้จักกันล่วงหน้า แต่บ่อยครั้งที่งานคือการกำหนดจำนวนที่เหมาะสมที่สุดของคลัสเตอร์จากมุมมองของหนึ่งหรืออีกคนหนึ่ง เกณฑ์คุณภาพการรวมกลุ่ม

การจัดกลุ่ม (การเรียนรู้แบบไม่มีผู้สอน) แตกต่างจากการจัดหมวดหมู่ (การเรียนรู้แบบมีผู้สอน) ตรงที่ไม่มีการตั้งค่าป้ายกำกับของวัตถุดั้งเดิม และอาจไม่รู้จักชุดด้วยซ้ำ

วิธีแก้ปัญหาการจัดกลุ่มนั้นคลุมเครือโดยพื้นฐาน และมีเหตุผลหลายประการสำหรับสิ่งนี้:

  • ไม่มีเกณฑ์ใดที่ดีที่สุดสำหรับคุณภาพของการจัดกลุ่ม รู้จักเกณฑ์ฮิวริสติกจำนวนหนึ่ง รวมถึงอัลกอริทึมจำนวนหนึ่งที่ไม่มีเกณฑ์ที่กำหนดไว้อย่างชัดเจน แต่ดำเนินการจัดกลุ่มที่สมเหตุสมผลพอสมควร "โดยการสร้าง" ทั้งหมดสามารถให้ผลลัพธ์ที่แตกต่างกัน
  • จำนวนของกลุ่มมักจะไม่ทราบล่วงหน้าและถูกกำหนดตามเกณฑ์อัตนัย
  • ผลลัพธ์ของการจัดกลุ่มขึ้นอยู่กับเมตริกอย่างมาก ซึ่งตัวเลือกตามกฎก็เป็นอัตนัยเช่นกันและกำหนดโดยผู้เชี่ยวชาญ

ลิงค์

  • Vorontsov K.V. วิธีการสอนคณิตศาสตร์โดยแบบอย่าง สถาบันฟิสิกส์และเทคโนโลยีแห่งมอสโก (2547), VMiK MSU (2550)
  • เซอร์เก นิโคเลนโก สไลด์บรรยาย "อัลกอริทึมการจัดกลุ่ม 1" และ "อัลกอริทึมการจัดกลุ่ม 2" หลักสูตร "ระบบการเรียนรู้ด้วยตนเอง".

วรรณกรรม

  1. Aivazyan S. A. , Buchstaber V. M. , Enyukov I. S. , Meshalkin L. D.สถิติประยุกต์: การจำแนกประเภทและการลดขนาด. - ม.: การเงินและสถิติ, 2532.
  2. Zhuravlev Yu. I. , Ryazanov V. V. , Senko O. V."การยอมรับ". วิธีการทางคณิตศาสตร์. ระบบซอฟต์แวร์. การใช้งานจริง. - ม.: Fazis, 2549. .
  3. Zagoruiko N. G.วิธีการประยุกต์การวิเคราะห์ข้อมูลและความรู้ - โนโวซีบีสค์: IM SO RAN, 1999. .
  4. แมนเดล ไอ.ดี.การวิเคราะห์คลัสเตอร์ - ม.: การเงินและสถิติ, 2531.
  5. ชเลซิงเงอร์ เอ็ม, กลาวาช วี.สิบการบรรยายเกี่ยวกับการจดจำทางสถิติและโครงสร้าง - เคียฟ: Naukova Dumka, 2004. .
  6. Hastie T., Tibshirani R., Friedman J.องค์ประกอบของการเรียนรู้ทางสถิติ - สปริงเกอร์, 2544. .