อัลกอริทึมการจัดกลุ่มข้อมูล อัลกอริทึมตามทฤษฎีกราฟ
การวิเคราะห์คลัสเตอร์คือ
ขอให้เป็นวันที่ดี. ที่นี่ฉันมีความเคารพต่อผู้ที่เป็นแฟนผลงานของพวกเขา
Maxim เพื่อนของฉันอยู่ในหมวดหมู่นี้ ทำงานกับตัวเลข วิเคราะห์ สร้างรายงานที่เกี่ยวข้องอย่างต่อเนื่อง
เมื่อวานนี้เรารับประทานอาหารกลางวันด้วยกัน ดังนั้นเป็นเวลาเกือบครึ่งชั่วโมง เขาจึงเล่าให้ฉันฟังเกี่ยวกับการวิเคราะห์กลุ่ม - มันคืออะไร และในกรณีใดบ้าง การใช้งานนั้นสมเหตุสมผลและเหมาะสม แล้วฉันล่ะ?
ฉันมีความจำดีดังนั้นฉันจะให้ข้อมูลทั้งหมดนี้แก่คุณซึ่งฉันรู้อยู่แล้วในรูปแบบดั้งเดิมและให้ข้อมูลมากที่สุด
การวิเคราะห์คลัสเตอร์ได้รับการออกแบบมาเพื่อแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน (คลัสเตอร์หรือคลาส) นี่เป็นงานของการจำแนกข้อมูลหลายตัวแปร
มีอัลกอริธึมการจัดกลุ่มที่แตกต่างกันประมาณ 100 แบบ อย่างไรก็ตาม ที่ใช้บ่อยที่สุดคือการวิเคราะห์กลุ่มแบบลำดับชั้นและการจัดกลุ่มแบบ k-mean
การวิเคราะห์คลัสเตอร์ใช้ที่ไหน ในด้านการตลาด นี่คือการแบ่งกลุ่มของคู่แข่งและผู้บริโภค
ในการจัดการ: การแบ่งบุคลากรออกเป็นกลุ่มที่มีแรงจูงใจในระดับต่างๆ การจำแนกซัพพลายเออร์ การระบุสถานการณ์การผลิตที่คล้ายคลึงกันซึ่งเกิดการแต่งงานขึ้น
ในทางอายุรกรรม การจำแนก อาการ ผู้ป่วย ยา. ในสังคมวิทยา การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ในความเป็นจริง การวิเคราะห์กลุ่มได้พิสูจน์ตัวเองเป็นอย่างดีในขอบเขตของชีวิตมนุษย์ทั้งหมด
ความสวยงามของวิธีนี้คือใช้งานได้แม้ในขณะที่มีข้อมูลน้อย และไม่เป็นไปตามข้อกำหนดสำหรับการแจกแจงปกติของตัวแปรสุ่มและข้อกำหนดอื่น ๆ ของวิธีการวิเคราะห์ทางสถิติแบบดั้งเดิม
ให้เราอธิบายสาระสำคัญของการวิเคราะห์คลัสเตอร์โดยไม่ต้องใช้คำศัพท์ที่เข้มงวด:
สมมติว่าคุณทำแบบสำรวจพนักงานและต้องการทราบว่าคุณจะจัดการพนักงานของคุณได้อย่างมีประสิทธิภาพสูงสุดได้อย่างไร
นั่นคือ คุณต้องการแบ่งพนักงานออกเป็นกลุ่มๆ และเลือกคันโยกควบคุมที่มีประสิทธิภาพสูงสุดสำหรับแต่ละคน ในเวลาเดียวกัน ความแตกต่างระหว่างกลุ่มควรชัดเจน และภายในกลุ่ม ผู้ตอบควรเหมือนกันมากที่สุด
เพื่อแก้ปัญหา ขอเสนอให้ใช้การวิเคราะห์คลัสเตอร์แบบลำดับชั้น
เป็นผลให้เราได้ต้นไม้โดยดูว่าเราต้องตัดสินใจว่าเราต้องการแบ่งพนักงานออกเป็นกี่คลาส (กลุ่ม)
สมมติว่าเราตัดสินใจแบ่งพนักงานออกเป็นสามกลุ่ม จากนั้นเพื่อศึกษาผู้ตอบแบบสอบถามที่อยู่ในแต่ละกลุ่ม เราจะได้แท็บเล็ตที่มีเนื้อหาดังต่อไปนี้:
ให้เราอธิบายว่าตารางด้านบนเกิดขึ้นได้อย่างไร คอลัมน์แรกมีจำนวนคลัสเตอร์ ซึ่งเป็นกลุ่มที่มีข้อมูลอยู่ในแถว
ตัวอย่างเช่น กลุ่มแรกเป็นผู้ชาย 80% 90% ของกลุ่มแรกอยู่ในกลุ่มอายุตั้งแต่ 30 ถึง 50 ปี และ 12% ของผู้ตอบแบบสอบถามเชื่อว่าผลประโยชน์มีความสำคัญมาก และอื่น ๆ
มาลองสร้างภาพของผู้ตอบแบบสอบถามในแต่ละคลัสเตอร์:
- กลุ่มแรกส่วนใหญ่เป็นผู้ชายวัยผู้ใหญ่ที่มีตำแหน่งผู้นำ แพ็คเกจโซเชียล (MED, LGOTI, เวลาว่าง TIME) ไม่สนใจพวกเขา พวกเขาต้องการได้รับเงินเดือนที่ดีมากกว่าความช่วยเหลือจากนายจ้าง
- ในทางกลับกัน กลุ่มที่สองชอบแพ็คเกจโซเชียลมากกว่า ส่วนใหญ่ประกอบด้วยคน "สูงอายุ" ที่ดำรงตำแหน่งต่ำ เงินเดือนเป็นสิ่งสำคัญสำหรับพวกเขาอย่างแน่นอน แต่ก็มีลำดับความสำคัญอื่น ๆ
- กลุ่มที่สามคือ มีความสนใจที่ชัดเจนในการเรียนรู้และโอกาสในการเติบโตทางวิชาชีพ พนักงานประเภทนี้มีโอกาสที่จะเติมเต็มกลุ่มแรกในไม่ช้า
ดังนั้น เมื่อวางแผนการรณรงค์เพื่อแนะนำวิธีการจัดการบุคลากรที่มีประสิทธิภาพ เห็นได้ชัดว่าในสถานการณ์ของเรา มีความเป็นไปได้ที่จะเพิ่มแพ็คเกจทางสังคมสำหรับกลุ่มที่สองเพื่อลดความเสียหาย เช่น ค่าจ้าง
หากเราพูดถึงว่าควรส่งผู้เชี่ยวชาญคนใดไปฝึกอบรม เราขอแนะนำให้ให้ความสนใจกับกลุ่มที่สามอย่างแน่นอน
ที่มา: http://www.niccart.spb.ru/analysis/cluster.php
คุณสมบัติของการวิเคราะห์คลัสเตอร์
คลัสเตอร์คือราคาของสินทรัพย์ในช่วงเวลาหนึ่งที่มีการทำธุรกรรม ปริมาณการซื้อและการขายที่ได้จะระบุด้วยตัวเลขภายในคลัสเตอร์
แถบของ TF ใด ๆ ตามกฎแล้วมีหลายคลัสเตอร์ ซึ่งช่วยให้คุณเห็นรายละเอียดปริมาณการซื้อ การขาย และยอดคงเหลือในแต่ละแถบสำหรับแต่ละระดับราคา
การเปลี่ยนแปลงในราคาของสินทรัพย์หนึ่งอย่างหลีกเลี่ยงไม่ได้ทำให้เกิดการเคลื่อนไหวของราคาในตราสารอื่นๆ ด้วยเช่นกัน
ความสนใจ!
ในกรณีส่วนใหญ่ ความเข้าใจเกี่ยวกับการเคลื่อนไหวของเทรนด์จะเกิดขึ้นแล้วในขณะที่มันกำลังพัฒนาอย่างรวดเร็ว และการเข้าสู่ตลาดตามเทรนด์นั้นเต็มไปด้วยการตกลงสู่คลื่นแก้ไข
สำหรับการเทรดที่ประสบความสำเร็จ จำเป็นต้องเข้าใจสถานการณ์ปัจจุบันและสามารถคาดการณ์การเคลื่อนไหวของราคาในอนาคตได้ สามารถเรียนรู้ได้โดยการวิเคราะห์กราฟคลัสเตอร์
ด้วยความช่วยเหลือของการวิเคราะห์คลัสเตอร์ คุณสามารถดูกิจกรรมของผู้เข้าร่วมตลาดได้แม้ในแถบราคาที่เล็กที่สุด นี่คือการวิเคราะห์ที่แม่นยำและมีรายละเอียดมากที่สุด เนื่องจากแสดงการกระจายจุดของปริมาณธุรกรรมสำหรับแต่ละระดับราคาสินทรัพย์
ในตลาดมีการเผชิญหน้ากันอย่างต่อเนื่องระหว่างผลประโยชน์ของผู้ขายและผู้ซื้อ และทุกการเคลื่อนไหวของราคาที่เล็กที่สุด (ขีด) คือการย้ายไปสู่การประนีประนอม - ระดับราคา - ซึ่งเหมาะสมกับทั้งสองฝ่ายในขณะนี้
แต่ตลาดเป็นแบบไดนามิก จำนวนผู้ขายและผู้ซื้อเปลี่ยนแปลงตลอดเวลา หากในช่วงเวลาหนึ่งตลาดถูกครอบงำโดยผู้ขาย ช่วงเวลาต่อไปก็น่าจะมีผู้ซื้อ
จำนวนธุรกรรมที่เสร็จสมบูรณ์ในระดับราคาใกล้เคียงก็ไม่เท่ากันเช่นกัน และประการแรก สถานการณ์ตลาดจะสะท้อนให้เห็นในปริมาณธุรกรรมทั้งหมด และต่อด้วยราคาเท่านั้น
หากคุณเห็นการกระทำของผู้เข้าร่วมตลาดที่โดดเด่น (ผู้ขายหรือผู้ซื้อ) คุณก็สามารถทำนายการเคลื่อนไหวของราคาได้
หากต้องการใช้การวิเคราะห์คลัสเตอร์ให้สำเร็จ คุณต้องเข้าใจก่อนว่าคลัสเตอร์และเดลต้าคืออะไร
คลัสเตอร์เรียกว่าการเคลื่อนไหวของราคา ซึ่งแบ่งออกเป็นระดับที่ทำธุรกรรมด้วยปริมาณที่รู้จัก เดลต้าแสดงความแตกต่างระหว่างการซื้อและการขายที่เกิดขึ้นในแต่ละคลัสเตอร์
แต่ละคลัสเตอร์หรือกลุ่มเดลต้า ช่วยให้คุณทราบได้ว่าผู้ซื้อหรือผู้ขายเป็นผู้ครองตลาดในช่วงเวลาหนึ่งๆ
การคำนวณเดลต้าทั้งหมดโดยสรุปยอดขายและการซื้อก็เพียงพอแล้ว หากเดลต้าเป็นลบ แสดงว่าตลาดมีการขายมากเกินไป มีธุรกรรมการขายซ้ำซ้อน เมื่อเดลต้าเป็นบวก ตลาดจะถูกครอบงำโดยผู้ซื้ออย่างชัดเจน
ตัวเดลต้าสามารถรับค่าปกติหรือค่าวิกฤตได้ ค่าของปริมาณเดลต้าที่สูงกว่าค่าปกติในคลัสเตอร์จะถูกเน้นด้วยสีแดง
หากค่าเดลต้าอยู่ในระดับปานกลาง แสดงว่าเป็นสถานะที่คงที่ในตลาด ด้วยค่าเดลต้าปกติ ความเคลื่อนไหวของเทรนด์จะถูกสังเกตในตลาด แต่ค่าวิกฤตมักเป็นลางสังหรณ์ของการกลับตัวของราคา
การซื้อขายฟอเร็กซ์กับ CA
เพื่อให้ได้กำไรสูงสุด คุณต้องสามารถกำหนดการเปลี่ยนแปลงของเดลต้าจากระดับปานกลางเป็นระดับปกติได้ ในกรณีนี้ คุณสามารถสังเกตเห็นจุดเริ่มต้นของการเปลี่ยนแปลงจากการพักตัวเป็นการเคลื่อนไหวตามแนวโน้มและสามารถรับผลกำไรสูงสุดได้
แผนภูมิคลัสเตอร์เป็นภาพที่ชัดเจนยิ่งขึ้น คุณสามารถดูระดับการสะสมและการกระจายปริมาณที่มีนัยสำคัญ สร้างแนวรับและแนวต้าน สิ่งนี้ทำให้ผู้ซื้อขายสามารถค้นหารายการที่แน่นอนในการซื้อขาย
การใช้เดลต้าสามารถตัดสินความเด่นของการขายหรือการซื้อในตลาดได้ การวิเคราะห์คลัสเตอร์ช่วยให้คุณสามารถสังเกตธุรกรรมและติดตามปริมาณภายในแถบของ TF ใดก็ได้
นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อเข้าใกล้แนวรับหรือแนวต้านที่สำคัญ การตัดสินแบบคลัสเตอร์เป็นกุญแจสำคัญในการทำความเข้าใจตลาด
ที่มา: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/
พื้นที่และคุณสมบัติของการประยุกต์ใช้การวิเคราะห์คลัสเตอร์
คำว่า การวิเคราะห์กลุ่ม (เปิดตัวครั้งแรกโดย Tryon, 1939) จริงๆ แล้วรวมถึงชุดของอัลกอริทึมการจัดหมวดหมู่ที่แตกต่างกัน
คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาคือวิธีการจัดระเบียบข้อมูลที่สังเกตให้เป็นโครงสร้างภาพ เช่น ขยายอนุกรมวิธาน
ตามระบบสมัยใหม่ที่ยอมรับในชีววิทยา มนุษย์จัดอยู่ในกลุ่มไพรเมต สัตว์เลี้ยงลูกด้วยนม น้ำคร่ำ สัตว์มีกระดูกสันหลัง และสัตว์ต่างๆ
โปรดทราบว่าในการจำแนกประเภทนี้ ระดับการรวมที่สูงขึ้น ความคล้ายคลึงกันระหว่างสมาชิกในชั้นเรียนที่สอดคล้องกันก็จะน้อยลง
มนุษย์มีความคล้ายคลึงกันกับไพรเมตอื่นๆ (เช่น ลิง) มากกว่ากับสมาชิกที่ "ห่างเหิน" ของครอบครัวสัตว์เลี้ยงลูกด้วยนม (เช่น สุนัข) เป็นต้น
โปรดทราบว่าการสนทนาก่อนหน้านี้อ้างถึงอัลกอริทึมการจัดกลุ่ม แต่ไม่ได้กล่าวถึงการทดสอบนัยสำคัญทางสถิติ
อันที่จริงแล้ว การวิเคราะห์คลัสเตอร์ไม่ใช่วิธีการทางสถิติธรรมดามากเท่ากับเป็น "ชุด" ของอัลกอริทึมต่างๆ สำหรับ "การกระจายอ็อบเจกต์ไปยังคลัสเตอร์"
มีมุมมองที่ไม่เหมือนกับขั้นตอนทางสถิติอื่นๆ ตรงที่ วิธีการวิเคราะห์กลุ่มจะถูกใช้ในกรณีส่วนใหญ่เมื่อคุณไม่มีสมมติฐานเบื้องต้นเกี่ยวกับคลาส แต่ยังอยู่ในขั้นตอนการอธิบายของการวิจัย
ความสนใจ!
ควรเข้าใจว่าการวิเคราะห์กลุ่มเป็นตัวกำหนด "การตัดสินใจที่มีความหมายมากที่สุด"
ดังนั้น การทดสอบนัยสำคัญทางสถิติจึงใช้ไม่ได้จริงๆ แม้ในกรณีที่ทราบระดับ p (เช่น ในวิธี K-mean)
เทคนิคการจัดกลุ่มใช้ในหลากหลายสาขา Hartigan (1975) ได้ให้ภาพรวมที่ยอดเยี่ยมของการศึกษาที่ตีพิมพ์จำนวนมากซึ่งมีผลที่ได้จากวิธีการวิเคราะห์แบบกลุ่ม
ตัวอย่างเช่น ในด้านการแพทย์ การจัดกลุ่มของโรค การรักษาโรค หรืออาการของโรคนำไปสู่การจัดอนุกรมวิธานที่ใช้กันอย่างแพร่หลาย
ในด้านจิตเวชศาสตร์ การวินิจฉัยที่ถูกต้องของกลุ่มอาการ เช่น โรคหวาดระแวง โรคจิตเภท ฯลฯ มีความสำคัญอย่างยิ่งต่อการรักษาให้ประสบความสำเร็จ ในทางโบราณคดี นักวิจัยกำลังพยายามสร้างอนุกรมวิธานของเครื่องมือหิน วัตถุเกี่ยวกับศพ ฯลฯ โดยใช้การวิเคราะห์กลุ่ม ในทางโบราณคดี
มีการประยุกต์ใช้การวิเคราะห์กลุ่มในการวิจัยการตลาดอย่างกว้างขวาง โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนก "ภูเขา" ของข้อมูลออกเป็นกลุ่มที่เหมาะสมสำหรับการประมวลผลเพิ่มเติม การวิเคราะห์กลุ่มจะมีประโยชน์และมีประสิทธิภาพมาก
การจัดกลุ่มต้นไม้
ตัวอย่างในส่วนวัตถุประสงค์หลักจะอธิบายถึงวัตถุประสงค์ของอัลกอริทึมการรวม (การจัดกลุ่มต้นไม้)
จุดประสงค์ของอัลกอริทึมนี้คือการรวมวัตถุ (เช่น สัตว์) เป็นกลุ่มใหญ่เพียงพอโดยใช้การวัดความคล้ายคลึงหรือระยะห่างระหว่างวัตถุ ผลลัพธ์ทั่วไปของการจัดกลุ่มดังกล่าวคือต้นไม้แบบลำดับชั้น
พิจารณาแผนภาพต้นไม้แนวนอน ไดอะแกรมเริ่มต้นด้วยแต่ละอ็อบเจกต์ในคลาส (ทางด้านซ้ายของไดอะแกรม)
ตอนนี้ลองนึกภาพว่าค่อยๆ (ในขั้นตอนเล็ก ๆ ) คุณ "ลด" เกณฑ์ของคุณสำหรับสิ่งที่เป็นเอกลักษณ์และสิ่งที่ไม่
กล่าวอีกนัยหนึ่ง คุณจะลดเกณฑ์ที่เกี่ยวข้องกับการตัดสินใจรวมสองออบเจ็กต์ขึ้นไปในคลัสเตอร์เดียว
เป็นผลให้คุณเชื่อมโยงวัตถุเข้าด้วยกันมากขึ้นและรวม (รวม) คลัสเตอร์ขององค์ประกอบที่แตกต่างกันมากขึ้นเรื่อยๆ
สุดท้าย ในขั้นตอนสุดท้าย วัตถุทั้งหมดจะถูกรวมเข้าด้วยกัน ในแผนภูมิเหล่านี้ แกนแนวนอนแสดงถึงระยะการรวม (ใน dendrograms แนวตั้ง แกนแนวตั้งแสดงถึงระยะการรวม)
ดังนั้น สำหรับแต่ละโหนดในกราฟ (ที่เกิดคลัสเตอร์ใหม่) คุณจะเห็นระยะทางที่องค์ประกอบที่เกี่ยวข้องเชื่อมโยงกับคลัสเตอร์เดี่ยวใหม่
เมื่อข้อมูลมี "โครงสร้าง" ที่ชัดเจนในแง่ของกลุ่มของออบเจกต์ที่คล้ายกัน โครงสร้างนี้ก็น่าจะสะท้อนให้เห็นในแผนผังลำดับชั้นตามสาขาต่างๆ
ผลจากการวิเคราะห์ที่ประสบความสำเร็จโดยวิธีการรวม ทำให้สามารถตรวจจับคลัสเตอร์ (สาขา) และตีความได้
วิธีการจัดกลุ่มแบบยูเนี่ยนหรือทรีใช้ในการสร้างกลุ่มของความแตกต่างหรือระยะห่างระหว่างวัตถุ ระยะทางเหล่านี้สามารถกำหนดในพื้นที่หนึ่งมิติหรือหลายมิติ
ตัวอย่างเช่น หากคุณต้องจัดกลุ่มประเภทของอาหารในร้านกาแฟ คุณสามารถคำนึงถึงจำนวนแคลอรี่ที่บรรจุในนั้น ราคา การประเมินรสชาติตามอัตวิสัย เป็นต้น
วิธีที่ตรงที่สุดในการคำนวณระยะทางระหว่างวัตถุในปริภูมิหลายมิติคือการคำนวณระยะทางแบบยุคลิด
หากคุณมีสเปซ 2 มิติหรือ 3 มิติ การวัดนี้คือระยะห่างทางเรขาคณิตจริงระหว่างวัตถุในอวกาศ (ราวกับว่าระยะห่างระหว่างวัตถุถูกวัดด้วยตลับเมตร)
อย่างไรก็ตาม อัลกอริธึมการรวมกลุ่มไม่ได้ "สนใจ" ว่าระยะทาง "ให้" สำหรับระยะทางนั้นเป็นจริงหรือมาตรวัดระยะทางอื่นๆ ซึ่งมีความหมายมากกว่าสำหรับนักวิจัย และความท้าทายสำหรับนักวิจัยคือการเลือกวิธีที่เหมาะสมสำหรับการใช้งานเฉพาะ
ระยะทางแบบยุคลิดนี่ดูเหมือนจะเป็นระยะทางที่พบมากที่สุด เป็นเพียงระยะทางเรขาคณิตในปริภูมิหลายมิติและคำนวณได้ดังนี้:
โปรดทราบว่าระยะทางแบบยุคลิด (และกำลังสอง) คำนวณจากข้อมูลต้นฉบับ ไม่ใช่จากข้อมูลมาตรฐาน
นี่เป็นวิธีปกติในการคำนวณซึ่งมีข้อดีบางประการ (เช่น ระยะห่างระหว่างวัตถุสองชิ้นจะไม่เปลี่ยนแปลงเมื่อมีการแนะนำวัตถุใหม่เข้ามาในการวิเคราะห์ ซึ่งอาจกลายเป็นค่าผิดปกติ)
ความสนใจ!
อย่างไรก็ตาม ระยะทางอาจได้รับผลกระทบอย่างมากจากความแตกต่างระหว่างแกนที่ใช้คำนวณระยะทาง ตัวอย่างเช่น หากแกนใดแกนหนึ่งวัดเป็นเซนติเมตร แล้วแปลงเป็นมิลลิเมตร (โดยการคูณค่าด้วย 10) ระยะทางแบบยุคลิดสุดท้าย (หรือกำลังสองของระยะทางแบบยุคลิด) ที่คำนวณจากพิกัดจะ เปลี่ยนแปลงอย่างรวดเร็ว และเป็นผลให้ผลลัพธ์ของการวิเคราะห์คลัสเตอร์อาจแตกต่างอย่างมากจากผลก่อนหน้านี้
กำลังสองของระยะทางแบบยุคลิดบางครั้งคุณอาจต้องการยกกำลังสองของระยะห่างแบบยุคลิดมาตรฐานเพื่อให้น้ำหนักวัตถุที่อยู่ไกลมากขึ้น
ระยะทางนี้คำนวณดังนี้:
ระยะทางระหว่างเมือง (ระยะทางแมนฮัตตัน)ระยะทางนี้เป็นเพียงค่าเฉลี่ยของความแตกต่างของพิกัด
ในกรณีส่วนใหญ่ การวัดระยะทางนี้จะนำไปสู่ผลลัพธ์เดียวกันกับการวัดระยะทางแบบยุคลิดตามปกติ
อย่างไรก็ตาม โปรดทราบว่าสำหรับการวัดนี้ อิทธิพลของความแตกต่างขนาดใหญ่ของแต่ละบุคคล (ค่าผิดปกติ) จะลดลง (เนื่องจากไม่ได้กำลังสอง) ระยะทางแมนฮัตตันคำนวณโดยใช้สูตร:
ระยะทางเชบีเชฟระยะนี้มีประโยชน์เมื่อต้องการนิยามวัตถุสองชิ้นว่า "ต่างกัน" หากวัตถุทั้งสองต่างกันในพิกัดใดพิกัดหนึ่ง (มิติใดมิติหนึ่ง) ระยะทาง Chebyshev คำนวณโดยสูตร:
ระยะห่างของพลังงานบางครั้งก็ต้องการเพิ่มหรือลดน้ำหนักที่เกี่ยวข้องกับมิติที่วัตถุที่เกี่ยวข้องแตกต่างกันมาก
สามารถทำได้โดยใช้ระยะทางของกฎหมายพลังงาน ระยะทางกำลังคำนวณโดยสูตร:
โดยที่ r และ p เป็นพารามิเตอร์ที่ผู้ใช้กำหนด ตัวอย่างการคำนวณบางส่วนสามารถแสดงให้เห็นว่าการวัดนี้ "ทำงาน" อย่างไร
พารามิเตอร์ p รับผิดชอบการถ่วงน้ำหนักทีละน้อยของความแตกต่างในแต่ละพิกัด พารามิเตอร์ r รับผิดชอบการถ่วงน้ำหนักแบบก้าวหน้าของระยะห่างระหว่างวัตถุ หากพารามิเตอร์ทั้งสอง - r และ p มีค่าเท่ากับ 2 แสดงว่าระยะทางนี้ตรงกับระยะทางแบบยุคลิด
เปอร์เซ็นต์ของความขัดแย้งมาตรการนี้ใช้เมื่อข้อมูลเป็นหมวดหมู่ ระยะทางนี้คำนวณโดยสูตร:
สมาคมหรือกฎของสมาคม
ในขั้นตอนแรก เมื่อวัตถุแต่ละชิ้นเป็นกลุ่มที่แยกจากกัน ระยะห่างระหว่างวัตถุเหล่านี้จะถูกกำหนดโดยการวัดที่เลือก
อย่างไรก็ตาม เมื่อมีการเชื่อมโยงวัตถุหลายชิ้นเข้าด้วยกัน คำถามก็เกิดขึ้น ระยะห่างระหว่างกลุ่มจะกำหนดได้อย่างไร
กล่าวอีกนัยหนึ่ง คุณต้องมีกฎการเข้าร่วมหรือลิงก์สำหรับสองคลัสเตอร์ มีความเป็นไปได้หลายอย่าง เช่น คุณสามารถเชื่อมโยงสองคลัสเตอร์เข้าด้วยกันได้เมื่อวัตถุสองชิ้นในสองคลัสเตอร์อยู่ใกล้กันมากกว่าระยะลิงก์ที่สัมพันธ์กัน
กล่าวอีกนัยหนึ่ง คุณใช้ "กฎเพื่อนบ้านที่ใกล้ที่สุด" เพื่อกำหนดระยะห่างระหว่างคลัสเตอร์ วิธีนี้เรียกว่าวิธีการเชื่อมโยงเดียว
กฎนี้สร้างคลัสเตอร์ "เส้นใย" เช่น กลุ่ม "เชื่อมโยงกัน" โดยองค์ประกอบแต่ละรายการที่อยู่ใกล้กันมากกว่าองค์ประกอบอื่นเท่านั้น
อีกทางหนึ่ง คุณสามารถใช้เพื่อนบ้านในกลุ่มที่อยู่ห่างจากคู่คุณลักษณะอื่น ๆ ทั้งหมดมากที่สุด วิธีการนี้เรียกว่าวิธีการเชื่อมโยงแบบเต็ม
นอกจากนี้ยังมีวิธีการอื่น ๆ อีกมากมายในการเข้าร่วมคลัสเตอร์ คล้ายกับที่ได้กล่าวไปแล้ว
การเชื่อมต่อแบบเดี่ยว (วิธีเพื่อนบ้านที่ใกล้ที่สุด) ตามที่อธิบายไว้ข้างต้น ในวิธีนี้ ระยะห่างระหว่างสองกลุ่มถูกกำหนดโดยระยะห่างระหว่างสองวัตถุที่อยู่ใกล้ที่สุด (เพื่อนบ้านที่ใกล้ที่สุด) ในกลุ่มที่แตกต่างกัน
ตามกฎแล้ว กฎนี้ต้องสตริงวัตถุเข้าด้วยกันเพื่อสร้างคลัสเตอร์ และคลัสเตอร์ที่เป็นผลลัพธ์มักจะแสดงด้วย "สตริง" แบบยาว
การเชื่อมต่อแบบเต็ม (วิธีการของเพื่อนบ้านที่ห่างไกลที่สุด)ในวิธีนี้ ระยะห่างระหว่างกลุ่มถูกกำหนดให้เป็นระยะทางที่ใหญ่ที่สุดระหว่างวัตถุสองชิ้นใดๆ ในกลุ่มที่แตกต่างกัน (เช่น "เพื่อนบ้านที่อยู่ไกลที่สุด")
ค่าเฉลี่ยแบบคู่ที่ไม่ได้ถ่วงน้ำหนักในวิธีนี้ ระยะห่างระหว่างกลุ่มที่แตกต่างกันสองกลุ่มจะถูกคำนวณเป็นระยะทางเฉลี่ยระหว่างคู่ของวัตถุทั้งหมดในกลุ่มนั้น
วิธีนี้ใช้ได้ผลเมื่อวัตถุสร้าง "สวน" ที่แตกต่างกันจริง ๆ แต่ก็ใช้ได้ดีพอ ๆ กันในกรณีของคลัสเตอร์แบบขยาย (ประเภท "โซ่")
โปรดทราบว่าในหนังสือของพวกเขา Sneath and Sokal (1973) แนะนำตัวย่อ UPGMA เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเลขคณิต
ค่าเฉลี่ยแบบคู่ถ่วงน้ำหนักวิธีการนี้เหมือนกันกับวิธีการหาค่าเฉลี่ยแบบคู่ที่ไม่ได้ถ่วงน้ำหนัก ยกเว้นขนาดของกลุ่มที่เกี่ยวข้อง (กล่าวคือ จำนวนของออบเจกต์ที่มีอยู่) จะถูกใช้เป็นปัจจัยถ่วงน้ำหนักในการคำนวณ
ดังนั้นควรใช้วิธีที่เสนอ (แทนที่จะใช้วิธีก่อนหน้า) เมื่อสันนิษฐานว่าขนาดคลัสเตอร์ไม่เท่ากัน
Sneath และ Sokal (1973) แนะนำตัวย่อ WPGMA เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเลขคณิต
วิธีเซนทรอยด์แบบไม่ถ่วงน้ำหนัก ในวิธีนี้ ระยะห่างระหว่างสองกลุ่มถูกกำหนดให้เป็นระยะห่างระหว่างจุดศูนย์ถ่วง
ความสนใจ!
Sneath และ Sokal (1973) ใช้ตัวย่อว่า UPGMC เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเซนทรอยด์
วิธี centroid ถ่วงน้ำหนัก (ค่ามัธยฐาน) วิธีนี้เหมือนกับวิธีก่อนหน้า ยกเว้นว่ามีการใช้น้ำหนักในการคำนวณเพื่อพิจารณาความแตกต่างระหว่างขนาดคลัสเตอร์ (เช่น จำนวนของออบเจกต์ในนั้น)
ดังนั้น หากมี (หรือสงสัยว่า) มีความแตกต่างอย่างมีนัยสำคัญในขนาดคลัสเตอร์ วิธีนี้จะดีกว่าวิธีก่อนหน้า
Sneath and Sokal (1973) ใช้ตัวย่อว่า WPGMC เพื่ออ้างถึงวิธีการแบบกลุ่มคู่ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเซนทรอยด์
วิธีการวอร์ดวิธีนี้แตกต่างจากวิธีอื่นๆ เนื่องจากใช้วิธี ANOVA ในการประมาณระยะทางระหว่างคลัสเตอร์
วิธีการนี้ช่วยลดผลรวมของกำลังสอง (SS) สำหรับสองกลุ่ม (สมมุติฐาน) ใดๆ ที่สามารถสร้างได้ในแต่ละขั้นตอน
สามารถดูรายละเอียดได้ใน Ward (1963) โดยทั่วไป วิธีการนี้ดูเหมือนจะมีประสิทธิภาพมาก แต่ก็มีแนวโน้มที่จะสร้างคลัสเตอร์ขนาดเล็ก
ก่อนหน้านี้มีการกล่าวถึงวิธีการนี้ในแง่ของ "วัตถุ" ที่ควรจัดกลุ่ม ในการวิเคราะห์ประเภทอื่นๆ ทั้งหมด คำถามที่ผู้วิจัยสนใจมักจะแสดงออกในรูปของข้อสังเกตหรือตัวแปร
ปรากฎว่าการจัดกลุ่มทั้งจากการสังเกตและโดยตัวแปรสามารถนำไปสู่ผลลัพธ์ที่น่าสนใจทีเดียว
ตัวอย่างเช่น จินตนาการว่านักวิจัยทางการแพทย์กำลังรวบรวมข้อมูลลักษณะต่างๆ (ตัวแปร) ของอาการของผู้ป่วย (การสังเกต) ที่เป็นโรคหัวใจ
ผู้วิจัยอาจต้องการจัดกลุ่มการสังเกต (ของผู้ป่วย) เพื่อระบุกลุ่มของผู้ป่วยที่มีอาการคล้ายคลึงกัน
ในขณะเดียวกัน ผู้วิจัยอาจต้องการจัดกลุ่มตัวแปรเพื่อระบุกลุ่มของตัวแปรที่เกี่ยวข้องกับสถานะทางกายภาพที่คล้ายคลึงกันe
หลังจากการอภิปรายนี้ว่าควรจัดกลุ่มการสังเกตหรือตัวแปรหรือไม่ อาจมีบางคนถามว่าทำไมไม่จัดกลุ่มทั้งสองทิศทาง
โมดูลการวิเคราะห์คลัสเตอร์มีขั้นตอนการเข้าร่วมแบบสองทางที่มีประสิทธิภาพเพื่อดำเนินการดังกล่าว
อย่างไรก็ตาม มีการใช้การรวมสองทาง (ค่อนข้างน้อย) ในสถานการณ์ที่คาดว่าทั้งการสังเกตและตัวแปรจะนำไปสู่การค้นพบคลัสเตอร์ที่มีความหมายพร้อมกัน
ดังนั้น เมื่อย้อนกลับไปที่ตัวอย่างก่อนหน้านี้ เราสามารถสรุปได้ว่านักวิจัยทางการแพทย์จำเป็นต้องระบุกลุ่มของผู้ป่วยที่คล้ายคลึงกันโดยสัมพันธ์กับกลุ่มลักษณะสภาพร่างกายบางกลุ่ม
ความยากลำบากในการตีความผลลัพธ์ที่ได้นั้นเกิดจากข้อเท็จจริงที่ว่าความคล้ายคลึงกันระหว่างกลุ่มต่างๆ อาจมาจาก (หรือเป็นสาเหตุของ) ความแตกต่างบางอย่างในชุดย่อยของตัวแปร
ดังนั้นกลุ่มผลลัพธ์จึงมีความแตกต่างกันโดยเนื้อแท้ บางทีมันอาจจะดูคลุมเครือเล็กน้อยในตอนแรก เมื่อเทียบกับวิธีการวิเคราะห์คลัสเตอร์อื่นๆ ที่อธิบายไว้ การรวมสองทางน่าจะเป็นวิธีที่ใช้กันน้อยที่สุด
อย่างไรก็ตาม นักวิจัยบางคนเชื่อว่ามันเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ (สำหรับข้อมูลเพิ่มเติม โปรดดูคำอธิบายของ Hartigan เกี่ยวกับวิธีนี้ (Hartigan, 1975))
K หมายถึงวิธีการ
วิธีการจัดกลุ่มนี้แตกต่างอย่างมากจากวิธีการรวมกลุ่ม เช่น ยูเนียน (การจัดกลุ่มต้นไม้) และทูเวย์ยูเนี่ยน สมมติว่าคุณมีสมมติฐานเกี่ยวกับจำนวนของกลุ่มอยู่แล้ว (โดยการสังเกตหรือตามตัวแปร)
คุณสามารถบอกให้ระบบสร้างคลัสเตอร์สามกลุ่มเพื่อให้มีความแตกต่างกันมากที่สุดเท่าที่จะเป็นไปได้
นี่คือประเภทของปัญหาที่อัลกอริทึม K-Means แก้ปัญหา โดยทั่วไปแล้ว วิธี K-mean จะสร้างกลุ่ม K ที่แตกต่างกันอย่างชัดเจนโดยเว้นระยะห่างให้มากที่สุดเท่าที่จะเป็นไปได้
ในตัวอย่างสภาพร่างกาย นักวิจัยทางการแพทย์อาจมี "ลางสังหรณ์" จากประสบการณ์ทางคลินิกว่าโดยทั่วไปแล้ว ผู้ป่วยจะแบ่งออกเป็นสามประเภทที่แตกต่างกัน
ความสนใจ!
ถ้าเป็นเช่นนั้น ค่าเฉลี่ยของการวัดค่าพารามิเตอร์ทางกายภาพต่างๆ สำหรับแต่ละคลัสเตอร์จะให้วิธีเชิงปริมาณในการแสดงสมมติฐานของผู้วิจัย (เช่น ผู้ป่วยในกลุ่มที่ 1 มีพารามิเตอร์สูงที่ 1 พารามิเตอร์ที่ต่ำกว่าที่ 2 เป็นต้น)
จากมุมมองของการคำนวณ คุณสามารถคิดว่าวิธีนี้เป็นการวิเคราะห์ความแปรปรวน "ในทางกลับกัน" โปรแกรมเริ่มต้นด้วยกลุ่ม K ที่เลือกแบบสุ่ม จากนั้นเปลี่ยนสิ่งที่เป็นของวัตถุเหล่านั้นเพื่อ:
- ลดความแปรปรวนภายในคลัสเตอร์
- เพิ่มความแปรปรวนระหว่างคลัสเตอร์
วิธีนี้คล้ายกับการวิเคราะห์ความแปรปรวนแบบย้อนกลับ (ANOVA) โดยที่การทดสอบนัยสำคัญใน ANOVA จะเปรียบเทียบระหว่างความแปรปรวนระหว่างกลุ่มกับความแปรปรวนภายในกลุ่มในการทดสอบสมมติฐานว่าความหมายของกลุ่มแตกต่างกัน
ในการจัดกลุ่มแบบ K-mean โปรแกรมจะย้ายวัตถุ (เช่น การสังเกต) จากกลุ่มหนึ่ง (กลุ่ม) ไปยังอีกกลุ่มหนึ่ง เพื่อให้ได้ผลลัพธ์ที่สำคัญที่สุดเมื่อทำการวิเคราะห์ความแปรปรวน (ANOVA)
โดยทั่วไป เมื่อได้รับผลลัพธ์ของการวิเคราะห์คลัสเตอร์ K-mean เราสามารถคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์สำหรับแต่ละมิติเพื่อประเมินว่าคลัสเตอร์แตกต่างกันอย่างไร
ตามหลักการแล้ว คุณควรได้รับค่าเฉลี่ยที่แตกต่างกันมากสำหรับการวัดส่วนใหญ่ที่ใช้ในการวิเคราะห์ หากไม่ใช่ทั้งหมด
ที่มา: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html
การจำแนกประเภทของวัตถุตามลักษณะ
การวิเคราะห์กลุ่ม (การวิเคราะห์กลุ่ม) - ชุดของวิธีการทางสถิติหลายมิติสำหรับการจำแนกวัตถุตามลักษณะการแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกันซึ่งใกล้เคียงกันในแง่ของการกำหนดเกณฑ์การเลือกวัตถุของกลุ่มใดกลุ่มหนึ่ง
คลัสเตอร์คือกลุ่มของวัตถุที่ระบุโดยเป็นผลมาจากการวิเคราะห์กลุ่มตามการวัดความเหมือนหรือความแตกต่างระหว่างวัตถุที่กำหนด
วัตถุ คือ วิชาเฉพาะที่ต้องการจำแนก ตามกฎแล้ววัตถุในการจำแนกประเภทคือการสังเกต ตัวอย่างเช่น ผู้บริโภคผลิตภัณฑ์ ประเทศหรือภูมิภาค ผลิตภัณฑ์ ฯลฯ
แม้ว่าจะสามารถทำการวิเคราะห์กลุ่มตามตัวแปรได้ การจำแนกประเภทของวัตถุในการวิเคราะห์คลัสเตอร์หลายมิติเกิดขึ้นตามเกณฑ์หลายประการพร้อมกัน
สิ่งเหล่านี้สามารถเป็นได้ทั้งตัวแปรเชิงปริมาณและเชิงหมวดหมู่ ขึ้นอยู่กับวิธีการวิเคราะห์กลุ่ม ดังนั้น เป้าหมายหลักของการวิเคราะห์กลุ่มคือการค้นหากลุ่มของวัตถุที่คล้ายกันในตัวอย่าง
ชุดของวิธีการทางสถิติหลายมิติของการวิเคราะห์กลุ่มสามารถแบ่งออกเป็นวิธีการแบบลำดับชั้น (การรวมและการแบ่งแยก) และแบบไม่มีลำดับชั้น (วิธี k-mean, การวิเคราะห์กลุ่มแบบสองขั้นตอน)
อย่างไรก็ตาม ไม่มีการจำแนกประเภทของวิธีการที่เป็นที่ยอมรับโดยทั่วไป และบางครั้งวิธีการวิเคราะห์แบบกลุ่มยังรวมถึงวิธีการสำหรับการสร้างแผนผังการตัดสินใจ โครงข่ายประสาทเทียม การวิเคราะห์แบบจำแนก และการถดถอยโลจิสติก
ขอบเขตของการวิเคราะห์คลัสเตอร์นั้นกว้างมากเนื่องจากความสามารถรอบด้าน การวิเคราะห์คลัสเตอร์ใช้ในเศรษฐศาสตร์ การตลาด โบราณคดี การแพทย์ จิตวิทยา เคมี ชีววิทยา รัฐประศาสนศาสตร์ ภาษาศาสตร์ มานุษยวิทยา สังคมวิทยา และสาขาอื่นๆ
ต่อไปนี้คือตัวอย่างบางส่วนของการใช้การวิเคราะห์คลัสเตอร์:
- ยา - การจำแนกโรค อาการ วิธีการรักษา การจำแนกกลุ่มผู้ป่วย
- การตลาด - ภารกิจในการเพิ่มประสิทธิภาพสายผลิตภัณฑ์ของ บริษัท แบ่งส่วนตลาดตามกลุ่มสินค้าหรือผู้บริโภค ระบุผู้บริโภคที่มีศักยภาพ
- สังคมวิทยา - การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน
- จิตเวชศาสตร์ - การวินิจฉัยกลุ่มอาการที่ถูกต้องเป็นสิ่งสำคัญสำหรับการรักษาที่ประสบความสำเร็จ
- ชีววิทยา - การจำแนกสิ่งมีชีวิตตามกลุ่ม
- เศรษฐกิจ - การจำแนกประเภทของสหพันธรัฐรัสเซียตามความน่าดึงดูดใจในการลงทุน
ที่มา: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html
ข้อมูลทั่วไปเกี่ยวกับการวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์ประกอบด้วยชุดของอัลกอริธึมการจำแนกประเภทต่างๆ คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาคือ จะจัดระเบียบข้อมูลที่สังเกตได้เป็นโครงสร้างภาพได้อย่างไร
ตัวอย่างเช่น นักชีววิทยาตั้งเป้าที่จะจำแนกสัตว์ออกเป็นสายพันธุ์ต่างๆ เพื่ออธิบายความแตกต่างระหว่างสัตว์เหล่านี้อย่างมีความหมาย
งานของการวิเคราะห์คลัสเตอร์คือการแบ่งชุดเริ่มต้นของวัตถุออกเป็นกลุ่มของวัตถุที่คล้ายกันและใกล้เคียงกัน กลุ่มเหล่านี้เรียกว่าคลัสเตอร์
กล่าวอีกนัยหนึ่ง การวิเคราะห์คลัสเตอร์เป็นวิธีหนึ่งในการจำแนกวัตถุตามคุณลักษณะ เป็นที่พึงปรารถนาที่ผลการจำแนกประเภทมีการตีความที่มีความหมาย
ผลลัพธ์ที่ได้จากวิธีการวิเคราะห์แบบกลุ่มถูกนำไปใช้ในสาขาต่างๆ ในด้านการตลาด คือ การแบ่งกลุ่มของคู่แข่งและผู้บริโภค
ในทางจิตเวชศาสตร์ การวินิจฉัยอาการที่ถูกต้อง เช่น โรคหวาดระแวง โรคจิตเภท ฯลฯ เป็นสิ่งสำคัญอย่างยิ่งสำหรับการรักษาที่ประสบความสำเร็จ
ในการจัดการ การจำแนกประเภทของซัพพลายเออร์เป็นสิ่งสำคัญ การระบุสถานการณ์การผลิตที่คล้ายคลึงกันซึ่งเกิดการแต่งงานขึ้น ในสังคมวิทยา การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ในการลงทุนแบบพอร์ตโฟลิโอ สิ่งสำคัญคือต้องจัดกลุ่มหลักทรัพย์ตามความคล้ายคลึงกันในแนวโน้มของผลตอบแทน เพื่อรวบรวมตามข้อมูลที่ได้รับเกี่ยวกับตลาดหุ้น พอร์ตการลงทุนที่เหมาะสมที่สุดที่ช่วยให้ผลตอบแทนจากการลงทุนสูงสุดสำหรับระดับความเสี่ยงที่กำหนด .
โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนกประเภทข้อมูลจำนวนมากและนำเสนอในรูปแบบที่เหมาะสมสำหรับการประมวลผลต่อไป การวิเคราะห์คลัสเตอร์จะมีประโยชน์และมีประสิทธิภาพมาก
การวิเคราะห์คลัสเตอร์ช่วยให้พิจารณาข้อมูลจำนวนมากพอสมควรและบีบอัดอาร์เรย์ข้อมูลทางเศรษฐกิจและสังคมจำนวนมาก ทำให้ข้อมูลมีขนาดกะทัดรัดและมองเห็นได้
ความสนใจ!
การวิเคราะห์คลัสเตอร์มีความสำคัญอย่างยิ่งเมื่อเทียบกับชุดของอนุกรมเวลาที่แสดงลักษณะการพัฒนาเศรษฐกิจ (ตัวอย่างเช่น สภาพเศรษฐกิจทั่วไปและสินค้าโภคภัณฑ์)
ที่นี่เป็นไปได้ที่จะแยกช่วงเวลาที่ค่าของตัวบ่งชี้ที่สอดคล้องกันค่อนข้างใกล้เคียงกันรวมทั้งกำหนดกลุ่มของอนุกรมเวลาซึ่งไดนามิกจะคล้ายกันมากที่สุด
ในปัญหาของการพยากรณ์ทางเศรษฐกิจและสังคม เป็นไปได้มากที่จะรวมการวิเคราะห์กลุ่มเข้ากับวิธีการเชิงปริมาณอื่นๆ (เช่น กับการวิเคราะห์การถดถอย)
ข้อดีและข้อเสีย
การวิเคราะห์คลัสเตอร์ช่วยให้สามารถจำแนกวัตถุประสงค์ของออบเจกต์ใดๆ ที่มีลักษณะเฉพาะได้หลายอย่าง มีประโยชน์มากมายที่จะได้รับจากสิ่งนี้:
- ผลลัพธ์ของคลัสเตอร์สามารถตีความได้ นั่นคือเพื่ออธิบายประเภทของกลุ่มที่มีอยู่จริง
- สามารถคัดแยกแต่ละคลัสเตอร์ได้ สิ่งนี้มีประโยชน์ในกรณีที่เกิดข้อผิดพลาดบางอย่างในชุดข้อมูล อันเป็นผลมาจากค่าของตัวบ่งชี้สำหรับแต่ละวัตถุเบี่ยงเบนอย่างรวดเร็ว เมื่อใช้การวิเคราะห์คลัสเตอร์ ออบเจ็กต์ดังกล่าวจะจัดอยู่ในคลัสเตอร์ที่แยกต่างหาก
- สำหรับการวิเคราะห์เพิ่มเติม สามารถเลือกได้เฉพาะคลัสเตอร์ที่มีลักษณะเฉพาะที่น่าสนใจเท่านั้น
เช่นเดียวกับวิธีอื่นๆ การวิเคราะห์คลัสเตอร์มีข้อเสียและข้อจำกัดบางประการ องค์ประกอบและจำนวนของคลัสเตอร์ขึ้นอยู่กับเกณฑ์การแบ่งพาร์ติชันที่เลือก
เมื่อลดอาร์เรย์ข้อมูลเริ่มต้นให้อยู่ในรูปแบบที่กะทัดรัดมากขึ้น การบิดเบือนบางอย่างอาจเกิดขึ้น และคุณลักษณะเฉพาะของวัตถุแต่ละชิ้นอาจหายไปเนื่องจากการแทนที่ด้วยคุณลักษณะของค่าทั่วไปของพารามิเตอร์คลัสเตอร์
วิธีการ
ปัจจุบัน รู้จักอัลกอริทึมการทำคลัสเตอร์ที่แตกต่างกันมากกว่าร้อยรายการ ความหลากหลายของพวกมันไม่ได้อธิบายด้วยวิธีการคำนวณที่แตกต่างกันเท่านั้น แต่ยังอธิบายได้ด้วยแนวคิดที่แตกต่างกันในการจัดกลุ่ม
แพ็คเกจ Statistica ใช้วิธีการทำคลัสเตอร์ต่อไปนี้
- อัลกอริธึมลำดับชั้น - การจัดกลุ่มต้นไม้ อัลกอริทึมแบบลำดับชั้นขึ้นอยู่กับแนวคิดของการจัดกลุ่มตามลำดับ ในขั้นตอนเริ่มต้น แต่ละอ็อบเจ็กต์จะถูกพิจารณาเป็นคลัสเตอร์ที่แยกจากกัน ในขั้นตอนถัดไป คลัสเตอร์บางส่วนที่อยู่ใกล้กันมากที่สุดจะรวมกันเป็นคลัสเตอร์แยกต่างหาก
- วิธี K-mean วิธีนี้เป็นวิธีที่ใช้กันมากที่สุด มันอยู่ในกลุ่มของวิธีการอ้างอิงที่เรียกว่าการวิเคราะห์คลัสเตอร์ จำนวนคลัสเตอร์ K ถูกกำหนดโดยผู้ใช้
- สมาคมสองทาง เมื่อใช้วิธีนี้ การจัดกลุ่มจะดำเนินการพร้อมกันทั้งโดยตัวแปร (คอลัมน์) และโดยผลการสังเกต (แถว)
ขั้นตอนการรวมสองทางจะดำเนินการเมื่อคาดว่าการจัดกลุ่มตัวแปรและการสังเกตพร้อมกันจะให้ผลลัพธ์ที่มีความหมาย
ผลลัพธ์ของขั้นตอนคือสถิติเชิงพรรณนาเกี่ยวกับตัวแปรและกรณีและปัญหา รวมถึงแผนภูมิสีสองมิติซึ่งค่าข้อมูลเป็นรหัสสี
โดยการกระจายสี คุณจะได้แนวคิดเกี่ยวกับกลุ่มที่เป็นเนื้อเดียวกัน
การทำให้เป็นมาตรฐานของตัวแปร
การแบ่งชุดเริ่มต้นของวัตถุออกเป็นกลุ่มนั้นสัมพันธ์กับการคำนวณระยะทางระหว่างวัตถุและตัวเลือกของวัตถุซึ่งระยะห่างระหว่างวัตถุนั้นเล็กที่สุด
ระยะทางที่ใช้กันมากที่สุดคือระยะทางแบบยุคลิด (ทางเรขาคณิต) ที่เราทุกคนคุ้นเคย เมตริกนี้สอดคล้องกับแนวคิดเชิงสัญชาตญาณเกี่ยวกับความใกล้ชิดของวัตถุในอวกาศ (ราวกับว่าระยะห่างระหว่างวัตถุถูกวัดด้วยตลับเมตร)
แต่สำหรับเมตริกที่กำหนด ระยะห่างระหว่างวัตถุอาจได้รับผลกระทบอย่างมากจากการเปลี่ยนแปลงมาตราส่วน (หน่วยการวัด) ตัวอย่างเช่น ถ้าหนึ่งในคุณลักษณะวัดเป็นมิลลิเมตร แล้วค่าของมันถูกแปลงเป็นเซนติเมตร ระยะห่างแบบยุคลิดระหว่างวัตถุจะเปลี่ยนไปอย่างมาก สิ่งนี้จะนำไปสู่ความจริงที่ว่าผลลัพธ์ของการวิเคราะห์กลุ่มอาจแตกต่างอย่างมากจากผลก่อนหน้านี้
หากมีการวัดตัวแปรในหน่วยการวัดที่แตกต่างกัน จำเป็นต้องมีการปรับมาตรฐานเบื้องต้น นั่นคือ การแปลงข้อมูลเริ่มต้น ซึ่งจะแปลงเป็นปริมาณไร้มิติ
การทำให้เป็นมาตรฐานจะบิดเบือนรูปทรงเรขาคณิตของพื้นที่เดิมอย่างมาก ซึ่งสามารถเปลี่ยนผลลัพธ์ของการจัดกลุ่มได้
ในแพ็คเกจ Statistica ตัวแปร x ใดๆ จะถูกทำให้เป็นมาตรฐานตามสูตร:
ในการดำเนินการนี้ ให้คลิกขวาที่ชื่อตัวแปรและเลือกลำดับของคำสั่งจากเมนูที่เปิดขึ้น: เติม/ กำหนดมาตรฐานบล็อก/ กำหนดคอลัมน์มาตรฐาน ค่าของตัวแปรนอร์มัลไลซ์จะเท่ากับศูนย์และความแปรปรวนจะเท่ากับหนึ่ง
วิธี K-mean ใน Statistica
วิธี K-mean แยกชุดของวัตถุออกเป็นจำนวน K ที่กำหนดของกลุ่มต่างๆ ซึ่งอยู่ห่างจากกันมากที่สุด
โดยทั่วไป เมื่อได้รับผลลัพธ์ของการวิเคราะห์คลัสเตอร์ K-mean แล้ว เราสามารถคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์สำหรับแต่ละมิติเพื่อประเมินว่าคลัสเตอร์แตกต่างกันอย่างไร
ตามหลักการแล้ว คุณควรได้รับค่าเฉลี่ยที่แตกต่างกันมากสำหรับการวัดส่วนใหญ่ที่ใช้ในการวิเคราะห์
ค่าสถิติ F ที่ได้รับสำหรับแต่ละมิติเป็นอีกตัวบ่งชี้ว่ามิติที่สอดคล้องกันแยกแยะระหว่างคลัสเตอร์ได้ดีเพียงใด
ตัวอย่างเช่น พิจารณาผลการสำรวจพนักงาน 17 คนขององค์กรเกี่ยวกับความพึงพอใจต่อตัวบ่งชี้คุณภาพอาชีพ ตารางประกอบด้วยคำตอบของคำถามแบบสอบถามในระดับคะแนนเต็มสิบ (1 คือคะแนนต่ำสุด 10 คือคะแนนสูงสุด)
ชื่อตัวแปรสอดคล้องกับคำตอบของคำถามต่อไปนี้:
- SLT - การรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร
- OSO - ความยุติธรรมในค่าจ้าง;
- TBD - ความใกล้ชิดกับบ้าน;
- PEW - ความรู้สึกของความเป็นอยู่ที่ดีทางเศรษฐกิจ
- CR - การเติบโตของอาชีพ
- ZhSR - ความปรารถนาที่จะเปลี่ยนงาน
- OSB คือความรู้สึกของความเป็นอยู่ที่ดีทางสังคม
การใช้ข้อมูลนี้จำเป็นต้องแบ่งพนักงานออกเป็นกลุ่มและเลือกคันโยกควบคุมที่มีประสิทธิภาพสูงสุดสำหรับแต่ละคน
ในเวลาเดียวกัน ความแตกต่างระหว่างกลุ่มควรชัดเจน และภายในกลุ่ม ผู้ตอบควรเหมือนกันมากที่สุด
จนถึงปัจจุบัน การสำรวจทางสังคมวิทยาส่วนใหญ่ให้คะแนนเสียงเพียงร้อยละ: พิจารณาคำตอบเชิงบวกในจำนวนหลัก หรือร้อยละของผู้ที่ไม่พอใจ แต่ปัญหานี้ไม่ได้รับการพิจารณาอย่างเป็นระบบ
บ่อยครั้งที่การสำรวจไม่แสดงแนวโน้มของสถานการณ์ ในบางกรณี ไม่จำเป็นต้องนับจำนวนคนที่ "เพื่อ" หรือ "ต่อต้าน" แต่ให้นับระยะทางหรือการวัดความคล้ายคลึงกัน นั่นคือเพื่อกำหนดกลุ่มคนที่คิดเรื่องเดียวกัน
ขั้นตอนการวิเคราะห์คลัสเตอร์สามารถใช้เพื่อระบุตามข้อมูลการสำรวจ ความสัมพันธ์ที่มีอยู่จริงบางอย่างของคุณสมบัติและสร้างการจำแนกประเภทบนพื้นฐานนี้
ความสนใจ!
การปรากฏตัวของสมมติฐานเบื้องต้นของนักสังคมวิทยาเมื่อทำงานกับขั้นตอนการวิเคราะห์กลุ่มไม่ใช่เงื่อนไขที่จำเป็น
ในโปรแกรม Statistica การวิเคราะห์คลัสเตอร์จะดำเนินการดังนี้
เมื่อเลือกจำนวนคลัสเตอร์ ให้ปฏิบัติตามคำแนะนำต่อไปนี้: จำนวนคลัสเตอร์ไม่ควรใหญ่เกินไป หากเป็นไปได้
ถ้าเป็นไปได้ ระยะทางที่วัตถุของคลัสเตอร์หนึ่งมารวมกันควรน้อยกว่าระยะทางที่สิ่งอื่นมารวมกับคลัสเตอร์นี้มาก
เมื่อเลือกจำนวนคลัสเตอร์ ส่วนใหญ่มักจะมีวิธีแก้ปัญหาที่ถูกต้องหลายอย่างพร้อมกัน
ตัวอย่างเช่น เราสนใจว่าคำตอบสำหรับคำถามของแบบสอบถามมีความสัมพันธ์กับพนักงานทั่วไปและการจัดการขององค์กรอย่างไร ดังนั้น เราเลือก K=2 สำหรับการแบ่งส่วนเพิ่มเติม คุณสามารถเพิ่มจำนวนคลัสเตอร์ได้
- เลือกการสังเกตที่มีระยะห่างสูงสุดระหว่างศูนย์กลางคลัสเตอร์
- จัดเรียงระยะทางและเลือกการสังเกตตามช่วงเวลาปกติ (การตั้งค่าเริ่มต้น)
- นำศูนย์สังเกตการณ์แห่งแรกและติดวัตถุที่เหลือเข้ากับพวกเขา
ตัวเลือกที่ 1 เหมาะกับวัตถุประสงค์ของเรา
อัลกอริธึมการจัดกลุ่มจำนวนมากมักจะ "กำหนด" โครงสร้างที่ไม่มีอยู่ในข้อมูลและทำให้ผู้วิจัยสับสน ดังนั้นจึงมีความจำเป็นอย่างยิ่งที่จะต้องใช้อัลกอริธึมการวิเคราะห์คลัสเตอร์หลายๆ ชุดและทำการสรุปตามการประเมินทั่วไปของผลลัพธ์ของอัลกอริทึม
สามารถดูผลการวิเคราะห์ในกล่องโต้ตอบที่ปรากฏขึ้น:
หากคุณเลือกแท็บกราฟของค่าเฉลี่ย กราฟของพิกัดของศูนย์กลางคลัสเตอร์จะถูกลงจุด:
เส้นแบ่งแต่ละเส้นบนกราฟนี้สอดคล้องกับกลุ่มใดกลุ่มหนึ่ง แต่ละส่วนของแกนนอนของกราฟสอดคล้องกับหนึ่งในตัวแปรที่รวมอยู่ในการวิเคราะห์
แกนตั้งสอดคล้องกับค่าเฉลี่ยของตัวแปรสำหรับวัตถุที่รวมอยู่ในแต่ละคลัสเตอร์
สังเกตได้ว่าทัศนคติของคนทั้งสองกลุ่มที่มีต่ออาชีพบริการมีความแตกต่างกันอย่างมีนัยสำคัญในเกือบทุกประเด็น มีเพียงประเด็นเดียวเท่านั้นที่มีความเป็นเอกฉันท์อย่างสมบูรณ์ - ในแง่ของความเป็นอยู่ที่ดีทางสังคม (OSB) หรือค่อนข้างขาด (2.5 คะแนนเต็ม 10)
สามารถสันนิษฐานได้ว่าคลัสเตอร์ 1 เป็นตัวแทนของผู้ปฏิบัติงานและคลัสเตอร์ 2 แสดงถึงการจัดการ ผู้จัดการมีความพึงพอใจมากขึ้นกับการพัฒนาอาชีพ (CR) การรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร (SOLs)
พวกเขามีความรู้สึกที่สูงขึ้นของความเป็นอยู่ที่ดีทางเศรษฐกิจ (SEW) และความรู้สึกของการจ่ายค่าตอบแทน (SWA)
พวกเขากังวลเรื่องความใกล้บ้านน้อยกว่าคนงาน อาจเป็นเพราะปัญหาด้านการขนส่งน้อยกว่า นอกจากนี้ ผู้จัดการมีความต้องการเปลี่ยนงานน้อยลง (JSR)
แม้ว่าคนงานจะถูกแบ่งออกเป็นสองประเภท แต่พวกเขาก็ให้คำตอบที่ค่อนข้างเหมือนกันสำหรับคำถามส่วนใหญ่ กล่าวอีกนัยหนึ่ง ถ้าบางอย่างไม่เหมาะกับกลุ่มพนักงานทั่วไป สิ่งเดียวกันนั้นก็ไม่เหมาะกับผู้บริหารระดับสูง และในทางกลับกัน
การประสานกันของกราฟช่วยให้เราสรุปได้ว่าความเป็นอยู่ที่ดีของกลุ่มหนึ่งสะท้อนให้เห็นในความเป็นอยู่ที่ดีของอีกกลุ่มหนึ่ง
กลุ่มที่ 1 ไม่พอใจกับความใกล้ชิดกับบ้าน กลุ่มนี้เป็นส่วนหลักของคนงานที่มาจากส่วนต่าง ๆ ของเมืองมาที่องค์กรเป็นหลัก
ดังนั้นจึงเป็นไปได้ที่จะเสนอให้ผู้บริหารระดับสูงจัดสรรผลกำไรส่วนหนึ่งให้กับการก่อสร้างที่อยู่อาศัยสำหรับพนักงานขององค์กร
ความแตกต่างที่สำคัญเห็นได้จากทัศนคติของคนทั้งสองกลุ่มที่มีต่ออาชีพบริการ พนักงานที่พอใจกับการเติบโตของอาชีพซึ่งมีเป้าหมายส่วนตัวและเป้าหมายขององค์กรสูงไม่มีความปรารถนาที่จะเปลี่ยนงานและรู้สึกพอใจกับผลงานของพวกเขา
ในทางกลับกัน พนักงานที่ต้องการเปลี่ยนงานและไม่พอใจกับผลงานของพวกเขาจะไม่พอใจกับตัวบ่งชี้ข้างต้น ผู้บริหารระดับสูงควรให้ความสนใจเป็นพิเศษกับสถานการณ์ปัจจุบัน
ผลลัพธ์ของการวิเคราะห์ความแปรปรวนสำหรับแต่ละแอตทริบิวต์จะแสดงโดยการกดปุ่มวิเคราะห์ความแปรปรวน
ผลรวมของส่วนเบี่ยงเบนกำลังสองของวัตถุจากศูนย์กลางคลัสเตอร์ (SS ภายใน) และผลรวมของส่วนเบี่ยงเบนกำลังสองระหว่างศูนย์กลางของคลัสเตอร์ (SS ระหว่าง) ค่าสถิติ F และระดับนัยสำคัญ p จะแสดงขึ้น
ความสนใจ!
สำหรับตัวอย่างของเรา ระดับนัยสำคัญของตัวแปรทั้งสองนั้นค่อนข้างใหญ่ ซึ่งอธิบายได้จากการสังเกตจำนวนน้อย ในเวอร์ชันเต็มของการศึกษาซึ่งสามารถพบได้ในบทความนี้ สมมติฐานเกี่ยวกับความเท่าเทียมกันของค่าเฉลี่ยสำหรับศูนย์คลัสเตอร์ถูกปฏิเสธที่ระดับนัยสำคัญน้อยกว่า 0.01
ปุ่มบันทึกการจัดประเภทและระยะทางจะแสดงจำนวนของวัตถุที่รวมอยู่ในแต่ละคลัสเตอร์และระยะทางของวัตถุไปยังศูนย์กลางของแต่ละคลัสเตอร์
ตารางแสดงหมายเลขเคส (CASE_NO) ที่ประกอบเป็นคลัสเตอร์ด้วยหมายเลข CLUSTER และระยะห่างจากจุดศูนย์กลางของแต่ละคลัสเตอร์ (DISTANCE)
ข้อมูลเกี่ยวกับออบเจกต์ที่อยู่ในคลัสเตอร์สามารถเขียนลงในไฟล์และใช้ในการวิเคราะห์เพิ่มเติมได้ ในตัวอย่างนี้ การเปรียบเทียบผลลัพธ์ที่ได้รับกับแบบสอบถามพบว่า กลุ่มที่ 1 ประกอบด้วยพนักงานธรรมดาเป็นส่วนใหญ่ และกลุ่มที่ 2 เป็นผู้จัดการ
ดังนั้น จะเห็นได้ว่าเมื่อประมวลผลผลลัพธ์ของการสำรวจ การวิเคราะห์กลุ่มกลายเป็นวิธีการที่มีประสิทธิภาพที่ช่วยให้สามารถสรุปผลที่ไม่สามารถเข้าถึงได้โดยการสร้างฮิสโตแกรมของค่าเฉลี่ยหรือโดยการคำนวณเปอร์เซ็นต์ของผู้ที่พอใจกับตัวบ่งชี้ต่างๆ ของ คุณภาพชีวิตในการทำงาน
การจัดกลุ่มต้นไม้เป็นตัวอย่างของอัลกอริทึมแบบลำดับชั้น หลักการของการจัดกลุ่มคือจัดกลุ่มองค์ประกอบที่ใกล้ที่สุดก่อน จากนั้นตามด้วยองค์ประกอบที่ห่างไกลจากกันและกันมากขึ้นเรื่อย ๆ ในคลัสเตอร์
อัลกอริทึมเหล่านี้ส่วนใหญ่เริ่มต้นจากเมทริกซ์ของความคล้ายคลึง (ระยะทาง) และในตอนแรก แต่ละองค์ประกอบจะถูกพิจารณาว่าเป็นคลัสเตอร์ที่แยกจากกัน
หลังจากโหลดโมดูลการวิเคราะห์คลัสเตอร์และเลือกการเข้าร่วม (การจัดกลุ่มต้นไม้) คุณสามารถเปลี่ยนพารามิเตอร์ต่อไปนี้ในหน้าต่างรายการพารามิเตอร์การทำคลัสเตอร์:
- ข้อมูลเริ่มต้น (อินพุต) พวกเขาสามารถอยู่ในรูปของเมทริกซ์ของข้อมูลที่ศึกษา (ข้อมูลดิบ) และในรูปแบบของเมทริกซ์ของระยะทาง (เมทริกซ์ระยะทาง)
- การสังเกตแบบกลุ่ม (Cluster) (กรณี (ดิบ)) หรือตัวแปร (ตัวแปร (คอลัมน์)) อธิบายสถานะของวัตถุ
- มาตรการระยะทาง ที่นี่คุณสามารถเลือกมาตรการต่อไปนี้: ระยะทางแบบยุคลิด, ระยะทางแบบยุคลิดกำลังสอง, ระยะทาง City-block (แมนฮัตตัน), เมตริกระยะทาง Chebychev, กำลัง ... ), เปอร์เซ็นต์ของความขัดแย้ง (เปอร์เซ็นต์ความขัดแย้ง)
- วิธีการจัดกลุ่ม (กฎการควบรวม (เชื่อมโยง)) ตัวเลือกต่อไปนี้เป็นไปได้ที่นี่: การเชื่อมโยงเดี่ยว, การเชื่อมโยงที่สมบูรณ์, ค่าเฉลี่ยของกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนัก, ค่าเฉลี่ยของกลุ่มคู่ที่ถ่วงน้ำหนัก ), เซนทรอยด์กลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนัก, เซนทรอยด์กลุ่มคู่ถ่วงน้ำหนัก (ค่ามัธยฐาน), วิธีการของวอร์ด
อันเป็นผลมาจากการจัดกลุ่มสร้าง dendrogram แนวนอนหรือแนวตั้ง - กราฟที่กำหนดระยะห่างระหว่างวัตถุและกลุ่มเมื่อรวมกันตามลำดับ
โครงสร้างแบบต้นไม้ของกราฟทำให้คุณสามารถกำหนดคลัสเตอร์โดยขึ้นอยู่กับเกณฑ์ที่เลือก - ระยะห่างที่กำหนดระหว่างคลัสเตอร์
นอกจากนี้ยังแสดงเมทริกซ์ของระยะทางระหว่างวัตถุต้นฉบับ (เมทริกซ์ระยะทาง) ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่ละวัตถุต้นทาง (สถิติแบบแยกส่วน)
สำหรับตัวอย่างที่พิจารณาแล้ว เราจะดำเนินการวิเคราะห์กลุ่มของตัวแปรด้วยการตั้งค่าเริ่มต้น dendrogram ที่ได้จะแสดงในรูป
แกนแนวตั้งของ dendrogram วางแผนระยะห่างระหว่างวัตถุและระหว่างวัตถุและกลุ่ม ดังนั้น ระยะห่างระหว่างตัวแปร SEB และ OSD จึงเท่ากับ 5 ตัวแปรเหล่านี้ในขั้นตอนแรกจะรวมกันเป็นคลัสเตอร์เดียว
ส่วนแนวนอนของ dendrogram จะถูกวาดที่ระดับที่สอดคล้องกับระยะทางเกณฑ์ที่เลือกสำหรับขั้นตอนการจัดกลุ่มที่กำหนด
ดังจะเห็นได้จากกราฟว่าคำถาม “ความปรารถนาที่จะเปลี่ยนงาน” (JSR) แยกกลุ่มออกจากกัน โดยทั่วไปแล้วความปรารถนาที่จะทิ้งทุกที่จะมาเยือนทุกคนอย่างเท่าเทียมกัน นอกจากนี้ คลัสเตอร์ที่แยกจากกันคือคำถามเกี่ยวกับความใกล้ชิดระหว่างดินแดนกับบ้าน (LHB)
ในแง่ของความสำคัญนั้นอยู่ในอันดับที่สองซึ่งยืนยันข้อสรุปเกี่ยวกับความจำเป็นในการก่อสร้างที่อยู่อาศัยซึ่งจัดทำขึ้นตามผลการศึกษาโดยใช้วิธี K-mean
ความรู้สึกของความเป็นอยู่ที่ดีทางเศรษฐกิจ (PEW) และส่วนของการจ่าย (PWA) ถูกรวมเข้าด้วยกัน - นี่เป็นประเด็นทางเศรษฐกิจ ความก้าวหน้าในอาชีพ (CR) และการรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร (COL) ก็รวมกันเช่นกัน
วิธีการจัดกลุ่มอื่น ๆ รวมถึงการเลือกระยะทางประเภทอื่น ๆ จะไม่ทำให้เกิดการเปลี่ยนแปลงที่สำคัญใน dendrogram
ผลลัพธ์:
- การวิเคราะห์คลัสเตอร์เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจและการวิจัยทางสถิติในทุกสาขาวิชา
- โปรแกรม Statistica ใช้ทั้งวิธีการแบบลำดับชั้นและแบบโครงสร้างของการวิเคราะห์คลัสเตอร์ ข้อดีของแพ็คเกจสถิตินี้เกิดจากความสามารถด้านกราฟิก มีการแสดงกราฟิกสองมิติและสามมิติของกลุ่มที่ได้รับในพื้นที่ของตัวแปรที่ศึกษาตลอดจนผลลัพธ์ของขั้นตอนลำดับชั้นสำหรับการจัดกลุ่มวัตถุ
- มีความจำเป็นที่จะต้องใช้อัลกอริทึมการวิเคราะห์คลัสเตอร์หลายตัวและสรุปผลตามการประเมินทั่วไปของผลลัพธ์ของอัลกอริทึม
- การวิเคราะห์คลัสเตอร์ถือว่าประสบความสำเร็จหากดำเนินการด้วยวิธีต่างๆ เปรียบเทียบผลลัพธ์และพบรูปแบบทั่วไป และพบคลัสเตอร์ที่เสถียรโดยไม่คำนึงถึงวิธีการจัดกลุ่ม
- การวิเคราะห์คลัสเตอร์ทำให้คุณสามารถระบุสถานการณ์ปัญหาและร่างแนวทางแก้ไขได้ ดังนั้น วิธีสถิติแบบไม่มีพารามิเตอร์นี้จึงถือเป็นส่วนสำคัญของการวิเคราะห์ระบบได้
ประเภทอินพุต
- คำอธิบายบ่งชี้ของวัตถุ แต่ละวัตถุอธิบายด้วยชุดของคุณลักษณะที่เรียกว่า สัญญาณ. คุณลักษณะอาจเป็นตัวเลขหรือไม่ใช่ตัวเลขก็ได้
- เมทริกซ์ระยะทางระหว่างวัตถุ วัตถุแต่ละชิ้นอธิบายด้วยระยะห่างจากวัตถุอื่นๆ ในชุดการฝึก
เป้าหมายของการรวมกลุ่ม
- ทำความเข้าใจข้อมูลโดยการระบุโครงสร้างคลัสเตอร์ การแบ่งตัวอย่างออกเป็นกลุ่มของวัตถุที่คล้ายกันทำให้การประมวลผลข้อมูลเพิ่มเติมและการตัดสินใจง่ายขึ้นโดยใช้วิธีการวิเคราะห์ของตัวเองกับแต่ละกลุ่ม (กลยุทธ์ "แบ่งและพิชิต")
- การบีบอัดข้อมูล หากตัวอย่างเริ่มต้นมีขนาดใหญ่เกินไป ก็สามารถลดขนาดลงได้ โดยเหลือหนึ่งในตัวแทนทั่วไปที่สุดจากแต่ละคลัสเตอร์
- การตรวจจับความแปลกใหม่ การตรวจจับความแปลกใหม่). มีการเลือกวัตถุที่ผิดปกติซึ่งไม่สามารถแนบกับคลัสเตอร์ใดๆ
ในกรณีแรก พวกเขาพยายามทำให้จำนวนคลัสเตอร์น้อยลง ในกรณีที่สอง สิ่งสำคัญคือต้องแน่ใจว่ามีความคล้ายคลึงกันในระดับสูงของอ็อบเจ็กต์ภายในแต่ละคลัสเตอร์ และอาจมีคลัสเตอร์จำนวนเท่าใดก็ได้ ในกรณีที่สาม วัตถุแต่ละชิ้นที่ไม่เข้ากับคลัสเตอร์ใด ๆ เป็นสิ่งที่น่าสนใจที่สุด
ในทุกกรณีเหล่านี้ การจัดกลุ่มแบบลำดับชั้นสามารถประยุกต์ใช้ได้ เมื่อกลุ่มขนาดใหญ่ถูกแบ่งออกเป็นกลุ่มย่อย ซึ่งในทางกลับกัน การแบ่งกลุ่มให้เล็กลง เป็นต้น งานดังกล่าวเรียกว่างานอนุกรมวิธาน
ผลลัพธ์ของอนุกรมวิธานคือโครงสร้างลำดับชั้นแบบต้นไม้ นอกจากนี้ แต่ละอ็อบเจกต์ยังแสดงลักษณะการแจงนับของกลุ่มทั้งหมดที่มันเป็นสมาชิก โดยปกติจะเรียงจากใหญ่ไปหาเล็ก
ตัวอย่างคลาสสิกของอนุกรมวิธานตามความคล้ายคลึงกันคือระบบการตั้งชื่อแบบทวินามของสิ่งมีชีวิตที่เสนอโดย Carl Linnaeus ในช่วงกลางศตวรรษที่ 18 การจัดระบบที่คล้ายกันถูกสร้างขึ้นในความรู้หลายสาขาเพื่อจัดระเบียบข้อมูลเกี่ยวกับวัตถุจำนวนมาก
วิธีการจัดกลุ่ม
คำชี้แจงอย่างเป็นทางการของปัญหาการทำคลัสเตอร์
อนุญาต เป็นชุดของวัตถุ เป็นชุดของตัวเลข (ชื่อ ป้ายกำกับ) ของกลุ่ม มีการกำหนดฟังก์ชันระยะห่างระหว่างวัตถุ มีชุดของวัตถุการฝึกอบรมจำกัด จำเป็นต้องแยกตัวอย่างออกเป็นส่วนย่อยที่ไม่ทับซ้อนกัน เรียกว่า กระจุกเพื่อให้แต่ละคลัสเตอร์ประกอบด้วยอ็อบเจ็กต์ใกล้เคียงในหน่วยเมตริก และอ็อบเจ็กต์ของคลัสเตอร์ต่างๆ ต่างกันอย่างมีนัยสำคัญ ในกรณีนี้ แต่ละวัตถุจะได้รับหมายเลขคลัสเตอร์
อัลกอริทึมการจัดกลุ่มเป็นฟังก์ชันที่เชื่อมโยงวัตถุใด ๆ กับหมายเลขคลัสเตอร์ ชุดในบางกรณีเป็นที่รู้จักกันล่วงหน้า แต่บ่อยครั้งที่งานคือการกำหนดจำนวนที่เหมาะสมที่สุดของคลัสเตอร์จากมุมมองของหนึ่งหรืออีกคนหนึ่ง เกณฑ์คุณภาพการรวมกลุ่ม
วรรณกรรม
- Aivazyan S. A. , Buchstaber V. M. , Enyukov I. S. , Meshalkin L. D.สถิติประยุกต์: การจำแนกประเภทและการลดขนาด. - ม.: การเงินและสถิติ, 2532.
- Zhuravlev Yu. I. , Ryazanov V. V. , Senko O. V."การยอมรับ". วิธีการทางคณิตศาสตร์. ระบบซอฟต์แวร์. การใช้งานจริง. - ม.: Fazis, 2549 ISBN 5-7036-0108-8
- Zagoruiko N. G.วิธีการประยุกต์การวิเคราะห์ข้อมูลและความรู้ - โนโวซีบีร์สค์: IM SO RAN, 1999 ISBN 5-86134-060-9
- แมนเดล ไอ.ดี.การวิเคราะห์คลัสเตอร์ - ม.: การเงินและสถิติ 2531 ISBN 5-279-00050-7
- ชเลซิงเงอร์ เอ็ม, กลาวาช วี.สิบการบรรยายเกี่ยวกับการจดจำทางสถิติและโครงสร้าง - เคียฟ: Naukova Dumka, 2004 ISBN 966-00-0341-2
- Hastie T., Tibshirani R., Friedman J.องค์ประกอบของการเรียนรู้ทางสถิติ - สปริงเกอร์ 2544 ISBN 0-387-95284-5
- เชน เมอร์ตี ฟลินน์การจัดกลุ่มข้อมูล: บทวิจารณ์ // ACM คอมพิวเตอร์ เอาตัวรอด 31 (3) , 1999
ลิงก์ภายนอก
เป็นภาษารัสเซีย
- www.MachineLearning.ru - ทรัพยากร wiki ระดับมืออาชีพที่ทุ่มเทให้กับการเรียนรู้ของเครื่องและการขุดข้อมูล
- เอส. นิโคเลนโก. สไลด์บรรยายเรื่องอัลกอริทึมการจัดกลุ่ม
เป็นภาษาอังกฤษ
- COMPACT - แพ็คเกจเปรียบเทียบสำหรับการประเมินการจัดกลุ่ม. แพ็คเกจ Matlab ฟรี 2549
- พี. เบอร์คิน การสำรวจเทคนิคการทำเหมืองข้อมูลแบบคลัสเตอร์, แอคครูว์ ซอฟต์แวร์, 2545.
- เชน เมอร์ตี และฟลินน์: การจัดกลุ่มข้อมูล: บทวิจารณ์, บช.น. รอด., 2542.
- สำหรับการนำเสนออื่นๆ ของค่าเฉลี่ยแบบลำดับชั้น ค่าเฉลี่ย k และค่าเฉลี่ยแบบฟัซซี โปรดดูบทนำเกี่ยวกับการจัดกลุ่ม มีคำอธิบายส่วนผสมของ Gaussians ด้วย
- เดวิด โดว์, หน้าแบบจำลองส่วนผสม- ลิงค์แบบจำลองการจัดกลุ่มและแบบผสมอื่น ๆ
- บทช่วยสอนเกี่ยวกับการจัดกลุ่ม
- หนังสือเรียนออนไลน์: ทฤษฎีสารสนเทศ การอนุมาน และอัลกอริทึมการเรียนรู้ โดย David J.C. MacKay รวมบทต่างๆ เกี่ยวกับการจัดกลุ่มค่าเฉลี่ย k การจัดกลุ่มค่าเฉลี่ย k แบบอ่อน และรากเหง้า รวมถึงอัลกอริทึม E-M และมุมมองแบบแปรผันของอัลกอริทึม E-M
- "ยีนที่จัดระเบียบตนเอง" บทช่วยสอนที่อธิบายการจัดกลุ่มผ่านการเรียนรู้แบบแข่งขันและแผนที่การจัดระเบียบตนเอง
- kernlab - แพ็คเกจ R สำหรับการเรียนรู้ของเครื่องที่ใช้เคอร์เนล (รวมถึงการใช้งานการจัดกลุ่มสเปกตรัม)
- บทช่วยสอน - บทช่วยสอนพร้อมการแนะนำอัลกอริทึมการทำคลัสเตอร์ (k-mean, fuzzy-c-means, ลำดับชั้น, ส่วนผสมของเกาส์เซียน) + การสาธิตเชิงโต้ตอบ (java applet)
- ซอฟต์แวร์ขุดข้อมูล - ซอฟต์แวร์ขุดข้อมูลมักใช้เทคนิคการทำคลัสเตอร์
- Java Competitve Learning Application ชุดของ Neural Networks ที่ไม่มีผู้ดูแลสำหรับการทำคลัสเตอร์ เขียนด้วยภาษาจาวา กรอกด้วยซอร์สโค้ดทั้งหมด
การวิเคราะห์คลัสเตอร์
นักวิจัยส่วนใหญ่มีแนวโน้มที่จะเชื่อว่าเป็นครั้งแรกที่คำว่า "การวิเคราะห์กลุ่ม" (อังกฤษ กลุ่ม- พวง, ก้อน, พวง) ถูกเสนอโดยนักคณิตศาสตร์ R. Trion ต่อจากนั้น มีคำศัพท์หลายคำที่ตอนนี้ถือว่ามีความหมายเหมือนกันกับคำว่า "การวิเคราะห์กลุ่ม": การจำแนกประเภทอัตโนมัติ; บอตรีวิทยา.
การวิเคราะห์คลัสเตอร์เป็นขั้นตอนทางสถิติหลายมิติที่รวบรวมข้อมูลที่มีข้อมูลเกี่ยวกับตัวอย่างของออบเจกต์ จากนั้นจัดเรียงออบเจ็กต์ให้เป็นกลุ่มที่เป็นเนื้อเดียวกัน (คลัสเตอร์) (คลัสเตอร์แบบ Q หรือเทคนิค Q การวิเคราะห์คลัสเตอร์เหมาะสม) คลัสเตอร์ - กลุ่มขององค์ประกอบที่มีลักษณะทั่วไป เป้าหมายหลักของการวิเคราะห์คลัสเตอร์คือการค้นหากลุ่มของวัตถุที่คล้ายกันในตัวอย่าง ช่วงของการประยุกต์ใช้การวิเคราะห์กลุ่มกว้างมาก: ใช้ในโบราณคดี การแพทย์ จิตวิทยา เคมี ชีววิทยา รัฐประศาสนศาสตร์ ภาษาศาสตร์ มานุษยวิทยา การตลาด สังคมวิทยา และสาขาวิชาอื่นๆ อย่างไรก็ตาม ความเป็นสากลของแอปพลิเคชันได้นำไปสู่การเกิดขึ้นของคำศัพท์ วิธีการ และแนวทางที่เข้ากันไม่ได้จำนวนมาก ซึ่งทำให้ยากต่อการใช้อย่างชัดเจนและตีความการวิเคราะห์คลัสเตอร์อย่างสม่ำเสมอ Orlov A. I. แนะนำให้แยกแยะดังนี้:
งานและเงื่อนไข
การวิเคราะห์คลัสเตอร์ดำเนินการดังต่อไปนี้ เป้าหมายหลัก:
- การพัฒนารูปแบบหรือการจำแนกประเภท
- สำรวจโครงร่างแนวคิดที่เป็นประโยชน์สำหรับการจัดกลุ่มวัตถุ
- การสร้างสมมติฐานจากการสำรวจข้อมูล
- การทดสอบสมมติฐานหรือการวิจัยเพื่อตรวจสอบว่าประเภท (กลุ่ม) ที่ระบุไม่ทางใดก็ทางหนึ่งมีอยู่จริงในข้อมูลที่มีอยู่
โดยไม่คำนึงถึงหัวข้อการศึกษา การใช้การวิเคราะห์กลุ่มที่เกี่ยวข้อง ขั้นตอนถัดไป:
- การสุ่มตัวอย่างสำหรับการจัดกลุ่ม เป็นที่เข้าใจกันว่าควรจัดกลุ่มข้อมูลเชิงปริมาณเท่านั้น
- คำจำกัดความของชุดของตัวแปรซึ่งวัตถุในตัวอย่างจะถูกประเมิน นั่นคือ พื้นที่คุณลักษณะ
- การคำนวณค่าของการวัดความเหมือน (หรือความแตกต่าง) อย่างใดอย่างหนึ่งระหว่างวัตถุ
- การประยุกต์ใช้วิธีการวิเคราะห์คลัสเตอร์เพื่อสร้างกลุ่มของวัตถุที่คล้ายกัน
- การตรวจสอบผลลัพธ์ของโซลูชันคลัสเตอร์
การวิเคราะห์คลัสเตอร์นำเสนอสิ่งต่อไปนี้ ข้อกำหนดด้านข้อมูล:
- ตัวบ่งชี้ไม่ควรสัมพันธ์กัน
- ตัวบ่งชี้ไม่ควรขัดแย้งกับทฤษฎีการวัด
- การกระจายของตัวบ่งชี้ควรใกล้เคียงกับปกติ
- ตัวบ่งชี้ต้องเป็นไปตามข้อกำหนดของ "ความเสถียร" ซึ่งหมายถึงการไม่มีอิทธิพลต่อค่าของพวกเขาโดยปัจจัยสุ่ม
- ตัวอย่างควรเป็นเนื้อเดียวกัน ไม่มี "ค่าผิดปกติ"
คุณสามารถค้นหาคำอธิบายของข้อกำหนดพื้นฐานสองประการสำหรับข้อมูล - ความสม่ำเสมอและความสมบูรณ์:
ความเป็นเนื้อเดียวกันต้องการให้เอนทิตีทั้งหมดที่แสดงในตารางมีลักษณะเดียวกัน ข้อกำหนดสำหรับความสมบูรณ์คือชุด ฉันและ เจนำเสนอคำอธิบายที่สมบูรณ์ของอาการของปรากฏการณ์ภายใต้การพิจารณา หากเราพิจารณาตารางที่ ฉันเป็นของสะสมและ เจ- ชุดของตัวแปรที่อธิบายถึงประชากรนี้ควรเป็นกลุ่มตัวอย่างที่เป็นตัวแทนจากประชากรที่ศึกษาและระบบลักษณะเฉพาะ เจควรให้การแสดงเวกเตอร์ที่น่าพอใจของบุคคล ฉันจากมุมมองของนักวิจัย
หากการวิเคราะห์คลัสเตอร์นำหน้าด้วยการวิเคราะห์ปัจจัย ตัวอย่างก็ไม่จำเป็นต้อง "ซ่อมแซม" - ข้อกำหนดที่ระบุไว้จะดำเนินการโดยอัตโนมัติโดยขั้นตอนการสร้างแบบจำลองปัจจัย ดำเนินการโดยตรงสำหรับการวิเคราะห์กลุ่ม อาจทำให้ความชัดเจนในการแยกกลุ่มลดลง) มิฉะนั้นจะต้องปรับตัวอย่าง
ประเภทของปัญหาการรวมกลุ่ม
ประเภทอินพุต
ในวิทยาศาสตร์สมัยใหม่ มีการใช้อัลกอริทึมหลายอย่างสำหรับการประมวลผลข้อมูลอินพุต การวิเคราะห์โดยการเปรียบเทียบวัตถุตามคุณลักษณะ (พบมากที่สุดในวิทยาศาสตร์ชีวภาพ) เรียกว่า ถาม- ประเภทของการวิเคราะห์ และในกรณีของการเปรียบเทียบคุณลักษณะ บนพื้นฐานของวัตถุ - ร- ประเภทของการวิเคราะห์ มีความพยายามที่จะใช้ประเภทการวิเคราะห์แบบผสมผสาน (ตัวอย่างเช่น อาร์.คิวการวิเคราะห์) แต่วิธีการนี้ยังไม่ได้รับการพัฒนาอย่างเหมาะสม
เป้าหมายของการรวมกลุ่ม
- ทำความเข้าใจข้อมูลโดยการระบุโครงสร้างคลัสเตอร์ การแบ่งตัวอย่างออกเป็นกลุ่มของวัตถุที่คล้ายกันทำให้การประมวลผลข้อมูลเพิ่มเติมและการตัดสินใจง่ายขึ้นโดยใช้วิธีการวิเคราะห์ของตัวเองกับแต่ละกลุ่ม (กลยุทธ์ "แบ่งและพิชิต")
- การบีบอัดข้อมูล หากตัวอย่างเริ่มต้นมีขนาดใหญ่เกินไป ก็สามารถลดขนาดลงได้ โดยเหลือหนึ่งในตัวแทนทั่วไปที่สุดจากแต่ละคลัสเตอร์
- การตรวจจับความแปลกใหม่ การตรวจจับความแปลกใหม่). มีการเลือกวัตถุที่ผิดปกติซึ่งไม่สามารถแนบกับคลัสเตอร์ใดๆ
ในกรณีแรก พวกเขาพยายามทำให้จำนวนคลัสเตอร์น้อยลง ในกรณีที่สอง สิ่งสำคัญคือต้องแน่ใจว่ามีความคล้ายคลึงกันในระดับสูงของอ็อบเจ็กต์ภายในแต่ละคลัสเตอร์ และอาจมีคลัสเตอร์จำนวนเท่าใดก็ได้ ในกรณีที่สาม วัตถุแต่ละชิ้นที่ไม่เข้ากับคลัสเตอร์ใด ๆ เป็นสิ่งที่น่าสนใจที่สุด
ในทุกกรณีเหล่านี้ การจัดกลุ่มแบบลำดับชั้นสามารถประยุกต์ใช้ได้ เมื่อกลุ่มขนาดใหญ่ถูกแบ่งออกเป็นกลุ่มที่เล็กลง ซึ่งจะแยกให้เล็กลงอีก เป็นต้น งานดังกล่าวเรียกว่างานอนุกรมวิธาน ผลลัพธ์ของอนุกรมวิธานคือโครงสร้างลำดับชั้นแบบต้นไม้ นอกจากนี้ แต่ละอ็อบเจกต์ยังแสดงลักษณะการแจงนับของกลุ่มทั้งหมดที่มันเป็นสมาชิก โดยปกติจะเรียงจากใหญ่ไปหาเล็ก
วิธีการจัดกลุ่ม
ไม่มีการจำแนกประเภทของวิธีการจัดกลุ่มที่ยอมรับโดยทั่วไป แต่สามารถสังเกตความพยายามที่มั่นคงของ V. S. Berikov และ G. S. Lbov หากเราสรุปการจำแนกประเภทต่างๆ ของวิธีการจัดกลุ่ม เราจะสามารถแยกแยะกลุ่มต่างๆ ได้ (บางวิธีอาจมาจากหลายกลุ่มพร้อมกัน ดังนั้นจึงเสนอให้พิจารณาการจัดประเภทนี้เป็นค่าประมาณของการจำแนกวิธีการจัดกลุ่มที่แท้จริง):
- แนวทางความน่าจะเป็น. สันนิษฐานว่าแต่ละอ็อบเจกต์ภายใต้การพิจารณาเป็นของหนึ่งในคลาส k ผู้เขียนบางคน (เช่น A. I. Orlov) เชื่อว่ากลุ่มนี้ไม่ได้อยู่ในการจัดกลุ่มเลยและคัดค้านภายใต้ชื่อ "การเลือกปฏิบัติ" นั่นคือการเลือกกำหนดวัตถุให้กับกลุ่มที่รู้จักกลุ่มใดกลุ่มหนึ่ง (ตัวอย่างการฝึกอบรม)
- แนวทางตามระบบปัญญาประดิษฐ์. กลุ่มที่มีเงื่อนไขมาก เนื่องจากมีวิธีการของ AI จำนวนมากและมีระเบียบวิธีที่แตกต่างกันมาก
- วิธีการเชิงตรรกะ. การสร้าง dendrogram ดำเนินการโดยใช้แผนผังการตัดสินใจ
- แนวทางทฤษฎีกราฟ.
- อัลกอริทึมการจัดกลุ่มกราฟ
- วิธีการตามลำดับชั้น. การมีอยู่ของกลุ่มที่ซ้อนกัน (คลัสเตอร์ของคำสั่งซื้อที่แตกต่างกัน) จะถือว่า ในทางกลับกัน อัลกอริทึมจะแบ่งออกเป็นแบบรวม (รวม) และหาร (แยก) ตามจำนวนคุณสมบัติบางครั้งวิธีการจำแนกประเภท monothetic และ polythetic นั้นแตกต่างกัน
- การแบ่งกลุ่มตามลำดับชั้นหรืออนุกรมวิธาน ปัญหาการจัดกลุ่มจะพิจารณาในอนุกรมวิธานเชิงปริมาณ
- วิธีการอื่นๆ. ไม่รวมอยู่ในกลุ่มก่อนหน้า
- อัลกอริทึมการจัดกลุ่มทางสถิติ
- กลุ่มคลัสเตอร์
- อัลกอริทึมของตระกูล KRAB
- อัลกอริทึมตามวิธีการกรอง
- DBSCAN เป็นต้น
แนวทางที่ 4 และ 5 บางครั้งรวมกันภายใต้ชื่อแนวทางเชิงโครงสร้างหรือทางเรขาคณิต ซึ่งมีแนวคิดเรื่องความใกล้ชิดที่เป็นทางการมากกว่า แม้จะมีความแตกต่างอย่างมีนัยสำคัญระหว่างวิธีการที่ระบุไว้ แต่ทั้งหมดก็ขึ้นอยู่กับต้นฉบับ " สมมติฐานความกระชับ»: ในพื้นที่วัตถุ วัตถุที่ปิดทั้งหมดจะต้องอยู่ในคลัสเตอร์เดียวกัน และวัตถุที่ต่างกันทั้งหมด ตามลำดับ จะต้องอยู่ในคลัสเตอร์ที่แตกต่างกัน
คำชี้แจงอย่างเป็นทางการของปัญหาการทำคลัสเตอร์
อนุญาต เป็นชุดของวัตถุ เป็นชุดของตัวเลข (ชื่อ ป้ายกำกับ) ของกลุ่ม มีการกำหนดฟังก์ชันระยะห่างระหว่างวัตถุ มีชุดของวัตถุการฝึกอบรมจำกัด จำเป็นต้องแยกตัวอย่างออกเป็นส่วนย่อยที่ไม่ทับซ้อนกัน เรียกว่า กระจุกเพื่อให้แต่ละคลัสเตอร์ประกอบด้วยอ็อบเจ็กต์ใกล้เคียงในหน่วยเมตริก และอ็อบเจ็กต์ของคลัสเตอร์ต่างๆ ต่างกันอย่างมีนัยสำคัญ ในกรณีนี้ แต่ละวัตถุจะได้รับหมายเลขคลัสเตอร์
อัลกอริทึมการจัดกลุ่มเป็นฟังก์ชันที่เชื่อมโยงวัตถุใด ๆ กับหมายเลขคลัสเตอร์ ชุดในบางกรณีเป็นที่รู้จักกันล่วงหน้า แต่บ่อยครั้งที่งานคือการกำหนดจำนวนที่เหมาะสมที่สุดของคลัสเตอร์จากมุมมองของหนึ่งหรืออีกคนหนึ่ง เกณฑ์คุณภาพการรวมกลุ่ม
การจัดกลุ่ม (การเรียนรู้แบบไม่มีผู้สอน) แตกต่างจากการจัดหมวดหมู่ (การเรียนรู้แบบมีผู้สอน) ตรงที่ไม่มีการตั้งค่าป้ายกำกับของวัตถุดั้งเดิม และอาจไม่รู้จักชุดด้วยซ้ำ
วิธีแก้ปัญหาการจัดกลุ่มนั้นคลุมเครือโดยพื้นฐาน และมีเหตุผลหลายประการสำหรับสิ่งนี้ (อ้างอิงจากผู้เขียนหลายคน):
- ไม่มีเกณฑ์ใดที่ดีที่สุดสำหรับคุณภาพของการจัดกลุ่ม รู้จักเกณฑ์ฮิวริสติกจำนวนหนึ่ง รวมถึงอัลกอริทึมจำนวนหนึ่งที่ไม่มีเกณฑ์ที่กำหนดไว้อย่างชัดเจน แต่ดำเนินการจัดกลุ่มที่สมเหตุสมผลพอสมควร "โดยการสร้าง" ทั้งหมดสามารถให้ผลลัพธ์ที่แตกต่างกัน ดังนั้น เพื่อกำหนดคุณภาพของการจัดกลุ่ม จึงจำเป็นต้องมีผู้เชี่ยวชาญในสาขาวิชาที่สามารถประเมินความหมายของการเลือกกลุ่มได้
- จำนวนของกลุ่มมักจะไม่ทราบล่วงหน้าและตั้งค่าตามเกณฑ์อัตนัย สิ่งนี้เป็นจริงสำหรับวิธีการเลือกปฏิบัติเท่านั้น เนื่องจากในวิธีการจัดกลุ่ม กลุ่มจะถูกเลือกโดยใช้วิธีการที่เป็นทางการตามมาตรการความใกล้ชิด
- ผลลัพธ์การจัดกลุ่มขึ้นอยู่กับเมตริกอย่างมาก ซึ่งตัวเลือกตามกฎก็เป็นอัตนัยเช่นกันและกำหนดโดยผู้เชี่ยวชาญ แต่เป็นที่น่าสังเกตว่ามีคำแนะนำมากมายสำหรับการเลือกมาตรการความใกล้ชิดสำหรับงานต่างๆ
แอปพลิเคชัน
ในทางชีววิทยา
ในทางชีววิทยา การจัดกลุ่มมีการใช้งานมากมายในหลากหลายสาขา ตัวอย่างเช่น ในชีวสารสนเทศศาสตร์ มันถูกใช้เพื่อวิเคราะห์เครือข่ายที่ซับซ้อนของยีนที่มีปฏิสัมพันธ์ ซึ่งบางครั้งประกอบด้วยองค์ประกอบหลายร้อยหรือหลายพันองค์ประกอบ การวิเคราะห์คลัสเตอร์ทำให้คุณสามารถระบุซับเน็ต คอขวด ฮับ และคุณสมบัติที่ซ่อนอยู่อื่นๆ ของระบบที่กำลังศึกษาอยู่ได้ ซึ่งในท้ายที่สุดแล้ว จะช่วยให้คุณค้นพบว่าแต่ละยีนมีส่วนช่วยในการก่อตัวของปรากฏการณ์ที่กำลังศึกษาอยู่
ในสาขานิเวศวิทยา มีการใช้กันอย่างแพร่หลายในการระบุกลุ่มสิ่งมีชีวิต ชุมชน ฯลฯ ที่เป็นเนื้อเดียวกันเชิงพื้นที่ โดยทั่วไปไม่นิยมใช้วิธีการวิเคราะห์กลุ่มเพื่อศึกษาชุมชนในช่วงเวลาหนึ่ง ความแตกต่างของโครงสร้างของชุมชนนำไปสู่การเกิดขึ้นของวิธีการวิเคราะห์กลุ่มที่ไม่สำคัญ (ตัวอย่างเช่น วิธี Czekanowski)
โดยทั่วไปแล้ว เป็นที่น่าสังเกตว่าในอดีต การวัดความคล้ายคลึงกันมักใช้เป็นการวัดความใกล้เคียงในชีววิทยามากกว่าการวัดความแตกต่าง (ระยะทาง)
ในสังคมวิทยา
เมื่อวิเคราะห์ผลการวิจัยทางสังคมวิทยาขอแนะนำให้ทำการวิเคราะห์โดยใช้วิธีการของตระกูล agglomerative แบบลำดับชั้น ได้แก่ วิธีวอร์ดซึ่งการกระจายขั้นต่ำได้รับการปรับให้เหมาะสมภายในกลุ่มเป็นผลให้กลุ่มมีขนาดเท่ากันโดยประมาณ ถูกสร้างขึ้น วิธีการของ Ward นั้นประสบความสำเร็จมากที่สุดในการวิเคราะห์ข้อมูลทางสังคมวิทยา ในการวัดความแตกต่าง ระยะทางแบบยุคลิดกำลังสองจะดีกว่า ซึ่งมีส่วนทำให้ความเปรียบต่างของกลุ่มเพิ่มขึ้น ผลลัพธ์หลักของการวิเคราะห์คลัสเตอร์แบบลำดับชั้นคือ dendrogram หรือ "icicle diagram" เมื่อแปลความหมาย นักวิจัยต้องเผชิญกับปัญหาแบบเดียวกับการตีความผลลัพธ์ของการวิเคราะห์ปัจจัย นั่นคือการขาดเกณฑ์ที่ชัดเจนในการระบุกลุ่ม ขอแนะนำให้ใช้สองวิธีเป็นหลัก - การวิเคราะห์ด้วยสายตาของ dendrogram และการเปรียบเทียบผลลัพธ์ของการจัดกลุ่มที่ดำเนินการโดยวิธีการต่างๆ
การวิเคราะห์ด้วยสายตาของ dendrogram นั้นเกี่ยวข้องกับการ "ตัด" ต้นไม้ในระดับที่เหมาะสมที่สุดของความคล้ายคลึงกันขององค์ประกอบตัวอย่าง “แขนงเถาวัลย์” (ศัพท์เฉพาะของ Oldenderfer MS และ Blashfield R.K.) ควรถูก “ตัดออก” ที่ประมาณ 5 ในระดับ Rescaled Distance Cluster Combine เพื่อให้ได้ระดับความคล้ายคลึงกัน 80% หากการเลือกคลัสเตอร์ตามป้ายกำกับนี้ทำได้ยาก (คลัสเตอร์ขนาดเล็กหลายกลุ่มรวมกันเป็นหนึ่งขนาดใหญ่บนนั้น) คุณสามารถเลือกป้ายกำกับอื่นได้ เทคนิคนี้เสนอโดย Oldenderfer และ Blashfield
ตอนนี้คำถามเกี่ยวกับความเสถียรของโซลูชันคลัสเตอร์ที่นำมาใช้จึงเกิดขึ้น อันที่จริงแล้ว การตรวจสอบความเสถียรของการจัดกลุ่มนั้นขึ้นอยู่กับการตรวจสอบความน่าเชื่อถือ มีกฎทั่วไปอยู่ที่นี่ - การจำแนกประเภทที่เสถียรจะถูกรักษาไว้เมื่อวิธีการทำคลัสเตอร์เปลี่ยนไป ผลของการวิเคราะห์คลัสเตอร์แบบลำดับชั้นสามารถตรวจสอบได้โดยการวิเคราะห์คลัสเตอร์ค่าเฉลี่ย k แบบวนซ้ำ หากการจำแนกประเภทเปรียบเทียบของกลุ่มผู้ตอบแบบสอบถามมีส่วนแบ่งของความบังเอิญมากกว่า 70% (มากกว่า 2/3 ของความบังเอิญ) จะมีการตัดสินใจแบบกลุ่ม
เป็นไปไม่ได้ที่จะตรวจสอบความเพียงพอของโซลูชันโดยไม่หันไปใช้การวิเคราะห์ประเภทอื่น อย่างน้อยในทางทฤษฎี ปัญหานี้ยังไม่ได้รับการแก้ไข การวิเคราะห์คลัสเตอร์แบบคลาสสิกของ Oldenderfer และ Blashfield อธิบายอย่างละเอียดและปฏิเสธวิธีทดสอบความทนทานเพิ่มเติมห้าวิธีในท้ายที่สุด:
ในวิทยาการคอมพิวเตอร์
- ผลการค้นหาการจัดกลุ่ม - ใช้สำหรับการจัดกลุ่มผลลัพธ์ "อัจฉริยะ" เมื่อค้นหาไฟล์ เว็บไซต์ ออบเจ็กต์อื่นๆ ช่วยให้ผู้ใช้นำทางได้อย่างรวดเร็ว เลือกชุดย่อยที่เกี่ยวข้องอย่างชัดเจน และไม่รวมชุดที่เกี่ยวข้องน้อยกว่า ซึ่งสามารถเพิ่มความสามารถในการใช้งาน ของอินเทอร์เฟซเทียบกับผลลัพธ์ในรูปแบบง่าย ๆ เรียงตามรายการความเกี่ยวข้อง
- Clustery - เครื่องมือค้นหาการจัดกลุ่มของ Vivísimo
- Nigma - เครื่องมือค้นหาของรัสเซียพร้อมการจัดกลุ่มผลลัพธ์อัตโนมัติ
- Quintura - การจัดกลุ่มภาพในรูปแบบของกลุ่มคำหลัก
- การแบ่งส่วนภาพ การแบ่งส่วนภาพ) - การจัดกลุ่มสามารถใช้เพื่อแบ่งภาพดิจิทัลออกเป็นส่วนที่แตกต่างกันเพื่อวัตถุประสงค์ในการตรวจจับขอบ การตรวจจับขอบ) หรือการจดจำวัตถุ
- การทำเหมืองข้อมูล การทำเหมืองข้อมูล)- การทำคลัสเตอร์ในการขุดข้อมูลจะมีประโยชน์เมื่อทำหน้าที่เป็นหนึ่งในขั้นตอนของการวิเคราะห์ข้อมูล โดยสร้างโซลูชันการวิเคราะห์ที่สมบูรณ์ บ่อยครั้งที่นักวิเคราะห์สามารถระบุกลุ่มของออบเจ็กต์ที่คล้ายกัน ศึกษาคุณลักษณะและสร้างแบบจำลองแยกต่างหากสำหรับแต่ละกลุ่มได้ง่ายกว่าการสร้างแบบจำลองทั่วไปเดียวสำหรับข้อมูลทั้งหมด เทคนิคนี้ใช้อย่างต่อเนื่องในด้านการตลาด โดยเน้นที่กลุ่มลูกค้า ผู้ซื้อสินค้า และพัฒนากลยุทธ์แยกต่างหากสำหรับแต่ละกลุ่ม
ดูสิ่งนี้ด้วย
หมายเหตุ
ลิงค์
เป็นภาษารัสเซีย- www.MachineLearning.ru - ทรัพยากร wiki ระดับมืออาชีพที่ทุ่มเทให้กับการเรียนรู้ของเครื่องและการขุดข้อมูล
- COMPACT - แพ็คเกจเปรียบเทียบสำหรับการประเมินการจัดกลุ่ม. แพ็คเกจ Matlab ฟรี 2549
- พี. เบอร์คิน การสำรวจเทคนิคการทำเหมืองข้อมูลแบบคลัสเตอร์, แอคครูว์ ซอฟต์แวร์, 2545.
- เชน เมอร์ตี และฟลินน์: การจัดกลุ่มข้อมูล: บทวิจารณ์, บช.น. รอด., 2542.
- สำหรับการนำเสนออื่นๆ ของค่าเฉลี่ยแบบลำดับชั้น ค่าเฉลี่ย k และค่าเฉลี่ยแบบฟัซซี โปรดดูบทนำเกี่ยวกับการจัดกลุ่ม มีคำอธิบายส่วนผสมของ Gaussians ด้วย
- เดวิด โดว์, หน้าแบบจำลองส่วนผสม- ลิงค์แบบจำลองการจัดกลุ่มและแบบผสมอื่น ๆ
- บทช่วยสอนเกี่ยวกับการจัดกลุ่ม
- หนังสือเรียนออนไลน์: ทฤษฎีสารสนเทศ การอนุมาน และอัลกอริทึมการเรียนรู้ โดย David J.C. MacKay รวมบทต่างๆ เกี่ยวกับการจัดกลุ่มค่าเฉลี่ย k การจัดกลุ่มค่าเฉลี่ย k แบบอ่อน และรากเหง้า รวมถึงอัลกอริทึม E-M และมุมมองแบบแปรผันของอัลกอริทึม E-M
- "ยีนที่จัดระเบียบตนเอง" บทช่วยสอนที่อธิบายการจัดกลุ่มผ่านการเรียนรู้แบบแข่งขันและแผนที่การจัดระเบียบตนเอง
- kernlab - แพ็คเกจ R สำหรับการเรียนรู้ของเครื่องที่ใช้เคอร์เนล (รวมถึงการใช้งานการจัดกลุ่มสเปกตรัม)
- บทช่วยสอน - บทช่วยสอนพร้อมการแนะนำอัลกอริทึมการทำคลัสเตอร์ (k-mean, fuzzy-c-means, ลำดับชั้น, ส่วนผสมของเกาส์เซียน) + การสาธิตเชิงโต้ตอบ (java applet)
- ซอฟต์แวร์ขุดข้อมูล - ซอฟต์แวร์ขุดข้อมูลมักใช้เทคนิคการทำคลัสเตอร์
- Java Competitve Learning Application ชุดของ Neural Networks ที่ไม่มีผู้ดูแลสำหรับการทำคลัสเตอร์ เขียนด้วยภาษาจาวา กรอกด้วยซอร์สโค้ดทั้งหมด
- ซอฟต์แวร์การเรียนรู้ของเครื่อง - ยังมีซอฟต์แวร์การทำคลัสเตอร์มากมาย
เรารู้ว่าโลกเป็นหนึ่งในดาวเคราะห์ 8 ดวงที่หมุนรอบดวงอาทิตย์ ดวงอาทิตย์เป็นเพียงดาวฤกษ์ในดาราจักรทางช้างเผือกประมาณ 2 แสนล้านดวง มันยากมากที่จะเข้าใจตัวเลขนี้ เมื่อรู้สิ่งนี้ เราสามารถตั้งสมมติฐานเกี่ยวกับจำนวนดวงดาวในจักรวาล - ประมาณ 4X10^22 เราสามารถเห็นดวงดาวได้ประมาณหนึ่งล้านดวงบนท้องฟ้า แม้ว่านี่จะเป็นเพียงเสี้ยวเล็กๆ ของจำนวนดาวจริงๆ ดังนั้นเราจึงมีคำถามสองข้อ:
- กาแลคซีคืออะไร?
- และอะไรคือความเชื่อมโยงระหว่างกาแลคซีกับหัวข้อของบทความ (การวิเคราะห์คลัสเตอร์)
กาแล็กซีคือกลุ่มของดาวฤกษ์ แก๊ส ฝุ่น ดาวเคราะห์ และเมฆระหว่างดวงดาว โดยปกติแล้วกาแลคซีจะมีรูปร่างคล้ายก้นหอยหรือมีรูปร่างคล้ายสัตว์ ในอวกาศ กาแล็กซีจะแยกออกจากกัน หลุมดำขนาดใหญ่มักจะเป็นศูนย์กลางของดาราจักรส่วนใหญ่
ดังที่เราจะกล่าวถึงในส่วนถัดไป มีความคล้ายคลึงกันหลายประการระหว่างการวิเคราะห์กาแลคซีและกระจุกดาว กาแลคซีมีอยู่ในพื้นที่สามมิติ การวิเคราะห์คลัสเตอร์คือการวิเคราะห์หลายมิติที่ดำเนินการในปริภูมิ n มิติ
หมายเหตุ: หลุมดำเป็นศูนย์กลางของกาแล็กซี เราจะใช้แนวคิดที่คล้ายกันกับเซนทรอยด์ในการวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์
สมมติว่าคุณเป็นหัวหน้าฝ่ายการตลาดและลูกค้าสัมพันธ์ของบริษัทโทรคมนาคม คุณเข้าใจว่าลูกค้าทุกคนแตกต่างกัน และคุณต้องการกลยุทธ์ที่แตกต่างกันในการเข้าถึงลูกค้าที่แตกต่างกัน คุณจะประทับใจกับพลังของเครื่องมือ เช่น การแบ่งกลุ่มลูกค้าเพื่อเพิ่มประสิทธิภาพต้นทุน หากต้องการทบทวนความรู้ของคุณเกี่ยวกับการวิเคราะห์คลัสเตอร์ ให้พิจารณาตัวอย่างต่อไปนี้ ซึ่งแสดงภาพลูกค้า 8 รายและระยะเวลาการสนทนาโดยเฉลี่ย (ในประเทศและต่างประเทศ) ด้านล่างนี้เป็นข้อมูล:เพื่อความเข้าใจที่ดีขึ้น ลองวาดกราฟโดยแกน x จะเป็นระยะเวลาเฉลี่ยของการโทรระหว่างประเทศ และแกน y - ระยะเวลาเฉลี่ยของการโทรในประเทศ ด้านล่างนี้เป็นแผนภูมิ:
หมายเหตุ: สิ่งนี้คล้ายกับการวิเคราะห์ตำแหน่งของดวงดาวบนท้องฟ้ายามค่ำคืน (ที่นี่ดวงดาวจะถูกแทนที่ด้วยผู้บริโภค) นอกจากนี้ แทนที่จะเป็นพื้นที่ 3 มิติ เรามีพื้นที่ 2 มิติ ซึ่งกำหนดโดยระยะเวลาของการโทรในพื้นที่และระหว่างประเทศเป็นแกน x และ y
ตอนนี้เมื่อพูดถึงกาแลคซีปัญหาถูกกำหนดดังนี้ - เพื่อค้นหาตำแหน่งของหลุมดำ ในการวิเคราะห์คลัสเตอร์จะเรียกว่าเซนทรอยด์ ในการตรวจจับเซนทรอยด์ เราจะเริ่มต้นด้วยการกำหนดจุดตามอำเภอใจเป็นตำแหน่งของเซนทรอยด์
ระยะทางแบบยุคลิดสำหรับการค้นหาเซนทรอยด์สำหรับคลัสเตอร์
ในกรณีของเรา เราจะสุ่มวางเซนทรอยด์สองตัว (C1 และ C2) ที่จุดที่มีพิกัด (1, 1) และ (3, 4) ทำไมเราถึงเลือกเซนทรอยด์สองตัวนี้ การแสดงภาพจุดบนกราฟแสดงให้เราเห็นว่ามีสองกลุ่มที่เราจะวิเคราะห์ อย่างไรก็ตาม เราจะเห็นในภายหลังว่าคำตอบสำหรับคำถามนี้จะไม่ง่ายนักสำหรับชุดข้อมูลขนาดใหญ่ต่อไป เราจะวัดระยะห่างระหว่างเซนทรอยด์ (C1 และ C2) และจุดทั้งหมดบนกราฟโดยใช้สูตรของ Euclid เพื่อหาระยะห่างระหว่างจุดสองจุด
หมายเหตุ: ระยะทางยังสามารถคำนวณโดยใช้สูตรอื่นๆ เช่น
- กำลังสองของระยะทางแบบยุคลิด - เพื่อให้น้ำหนักแก่วัตถุที่อยู่ห่างไกลจากกันมากขึ้น
- ระยะทางแมนฮัตตัน - เพื่อลดผลกระทบของการปล่อยมลพิษ
- ระยะกำลัง - เพื่อเพิ่ม / ลดอิทธิพลต่อพิกัดเฉพาะ
- เปอร์เซ็นต์การไม่เห็นด้วย - สำหรับข้อมูลที่เป็นหมวดหมู่
- และอื่น ๆ.
ที่เป็นของ centroids (คอลัมน์สุดท้าย) คำนวณตามหลักการของความใกล้ชิดกับ centroids (C1 และ C2) ผู้บริโภครายแรกอยู่ใกล้กับเซนทรอยด์ #1 (1.41 เทียบกับ 2.24) ดังนั้นจึงอยู่ในคลัสเตอร์ที่มีเซนทรอยด์ C1
ด้านล่างนี้เป็นกราฟที่แสดงเซนทรอยด์ C1 และ C2 (แสดงเป็นเพชรสีน้ำเงินและสีส้ม) ผู้บริโภคจะแสดงเป็นสีของเซนทรอยด์ที่สอดคล้องกันซึ่งได้รับมอบหมาย
เนื่องจากเราได้เลือกเซนทรอยด์โดยพลการ ขั้นตอนที่สองคือการทำให้ตัวเลือกนี้วนซ้ำ ตำแหน่งใหม่ของ centroids จะถูกเลือกเป็นค่าเฉลี่ยสำหรับคะแนนของคลัสเตอร์ที่เกี่ยวข้อง ตัวอย่างเช่น สำหรับเซนทรอยด์ตัวแรก (เหล่านี้คือผู้บริโภค 1, 2 และ 3) ดังนั้น พิกัด x ใหม่สำหรับเซนทรอยด์ C1 คือค่าเฉลี่ยของพิกัด x ของผู้บริโภคเหล่านี้ (2+1+1)/3 = 1.33 เราจะได้รับพิกัดใหม่สำหรับ C1 (1.33, 2.33) และ C2 (4.4, 4.2) พล็อตใหม่อยู่ด้านล่าง:
สุดท้าย เราจะวาง centroids ไว้ตรงกลางของคลัสเตอร์ที่เกี่ยวข้อง ตารางด้านล่าง:
ตำแหน่งของหลุมดำ (ศูนย์กลางกลุ่ม) ในตัวอย่างของเราคือ C1 (1.75, 2.25) และ C2 (4.75, 4.75) สองกระจุกข้างต้นเป็นเหมือนกาแลคซีสองแห่งที่แยกออกจากกันในอวกาศ
ลองดูตัวอย่างเพิ่มเติม ให้เราเผชิญกับงานในการแบ่งกลุ่มผู้บริโภคตามพารามิเตอร์สองตัว ได้แก่ อายุและรายได้ สมมติว่าเรามีผู้บริโภค 2 คนอายุ 37 และ 44 ปีโดยมีรายได้ 90,000 ดอลลาร์และ 62,000 ดอลลาร์ตามลำดับ หากเราต้องการวัดระยะทางแบบยุคลิดระหว่างจุด (37, 90000) และ (44, 62000) เราจะเห็นว่าในกรณีนี้ตัวแปรรายได้ "ครอบงำ" ตัวแปรอายุ และการเปลี่ยนแปลงมีผลอย่างมากต่อระยะทาง เราต้องการกลยุทธ์บางอย่างเพื่อแก้ปัญหานี้ มิฉะนั้น การวิเคราะห์ของเราจะให้ผลลัพธ์ที่ไม่ถูกต้อง วิธีแก้ไขปัญหานี้คือการนำค่าของเรามาเทียบเคียงกับมาตราส่วน การทำให้เป็นมาตรฐานเป็นวิธีแก้ปัญหาของเรา
การทำให้เป็นมาตรฐานของข้อมูล
มีหลายวิธีในการทำให้ข้อมูลเป็นมาตรฐาน ตัวอย่างเช่น การทำให้เป็นมาตรฐานขั้นต่ำ-สูงสุด สำหรับการทำให้เป็นมาตรฐานนี้ จะใช้สูตรต่อไปนี้ในกรณีนี้ X* คือค่ามาตรฐาน ส่วนต่ำสุดและสูงสุดคือพิกัดต่ำสุดและสูงสุดของ X ทั้งชุด
(หมายเหตุ สูตรนี้จะวางพิกัดทั้งหมดในส่วน )
พิจารณาตัวอย่างของเรา ให้รายได้สูงสุดเป็น $130,000 และขั้นต่ำเป็น $45,000 ค่าปกติของรายได้สำหรับผู้บริโภค A คือ
เราจะทำแบบฝึกหัดนี้สำหรับทุกจุดสำหรับแต่ละตัวแปร (พิกัด) รายได้สำหรับผู้บริโภครายที่สอง (62,000) จะกลายเป็น 0.2 หลังจากขั้นตอนการทำให้เป็นมาตรฐาน นอกจากนี้ ให้อายุขั้นต่ำและสูงสุดคือ 23 และ 58 ตามลำดับ หลังจากการทำให้เป็นมาตรฐาน อายุของผู้บริโภคทั้งสองของเราจะเท่ากับ 0.4 และ 0.6
เป็นเรื่องง่ายที่จะเห็นว่าตอนนี้ข้อมูลทั้งหมดของเราอยู่ระหว่าง 0 ถึง 1 ดังนั้น เราจึงได้ปรับชุดข้อมูลให้เป็นมาตรฐานในสเกลที่เทียบเคียงได้
โปรดจำไว้ว่า ก่อนขั้นตอนการวิเคราะห์คลัสเตอร์ จำเป็นต้องทำการทำให้เป็นมาตรฐาน
ประเภทอินพุต
- คำอธิบายบ่งชี้ของวัตถุ แต่ละวัตถุอธิบายด้วยชุดของคุณลักษณะที่เรียกว่า สัญญาณ. คุณลักษณะอาจเป็นตัวเลขหรือไม่ใช่ตัวเลขก็ได้
- เมทริกซ์ระยะทางระหว่างวัตถุ วัตถุแต่ละชิ้นอธิบายด้วยระยะห่างจากวัตถุอื่นๆ ในชุดการฝึก
เมทริกซ์ระยะทางสามารถคำนวณได้จากเมทริกซ์ของคำอธิบายคุณลักษณะของออบเจกต์ในหลายวิธี ขึ้นอยู่กับวิธีการแนะนำฟังก์ชันระยะทาง (เมตริก) ระหว่างคำอธิบายคุณลักษณะ มักใช้เมตริกแบบยุคลิด แต่ตัวเลือกนี้ในกรณีส่วนใหญ่เป็นฮิวริสติกและเกิดจากการคำนึงถึงความสะดวกเท่านั้น
ปัญหาผกผัน - การคืนค่าคำอธิบายคุณลักษณะโดยเมทริกซ์ของระยะห่างระหว่างวัตถุแบบคู่ - ในกรณีทั่วไปไม่มีวิธีแก้ปัญหา และวิธีแก้ปัญหาโดยประมาณนั้นไม่ซ้ำกันและอาจมีข้อผิดพลาดที่สำคัญ ปัญหานี้แก้ไขได้ด้วยวิธีการปรับขนาดหลายมิติ
ดังนั้นการกำหนดปัญหาของการจัดกลุ่มโดย เมทริกซ์ระยะทางเป็นเรื่องทั่วไปมากขึ้น ในทางกลับกัน เมื่อมีคำอธิบายคุณลักษณะ ก็มักจะสามารถสร้างวิธีการจัดกลุ่มที่มีประสิทธิภาพมากขึ้นได้
เป้าหมายของการรวมกลุ่ม
- ทำความเข้าใจข้อมูลโดยการระบุโครงสร้างคลัสเตอร์ การแบ่งตัวอย่างออกเป็นกลุ่มของวัตถุที่คล้ายกันทำให้การประมวลผลข้อมูลเพิ่มเติมและการตัดสินใจง่ายขึ้นโดยใช้วิธีการวิเคราะห์ของตัวเองกับแต่ละกลุ่ม (กลยุทธ์ "แบ่งและพิชิต")
- การบีบอัดข้อมูล หากตัวอย่างเริ่มต้นมีขนาดใหญ่เกินไป ก็สามารถลดขนาดลงได้ โดยเหลือหนึ่งในตัวแทนทั่วไปที่สุดจากแต่ละคลัสเตอร์
- การตรวจจับความแปลกใหม่ มีการเลือกวัตถุที่ผิดปกติซึ่งไม่สามารถแนบกับคลัสเตอร์ใดๆ
ในกรณีแรก พวกเขาพยายามทำให้จำนวนคลัสเตอร์น้อยลง ในกรณีที่สอง สิ่งสำคัญคือต้องแน่ใจว่ามีความคล้ายคลึงกันในระดับสูง (หรือคงที่) ของอ็อบเจ็กต์ภายในแต่ละคลัสเตอร์ และอาจมีคลัสเตอร์จำนวนเท่าใดก็ได้ ในกรณีที่สาม วัตถุแต่ละชิ้นที่ไม่เข้ากับคลัสเตอร์ใด ๆ เป็นสิ่งที่น่าสนใจที่สุด
ในทุกกรณีเหล่านี้ การจัดกลุ่มแบบลำดับชั้นสามารถประยุกต์ใช้ได้ เมื่อกลุ่มขนาดใหญ่ถูกแบ่งออกเป็นกลุ่มที่เล็กลง ซึ่งจะแยกให้เล็กลงอีก เป็นต้น งานดังกล่าวเรียกว่างานอนุกรมวิธาน
ผลลัพธ์ของอนุกรมวิธานคือโครงสร้างลำดับชั้นแบบต้นไม้ นอกจากนี้ แต่ละอ็อบเจกต์ยังแสดงลักษณะการแจงนับของกลุ่มทั้งหมดที่มันเป็นสมาชิก โดยปกติจะเรียงจากใหญ่ไปหาเล็ก ทางสายตา อนุกรมวิธานแสดงเป็นกราฟที่เรียกว่า เดนโดรแกรม
ตัวอย่างคลาสสิกของอนุกรมวิธานตามความคล้ายคลึงกันคือ ศัพท์ทวินามของสิ่งมีชีวิตเสนอโดย Carl Linnaeus ในกลางศตวรรษที่ 18 การจัดระบบที่คล้ายกันถูกสร้างขึ้นในความรู้หลายสาขาเพื่อจัดระเบียบข้อมูลเกี่ยวกับวัตถุจำนวนมาก
ฟังก์ชันระยะทาง
วิธีการจัดกลุ่ม
- อัลกอริทึมการจัดกลุ่มทางสถิติ
- การจัดกลุ่มตามลำดับชั้นหรืออนุกรมวิธาน
คำชี้แจงอย่างเป็นทางการของปัญหาการทำคลัสเตอร์
อนุญาต เป็นชุดของวัตถุ เป็นชุดของตัวเลข (ชื่อ ป้ายกำกับ) ของกลุ่ม มีการกำหนดฟังก์ชันระยะห่างระหว่างวัตถุ มีชุดของวัตถุการฝึกอบรมจำกัด จำเป็นต้องแยกตัวอย่างออกเป็นส่วนย่อยที่ไม่ทับซ้อนกัน เรียกว่า กระจุกเพื่อให้แต่ละคลัสเตอร์ประกอบด้วยอ็อบเจ็กต์ใกล้เคียงในหน่วยเมตริก และอ็อบเจ็กต์ของคลัสเตอร์ต่างๆ ต่างกันอย่างมีนัยสำคัญ ในกรณีนี้ แต่ละวัตถุจะได้รับหมายเลขคลัสเตอร์
อัลกอริทึมการจัดกลุ่มเป็นฟังก์ชันที่เชื่อมโยงวัตถุใด ๆ กับหมายเลขคลัสเตอร์ ชุดในบางกรณีเป็นที่รู้จักกันล่วงหน้า แต่บ่อยครั้งที่งานคือการกำหนดจำนวนที่เหมาะสมที่สุดของคลัสเตอร์จากมุมมองของหนึ่งหรืออีกคนหนึ่ง เกณฑ์คุณภาพการรวมกลุ่ม
การจัดกลุ่ม (การเรียนรู้แบบไม่มีผู้สอน) แตกต่างจากการจัดหมวดหมู่ (การเรียนรู้แบบมีผู้สอน) ตรงที่ไม่มีการตั้งค่าป้ายกำกับของวัตถุดั้งเดิม และอาจไม่รู้จักชุดด้วยซ้ำ
วิธีแก้ปัญหาการจัดกลุ่มนั้นคลุมเครือโดยพื้นฐาน และมีเหตุผลหลายประการสำหรับสิ่งนี้:
- ไม่มีเกณฑ์ใดที่ดีที่สุดสำหรับคุณภาพของการจัดกลุ่ม รู้จักเกณฑ์ฮิวริสติกจำนวนหนึ่ง รวมถึงอัลกอริทึมจำนวนหนึ่งที่ไม่มีเกณฑ์ที่กำหนดไว้อย่างชัดเจน แต่ดำเนินการจัดกลุ่มที่สมเหตุสมผลพอสมควร "โดยการสร้าง" ทั้งหมดสามารถให้ผลลัพธ์ที่แตกต่างกัน
- จำนวนของกลุ่มมักจะไม่ทราบล่วงหน้าและถูกกำหนดตามเกณฑ์อัตนัย
- ผลลัพธ์ของการจัดกลุ่มขึ้นอยู่กับเมตริกอย่างมาก ซึ่งตัวเลือกตามกฎก็เป็นอัตนัยเช่นกันและกำหนดโดยผู้เชี่ยวชาญ
ลิงค์
- Vorontsov K.V. วิธีการสอนคณิตศาสตร์โดยแบบอย่าง สถาบันฟิสิกส์และเทคโนโลยีแห่งมอสโก (2547), VMiK MSU (2550)
- เซอร์เก นิโคเลนโก สไลด์บรรยาย "อัลกอริทึมการจัดกลุ่ม 1" และ "อัลกอริทึมการจัดกลุ่ม 2" หลักสูตร "ระบบการเรียนรู้ด้วยตนเอง".
วรรณกรรม
- Aivazyan S. A. , Buchstaber V. M. , Enyukov I. S. , Meshalkin L. D.สถิติประยุกต์: การจำแนกประเภทและการลดขนาด. - ม.: การเงินและสถิติ, 2532.
- Zhuravlev Yu. I. , Ryazanov V. V. , Senko O. V."การยอมรับ". วิธีการทางคณิตศาสตร์. ระบบซอฟต์แวร์. การใช้งานจริง. - ม.: Fazis, 2549. .
- Zagoruiko N. G.วิธีการประยุกต์การวิเคราะห์ข้อมูลและความรู้ - โนโวซีบีสค์: IM SO RAN, 1999. .
- แมนเดล ไอ.ดี.การวิเคราะห์คลัสเตอร์ - ม.: การเงินและสถิติ, 2531.
- ชเลซิงเงอร์ เอ็ม, กลาวาช วี.สิบการบรรยายเกี่ยวกับการจดจำทางสถิติและโครงสร้าง - เคียฟ: Naukova Dumka, 2004. .
- Hastie T., Tibshirani R., Friedman J.องค์ประกอบของการเรียนรู้ทางสถิติ - สปริงเกอร์, 2544. .