Βιογραφίες Χαρακτηριστικά Ανάλυση

Αλγόριθμοι ομαδοποίησης δεδομένων. Αλγόριθμοι βασισμένοι στη θεωρία γραφημάτων

Η ανάλυση συστάδων είναι

Καλή μέρα. Εδώ τρέφω σεβασμό στους ανθρώπους που είναι θαυμαστές της δουλειάς τους.

Ο Μαξίμ φίλε μου ανήκει σε αυτή την κατηγορία. Εργάζεται συνεχώς με στοιχεία, τα αναλύει, κάνει σχετικές αναφορές.

Χθες φάγαμε μαζί, οπότε για σχεδόν μισή ώρα μου είπε για την ανάλυση συστάδων - τι είναι και σε ποιες περιπτώσεις η εφαρμογή της είναι λογική και σκόπιμη. Λοιπόν, τι γίνεται με μένα;

Έχω καλή μνήμη, οπότε θα σας δώσω όλα αυτά τα δεδομένα, παρεμπιπτόντως, τα οποία γνώριζα ήδη στην αρχική και πιο κατατοπιστική τους μορφή.

Η ανάλυση συστάδων έχει σχεδιαστεί για να χωρίζει ένα σύνολο αντικειμένων σε ομοιογενείς ομάδες (συστάδες ή κλάσεις). Αυτό είναι ένα έργο της πολυμεταβλητής ταξινόμησης δεδομένων.

Υπάρχουν περίπου 100 διαφορετικοί αλγόριθμοι ομαδοποίησης, ωστόσο, οι πιο συχνά χρησιμοποιούμενοι είναι η ιεραρχική ανάλυση συστάδων και η ομαδοποίηση k-means.

Πού χρησιμοποιείται η ανάλυση συστάδων; Στο μάρκετινγκ, αυτός είναι ο κατακερματισμός των ανταγωνιστών και των καταναλωτών.

Στη διαχείριση: η διαίρεση του προσωπικού σε ομάδες διαφορετικών επιπέδων κινήτρων, η ταξινόμηση των προμηθευτών, ο εντοπισμός παρόμοιων καταστάσεων παραγωγής στις οποίες συμβαίνει ο γάμος.

Στην ιατρική, η ταξινόμηση συμπτωμάτων, ασθενών, φαρμάκων. Στην κοινωνιολογία, η διαίρεση των ερωτηθέντων σε ομοιογενείς ομάδες. Στην πραγματικότητα, η ανάλυση συστάδων έχει αποδειχθεί καλά σε όλους τους τομείς της ανθρώπινης ζωής.

Η ομορφιά αυτής της μεθόδου είναι ότι λειτουργεί ακόμη και όταν υπάρχουν λίγα δεδομένα και δεν πληρούνται οι απαιτήσεις για την κανονικότητα των κατανομών των τυχαίων μεταβλητών και άλλες απαιτήσεις των κλασικών μεθόδων στατιστικής ανάλυσης.

Ας εξηγήσουμε την ουσία της ανάλυσης συστάδων χωρίς να καταφύγουμε σε αυστηρή ορολογία:
Ας υποθέσουμε ότι πραγματοποιήσατε μια έρευνα με τους υπαλλήλους και θέλετε να προσδιορίσετε πώς μπορείτε να διαχειριστείτε πιο αποτελεσματικά το προσωπικό σας.

Δηλαδή, θέλετε να χωρίσετε τους υπαλλήλους σε ομάδες και να επιλέξετε τους πιο αποτελεσματικούς μοχλούς ελέγχου για καθεμία από αυτές. Ταυτόχρονα, οι διαφορές μεταξύ των ομάδων θα πρέπει να είναι εμφανείς και εντός της ομάδας οι ερωτώμενοι να είναι όσο το δυνατόν πιο όμοιοι.

Για την επίλυση του προβλήματος, προτείνεται η χρήση ιεραρχικής ανάλυσης συστάδων.

Ως αποτέλεσμα, θα πάρουμε ένα δέντρο, κοιτάζοντας το οποίο πρέπει να αποφασίσουμε σε πόσες τάξεις (συστάδες) θέλουμε να χωρίσουμε το προσωπικό.

Ας υποθέσουμε ότι αποφασίσαμε να χωρίσουμε το προσωπικό σε τρεις ομάδες και, στη συνέχεια, για να μελετήσουμε τους ερωτηθέντες που έπεσαν σε κάθε σύμπλεγμα, παίρνουμε ένα tablet με το ακόλουθο περιεχόμενο:


Ας εξηγήσουμε πώς σχηματίζεται ο παραπάνω πίνακας. Η πρώτη στήλη περιέχει τον αριθμό του συμπλέγματος — την ομάδα της οποίας τα δεδομένα αντικατοπτρίζονται στη σειρά.

Για παράδειγμα, το πρώτο σύμπλεγμα είναι 80% αρσενικό. Το 90% της πρώτης ομάδας ανήκει στην ηλικιακή ομάδα από 30 έως 50 ετών και το 12% των ερωτηθέντων πιστεύει ότι τα οφέλη είναι πολύ σημαντικά. Και τα λοιπά.

Ας προσπαθήσουμε να φτιάξουμε πορτρέτα των ερωτηθέντων κάθε ομάδας:

  1. Η πρώτη ομάδα είναι κυρίως άνδρες ώριμης ηλικίας, που καταλαμβάνουν ηγετικές θέσεις. Το κοινωνικό πακέτο (MED, LGOTI, TIME-free time) δεν τους ενδιαφέρει. Προτιμούν να λαμβάνουν καλό μισθό, παρά βοήθεια από τον εργοδότη.
  2. Η δεύτερη ομάδα, αντίθετα, προτιμά το κοινωνικό πακέτο. Αποτελείται κυρίως από «ηλικιωμένους» που καταλαμβάνουν χαμηλές θέσεις. Ο μισθός είναι σίγουρα σημαντικός για αυτούς, αλλά υπάρχουν άλλες προτεραιότητες.
  3. Η τρίτη ομάδα είναι η «νεότερη». Σε αντίθεση με τα δύο προηγούμενα, υπάρχει προφανές ενδιαφέρον για ευκαιρίες μάθησης και επαγγελματικής ανάπτυξης. Αυτή η κατηγορία εργαζομένων έχει μια καλή ευκαιρία να αναπληρώσει σύντομα την πρώτη ομάδα.

Έτσι, όταν σχεδιάζουμε μια εκστρατεία για την εισαγωγή αποτελεσματικών μεθόδων διαχείρισης προσωπικού, είναι προφανές ότι στην περίπτωσή μας είναι δυνατό να αυξηθεί το κοινωνικό πακέτο για τη δεύτερη ομάδα εις βάρος, για παράδειγμα, των μισθών.

Εάν μιλάμε για το ποιοι ειδικοί πρέπει να σταλούν για εκπαίδευση, τότε μπορούμε σίγουρα να προτείνουμε να δώσετε προσοχή στην τρίτη ομάδα.

Πηγή: http://www.nickart.spb.ru/analysis/cluster.php

Χαρακτηριστικά της ανάλυσης συστάδων

Ένα σύμπλεγμα είναι η τιμή ενός περιουσιακού στοιχείου σε μια ορισμένη χρονική περίοδο κατά την οποία έγιναν οι συναλλαγές. Ο όγκος αγορών και πωλήσεων που προκύπτει υποδεικνύεται με έναν αριθμό μέσα στο σύμπλεγμα.

Η γραμμή οποιουδήποτε TF περιέχει, κατά κανόνα, πολλά συμπλέγματα. Αυτό σας επιτρέπει να δείτε λεπτομερώς τους όγκους αγορών, πωλήσεων και το υπόλοιπό τους σε κάθε μεμονωμένη μπάρα, για κάθε επίπεδο τιμής.


Μια αλλαγή στην τιμή ενός περιουσιακού στοιχείου συνεπάγεται αναπόφευκτα μια αλυσίδα κινήσεων των τιμών και σε άλλα μέσα.

Προσοχή!

Στις περισσότερες περιπτώσεις, η κατανόηση της κίνησης της τάσης συμβαίνει ήδη τη στιγμή που αναπτύσσεται γρήγορα και η είσοδος στην αγορά κατά μήκος της τάσης είναι γεμάτη από πτώση σε ένα διορθωτικό κύμα.

Για επιτυχημένες συναλλαγές, είναι απαραίτητο να κατανοήσετε την τρέχουσα κατάσταση και να είστε σε θέση να προβλέψετε τις μελλοντικές κινήσεις των τιμών. Αυτό μπορεί να μαθευτεί αναλύοντας το γράφημα συμπλέγματος.

Με τη βοήθεια της ανάλυσης συμπλέγματος, μπορείτε να δείτε τη δραστηριότητα των συμμετεχόντων στην αγορά ακόμη και στη μικρότερη γραμμή τιμής. Αυτή είναι η πιο ακριβής και λεπτομερής ανάλυση, καθώς δείχνει τη σημειακή κατανομή των όγκων συναλλαγών για κάθε επίπεδο τιμής περιουσιακού στοιχείου.

Στην αγορά υπάρχει συνεχής αντιπαράθεση μεταξύ των συμφερόντων των πωλητών και των αγοραστών. Και κάθε μικρότερη κίνηση της τιμής (τικ) είναι η μετάβαση σε έναν συμβιβασμό - το επίπεδο τιμής - που ταιριάζει και στα δύο μέρη αυτή τη στιγμή.

Όμως η αγορά είναι δυναμική, ο αριθμός των πωλητών και των αγοραστών αλλάζει συνεχώς. Αν κάποια στιγμή στην αγορά κυριαρχούσαν οι πωλητές, τότε την επόμενη στιγμή, πιθανότατα, θα υπάρξουν αγοραστές.

Ο αριθμός των ολοκληρωμένων συναλλαγών σε γειτονικά επίπεδα τιμών δεν είναι επίσης ο ίδιος. Και όμως, πρώτα, η κατάσταση της αγοράς αντικατοπτρίζεται στον συνολικό όγκο των συναλλαγών και μόνο στη συνέχεια στην τιμή.

Αν δείτε τις ενέργειες των κυρίαρχων συμμετεχόντων στην αγορά (πωλητές ή αγοραστές), τότε μπορείτε να προβλέψετε την ίδια την κίνηση της τιμής.

Για να εφαρμόσετε με επιτυχία την ανάλυση συστάδων, πρέπει πρώτα να κατανοήσετε τι είναι ένα σύμπλεγμα και ένα δέλτα.


Ένα σύμπλεγμα ονομάζεται κίνηση τιμών, το οποίο χωρίζεται σε επίπεδα στα οποία πραγματοποιήθηκαν συναλλαγές με γνωστούς όγκους. Το δέλτα δείχνει τη διαφορά μεταξύ αγοράς και πώλησης που συμβαίνει σε κάθε σύμπλεγμα.

Κάθε σύμπλεγμα, ή ομάδα δέλτα, σας επιτρέπει να υπολογίσετε εάν οι αγοραστές ή οι πωλητές κυριαρχούν στην αγορά σε μια δεδομένη στιγμή.

Αρκεί απλώς να υπολογίσετε το συνολικό δέλτα αθροίζοντας τις πωλήσεις και τις αγορές. Εάν το δέλτα είναι αρνητικό, τότε η αγορά είναι υπερπουλημένη, υπάρχουν περιττές συναλλαγές πώλησης. Όταν το δέλτα είναι θετικό, η αγορά κυριαρχείται σαφώς από τους αγοραστές.

Το ίδιο το δέλτα μπορεί να λάβει μια κανονική ή κρίσιμη τιμή. Η τιμή του όγκου δέλτα πάνω από την κανονική τιμή στο σύμπλεγμα επισημαίνεται με κόκκινο χρώμα.

Εάν το δέλτα είναι μέτριο, τότε αυτό χαρακτηρίζει μια επίπεδη κατάσταση στην αγορά. Με μια κανονική τιμή δέλτα, παρατηρείται μια κίνηση τάσης στην αγορά, αλλά μια κρίσιμη τιμή είναι πάντα προάγγελος μιας αντιστροφής της τιμής.

Συναλλαγές Forex με την CA

Για να έχετε το μέγιστο κέρδος, πρέπει να είστε σε θέση να προσδιορίσετε τη μετάβαση του δέλτα από ένα μέτριο επίπεδο σε ένα κανονικό. Πράγματι, σε αυτή την περίπτωση, μπορείτε να παρατηρήσετε την αρχή της μετάβασης από μια επίπεδη σε μια κίνηση τάσης και να είστε σε θέση να έχετε το μεγαλύτερο κέρδος.

Το γράφημα συμπλέγματος είναι πιο οπτικό, σε αυτό μπορείτε να δείτε σημαντικά επίπεδα συσσώρευσης και κατανομής όγκων, επίπεδα υποστήριξης κατασκευής και αντίστασης. Αυτό επιτρέπει στον έμπορο να βρει την ακριβή καταχώρηση στο εμπόριο.

Χρησιμοποιώντας το δέλτα, μπορεί κανείς να κρίνει την επικράτηση των πωλήσεων ή αγορών στην αγορά. Η ανάλυση συμπλέγματος σάς επιτρέπει να παρατηρείτε τις συναλλαγές και να παρακολουθείτε τους όγκους τους μέσα στη γραμμή οποιουδήποτε TF.

Αυτό είναι ιδιαίτερα σημαντικό όταν πλησιάζετε σημαντικά επίπεδα στήριξης ή αντίστασης. Οι κρίσεις συμπλέγματος είναι το κλειδί για την κατανόηση της αγοράς.

Πηγή: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Τομείς και χαρακτηριστικά εφαρμογής της ανάλυσης συστάδων

Ο όρος ανάλυση συστάδων (που εισήχθη για πρώτη φορά από τον Tryon, 1939) περιλαμβάνει στην πραγματικότητα ένα σύνολο διαφορετικών αλγορίθμων ταξινόμησης.

Ένα κοινό ερώτημα που τίθεται από ερευνητές σε πολλούς τομείς είναι πώς να οργανωθούν τα παρατηρούμενα δεδομένα σε οπτικές δομές, δηλ. επεκτείνουν τις ταξινομίες.

Σύμφωνα με το σύγχρονο σύστημα που είναι αποδεκτό στη βιολογία, ο άνθρωπος ανήκει σε πρωτεύοντα, θηλαστικά, αμνιώτες, σπονδυλωτά και ζώα.

Σημειώστε ότι σε αυτήν την ταξινόμηση, όσο υψηλότερο είναι το επίπεδο συνάθροισης, τόσο μικρότερη είναι η ομοιότητα μεταξύ των μελών της αντίστοιχης τάξης.

Ο άνθρωπος έχει περισσότερες ομοιότητες με άλλα πρωτεύοντα θηλαστικά (δηλαδή με πιθήκους) παρά με «μακρινά» μέλη της οικογένειας των θηλαστικών (δηλαδή με σκύλους) και ούτω καθεξής.

Σημειώστε ότι η προηγούμενη συζήτηση αναφέρεται σε αλγόριθμους ομαδοποίησης, αλλά δεν αναφέρει τίποτα σχετικά με τον έλεγχο στατιστικής σημασίας.

Στην πραγματικότητα, η ανάλυση συστάδων δεν είναι τόσο μια συνηθισμένη στατιστική μέθοδος όσο ένα «σύνολο» διαφόρων αλγορίθμων για την «κατανομή αντικειμένων σε συστάδες».

Υπάρχει η άποψη ότι, σε αντίθεση με πολλές άλλες στατιστικές διαδικασίες, οι μέθοδοι ανάλυσης συστάδων χρησιμοποιούνται στις περισσότερες περιπτώσεις όταν δεν έχετε εκ των προτέρων υποθέσεις σχετικά με τις τάξεις, αλλά είστε ακόμα στο περιγραφικό στάδιο της μελέτης.

Προσοχή!

Πρέπει να γίνει κατανοητό ότι η ανάλυση συστάδων καθορίζει την «πιθανότατα σημαντική απόφαση».

Επομένως, ο έλεγχος για στατιστική σημασία δεν είναι πραγματικά εφαρμόσιμος εδώ, ακόμη και σε περιπτώσεις όπου τα επίπεδα p είναι γνωστά (όπως, για παράδειγμα, στη μέθοδο K-means).

Η τεχνική της ομαδοποίησης χρησιμοποιείται σε μεγάλη ποικιλία πεδίων. Ο Hartigan (1975) έχει παράσχει μια εξαιρετική επισκόπηση των πολλών δημοσιευμένων μελετών που περιέχουν αποτελέσματα που λαμβάνονται με μεθόδους ανάλυσης συστάδων.

Για παράδειγμα, στον τομέα της ιατρικής, η ομαδοποίηση ασθενειών, η θεραπεία ασθενειών ή τα συμπτώματα ασθενειών οδηγεί σε ευρέως χρησιμοποιούμενες ταξινομίες.

Στον τομέα της ψυχιατρικής, η σωστή διάγνωση ομάδων συμπτωμάτων όπως η παράνοια, η σχιζοφρένεια κ.λπ. είναι κρίσιμη για την επιτυχή θεραπεία. Στην αρχαιολογία, χρησιμοποιώντας ανάλυση συστάδων, οι ερευνητές προσπαθούν να δημιουργήσουν ταξινομήσεις λίθινων εργαλείων, νεκρικών αντικειμένων κ.λπ.

Υπάρχουν ευρείες εφαρμογές της ανάλυσης συστάδων στην έρευνα μάρκετινγκ. Γενικά, όποτε είναι απαραίτητο να ταξινομηθούν τα «βουνά» πληροφοριών σε ομάδες κατάλληλες για περαιτέρω επεξεργασία, η ανάλυση συστάδων αποδεικνύεται πολύ χρήσιμη και αποτελεσματική.

Ομαδοποίηση δέντρων

Το παράδειγμα στην ενότητα Πρωτεύων Σκοπός εξηγεί τον σκοπό του αλγορίθμου ένωσης (ομαδοποίηση δέντρων).

Ο σκοπός αυτού του αλγόριθμου είναι να συνδυάσει αντικείμενα (για παράδειγμα, ζώα) σε αρκετά μεγάλα συμπλέγματα χρησιμοποιώντας κάποιο μέτρο ομοιότητας ή απόστασης μεταξύ των αντικειμένων. Ένα τυπικό αποτέλεσμα μιας τέτοιας ομαδοποίησης είναι ένα ιεραρχικό δέντρο.

Εξετάστε ένα οριζόντιο δενδρικό διάγραμμα. Το διάγραμμα ξεκινά με κάθε αντικείμενο της τάξης (στην αριστερή πλευρά του διαγράμματος).

Τώρα φανταστείτε ότι σταδιακά (με πολύ μικρά βήματα) «αδυνατίζετε» το κριτήριό σας για το ποια αντικείμενα είναι μοναδικά και ποια όχι.

Με άλλα λόγια, χαμηλώνετε το όριο που σχετίζεται με την απόφαση να συνδυάσετε δύο ή περισσότερα αντικείμενα σε ένα σύμπλεγμα.

Ως αποτέλεσμα, συνδέετε όλο και περισσότερα αντικείμενα μεταξύ τους και συγκεντρώνετε (συνδυάζετε) όλο και περισσότερα συμπλέγματα ολοένα και πιο διαφορετικών στοιχείων.

Τέλος, στο τελευταίο βήμα, όλα τα αντικείμενα συγχωνεύονται μαζί. Σε αυτά τα γραφήματα, οι οριζόντιοι άξονες αντιπροσωπεύουν την απόσταση συγκέντρωσης (σε κάθετα δενδρογράμματα, οι κάθετοι άξονες αντιπροσωπεύουν την απόσταση συγκέντρωσης).

Έτσι, για κάθε κόμβο στο γράφημα (όπου σχηματίζεται ένα νέο σύμπλεγμα), μπορείτε να δείτε την απόσταση για την οποία τα αντίστοιχα στοιχεία συνδέονται σε ένα νέο ενιαίο σύμπλεγμα.

Όταν τα δεδομένα έχουν ξεκάθαρη «δομή» ως προς τις συστάδες αντικειμένων που είναι παρόμοια μεταξύ τους, τότε αυτή η δομή είναι πιθανό να αντικατοπτρίζεται στο ιεραρχικό δέντρο από διάφορους κλάδους.

Ως αποτέλεσμα της επιτυχούς ανάλυσης με τη μέθοδο της ένωσης, καθίσταται δυνατός ο εντοπισμός συστάδων (κλάδων) και η ερμηνεία τους.

Η μέθοδος ένωσης ή ομαδοποίησης δέντρων χρησιμοποιείται για το σχηματισμό συστάδων ανομοιότητας ή απόστασης μεταξύ των αντικειμένων. Αυτές οι αποστάσεις μπορούν να οριστούν σε μονοδιάστατο ή πολυδιάστατο χώρο.

Για παράδειγμα, εάν πρέπει να ομαδοποιήσετε τα είδη φαγητού σε ένα καφέ, μπορείτε να λάβετε υπόψη τον αριθμό των θερμίδων που περιέχονται σε αυτό, την τιμή, την υποκειμενική εκτίμηση της γεύσης κ.λπ.

Ο πιο άμεσος τρόπος υπολογισμού των αποστάσεων μεταξύ των αντικειμένων σε έναν πολυδιάστατο χώρο είναι ο υπολογισμός των Ευκλείδειων αποστάσεων.

Εάν έχετε χώρο 2D ή 3D, τότε αυτό το μέτρο είναι η πραγματική γεωμετρική απόσταση μεταξύ των αντικειμένων στο διάστημα (σαν να μετρήθηκαν οι αποστάσεις μεταξύ των αντικειμένων με μια μεζούρα).

Ωστόσο, ο αλγόριθμος συγκέντρωσης δεν «ενδιαφέρεται» για το αν οι αποστάσεις που «προβλέπονται» για αυτό είναι πραγματικές ή κάποια άλλα παράγωγα μέτρα απόστασης, κάτι που είναι πιο σημαντικό για τον ερευνητή. και η πρόκληση για τους ερευνητές είναι να επιλέξουν τη σωστή μέθοδο για συγκεκριμένες εφαρμογές.

Ευκλείδεια απόσταση.Αυτό φαίνεται να είναι ο πιο συνηθισμένος τύπος απόστασης. Είναι απλώς μια γεωμετρική απόσταση σε πολυδιάστατο χώρο και υπολογίζεται ως εξής:

Σημειώστε ότι η Ευκλείδεια απόσταση (και το τετράγωνό της) υπολογίζεται από τα αρχικά δεδομένα, όχι από τα τυποποιημένα δεδομένα.

Αυτός είναι ο συνήθης τρόπος υπολογισμού του, ο οποίος έχει ορισμένα πλεονεκτήματα (για παράδειγμα, η απόσταση μεταξύ δύο αντικειμένων δεν αλλάζει όταν ένα νέο αντικείμενο εισάγεται στην ανάλυση, το οποίο μπορεί να αποδειχθεί ακραίο).

Προσοχή!

Ωστόσο, οι αποστάσεις μπορούν να επηρεαστούν σε μεγάλο βαθμό από διαφορές μεταξύ των αξόνων από τους οποίους υπολογίζονται οι αποστάσεις. Για παράδειγμα, εάν ένας από τους άξονες μετρηθεί σε εκατοστά και στη συνέχεια τον μετατρέψετε σε χιλιοστά (πολλαπλασιάζοντας τις τιμές επί 10), τότε η τελική Ευκλείδεια απόσταση (ή το τετράγωνο της Ευκλείδειας απόστασης) που υπολογίζεται από τις συντεταγμένες θα αλλάζουν δραματικά και, ως αποτέλεσμα, τα αποτελέσματα της ανάλυσης συστάδων μπορεί να είναι πολύ διαφορετικά από τα προηγούμενα.

Το τετράγωνο της Ευκλείδειας απόστασης.Μερικές φορές μπορεί να θέλετε να τετραγωνίσετε την τυπική Ευκλείδεια απόσταση για να δώσετε μεγαλύτερο βάρος σε πιο μακρινά αντικείμενα.

Η απόσταση αυτή υπολογίζεται ως εξής:

Απόσταση μπλοκ πόλης (απόσταση Μανχάταν).Αυτή η απόσταση είναι απλώς ο μέσος όρος των διαφορών στις συντεταγμένες.

Στις περισσότερες περιπτώσεις, αυτό το μέτρο της απόστασης οδηγεί στα ίδια αποτελέσματα με τη συνήθη Ευκλείδεια απόσταση.

Ωστόσο, σημειώστε ότι για αυτό το μέτρο η επιρροή των επιμέρους μεγάλων διαφορών (ακραίων τιμών) μειώνεται (επειδή δεν τετραγωνίζονται). Η απόσταση του Μανχάταν υπολογίζεται με τον τύπο:

Απόσταση Chebyshev.Αυτή η απόσταση μπορεί να είναι χρήσιμη όταν κάποιος επιθυμεί να ορίσει δύο αντικείμενα ως "διαφορετικά" εάν διαφέρουν σε οποιαδήποτε συντεταγμένη (οποιαδήποτε μία διάσταση). Η απόσταση Chebyshev υπολογίζεται με τον τύπο:

Απόσταση ισχύος.Μερικές φορές είναι επιθυμητό να αυξάνεται ή να μειώνεται προοδευτικά το βάρος που σχετίζεται με μια διάσταση για την οποία τα αντίστοιχα αντικείμενα είναι πολύ διαφορετικά.

Αυτό μπορεί να επιτευχθεί χρησιμοποιώντας μια απόσταση ισχύος-νόμου. Η απόσταση ισχύος υπολογίζεται από τον τύπο:

όπου τα r και p είναι παράμετροι που ορίζονται από τον χρήστη. Μερικά παραδείγματα υπολογισμών μπορούν να δείξουν πώς «λειτουργεί» αυτό το μέτρο.

Η παράμετρος p είναι υπεύθυνη για τη σταδιακή στάθμιση των διαφορών σε μεμονωμένες συντεταγμένες, η παράμετρος r είναι υπεύθυνη για την προοδευτική στάθμιση μεγάλων αποστάσεων μεταξύ των αντικειμένων. Εάν και οι δύο παράμετροι - r και p, είναι ίσες με δύο, τότε αυτή η απόσταση συμπίπτει με την Ευκλείδεια απόσταση.

Το ποσοστό διαφωνίας.Αυτό το μέτρο χρησιμοποιείται όταν τα δεδομένα είναι κατηγορηματικά. Αυτή η απόσταση υπολογίζεται από τον τύπο:

Κανόνες ένωσης ή ένωσης

Στο πρώτο βήμα, όταν κάθε αντικείμενο είναι ένα ξεχωριστό σύμπλεγμα, οι αποστάσεις μεταξύ αυτών των αντικειμένων καθορίζονται από το επιλεγμένο μέτρο.

Ωστόσο, όταν πολλά αντικείμενα συνδέονται μεταξύ τους, τίθεται το ερώτημα, πώς πρέπει να προσδιορίζονται οι αποστάσεις μεταξύ των συστάδων;

Με άλλα λόγια, χρειάζεστε έναν κανόνα σύνδεσης ή σύνδεσης για δύο συμπλέγματα. Υπάρχουν διάφορες δυνατότητες εδώ: για παράδειγμα, μπορείτε να συνδέσετε δύο συμπλέγματα μεταξύ τους όταν οποιαδήποτε δύο αντικείμενα στα δύο συμπλέγματα είναι πιο κοντά το ένα στο άλλο από την αντίστοιχη απόσταση σύνδεσης.

Με άλλα λόγια, χρησιμοποιείτε τον "κανόνα του πλησιέστερου γείτονα" για να προσδιορίσετε την απόσταση μεταξύ των συστάδων. αυτή η μέθοδος ονομάζεται μέθοδος απλής σύνδεσης.

Αυτός ο κανόνας δημιουργεί «ινώδεις» συστάδες, δηλ. συστάδες «συνδέονται μεταξύ τους» μόνο από μεμονωμένα στοιχεία που τυχαίνει να είναι πιο κοντά το ένα στο άλλο από τα άλλα.

Εναλλακτικά, μπορείτε να χρησιμοποιήσετε γείτονες σε συμπλέγματα που είναι πιο μακριά το ένα από το άλλο από όλα τα άλλα ζεύγη χαρακτηριστικών. Αυτή η μέθοδος ονομάζεται μέθοδος πλήρους σύνδεσης.

Υπάρχουν επίσης πολλές άλλες μέθοδοι για τη σύνδεση συστάδων, παρόμοιες με αυτές που έχουν συζητηθεί.

Μονή σύνδεση (μέθοδος πλησιέστερου γείτονα). Όπως περιγράφηκε παραπάνω, σε αυτή τη μέθοδο, η απόσταση μεταξύ δύο συστάδων καθορίζεται από την απόσταση μεταξύ των δύο πλησιέστερων αντικειμένων (πλησιέστεροι γείτονες) σε διαφορετικά συμπλέγματα.

Αυτός ο κανόνας πρέπει, κατά μία έννοια, να συνδυάζει αντικείμενα μαζί για να σχηματίσουν συμπλέγματα και τα συμπλέγματα που προκύπτουν τείνουν να αντιπροσωπεύονται από μακριές "χορδές".

Πλήρης σύνδεση (μέθοδος των πιο μακρινών γειτόνων).Σε αυτή τη μέθοδο, οι αποστάσεις μεταξύ των συστάδων ορίζονται ως η μεγαλύτερη απόσταση μεταξύ οποιωνδήποτε δύο αντικειμένων σε διαφορετικά συμπλέγματα (δηλαδή "οι πιο απομακρυσμένοι γείτονες").

Μη σταθμισμένος κατά ζεύγη μέσος όρος.Σε αυτή τη μέθοδο, η απόσταση μεταξύ δύο διαφορετικών συστάδων υπολογίζεται ως η μέση απόσταση μεταξύ όλων των ζευγών αντικειμένων σε αυτά.

Η μέθοδος είναι αποτελεσματική όταν τα αντικείμενα στην πραγματικότητα σχηματίζουν διαφορετικά "άλση", αλλά λειτουργεί εξίσου καλά σε περιπτώσεις εκτεταμένων (τύπου "αλυσίδας") συστάδων.

Σημειώστε ότι στο βιβλίο τους οι Sneath and Sokal (1973) εισάγουν τη συντομογραφία UPGMA για να αναφερθούν σε αυτή τη μέθοδο ως τη μέθοδο μη σταθμισμένης ομάδας ζευγών που χρησιμοποιεί αριθμητικούς μέσους όρους.

Ζυγισμένος μέσος όρος ανά ζεύγη.Η μέθοδος είναι πανομοιότυπη με τη μέθοδο μη σταθμισμένου μέσου όρου κατά ζεύγη, με τη διαφορά ότι το μέγεθος των αντίστοιχων συστάδων (δηλ. ο αριθμός των αντικειμένων που περιέχουν) χρησιμοποιείται ως συντελεστής στάθμισης στους υπολογισμούς.

Επομένως, η προτεινόμενη μέθοδος θα πρέπει να χρησιμοποιείται (και όχι η προηγούμενη) όταν θεωρούνται άνισα μεγέθη συστάδων.

Οι Sneath και Sokal (1973) εισάγουν τη συντομογραφία WPGMA για να αναφερθούν σε αυτή τη μέθοδο ως μέθοδο σταθμισμένης ομάδας ζευγών που χρησιμοποιεί αριθμητικούς μέσους όρους.

Μη σταθμισμένη κεντροειδής μέθοδος. Σε αυτή τη μέθοδο, η απόσταση μεταξύ δύο συστάδων ορίζεται ως η απόσταση μεταξύ των κέντρων βάρους τους.

Προσοχή!

Οι Sneath και Sokal (1973) χρησιμοποιούν το ακρωνύμιο UPGMC για να αναφερθούν σε αυτή τη μέθοδο ως μέθοδο μη σταθμισμένης ομάδας ζευγών που χρησιμοποιεί τον κεντροειδές μέσο όρο.

Μέθοδος σταθμισμένης κεντροειδούς (διάμεσος). Αυτή η μέθοδος είναι πανομοιότυπη με την προηγούμενη, εκτός από το ότι τα βάρη χρησιμοποιούνται στους υπολογισμούς για να ληφθεί υπόψη η διαφορά μεταξύ των μεγεθών των συστάδων (δηλαδή, ο αριθμός των αντικειμένων σε αυτά).

Επομένως, εάν υπάρχουν (ή υπάρχουν υποψίες) σημαντικές διαφορές στα μεγέθη των συστάδων, αυτή η μέθοδος είναι προτιμότερη από την προηγούμενη.

Οι Sneath και Sokal (1973) χρησιμοποίησαν τη συντομογραφία WPGMC για να την αναφέρουν ως μέθοδο σταθμισμένης ομάδας ζευγών χρησιμοποιώντας τον μέσο όρο του κέντρου.

Μέθοδος θαλάμου.Αυτή η μέθοδος είναι διαφορετική από όλες τις άλλες μεθόδους επειδή χρησιμοποιεί μεθόδους ANOVA για την εκτίμηση των αποστάσεων μεταξύ των συστάδων.

Η μέθοδος ελαχιστοποιεί το άθροισμα των τετραγώνων (SS) για οποιαδήποτε δύο (υποθετικά) συμπλέγματα που μπορούν να σχηματιστούν σε κάθε βήμα.

Λεπτομέρειες μπορείτε να βρείτε στο Ward (1963). Γενικά, η μέθοδος φαίνεται να είναι πολύ αποτελεσματική, αλλά τείνει να δημιουργεί μικρά συμπλέγματα.

Νωρίτερα αυτή η μέθοδος συζητήθηκε ως προς τα "αντικείμενα" που θα έπρεπε να συγκεντρωθούν. Σε όλους τους άλλους τύπους ανάλυσης, το ερώτημα που ενδιαφέρει τον ερευνητή συνήθως εκφράζεται με όρους παρατηρήσεων ή μεταβλητών.

Αποδεικνύεται ότι η ομαδοποίηση, τόσο με παρατηρήσεις όσο και με μεταβλητές, μπορεί να οδηγήσει σε αρκετά ενδιαφέροντα αποτελέσματα.

Για παράδειγμα, φανταστείτε ότι ένας ιατρικός ερευνητής συλλέγει δεδομένα για διάφορα χαρακτηριστικά (μεταβλητές) παθήσεων ασθενών (παρατηρήσεις) με καρδιοπάθεια.

Ο ερευνητής μπορεί να επιθυμεί να ομαδοποιήσει τις παρατηρήσεις (των ασθενών) για να αναγνωρίσει ομάδες ασθενών με παρόμοια συμπτώματα.

Ταυτόχρονα, ο ερευνητής μπορεί να επιθυμεί να ομαδοποιήσει μεταβλητές για να εντοπίσει ομάδες μεταβλητών που σχετίζονται με παρόμοια φυσική κατάσταση.

Μετά από αυτή τη συζήτηση σχετικά με το αν θα ομαδοποιηθούν παρατηρήσεις ή μεταβλητές, θα μπορούσε κανείς να ρωτήσει, γιατί να μην ομαδοποιηθούν και προς τις δύο κατευθύνσεις;

Η ενότητα Ανάλυση συμπλέγματος περιέχει μια αποτελεσματική διαδικασία αμφίδρομης σύνδεσης για να γίνει αυτό ακριβώς.

Ωστόσο, η αμφίδρομη συγκέντρωση χρησιμοποιείται (σχετικά σπάνια) σε περιπτώσεις όπου τόσο οι παρατηρήσεις όσο και οι μεταβλητές αναμένεται να συμβάλλουν ταυτόχρονα στην ανακάλυψη σημαντικών συστάδων.

Έτσι, επιστρέφοντας στο προηγούμενο παράδειγμα, μπορούμε να υποθέσουμε ότι ένας ιατρικός ερευνητής πρέπει να εντοπίσει ομάδες ασθενών που είναι παρόμοιες σε σχέση με ορισμένες ομάδες χαρακτηριστικών φυσικής κατάστασης.

Η δυσκολία στην ερμηνεία των αποτελεσμάτων που λαμβάνονται προκύπτει από το γεγονός ότι οι ομοιότητες μεταξύ διαφορετικών συστάδων μπορεί να προέρχονται από (ή να είναι η αιτία) κάποιας διαφοράς στα υποσύνολα των μεταβλητών.

Επομένως, οι προκύπτουσες συστάδες είναι εγγενώς ετερογενείς. Ίσως φαίνεται λίγο θολό στην αρχή. Πράγματι, σε σύγκριση με άλλες μεθόδους ανάλυσης συστάδων που περιγράφονται, η αμφίδρομη συγκέντρωση είναι πιθανώς η λιγότερο συχνά χρησιμοποιούμενη μέθοδος.

Ωστόσο, ορισμένοι ερευνητές πιστεύουν ότι προσφέρει ένα ισχυρό εργαλείο για διερευνητική ανάλυση δεδομένων (για περισσότερες πληροφορίες, δείτε την περιγραφή αυτής της μεθόδου από τον Hartigan (Hartigan, 1975)).

Κ σημαίνει μέθοδος

Αυτή η μέθοδος ομαδοποίησης διαφέρει σημαντικά από τις συσσωματωτικές μεθόδους όπως η Ένωση (ομαδοποίηση δένδρων) και η αμφίδρομη ένωση. Ας υποθέσουμε ότι έχετε ήδη υποθέσεις σχετικά με τον αριθμό των συστάδων (με παρατήρηση ή κατά μεταβλητή).

Μπορείτε να πείτε στο σύστημα να σχηματίσει ακριβώς τρία συμπλέγματα έτσι ώστε να είναι όσο το δυνατόν διαφορετικά.

Αυτό ακριβώς είναι το είδος του προβλήματος που λύνει ο αλγόριθμος K-Means. Γενικά, η μέθοδος K-means δημιουργεί ακριβώς K διακριτές συστάδες που απέχουν όσο το δυνατόν πιο μακριά μεταξύ τους.

Στο παράδειγμα της φυσικής κατάστασης, ένας ιατρικός ερευνητής μπορεί να έχει μια "υποψία" από την κλινική του εμπειρία ότι οι ασθενείς του γενικά εμπίπτουν σε τρεις διαφορετικές κατηγορίες.

Προσοχή!

Αν ναι, τότε οι μέσοι όροι των διαφόρων μετρήσεων των φυσικών παραμέτρων για κάθε ομάδα θα παρείχαν έναν ποσοτικό τρόπο αναπαράστασης των υποθέσεων του ερευνητή (π.χ. οι ασθενείς στην ομάδα 1 έχουν υψηλή παράμετρο 1, μια χαμηλότερη παράμετρο 2, κ.λπ.).

Από υπολογιστική άποψη, μπορείτε να σκεφτείτε αυτή τη μέθοδο ως ανάλυση διακύμανσης «αντίστροφα». Το πρόγραμμα ξεκινά με K τυχαία επιλεγμένα συμπλέγματα και, στη συνέχεια, αλλάζει την ιδιοκτησία των αντικειμένων σε αυτά προκειμένου να:

  1. ελαχιστοποίηση της μεταβλητότητας εντός των συστάδων,
  2. μεγιστοποίηση της μεταβλητότητας μεταξύ των συστάδων.

Αυτή η μέθοδος είναι παρόμοια με την αντίστροφη ανάλυση διακύμανσης (ANOVA) στο ότι η δοκιμή σημασίας στην ANOVA συγκρίνει τη μεταβλητότητα μεταξύ της ομάδας έναντι της εντός της ομάδας κατά τον έλεγχο της υπόθεσης ότι οι μέσοι όροι της ομάδας είναι διαφορετικοί μεταξύ τους.

Στην ομαδοποίηση K-means, το πρόγραμμα μετακινεί αντικείμενα (δηλαδή, παρατηρήσεις) από τη μια ομάδα (cluster) στην άλλη προκειμένου να λάβει το πιο σημαντικό αποτέλεσμα κατά την εκτέλεση της ανάλυσης διακύμανσης (ANOVA).

Συνήθως, μόλις ληφθούν τα αποτελέσματα μιας ανάλυσης συστάδας K-means, μπορεί κανείς να υπολογίσει τους μέσους όρους για κάθε σύμπλεγμα για κάθε διάσταση για να αξιολογήσει πώς διαφέρουν οι συστάδες μεταξύ τους.

Στην ιδανική περίπτωση, θα πρέπει να λαμβάνετε πολύ διαφορετικά μέσα για τις περισσότερες, αν όχι όλες, από τις μετρήσεις που χρησιμοποιούνται στην ανάλυση.

Πηγή: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Ταξινόμηση αντικειμένων ανάλογα με τα χαρακτηριστικά τους

Ανάλυση συμπλέγματος (ανάλυση συμπλέγματος) - ένα σύνολο πολυδιάστατων στατιστικών μεθόδων για την ταξινόμηση αντικειμένων σύμφωνα με τα χαρακτηριστικά τους, τη διαίρεση του συνόλου των αντικειμένων σε ομοιογενείς ομάδες που είναι κοντινές όσον αφορά τον καθορισμό των κριτηρίων, την επιλογή αντικειμένων μιας συγκεκριμένης ομάδας.

Ένα σύμπλεγμα είναι μια ομάδα αντικειμένων που προσδιορίζονται ως αποτέλεσμα της ανάλυσης συμπλέγματος με βάση ένα δεδομένο μέτρο ομοιότητας ή διαφοράς μεταξύ των αντικειμένων.

Αντικείμενο είναι τα συγκεκριμένα αντικείμενα μελέτης που πρέπει να ταξινομηθούν. Τα αντικείμενα στην ταξινόμηση είναι, κατά κανόνα, παρατηρήσεις. Για παράδειγμα, καταναλωτές προϊόντων, χωρών ή περιοχών, προϊόντων κ.λπ.

Αν και είναι δυνατό να πραγματοποιηθεί ανάλυση συστάδων κατά μεταβλητές. Η ταξινόμηση των αντικειμένων στην πολυδιάστατη ανάλυση συστάδων γίνεται σύμφωνα με πολλά κριτήρια ταυτόχρονα.

Αυτές μπορεί να είναι τόσο ποσοτικές όσο και κατηγορικές μεταβλητές, ανάλογα με τη μέθοδο ανάλυσης συστάδων. Έτσι, ο κύριος στόχος της ανάλυσης συστάδων είναι η εύρεση ομάδων παρόμοιων αντικειμένων στο δείγμα.

Το σύνολο των πολυμεταβλητών στατιστικών μεθόδων ανάλυσης συστάδων μπορεί να χωριστεί σε ιεραρχικές μεθόδους (συσσωρευτικές και διαιρετικές) και σε μη ιεραρχικές (μέθοδος k-means, ανάλυση συστάδων δύο σταδίων).

Ωστόσο, δεν υπάρχει γενικά αποδεκτή ταξινόμηση των μεθόδων, και μερικές φορές οι μέθοδοι ανάλυσης συστάδων περιλαμβάνουν επίσης μεθόδους για την κατασκευή δέντρων αποφάσεων, νευρωνικών δικτύων, διακριτικής ανάλυσης και λογιστικής παλινδρόμησης.

Το εύρος της ανάλυσης συστάδων, λόγω της ευελιξίας της, είναι πολύ ευρύ. Η ανάλυση συστάδων χρησιμοποιείται στα οικονομικά, το μάρκετινγκ, την αρχαιολογία, την ιατρική, την ψυχολογία, τη χημεία, τη βιολογία, τη δημόσια διοίκηση, τη φιλολογία, την ανθρωπολογία, την κοινωνιολογία και άλλους τομείς.

Ακολουθούν μερικά παραδείγματα εφαρμογής της ανάλυσης συστάδων:

  • ιατρική - ταξινόμηση ασθενειών, τα συμπτώματά τους, μέθοδοι θεραπείας, ταξινόμηση ομάδων ασθενών.
  • μάρκετινγκ - τα καθήκοντα βελτιστοποίησης της σειράς προϊόντων της εταιρείας, τμηματοποίησης της αγοράς ανά ομάδες αγαθών ή καταναλωτών, εντοπισμός δυνητικού καταναλωτή.
  • κοινωνιολογία - διαίρεση των ερωτηθέντων σε ομοιογενείς ομάδες.
  • ψυχιατρική - η σωστή διάγνωση των ομάδων συμπτωμάτων είναι ζωτικής σημασίας για την επιτυχή θεραπεία.
  • βιολογία - ταξινόμηση οργανισμών ανά ομάδα.
  • οικονομία - ταξινόμηση υποκειμένων της Ρωσικής Ομοσπονδίας με βάση την ελκυστικότητα των επενδύσεων.

Πηγή: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

Γενικές πληροφορίες για την ανάλυση συστάδων

Η ανάλυση συστάδων περιλαμβάνει ένα σύνολο διαφορετικών αλγορίθμων ταξινόμησης. Ένα κοινό ερώτημα που τίθεται από ερευνητές σε πολλούς τομείς είναι πώς να οργανωθούν τα παρατηρούμενα δεδομένα σε οπτικές δομές.

Για παράδειγμα, οι βιολόγοι στοχεύουν να χωρίσουν τα ζώα σε διαφορετικά είδη προκειμένου να περιγράψουν με νόημα τις διαφορές μεταξύ τους.

Το καθήκον της ανάλυσης συστάδων είναι να χωρίσει το αρχικό σύνολο αντικειμένων σε ομάδες παρόμοιων, κοντινών αντικειμένων. Αυτές οι ομάδες ονομάζονται συστάδες.

Με άλλα λόγια, η ανάλυση συστάδων είναι ένας από τους τρόπους ταξινόμησης αντικειμένων σύμφωνα με τα χαρακτηριστικά τους. Είναι επιθυμητό τα αποτελέσματα της ταξινόμησης να έχουν ουσιαστική ερμηνεία.

Τα αποτελέσματα που λαμβάνονται με μεθόδους ανάλυσης συστάδων χρησιμοποιούνται σε διάφορους τομείς. Στο μάρκετινγκ, είναι η κατάτμηση των ανταγωνιστών και των καταναλωτών.

Στην ψυχιατρική, η σωστή διάγνωση συμπτωμάτων όπως η παράνοια, η σχιζοφρένεια κ.λπ. είναι καθοριστική για την επιτυχή θεραπεία.

Στη διαχείριση, η ταξινόμηση των προμηθευτών είναι σημαντική, ο εντοπισμός παρόμοιων καταστάσεων παραγωγής στις οποίες συμβαίνει ο γάμος. Στην κοινωνιολογία, η διαίρεση των ερωτηθέντων σε ομοιογενείς ομάδες. Στις επενδύσεις χαρτοφυλακίου, είναι σημαντικό να ομαδοποιούνται οι τίτλοι ανάλογα με την ομοιότητά τους στην τάση απόδοσης, προκειμένου να δημιουργηθεί, με βάση τις πληροφορίες που λαμβάνονται για το χρηματιστήριο, ένα βέλτιστο επενδυτικό χαρτοφυλάκιο που επιτρέπει τη μεγιστοποίηση της απόδοσης των επενδύσεων για δεδομένο βαθμό κινδύνου. .

Γενικά, όποτε είναι απαραίτητο να ταξινομηθεί ένας μεγάλος όγκος πληροφοριών αυτού του είδους και να παρουσιαστούν σε μορφή κατάλληλη για περαιτέρω επεξεργασία, η ανάλυση συστάδων αποδεικνύεται πολύ χρήσιμη και αποτελεσματική.

Η ανάλυση συμπλέγματος επιτρέπει την εξέταση ενός αρκετά μεγάλου όγκου πληροφοριών και τη μεγάλη συμπίεση μεγάλων συστοιχιών κοινωνικοοικονομικών πληροφοριών, καθιστώντας τις συμπαγείς και οπτικές.

Προσοχή!

Η ανάλυση συστάδων έχει μεγάλη σημασία σε σχέση με σύνολα χρονοσειρών που χαρακτηρίζουν την οικονομική ανάπτυξη (για παράδειγμα, γενικές οικονομικές συνθήκες και συνθήκες εμπορευμάτων).

Εδώ είναι δυνατό να ξεχωρίσουμε τις περιόδους κατά τις οποίες οι τιμές των αντίστοιχων δεικτών ήταν αρκετά κοντινές, καθώς και να προσδιοριστούν οι ομάδες χρονοσειρών, η δυναμική των οποίων είναι πιο παρόμοια.

Στα προβλήματα της κοινωνικοοικονομικής πρόβλεψης, είναι πολλά υποσχόμενο να συνδυαστεί η ανάλυση συστάδων με άλλες ποσοτικές μεθόδους (για παράδειγμα, με ανάλυση παλινδρόμησης).

Πλεονεκτήματα και μειονεκτήματα

Η ανάλυση συστάδων επιτρέπει μια αντικειμενική ταξινόμηση οποιωνδήποτε αντικειμένων που χαρακτηρίζονται από έναν αριθμό χαρακτηριστικών. Υπάρχουν μια σειρά από οφέλη που πρέπει να προκύψουν από αυτό:

  1. Τα συμπλέγματα που προκύπτουν μπορούν να ερμηνευθούν, δηλαδή, να περιγραφούν τι είδους ομάδες υπάρχουν στην πραγματικότητα.
  2. Μεμονωμένα συμπλέγματα μπορούν να θανατωθούν. Αυτό είναι χρήσιμο σε περιπτώσεις όπου έγιναν ορισμένα σφάλματα κατά τη διάρκεια του συνόλου δεδομένων, με αποτέλεσμα οι τιμές των δεικτών για μεμονωμένα αντικείμενα να αποκλίνουν απότομα. Κατά την εφαρμογή της ανάλυσης συμπλέγματος, τέτοια αντικείμενα εμπίπτουν σε ξεχωριστό σύμπλεγμα.
  3. Για περαιτέρω ανάλυση, μπορούν να επιλεγούν μόνο εκείνα τα clusters που έχουν τα χαρακτηριστικά ενδιαφέροντος.

Όπως κάθε άλλη μέθοδος, η ανάλυση συστάδων έχει ορισμένα μειονεκτήματα και περιορισμούς. Συγκεκριμένα, η σύνθεση και ο αριθμός των συστάδων εξαρτάται από τα επιλεγμένα κριτήρια κατάτμησης.

Κατά τη μείωση της αρχικής συστοιχίας δεδομένων σε μια πιο συμπαγή μορφή, ενδέχεται να εμφανιστούν ορισμένες παραμορφώσεις και τα μεμονωμένα χαρακτηριστικά μεμονωμένων αντικειμένων μπορεί επίσης να χαθούν λόγω της αντικατάστασής τους από τα χαρακτηριστικά των γενικευμένων τιμών των παραμέτρων συμπλέγματος.

Μέθοδοι

Επί του παρόντος, είναι γνωστοί περισσότεροι από εκατό διαφορετικοί αλγόριθμοι ομαδοποίησης. Η ποικιλομορφία τους εξηγείται όχι μόνο από διαφορετικές υπολογιστικές μεθόδους, αλλά και από διαφορετικές έννοιες στις οποίες βασίζεται η ομαδοποίηση.

Το πακέτο Statistica εφαρμόζει τις ακόλουθες μεθόδους ομαδοποίησης.

  • Ιεραρχικοί αλγόριθμοι - ομαδοποίηση δέντρων. Οι ιεραρχικοί αλγόριθμοι βασίζονται στην ιδέα της διαδοχικής ομαδοποίησης. Στο αρχικό βήμα, κάθε αντικείμενο θεωρείται ως ξεχωριστό σύμπλεγμα. Στο επόμενο βήμα, μερικά από τα συμπλέγματα που βρίσκονται πιο κοντά το ένα στο άλλο θα συνδυαστούν σε ένα ξεχωριστό σύμπλεγμα.
  • Μέθοδος K-means. Αυτή η μέθοδος είναι η πιο συχνά χρησιμοποιούμενη. Ανήκει στην ομάδα των λεγόμενων μεθόδων αναφοράς ανάλυσης συστάδων. Ο αριθμός των συμπλεγμάτων K ορίζεται από τον χρήστη.
  • Αμφίδρομη συσχέτιση. Όταν χρησιμοποιείται αυτή η μέθοδος, η ομαδοποίηση πραγματοποιείται ταυτόχρονα τόσο από μεταβλητές (στήλες) όσο και με αποτελέσματα παρατήρησης (γραμμές).

Η διαδικασία αμφίδρομης ένωσης εκτελείται όταν μπορεί να αναμένεται ότι η ταυτόχρονη ομαδοποίηση σε μεταβλητές και παρατηρήσεις θα δώσει σημαντικά αποτελέσματα.

Τα αποτελέσματα της διαδικασίας είναι περιγραφικά στατιστικά στοιχεία για μεταβλητές και παρατηρήσεις, καθώς και ένα δισδιάστατο χρωματολόγιο στο οποίο οι τιμές δεδομένων σημειώνονται με χρώμα.

Με την κατανομή του χρώματος, μπορείτε να πάρετε μια ιδέα για ομοιογενείς ομάδες.

Κανονικοποίηση μεταβλητών

Η διαίρεση του αρχικού συνόλου των αντικειμένων σε συστάδες σχετίζεται με τον υπολογισμό των αποστάσεων μεταξύ των αντικειμένων και την επιλογή των αντικειμένων, η απόσταση μεταξύ των οποίων είναι η μικρότερη από όλες τις δυνατές.

Η πιο συχνά χρησιμοποιούμενη είναι η ευκλείδεια (γεωμετρική) απόσταση που είναι γνωστή σε όλους μας. Αυτή η μέτρηση αντιστοιχεί σε διαισθητικές ιδέες σχετικά με την εγγύτητα των αντικειμένων στο χώρο (σαν να μετρήθηκαν οι αποστάσεις μεταξύ των αντικειμένων με μια μεζούρα).

Αλλά για μια δεδομένη μέτρηση, η απόσταση μεταξύ των αντικειμένων μπορεί να επηρεαστεί έντονα από τις αλλαγές στις κλίμακες (μονάδες μέτρησης). Για παράδειγμα, εάν ένα από τα χαρακτηριστικά μετρηθεί σε χιλιοστά και στη συνέχεια η τιμή του μετατραπεί σε εκατοστά, η Ευκλείδεια απόσταση μεταξύ των αντικειμένων θα αλλάξει δραματικά. Αυτό θα οδηγήσει στο γεγονός ότι τα αποτελέσματα της ανάλυσης συστάδων ενδέχεται να διαφέρουν σημαντικά από τα προηγούμενα.

Αν οι μεταβλητές μετρηθούν σε διαφορετικές μονάδες μέτρησης, τότε απαιτείται η προκαταρκτική κανονικοποίησή τους, δηλαδή ο μετασχηματισμός των αρχικών δεδομένων, που τις μετατρέπει σε αδιάστατα μεγέθη.

Η κανονικοποίηση παραμορφώνει έντονα τη γεωμετρία του αρχικού χώρου, γεγονός που μπορεί να αλλάξει τα αποτελέσματα της ομαδοποίησης

Στο πακέτο Statistica, οποιαδήποτε μεταβλητή x κανονικοποιείται σύμφωνα με τον τύπο:

Για να το κάνετε αυτό, κάντε δεξί κλικ στο όνομα της μεταβλητής και επιλέξτε τη σειρά εντολών από το μενού που ανοίγει: Συμπλήρωση/Τυποποίηση μπλοκ/Τυποποίηση στηλών. Οι τιμές της κανονικοποιημένης μεταβλητής θα γίνουν ίσες με μηδέν και οι διακυμάνσεις θα γίνουν ίσες με ένα.

Μέθοδος K-means στο Statistica

Η μέθοδος K-means χωρίζει ένα σύνολο αντικειμένων σε έναν δεδομένο αριθμό K διαφορετικών συστάδων που βρίσκονται σε όσο το δυνατόν μεγαλύτερες αποστάσεις μεταξύ τους.

Συνήθως, μόλις ληφθούν τα αποτελέσματα μιας ανάλυσης συστάδας K-means, μπορεί κανείς να υπολογίσει τους μέσους όρους για κάθε σύμπλεγμα για κάθε διάσταση για να εκτιμήσει πώς διαφέρουν τα συμπλέγματα μεταξύ τους.

Στην ιδανική περίπτωση, θα πρέπει να λαμβάνετε πολύ διαφορετικά μέσα για τις περισσότερες από τις μετρήσεις που χρησιμοποιούνται στην ανάλυση.

Οι τιμές της στατιστικής F που λαμβάνονται για κάθε διάσταση είναι ένας άλλος δείκτης του πόσο καλά η αντίστοιχη διάσταση κάνει διάκριση μεταξύ των συστάδων.

Για παράδειγμα, εξετάστε τα αποτελέσματα μιας έρευνας 17 εργαζομένων μιας επιχείρησης σχετικά με την ικανοποίηση από τους δείκτες ποιότητας σταδιοδρομίας. Ο πίνακας περιέχει τις απαντήσεις στις ερωτήσεις του ερωτηματολογίου σε μια κλίμακα δέκα βαθμών (1 είναι η ελάχιστη βαθμολογία, 10 είναι η μέγιστη).

Τα ονόματα των μεταβλητών αντιστοιχούν στις απαντήσεις στις ακόλουθες ερωτήσεις:

  1. SLT - ένας συνδυασμός προσωπικών στόχων και στόχων του οργανισμού.
  2. OSO - μια αίσθηση δικαιοσύνης στους μισθούς.
  3. TBD - εδαφική εγγύτητα στο σπίτι.
  4. PEW - μια αίσθηση οικονομικής ευημερίας.
  5. CR - ανάπτυξη σταδιοδρομίας.
  6. ZhSR - η επιθυμία αλλαγής εργασίας.
  7. Το OSB είναι μια αίσθηση κοινωνικής ευημερίας.

Χρησιμοποιώντας αυτά τα δεδομένα, είναι απαραίτητο να χωριστούν οι εργαζόμενοι σε ομάδες και να επιλεγούν οι πιο αποτελεσματικοί μοχλοί ελέγχου για καθεμία από αυτές.

Ταυτόχρονα, οι διαφορές μεταξύ των ομάδων θα πρέπει να είναι εμφανείς και εντός της ομάδας οι ερωτώμενοι να είναι όσο το δυνατόν πιο όμοιοι.

Μέχρι σήμερα, οι περισσότερες κοινωνιολογικές έρευνες δίνουν μόνο ένα ποσοστό ψήφων: λαμβάνεται υπόψη ο κύριος αριθμός θετικών απαντήσεων ή το ποσοστό εκείνων που είναι δυσαρεστημένοι, αλλά αυτό το ζήτημα δεν εξετάζεται συστηματικά.

Τις περισσότερες φορές, η έρευνα δεν δείχνει τάσεις στην κατάσταση. Σε ορισμένες περιπτώσεις, είναι απαραίτητο να μετρηθεί όχι ο αριθμός των ατόμων που είναι «υπέρ» ή «κατά», αλλά η απόσταση ή το μέτρο της ομοιότητας, δηλαδή να προσδιοριστούν ομάδες ανθρώπων που σκέφτονται το ίδιο.

Οι διαδικασίες ανάλυσης συστάδων μπορούν να χρησιμοποιηθούν για τον εντοπισμό, με βάση τα δεδομένα της έρευνας, ορισμένες πραγματικά υπάρχουσες σχέσεις χαρακτηριστικών και τη δημιουργία της τυπολογίας τους σε αυτή τη βάση.

Προσοχή!

Η παρουσία οποιωνδήποτε a priori υποθέσεων ενός κοινωνιολόγου κατά την εργασία με διαδικασίες ανάλυσης συστάδων δεν είναι απαραίτητη προϋπόθεση.

Στο πρόγραμμα Statistica, η ανάλυση συστάδων γίνεται ως εξής.

Όταν επιλέγετε τον αριθμό των συστάδων, λάβετε υπόψη τα εξής: ο αριθμός των συστάδων, εάν είναι δυνατόν, δεν πρέπει να είναι πολύ μεγάλος.

Η απόσταση στην οποία ενώθηκαν τα αντικείμενα ενός δεδομένου συμπλέγματος θα πρέπει, αν είναι δυνατόν, να είναι πολύ μικρότερη από την απόσταση στην οποία κάτι άλλο ενώνεται με αυτό το σύμπλεγμα.

Κατά την επιλογή του αριθμού των συστάδων, τις περισσότερες φορές υπάρχουν πολλές σωστές λύσεις ταυτόχρονα.

Μας ενδιαφέρει, για παράδειγμα, πώς οι απαντήσεις στις ερωτήσεις του ερωτηματολογίου συσχετίζονται με τους απλούς υπαλλήλους και τη διοίκηση της επιχείρησης. Επομένως, επιλέγουμε K=2. Για περαιτέρω τμηματοποίηση, μπορείτε να αυξήσετε τον αριθμό των συμπλεγμάτων.

  1. επιλέξτε παρατηρήσεις με τη μέγιστη απόσταση μεταξύ των κέντρων συστάδων.
  2. ταξινομήστε τις αποστάσεις και επιλέξτε παρατηρήσεις σε τακτά χρονικά διαστήματα (προεπιλεγμένη ρύθμιση).
  3. πάρτε τα πρώτα κέντρα παρατήρησης και προσαρτήστε τα υπόλοιπα αντικείμενα σε αυτά.

Η επιλογή 1 είναι κατάλληλη για τους σκοπούς μας.

Πολλοί αλγόριθμοι ομαδοποίησης συχνά «επιβάλλουν» μια δομή που δεν είναι εγγενής στα δεδομένα και αποπροσανατολίζουν τον ερευνητή. Ως εκ τούτου, είναι εξαιρετικά απαραίτητο να εφαρμοστούν αρκετοί αλγόριθμοι ανάλυσης συστάδων και να εξαχθούν συμπεράσματα με βάση μια γενική αξιολόγηση των αποτελεσμάτων των αλγορίθμων.

Τα αποτελέσματα της ανάλυσης μπορούν να προβληθούν στο πλαίσιο διαλόγου που εμφανίζεται:

Εάν επιλέξετε την καρτέλα Γράφημα μέσων, θα παρουσιαστεί ένα γράφημα των συντεταγμένων των κέντρων συμπλέγματος:


Κάθε διακεκομμένη γραμμή σε αυτό το γράφημα αντιστοιχεί σε ένα από τα συμπλέγματα. Κάθε διαίρεση του οριζόντιου άξονα του γραφήματος αντιστοιχεί σε μία από τις μεταβλητές που περιλαμβάνονται στην ανάλυση.

Ο κατακόρυφος άξονας αντιστοιχεί στις μέσες τιμές των μεταβλητών για τα αντικείμενα που περιλαμβάνονται σε κάθε ένα από τα συμπλέγματα.

Μπορεί να σημειωθεί ότι υπάρχουν σημαντικές διαφορές στη στάση των δύο ομάδων ατόμων για μια καριέρα σε όλα σχεδόν τα θέματα. Μόνο σε ένα θέμα υπάρχει πλήρης ομοφωνία - με την έννοια της κοινωνικής ευημερίας (OSB), ή μάλλον, η έλλειψή της (2,5 βαθμοί στα 10).

Μπορούμε να υποθέσουμε ότι η ομάδα 1 αντιπροσωπεύει τους εργαζόμενους και η ομάδα 2 αντιπροσωπεύει τη διαχείριση. Οι διευθυντές είναι πιο ικανοποιημένοι με την εξέλιξη της σταδιοδρομίας (CR), έναν συνδυασμό προσωπικών στόχων και οργανωτικών στόχων (SOL).

Έχουν υψηλότερη αίσθηση οικονομικής ευημερίας (SEW) και αίσθηση ισότητας αμοιβών (SWA).

Ανησυχούν λιγότερο για την εγγύτητα στο σπίτι παρά για τους εργαζομένους, πιθανώς λόγω λιγότερων προβλημάτων μεταφοράς. Επίσης, οι διευθυντές έχουν λιγότερη επιθυμία να αλλάξουν δουλειά (JSR).

Παρά το γεγονός ότι οι εργαζόμενοι χωρίζονται σε δύο κατηγορίες, δίνουν σχετικά τις ίδιες απαντήσεις στις περισσότερες ερωτήσεις. Με άλλα λόγια, εάν κάτι δεν ταιριάζει στη γενική ομάδα εργαζομένων, δεν ταιριάζει το ίδιο και στα ανώτερα στελέχη και το αντίστροφο.

Η εναρμόνιση των γραφημάτων μας επιτρέπει να συμπεράνουμε ότι η ευημερία μιας ομάδας αντανακλάται στην ευημερία μιας άλλης.

Το σύμπλεγμα 1 δεν είναι ικανοποιημένο με την εδαφική εγγύτητα στο σπίτι. Αυτή η ομάδα είναι το κύριο μέρος των εργαζομένων που έρχονται κυρίως στην επιχείρηση από διάφορα μέρη της πόλης.

Ως εκ τούτου, είναι δυνατό να προσφερθεί στην ανώτατη διοίκηση να διαθέσει μέρος των κερδών στην κατασκευή κατοικιών για τους υπαλλήλους της επιχείρησης.

Σημαντικές διαφορές παρατηρούνται στη στάση των δύο ομάδων ανθρώπων σε μια σταδιοδρομία υπηρεσίας. Όσοι εργαζόμενοι είναι ικανοποιημένοι με την εξέλιξη της σταδιοδρομίας, που έχουν υψηλή σύμπτωση προσωπικών στόχων και στόχων του οργανισμού, δεν έχουν την επιθυμία να αλλάξουν δουλειά και νιώθουν ικανοποίηση με τα αποτελέσματα της εργασίας τους.

Αντίθετα, οι εργαζόμενοι που θέλουν να αλλάξουν δουλειά και είναι δυσαρεστημένοι με τα αποτελέσματα της εργασίας τους δεν είναι ικανοποιημένοι με τους παραπάνω δείκτες. Η ανώτερη διοίκηση θα πρέπει να δώσει ιδιαίτερη προσοχή στην τρέχουσα κατάσταση.

Τα αποτελέσματα της ανάλυσης διασποράς για κάθε χαρακτηριστικό εμφανίζονται πατώντας το κουμπί Ανάλυση διασποράς.

Εμφανίζονται τα αθροίσματα των τετραγώνων των αποκλίσεων των αντικειμένων από τα κέντρα συμπλέγματος (SS Μέσα) και τα αθροίσματα των τετραγώνων των αποκλίσεων μεταξύ των κέντρων συμπλέγματος (SS Between), οι τιμές στατιστικών F και τα επίπεδα σημασίας p.

Προσοχή!

Για το παράδειγμά μας, τα επίπεδα σημαντικότητας για τις δύο μεταβλητές είναι αρκετά μεγάλα, γεγονός που εξηγείται από τον μικρό αριθμό παρατηρήσεων. Στην πλήρη έκδοση της μελέτης, η οποία βρίσκεται στην εργασία, οι υποθέσεις για την ισότητα των μέσων για τα κέντρα συστάδων απορρίπτονται σε επίπεδα σημαντικότητας μικρότερα από 0,01.

Το κουμπί Αποθήκευση ταξινομήσεων και αποστάσεων εμφανίζει τον αριθμό των αντικειμένων που περιλαμβάνονται σε κάθε σύμπλεγμα και τις αποστάσεις των αντικειμένων από το κέντρο κάθε συμπλέγματος.

Ο πίνακας δείχνει τους αριθμούς περιπτώσεων (CASE_NO) που απαρτίζουν τα συμπλέγματα με αριθμούς CLUSTER και τις αποστάσεις από το κέντρο κάθε συμπλέγματος (DISTANCE).

Οι πληροφορίες σχετικά με αντικείμενα που ανήκουν σε συμπλέγματα μπορούν να γραφτούν σε ένα αρχείο και να χρησιμοποιηθούν σε περαιτέρω ανάλυση. Σε αυτό το παράδειγμα, μια σύγκριση των αποτελεσμάτων που προέκυψαν με τα ερωτηματολόγια έδειξε ότι η ομάδα 1 αποτελείται κυρίως από απλούς εργαζόμενους και η ομάδα 2 - από διευθυντές.

Έτσι, μπορεί να φανεί ότι κατά την επεξεργασία των αποτελεσμάτων της έρευνας, η ανάλυση συστάδων αποδείχθηκε ότι ήταν μια ισχυρή μέθοδος που επιτρέπει την εξαγωγή συμπερασμάτων που δεν μπορούν να εξαχθούν με την κατασκευή ενός ιστογράμματος μέσων τιμών ή με τον υπολογισμό του ποσοστού όσων ικανοποιούνται με διάφορους δείκτες την ποιότητα της εργασιακής ζωής.

Η ομαδοποίηση δέντρων είναι ένα παράδειγμα ιεραρχικού αλγορίθμου, η αρχή του οποίου είναι να ομαδοποιούνται διαδοχικά πρώτα τα πλησιέστερα και μετά όλο και πιο απομακρυσμένα στοιχεία το ένα από το άλλο σε ένα σύμπλεγμα.

Οι περισσότεροι από αυτούς τους αλγόριθμους ξεκινούν από έναν πίνακα ομοιότητας (αποστάσεις) και κάθε μεμονωμένο στοιχείο θεωρείται αρχικά ως ξεχωριστό σύμπλεγμα.

Αφού φορτώσετε τη μονάδα ανάλυσης συμπλέγματος και επιλέξετε Joining (ομαδοποίηση δέντρων), μπορείτε να αλλάξετε τις ακόλουθες παραμέτρους στο παράθυρο εισαγωγής παραμέτρων ομαδοποίησης:

  • Αρχικά δεδομένα (Είσοδος). Μπορούν να έχουν τη μορφή πίνακα των δεδομένων που μελετήθηκαν (Raw data) και με τη μορφή πίνακα αποστάσεων (Distance matrix).
  • Ομαδοποίηση (Cluster) παρατηρήσεων (Περιπτώσεις (ακατέργαστες)) ή μεταβλητές (Μεταβλητή (στήλες)), που περιγράφουν την κατάσταση του αντικειμένου.
  • Μέτρα απόστασης. Εδώ μπορείτε να επιλέξετε τα ακόλουθα μέτρα: Ευκλείδειες αποστάσεις, Τετράγωνες Ευκλείδειες αποστάσεις, Απόσταση πόλης (Μανχάταν), Μέτρηση απόστασης Chebychev, Ισχύς ...), το ποσοστό διαφωνίας (Ποσοστό διαφωνίας).
  • Μέθοδος ομαδοποίησης (Κανόνας συγχώνευσης (σύνδεσης)). Οι ακόλουθες επιλογές είναι δυνατές εδώ: Μονή σύνδεση, Πλήρης σύνδεση, Μη σταθμισμένος μέσος όρος ομάδας ζεύγους, Μέσος όρος σταθμισμένου ζεύγους ομάδας ), Μη σταθμισμένο κέντρο ζεύγους ομάδας, σταθμισμένο κέντρο ζεύγους ομάδας (διάμεσος), μέθοδος Ward.

Ως αποτέλεσμα της ομαδοποίησης, δημιουργείται ένα οριζόντιο ή κατακόρυφο δενδρόγραμμα - ένα γράφημα στο οποίο προσδιορίζονται οι αποστάσεις μεταξύ αντικειμένων και συστάδων όταν συνδυάζονται διαδοχικά.

Η δενδρική δομή του γραφήματος σάς επιτρέπει να ορίζετε συστάδες ανάλογα με το επιλεγμένο όριο - μια δεδομένη απόσταση μεταξύ των συστάδων.

Επιπλέον, εμφανίζεται ο πίνακας αποστάσεων μεταξύ των αρχικών αντικειμένων (Distance matrix). Μέσος όρος και τυπικές αποκλίσεις για κάθε αντικείμενο πηγής (Distiptive statistics).

Για το εξεταζόμενο παράδειγμα, θα πραγματοποιήσουμε μια ανάλυση συμπλέγματος μεταβλητών με προεπιλεγμένες ρυθμίσεις. Το δενδρόγραμμα που προκύπτει φαίνεται στο σχήμα.


Ο κατακόρυφος άξονας του δενδρογράμματος απεικονίζει τις αποστάσεις μεταξύ αντικειμένων και μεταξύ αντικειμένων και συστάδων. Άρα, η απόσταση μεταξύ των μεταβλητών SEB και OSD είναι ίση με πέντε. Αυτές οι μεταβλητές στο πρώτο βήμα συνδυάζονται σε ένα σύμπλεγμα.

Τα οριζόντια τμήματα του δενδρογράμματος σχεδιάζονται σε επίπεδα που αντιστοιχούν στις αποστάσεις κατωφλίου που επιλέγονται για ένα δεδομένο βήμα ομαδοποίησης.

Μπορεί να φανεί από το γράφημα ότι η ερώτηση «επιθυμία αλλαγής εργασίας» (JSR) αποτελεί ένα ξεχωριστό σύμπλεγμα. Γενικά, η επιθυμία να πετάμε οπουδήποτε επισκέπτεται όλους εξίσου. Επιπλέον, ένα ξεχωριστό σύμπλεγμα είναι το ζήτημα της εδαφικής εγγύτητας με το σπίτι (LHB).

Ως προς τη σημασία, βρίσκεται στη δεύτερη θέση, γεγονός που επιβεβαιώνει το συμπέρασμα για την ανάγκη κατασκευής κατοικιών, που έγινε σύμφωνα με τα αποτελέσματα της μελέτης με τη μέθοδο K-means.

Συνδυάζονται αισθήματα οικονομικής ευημερίας (PEW) και δικαιοσύνης αμοιβών (PWA) - αυτό είναι ένα σύνολο οικονομικών ζητημάτων. Η εξέλιξη της σταδιοδρομίας (CR) και ο συνδυασμός προσωπικών στόχων και στόχων οργάνωσης (COL) συνδυάζονται επίσης.

Άλλες μέθοδοι ομαδοποίησης, καθώς και η επιλογή άλλων τύπων αποστάσεων, δεν οδηγούν σε σημαντική αλλαγή στο δενδρόγραμμα.

Αποτελέσματα:

  1. Η ανάλυση συστάδων είναι ένα ισχυρό εργαλείο για διερευνητική ανάλυση δεδομένων και στατιστική έρευνα σε κάθε θεματικό τομέα.
  2. Το πρόγραμμα Statistica εφαρμόζει τόσο ιεραρχικές όσο και δομικές μεθόδους ανάλυσης συστάδων. Τα πλεονεκτήματα αυτού του στατιστικού πακέτου οφείλονται στις γραφικές τους δυνατότητες. Παρέχονται δισδιάστατες και τρισδιάστατες γραφικές αναπαραστάσεις των ληφθέντων συστάδων στο χώρο των μεταβλητών που μελετήθηκαν, καθώς και τα αποτελέσματα της ιεραρχικής διαδικασίας ομαδοποίησης αντικειμένων.
  3. Είναι απαραίτητο να εφαρμοστούν αρκετοί αλγόριθμοι ανάλυσης συστάδων και να εξαχθούν συμπεράσματα με βάση μια γενική αξιολόγηση των αποτελεσμάτων των αλγορίθμων.
  4. Η ανάλυση συστάδων μπορεί να θεωρηθεί επιτυχής εάν εκτελεστεί με διαφορετικούς τρόπους, συγκρίνονται τα αποτελέσματα και βρεθούν κοινά πρότυπα και αν βρεθούν σταθερές συστάδες ανεξάρτητα από τη μέθοδο ομαδοποίησης.
  5. Η ανάλυση συμπλέγματος σάς επιτρέπει να προσδιορίσετε προβληματικές καταστάσεις και να σκιαγραφήσετε τρόπους επίλυσής τους. Επομένως, αυτή η μέθοδος μη παραμετρικών στατιστικών μπορεί να θεωρηθεί ως αναπόσπαστο μέρος της ανάλυσης συστήματος.

Τύποι εισόδου

  • Ενδεικτική περιγραφή αντικειμένων. Κάθε αντικείμενο περιγράφεται από ένα σύνολο χαρακτηριστικών του, που ονομάζεται σημάδια. Τα χαρακτηριστικά μπορεί να είναι αριθμητικά ή μη αριθμητικά.
  • Πίνακας αποστάσεων μεταξύ αντικειμένων. Κάθε αντικείμενο περιγράφεται από τις αποστάσεις από όλα τα άλλα αντικείμενα στο δείγμα εκπαίδευσης.

Στόχοι ομαδοποίησης

  • Κατανόηση δεδομένων μέσω της αναγνώρισης της δομής των συστάδων. Η διαίρεση του δείγματος σε ομάδες παρόμοιων αντικειμένων καθιστά δυνατή την απλοποίηση της περαιτέρω επεξεργασίας δεδομένων και λήψης αποφάσεων, εφαρμόζοντας τη δική του μέθοδο ανάλυσης σε κάθε σύμπλεγμα (η στρατηγική «διαίρει και βασίλευε»).
  • Συμπίεση δεδομένων. Εάν το αρχικό δείγμα είναι υπερβολικά μεγάλο, τότε μπορεί να μειωθεί, αφήνοντας έναν από τους πιο τυπικούς εκπροσώπους από κάθε ομάδα.
  • ανίχνευση καινοτομίας. ανίχνευση καινοτομίας). Επιλέγονται άτυπα αντικείμενα που δεν μπορούν να προσαρτηθούν σε κανένα από τα συμπλέγματα.

Στην πρώτη περίπτωση, προσπαθούν να κάνουν τον αριθμό των συστάδων μικρότερο. Στη δεύτερη περίπτωση, είναι πιο σημαντικό να διασφαλιστεί ένας υψηλός βαθμός ομοιότητας των αντικειμένων σε κάθε σύμπλεγμα και μπορεί να υπάρχει οποιοσδήποτε αριθμός συστάδων. Στην τρίτη περίπτωση, μεμονωμένα αντικείμενα που δεν χωρούν σε κανένα από τα συμπλέγματα έχουν μεγαλύτερο ενδιαφέρον.

Σε όλες αυτές τις περιπτώσεις, η ιεραρχική ομαδοποίηση μπορεί να εφαρμοστεί, όταν μεγάλα συμπλέγματα χωρίζονται σε μικρότερα, τα οποία, με τη σειρά τους, χωρίζονται ακόμη μικρότερα, κλπ. Τέτοιες εργασίες ονομάζονται εργασίες ταξινόμησης.

Το αποτέλεσμα της ταξινόμησης είναι μια ιεραρχική δομή που μοιάζει με δέντρο. Επιπλέον, κάθε αντικείμενο χαρακτηρίζεται από μια απαρίθμηση όλων των συστάδων στις οποίες ανήκει, συνήθως από μεγάλο σε μικρό.

Ένα κλασικό παράδειγμα ταξινόμησης που βασίζεται στην ομοιότητα είναι η διωνυμική ονοματολογία των έμβιων όντων που προτάθηκε από τον Carl Linnaeus στα μέσα του 18ου αιώνα. Παρόμοιες συστηματοποιήσεις κατασκευάζονται σε πολλά γνωστικά πεδία προκειμένου να οργανωθούν πληροφορίες για μεγάλο αριθμό αντικειμένων.

Μέθοδοι ομαδοποίησης

Επίσημη δήλωση του προβλήματος ομαδοποίησης

Έστω ένα σύνολο αντικειμένων, ένα σύνολο αριθμών (ονόματα, ετικέτες) συμπλεγμάτων. Δίνεται η συνάρτηση απόστασης μεταξύ των αντικειμένων. Υπάρχει ένα πεπερασμένο εκπαιδευτικό σύνολο αντικειμένων. Απαιτείται ο διαχωρισμός του δείγματος σε μη επικαλυπτόμενα υποσύνολα, που ονομάζονται συστάδες, έτσι ώστε κάθε σύμπλεγμα να αποτελείται από αντικείμενα κοντά στη μέτρηση και τα αντικείμενα διαφορετικών συστάδων διαφέρουν σημαντικά. Σε αυτήν την περίπτωση, σε κάθε αντικείμενο εκχωρείται ένας αριθμός συμπλέγματος.

Αλγόριθμος ομαδοποίησηςείναι μια συνάρτηση που συνδέει οποιοδήποτε αντικείμενο με έναν αριθμό συμπλέγματος. Το σύνολο σε ορισμένες περιπτώσεις είναι γνωστό εκ των προτέρων, αλλά πιο συχνά το καθήκον είναι να προσδιοριστεί ο βέλτιστος αριθμός συστάδων, από την άποψη του ενός ή του άλλου κριτήρια ποιότηταςομαδοποίηση.

Βιβλιογραφία

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D.Εφαρμοσμένη Στατιστική: Ταξινόμηση και Μείωση Διαστάσεων. - Μ.: Οικονομικά και στατιστική, 1989.
  2. Zhuravlev Yu. I., Ryazanov V. V., Senko O. V."Αναγνώριση". Μαθηματικές μέθοδοι. Σύστημα λογισμικού. Πρακτικές εφαρμογές. - Μ.: Φαζής, 2006. ISBN 5-7036-0108-8.
  3. Ζαγορούικο Ν. Γ.Εφαρμοσμένες μέθοδοι ανάλυσης δεδομένων και γνώσης. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9.
  4. Mandel I. D.ανάλυση συστάδων. - Μ.: Οικονομικά και στατιστική, 1988. ISBN 5-279-00050-7.
  5. Shlesinger M., Glavach V.Δέκα διαλέξεις για τη στατιστική και δομική αναγνώριση. - Κίεβο: Naukova Dumka, 2004. ISBN 966-00-0341-2.
  6. Hastie T., Tibshirani R., Friedman J.Τα Στοιχεία της Στατιστικής Μάθησης. - Springer, 2001. ISBN 0-387-95284-5.
  7. Jain Murty FlynnΟμαδοποίηση δεδομένων: μια ανασκόπηση . // ACM Comput. Surv. 31 (3) , 1999

εξωτερικοί σύνδεσμοι

Στα ρώσικα

  • www.MachineLearning.ru - επαγγελματική πηγή wiki αφιερωμένη στη μηχανική μάθηση και την εξόρυξη δεδομένων
  • Σ. Νικολένκο. Διαφάνειες διάλεξης για αλγόριθμους ομαδοποίησης

Στα Αγγλικά

  • COMPACT - Συγκριτικό Πακέτο Αξιολόγησης Ομαδοποίησης. Ένα δωρεάν πακέτο Matlab, 2006.
  • P. Berkhin, Έρευνα Τεχνικών Εξόρυξης Δεδομένων Ομαδοποίησης, Accrue Software, 2002.
  • Jain, Murty και Flynn: Ομαδοποίηση δεδομένων: Μια ανασκόπηση, ACM Comp. Surv., 1999.
  • για μια άλλη παρουσίαση ιεραρχικών, k-means και fuzzy c-means δείτε αυτήν την εισαγωγή στη ομαδοποίηση . Έχει επίσης μια εξήγηση για το μείγμα Gaussians.
  • David Dowe, Σελίδα Modeling Mixture- άλλοι σύνδεσμοι μοντέλων ομαδοποίησης και μείγματος.
  • ένα σεμινάριο για την ομαδοποίηση
  • Το ηλεκτρονικό εγχειρίδιο: Πληροφορική Θεωρία, Συμπεράσματα και Αλγόριθμοι Μάθησης, από τον David J.C. Το MacKay περιλαμβάνει κεφάλαια για την ομαδοποίηση k-means, την ομαδοποίηση soft k-means και παραγώγους που περιλαμβάνουν τον αλγόριθμο E-M και τη μεταβλητή προβολή του αλγορίθμου E-M.
  • "The Self-Organized Gene" , σεμινάριο που εξηγεί τη ομαδοποίηση μέσω ανταγωνιστικής μάθησης και αυτο-οργάνωσης χαρτών.
  • kernlab - πακέτο R για μηχανική μάθηση με βάση τον πυρήνα (περιλαμβάνει υλοποίηση φασματικής ομαδοποίησης)
  • Εκμάθηση - Εκμάθηση με εισαγωγή αλγορίθμων ομαδοποίησης (k-means, fuzzy-c-means, hierarchical, mix of gaussians) + μερικά διαδραστικά demos (εφαρμογές Java)
  • Λογισμικό εξόρυξης δεδομένων - Το λογισμικό εξόρυξης δεδομένων χρησιμοποιεί συχνά τεχνικές ομαδοποίησης.
  • Java Competitve Learning Application Μια σουίτα μη εποπτευόμενων νευρωνικών δικτύων για ομαδοποίηση. Γραμμένο σε Java. Συμπληρώστε με όλο τον πηγαίο κώδικα.

ανάλυση συστάδων

Οι περισσότεροι ερευνητές τείνουν να πιστεύουν ότι για πρώτη φορά ο όρος «ανάλυση συστάδων» (eng. σύμπλεγμα- μάτσο, θρόμβος, μάτσο) προτάθηκε από τον μαθηματικό R. Trion. Στη συνέχεια, προέκυψε ένας αριθμός όρων που θεωρούνται πλέον συνώνυμοι με τον όρο "ανάλυση συστάδων": αυτόματη ταξινόμηση. βοτρυολογία.

Η ανάλυση συστάδων είναι μια πολυμεταβλητή στατιστική διαδικασία που συλλέγει δεδομένα που περιέχουν πληροφορίες για ένα δείγμα αντικειμένων και στη συνέχεια τακτοποιεί τα αντικείμενα σε σχετικά ομοιογενείς ομάδες (συστάδες) (Q-clustering, ή Q-technique, σωστή ανάλυση συστάδων). Συστάδα - μια ομάδα στοιχείων που χαρακτηρίζεται από μια κοινή ιδιότητα, ο κύριος στόχος της ανάλυσης συμπλέγματος είναι να βρει ομάδες παρόμοιων αντικειμένων στο δείγμα. Το φάσμα των εφαρμογών της ανάλυσης συστάδων είναι πολύ ευρύ: χρησιμοποιείται στην αρχαιολογία, την ιατρική, την ψυχολογία, τη χημεία, τη βιολογία, τη δημόσια διοίκηση, τη φιλολογία, την ανθρωπολογία, το μάρκετινγκ, την κοινωνιολογία και άλλους κλάδους. Ωστόσο, η καθολικότητα της εφαρμογής έχει οδηγήσει στην εμφάνιση ενός μεγάλου αριθμού ασυμβίβαστων όρων, μεθόδων και προσεγγίσεων που καθιστούν δύσκολη τη σαφή χρήση και τη συνεπή ερμηνεία της ανάλυσης συστάδων. Ο Orlov A. I. προτείνει να γίνει διάκριση ως εξής:

Καθήκοντα και προϋποθέσεις

Η ανάλυση συστάδων εκτελεί τα ακόλουθα κύριες εργασίες:

  • Ανάπτυξη τυπολογίας ή ταξινόμησης.
  • Διερεύνηση χρήσιμων εννοιολογικών σχημάτων για ομαδοποίηση αντικειμένων.
  • Δημιουργία υποθέσεων με βάση την εξερεύνηση δεδομένων.
  • Έλεγχος υποθέσεων ή έρευνα για να προσδιοριστεί εάν οι τύποι (ομάδες) που προσδιορίζονται με τον ένα ή τον άλλο τρόπο υπάρχουν πράγματι στα διαθέσιμα δεδομένα.

Ανεξάρτητα από το αντικείμενο μελέτης, η χρήση της ανάλυσης συστάδων περιλαμβάνει επόμενα βήματα:

  • Δειγματοληψία για ομαδοποίηση. Εννοείται ότι είναι λογικό να ομαδοποιούνται μόνο ποσοτικά δεδομένα.
  • Ορισμός ενός συνόλου μεταβλητών με τις οποίες θα αξιολογούνται τα αντικείμενα στο δείγμα, δηλαδή ένας χώρος χαρακτηριστικών.
  • Υπολογισμός των τιμών ενός ή του άλλου μέτρου ομοιότητας (ή διαφοράς) μεταξύ αντικειμένων.
  • Εφαρμογή της μεθόδου ανάλυσης συμπλέγματος για τη δημιουργία ομάδων παρόμοιων αντικειμένων.
  • Επικύρωση των αποτελεσμάτων της λύσης συστάδας.

Η ανάλυση συστάδων παρουσιάζει τα ακόλουθα απαιτήσεις δεδομένων:

  1. οι δείκτες δεν πρέπει να συσχετίζονται μεταξύ τους.
  2. οι δείκτες δεν πρέπει να έρχονται σε αντίθεση με τη θεωρία των μετρήσεων.
  3. η κατανομή των δεικτών πρέπει να είναι κοντά στο κανονικό.
  4. οι δείκτες πρέπει να πληρούν την απαίτηση της "σταθερότητας", που σημαίνει την απουσία επιρροής στις τιμές τους από τυχαίους παράγοντες.
  5. το δείγμα πρέπει να είναι ομοιογενές, να μην περιέχει "ακραίες τιμές".

Μπορείτε να βρείτε μια περιγραφή δύο θεμελιωδών απαιτήσεων για δεδομένα - ομοιομορφία και πληρότητα:

Η ομοιογένεια απαιτεί όλες οι οντότητες που αναπαριστώνται σε έναν πίνακα να είναι της ίδιας φύσης. Η απαίτηση για πληρότητα είναι ότι τα σύνολα Εγώκαι Jπαρουσίασε μια πλήρη περιγραφή των εκδηλώσεων του υπό εξέταση φαινομένου. Αν λάβουμε υπόψη έναν πίνακα στον οποίο Εγώείναι μια συλλογή, και J- το σύνολο των μεταβλητών που περιγράφουν αυτόν τον πληθυσμό, τότε θα πρέπει να είναι αντιπροσωπευτικό δείγμα από τον υπό μελέτη πληθυσμό και το σύστημα χαρακτηριστικών Jθα πρέπει να δίνει μια ικανοποιητική διανυσματική αναπαράσταση ατόμων Εγώαπό τη σκοπιά ενός ερευνητή.

Εάν η ανάλυση συστάδων προηγείται της παραγοντικής ανάλυσης, τότε το δείγμα δεν χρειάζεται να «επισκευαστεί» - οι αναφερόμενες απαιτήσεις εκτελούνται αυτόματα από την ίδια τη διαδικασία μοντελοποίησης παραγόντων (υπάρχει ένα ακόμη πλεονέκτημα - τυποποίηση z χωρίς αρνητικές συνέπειες για το δείγμα. εάν πραγματοποιηθεί απευθείας για ανάλυση συστάδων, μπορεί να οδηγήσει σε μείωση της σαφήνειας του διαχωρισμού των ομάδων). Διαφορετικά, το δείγμα πρέπει να προσαρμοστεί.

Τυπολογία προβλημάτων ομαδοποίησης

Τύποι εισόδου

Στη σύγχρονη επιστήμη, χρησιμοποιούνται αρκετοί αλγόριθμοι για την επεξεργασία δεδομένων εισόδου. Η ανάλυση με σύγκριση αντικειμένων με βάση χαρακτηριστικά (τα πιο συνηθισμένα στις βιολογικές επιστήμες) ονομάζεται Q- είδος ανάλυσης, και στην περίπτωση σύγκρισης χαρακτηριστικών, βάσει αντικειμένων - R- είδος ανάλυσης. Υπάρχουν προσπάθειες να χρησιμοποιηθούν υβριδικοί τύποι ανάλυσης (για παράδειγμα, RQανάλυση), αλλά αυτή η μεθοδολογία δεν έχει ακόμη αναπτυχθεί σωστά.

Στόχοι ομαδοποίησης

  • Κατανόηση δεδομένων μέσω της αναγνώρισης της δομής των συστάδων. Η διαίρεση του δείγματος σε ομάδες παρόμοιων αντικειμένων καθιστά δυνατή την απλοποίηση της περαιτέρω επεξεργασίας δεδομένων και λήψης αποφάσεων, εφαρμόζοντας τη δική του μέθοδο ανάλυσης σε κάθε σύμπλεγμα (η στρατηγική «διαίρει και βασίλευε»).
  • Συμπίεση δεδομένων. Εάν το αρχικό δείγμα είναι υπερβολικά μεγάλο, τότε μπορεί να μειωθεί, αφήνοντας έναν από τους πιο τυπικούς εκπροσώπους από κάθε ομάδα.
  • ανίχνευση καινοτομίας. ανίχνευση καινοτομίας). Επιλέγονται άτυπα αντικείμενα που δεν μπορούν να προσαρτηθούν σε κανένα από τα συμπλέγματα.

Στην πρώτη περίπτωση, προσπαθούν να κάνουν τον αριθμό των συστάδων μικρότερο. Στη δεύτερη περίπτωση, είναι πιο σημαντικό να διασφαλιστεί ένας υψηλός βαθμός ομοιότητας των αντικειμένων σε κάθε σύμπλεγμα και μπορεί να υπάρχει οποιοσδήποτε αριθμός συστάδων. Στην τρίτη περίπτωση, μεμονωμένα αντικείμενα που δεν χωρούν σε κανένα από τα συμπλέγματα έχουν μεγαλύτερο ενδιαφέρον.

Σε όλες αυτές τις περιπτώσεις, η ιεραρχική ομαδοποίηση μπορεί να εφαρμοστεί, όταν μεγάλα συμπλέγματα χωρίζονται σε μικρότερα, τα οποία, με τη σειρά τους, χωρίζονται ακόμη μικρότερα, κλπ. Τέτοιες εργασίες ονομάζονται εργασίες ταξινόμησης. Το αποτέλεσμα της ταξινόμησης είναι μια ιεραρχική δομή που μοιάζει με δέντρο. Επιπλέον, κάθε αντικείμενο χαρακτηρίζεται από μια απαρίθμηση όλων των συστάδων στις οποίες ανήκει, συνήθως από μεγάλο σε μικρό.

Μέθοδοι ομαδοποίησης

Δεν υπάρχει γενικά αποδεκτή ταξινόμηση των μεθόδων ομαδοποίησης, αλλά μπορεί να σημειωθεί μια σταθερή προσπάθεια των V. S. Berikov και G. S. Lbov. Εάν γενικεύσουμε τις διάφορες ταξινομήσεις των μεθόδων ομαδοποίησης, μπορούμε να διακρίνουμε έναν αριθμό ομάδων (ορισμένες μέθοδοι μπορούν να αποδοθούν σε πολλές ομάδες ταυτόχρονα, και ως εκ τούτου προτείνεται να θεωρηθεί αυτός ο χαρακτηρισμός ως κάποια προσέγγιση στην πραγματική ταξινόμηση των μεθόδων ομαδοποίησης):

  1. Πιθανολογική προσέγγιση. Υποτίθεται ότι κάθε αντικείμενο υπό εξέταση ανήκει σε μία από τις κλάσεις k. Ορισμένοι συγγραφείς (για παράδειγμα, ο A. I. Orlov) πιστεύουν ότι αυτή η ομάδα δεν ανήκει καθόλου στη ομαδοποίηση και αντιτίθενται με το όνομα "διάκριση", δηλαδή την επιλογή της ανάθεσης αντικειμένων σε μια από τις γνωστές ομάδες (δείγματα εκπαίδευσης).
  2. Προσεγγίσεις που βασίζονται σε συστήματα τεχνητής νοημοσύνης. Μια ομάδα πολύ υπό όρους, αφού υπάρχουν πολλές μέθοδοι τεχνητής νοημοσύνης και μεθοδικά είναι πολύ διαφορετικές.
  3. λογική προσέγγιση. Η κατασκευή ενός δενδρογράμματος πραγματοποιείται χρησιμοποιώντας ένα δέντρο απόφασης.
  4. Γραφική-θεωρητική προσέγγιση.
    • Αλγόριθμοι ομαδοποίησης γραφημάτων
  5. Ιεραρχική προσέγγιση. Υποτίθεται ότι υπάρχουν ένθετες ομάδες (συστάδες διαφορετικών τάξεων). Οι αλγόριθμοι, με τη σειρά τους, χωρίζονται σε συσσωρευτικούς (ενοποιητικούς) και διαιρετικούς (διαχωριστικούς). Ανάλογα με τον αριθμό των χαρακτηριστικών, μερικές φορές διακρίνονται μονοθετικές και πολυθετικές μέθοδοι ταξινόμησης.
    • Ιεραρχική διαιρετική ομαδοποίηση ή ταξινόμηση. Τα προβλήματα ομαδοποίησης εξετάζονται στην ποσοτική ταξινομία.
  6. Άλλες Μέθοδοι. Δεν περιλαμβάνεται στις προηγούμενες ομάδες.
    • Αλγόριθμοι στατιστικής ομαδοποίησης
    • Σύνολο συστάδων
    • Αλγόριθμοι της οικογένειας KRAB
    • Αλγόριθμος βασισμένος στη μέθοδο κοσκίνισης
    • DBSCAN κλπ.

Οι προσεγγίσεις 4 και 5 συνδυάζονται μερικές φορές με το όνομα της δομικής ή γεωμετρικής προσέγγισης, η οποία έχει μια πιο επισημοποιημένη έννοια της εγγύτητας. Παρά τις σημαντικές διαφορές μεταξύ των μεθόδων που αναφέρονται, όλες βασίζονται στην αρχική " υπόθεση συμπαγούς»: στον χώρο αντικειμένων, όλα τα κοντινά αντικείμενα πρέπει να ανήκουν στο ίδιο σύμπλεγμα και όλα τα διαφορετικά αντικείμενα, αντίστοιχα, πρέπει να βρίσκονται σε διαφορετικά συμπλέγματα.

Επίσημη δήλωση του προβλήματος ομαδοποίησης

Έστω ένα σύνολο αντικειμένων, ένα σύνολο αριθμών (ονόματα, ετικέτες) συμπλεγμάτων. Δίνεται η συνάρτηση απόστασης μεταξύ των αντικειμένων. Υπάρχει ένα πεπερασμένο εκπαιδευτικό σύνολο αντικειμένων. Απαιτείται ο διαχωρισμός του δείγματος σε μη επικαλυπτόμενα υποσύνολα, που ονομάζονται συστάδες, έτσι ώστε κάθε σύμπλεγμα να αποτελείται από αντικείμενα κοντά στη μέτρηση και τα αντικείμενα διαφορετικών συστάδων διαφέρουν σημαντικά. Σε αυτήν την περίπτωση, σε κάθε αντικείμενο εκχωρείται ένας αριθμός συμπλέγματος.

Αλγόριθμος ομαδοποίησηςείναι μια συνάρτηση που συνδέει οποιοδήποτε αντικείμενο με έναν αριθμό συμπλέγματος. Το σύνολο σε ορισμένες περιπτώσεις είναι γνωστό εκ των προτέρων, αλλά πιο συχνά το καθήκον είναι να προσδιοριστεί ο βέλτιστος αριθμός συστάδων, από την άποψη του ενός ή του άλλου κριτήρια ποιότηταςομαδοποίηση.

Η ομαδοποίηση (μάθηση χωρίς επίβλεψη) διαφέρει από την ταξινόμηση (εποπτευόμενη μάθηση) στο ότι οι ετικέτες των αρχικών αντικειμένων δεν έχουν οριστεί αρχικά και το ίδιο το σύνολο μπορεί ακόμη και να είναι άγνωστο.

Η λύση του προβλήματος της ομαδοποίησης είναι θεμελιωδώς ασαφής και υπάρχουν αρκετοί λόγοι για αυτό (σύμφωνα με ορισμένους συγγραφείς):

  • δεν υπάρχει μοναδικό καλύτερο κριτήριο για την ποιότητα της ομαδοποίησης. Είναι γνωστός ένας αριθμός ευρετικών κριτηρίων, καθώς και ένας αριθμός αλγορίθμων που δεν έχουν ένα σαφώς καθορισμένο κριτήριο, αλλά πραγματοποιούν μια αρκετά λογική ομαδοποίηση «κατά κατασκευή». Όλα αυτά μπορούν να δώσουν διαφορετικά αποτελέσματα. Επομένως, για να προσδιοριστεί η ποιότητα της ομαδοποίησης, απαιτείται ένας εμπειρογνώμονας στη θεματική περιοχή, ο οποίος θα μπορούσε να αξιολογήσει τη σημασία της επιλογής των συστάδων.
  • ο αριθμός των συστάδων είναι συνήθως άγνωστος εκ των προτέρων και ορίζεται σύμφωνα με κάποιο υποκειμενικό κριτήριο. Αυτό ισχύει μόνο για τις μεθόδους διάκρισης, καθώς στις μεθόδους ομαδοποίησης, οι ομάδες επιλέγονται χρησιμοποιώντας μια τυπική προσέγγιση που βασίζεται σε μέτρα εγγύτητας.
  • το αποτέλεσμα της ομαδοποίησης εξαρτάται σημαντικά από τη μέτρηση, η επιλογή της οποίας, κατά κανόνα, είναι επίσης υποκειμενική και καθορίζεται από ειδικό. Αλλά αξίζει να σημειωθεί ότι υπάρχουν ορισμένες συστάσεις για την επιλογή μέτρων εγγύτητας για διάφορες εργασίες.

Εφαρμογή

Στη βιολογία

Στη βιολογία, η ομαδοποίηση έχει πολλές εφαρμογές σε μια μεγάλη ποικιλία πεδίων. Για παράδειγμα, στη βιοπληροφορική, χρησιμοποιείται για την ανάλυση πολύπλοκων δικτύων αλληλεπιδρώντων γονιδίων, που μερικές φορές αποτελούνται από εκατοντάδες ή και χιλιάδες στοιχεία. Η ανάλυση συστάδων σάς επιτρέπει να εντοπίσετε υποδίκτυα, σημεία συμφόρησης, κόμβους και άλλες κρυφές ιδιότητες του υπό μελέτη συστήματος, κάτι που σας επιτρέπει τελικά να ανακαλύψετε τη συμβολή κάθε γονιδίου στο σχηματισμό του υπό μελέτη φαινομένου.

Στον τομέα της οικολογίας, χρησιμοποιείται ευρέως για τον εντοπισμό χωρικά ομοιογενών ομάδων οργανισμών, κοινοτήτων κ.λπ. Λιγότερο συχνά, οι μέθοδοι ανάλυσης συστάδων χρησιμοποιούνται για τη μελέτη κοινοτήτων με την πάροδο του χρόνου. Η ετερογένεια της δομής των κοινοτήτων οδηγεί στην εμφάνιση μη τετριμμένων μεθόδων ανάλυσης συστάδων (για παράδειγμα, η μέθοδος Czekanowski).

Γενικά, αξίζει να σημειωθεί ότι ιστορικά, τα μέτρα ομοιότητας χρησιμοποιούνται συχνότερα ως μέτρα εγγύτητας στη βιολογία, παρά ως μέτρα διαφοράς (απόστασης).

Στην κοινωνιολογία

Κατά την ανάλυση των αποτελεσμάτων κοινωνιολογικής έρευνας, συνιστάται η διεξαγωγή της ανάλυσης χρησιμοποιώντας τις μεθόδους μιας ιεραρχικής συσσωματωτικής οικογένειας, δηλαδή τη μέθοδο Ward, στην οποία η ελάχιστη διασπορά βελτιστοποιείται εντός των συστάδων, με αποτέλεσμα συστάδες περίπου ίσων μεγεθών δημιουργούνται. Η μέθοδος του Ward είναι η πιο επιτυχημένη για την ανάλυση κοινωνιολογικών δεδομένων. Ως μέτρο διαφοράς, η τετραγωνική Ευκλείδεια απόσταση είναι καλύτερη, γεγονός που συμβάλλει στην αύξηση της αντίθεσης των συστάδων. Το κύριο αποτέλεσμα της ιεραρχικής ανάλυσης συστάδων είναι ένα δενδρόγραμμα ή «διάγραμμα πάγου». Κατά την ερμηνεία του, οι ερευνητές αντιμετωπίζουν ένα πρόβλημα του ίδιου είδους με την ερμηνεία των αποτελεσμάτων της παραγοντικής ανάλυσης - την έλλειψη ξεκάθαρων κριτηρίων για τον προσδιορισμό των συστάδων. Συνιστάται η χρήση δύο μεθόδων ως οι κύριες - οπτική ανάλυση του δενδρογράμματος και σύγκριση των αποτελεσμάτων της ομαδοποίησης που εκτελείται με διαφορετικές μεθόδους.

Η οπτική ανάλυση του δενδρογράμματος περιλαμβάνει την «κοπή» του δέντρου στο βέλτιστο επίπεδο ομοιότητας των στοιχείων του δείγματος. Το «κλαδί αμπέλου» (ορολογία των Oldenderfer M.S. και Blashfield R.K.) θα πρέπει να «κοπεί» περίπου στο 5 στην κλίμακα Rescaled Distance Cluster Combine, επιτυγχάνοντας έτσι ένα επίπεδο ομοιότητας 80%. Εάν η επιλογή συμπλεγμάτων από αυτήν την ετικέτα είναι δύσκολη (πολλά μικρά συμπλέγματα συγχωνεύονται σε ένα μεγάλο σε αυτήν), τότε μπορείτε να επιλέξετε μια άλλη ετικέτα. Αυτή η τεχνική προτείνεται από τους Oldenderfer και Blashfield.

Τώρα τίθεται το ζήτημα της σταθερότητας της λύσης του cluster που υιοθετήθηκε. Στην πραγματικότητα, ο έλεγχος της σταθερότητας της ομαδοποίησης καταλήγει στον έλεγχο της αξιοπιστίας της. Υπάρχει ένας εμπειρικός κανόνας εδώ - μια σταθερή τυπολογία διατηρείται όταν αλλάζουν οι μέθοδοι ομαδοποίησης. Τα αποτελέσματα της ιεραρχικής ανάλυσης συστάδων μπορούν να επαληθευτούν με επαναληπτική ανάλυση συστάδων k-means. Εάν οι συγκριτικές ταξινομήσεις ομάδων ερωτηθέντων έχουν μερίδιο συμπτώσεων άνω του 70% (πάνω από τα 2/3 των συμπτώσεων), τότε λαμβάνεται μια απόφαση συστάδας.

Είναι αδύνατο να ελεγχθεί η επάρκεια της λύσης χωρίς να καταφύγουμε σε άλλου τύπου ανάλυση. Τουλάχιστον θεωρητικά, αυτό το πρόβλημα δεν έχει λυθεί. Η κλασική Ανάλυση Cluster των Oldenderfer και Blashfield επεξεργάζεται και τελικά απορρίπτει πέντε πρόσθετες μεθόδους δοκιμής ευρωστίας:

Στην επιστήμη των υπολογιστών

  • Ομαδοποίηση αποτελεσμάτων αναζήτησης - χρησιμοποιείται για "έξυπνη" ομαδοποίηση αποτελεσμάτων κατά την αναζήτηση αρχείων, ιστοτόπων, άλλων αντικειμένων, που επιτρέπει στον χρήστη να πλοηγηθεί γρήγορα, να επιλέξει ένα υποσύνολο που είναι προφανώς πιο σχετικό και αποκλείει ένα προφανώς λιγότερο σχετικό - το οποίο μπορεί να αυξήσει το χρηστικότητα της διεπαφής σε σύγκριση με την έξοδο με τη μορφή απλής ταξινόμησης κατά λίστα συνάφειας.
    • Clusty - η μηχανή αναζήτησης ομαδοποίησης του Vivísimo
    • Nigma - Ρωσική μηχανή αναζήτησης με αυτόματη ομαδοποίηση αποτελεσμάτων
    • Quintura - οπτική ομαδοποίηση με τη μορφή ενός σύννεφου λέξεων-κλειδιών
  • Τμηματοποίηση εικόνας τμηματοποίηση εικόνας) - Η ομαδοποίηση μπορεί να χρησιμοποιηθεί για τη διάσπαση μιας ψηφιακής εικόνας σε διακριτές περιοχές με σκοπό την ανίχνευση ακμών. ανίχνευση άκρων) ή αναγνώριση αντικειμένου.
  • Εξόρυξη δεδομένων εξόρυξη δεδομένων)- Η ομαδοποίηση στην Εξόρυξη Δεδομένων γίνεται πολύτιμη όταν λειτουργεί ως ένα από τα στάδια της ανάλυσης δεδομένων, χτίζοντας μια ολοκληρωμένη αναλυτική λύση. Συχνά είναι πιο εύκολο για έναν αναλυτή να αναγνωρίσει ομάδες παρόμοιων αντικειμένων, να μελετήσει τα χαρακτηριστικά τους και να δημιουργήσει ένα ξεχωριστό μοντέλο για κάθε ομάδα παρά να δημιουργήσει ένα γενικό μοντέλο για όλα τα δεδομένα. Αυτή η τεχνική χρησιμοποιείται συνεχώς στο μάρκετινγκ, αναδεικνύοντας ομάδες πελατών, αγοραστών, αγαθών και αναπτύσσοντας ξεχωριστή στρατηγική για καθένα από αυτά.

δείτε επίσης

Σημειώσεις

Συνδέσεις

Στα ρώσικα
  • www.MachineLearning.ru - επαγγελματική πηγή wiki αφιερωμένη στη μηχανική μάθηση και την εξόρυξη δεδομένων
Στα Αγγλικά
  • COMPACT - Συγκριτικό Πακέτο Αξιολόγησης Ομαδοποίησης. Ένα δωρεάν πακέτο Matlab, 2006.
  • P. Berkhin, Έρευνα Τεχνικών Εξόρυξης Δεδομένων Ομαδοποίησης, Accrue Software, 2002.
  • Jain, Murty και Flynn: Ομαδοποίηση δεδομένων: Μια ανασκόπηση, ACM Comp. Surv., 1999.
  • για μια άλλη παρουσίαση ιεραρχικών, k-means και fuzzy c-means δείτε αυτήν την εισαγωγή στη ομαδοποίηση . Έχει επίσης μια εξήγηση για το μείγμα Gaussians.
  • David Dowe, Σελίδα Modeling Mixture- άλλοι σύνδεσμοι μοντέλων ομαδοποίησης και μείγματος.
  • ένα σεμινάριο για την ομαδοποίηση
  • Το ηλεκτρονικό εγχειρίδιο: Πληροφορική Θεωρία, Συμπεράσματα και Αλγόριθμοι Μάθησης, από τον David J.C. Το MacKay περιλαμβάνει κεφάλαια για την ομαδοποίηση k-means, την ομαδοποίηση soft k-means και παραγώγους που περιλαμβάνουν τον αλγόριθμο E-M και τη μεταβλητή προβολή του αλγορίθμου E-M.
  • "The Self-Organized Gene", tutorial που εξηγεί τη ομαδοποίηση μέσω ανταγωνιστικής μάθησης και αυτο-οργάνωσης χαρτών.
  • kernlab - πακέτο R για μηχανική μάθηση με βάση τον πυρήνα (περιλαμβάνει υλοποίηση φασματικής ομαδοποίησης)
  • Εκμάθηση - Εκμάθηση με εισαγωγή αλγορίθμων ομαδοποίησης (k-means, fuzzy-c-means, hierarchical, mix of gaussians) + μερικά διαδραστικά demos (εφαρμογές Java)
  • Λογισμικό εξόρυξης δεδομένων - Το λογισμικό εξόρυξης δεδομένων χρησιμοποιεί συχνά τεχνικές ομαδοποίησης.
  • Java Competitve Learning Application Μια σουίτα μη εποπτευόμενων νευρωνικών δικτύων για ομαδοποίηση. Γραμμένο σε Java. Συμπληρώστε με όλο τον πηγαίο κώδικα.
  • Λογισμικό μηχανικής εκμάθησης - Περιέχει επίσης πολύ λογισμικό ομαδοποίησης.

Γνωρίζουμε ότι η Γη είναι ένας από τους 8 πλανήτες που περιστρέφονται γύρω από τον Ήλιο. Ο ήλιος είναι απλώς ένα αστέρι ανάμεσα σε περίπου 200 δισεκατομμύρια αστέρια στον γαλαξία του Γαλαξία. Είναι πολύ δύσκολο να καταλάβει κανείς αυτόν τον αριθμό. Γνωρίζοντας αυτό, μπορεί κανείς να κάνει μια υπόθεση για τον αριθμό των αστεριών στο σύμπαν - περίπου 4Χ10^22. Μπορούμε να δούμε περίπου ένα εκατομμύριο αστέρια στον ουρανό, αν και αυτό είναι μόνο ένα μικρό κλάσμα του πραγματικού αριθμού των αστεριών. Έχουμε λοιπόν δύο ερωτήματα:

  1. Τι είναι ένας γαλαξίας;
  2. Και ποια είναι η σχέση μεταξύ των γαλαξιών και του θέματος του άρθρου (ανάλυση συστάδων)


Ένας γαλαξίας είναι μια συλλογή από αστέρια, αέρια, σκόνη, πλανήτες και διαστρικά σύννεφα. Συνήθως οι γαλαξίες μοιάζουν με μια σπειροειδή ή οιδοπτική φιγούρα. Στο διάστημα, οι γαλαξίες χωρίζονται μεταξύ τους. Οι τεράστιες μαύρες τρύπες είναι τις περισσότερες φορές τα κέντρα των περισσότερων γαλαξιών.

Όπως θα συζητήσουμε στην επόμενη ενότητα, υπάρχουν πολλές ομοιότητες μεταξύ των γαλαξιών και της ανάλυσης σμήνων. Οι γαλαξίες υπάρχουν στον τρισδιάστατο χώρο, η ανάλυση συστάδων είναι μια πολυδιάστατη ανάλυση που πραγματοποιείται σε ν-διάστατο χώρο.

Το σημείωμα: Μια μαύρη τρύπα είναι το κέντρο ενός γαλαξία. Θα χρησιμοποιήσουμε μια παρόμοια ιδέα για κεντροειδή για ανάλυση συστάδων.

ανάλυση συστάδων

Ας υποθέσουμε ότι είστε επικεφαλής του μάρκετινγκ και των σχέσεων με τους πελάτες σε μια εταιρεία τηλεπικοινωνιών. Καταλαβαίνετε ότι όλοι οι πελάτες είναι διαφορετικοί και ότι χρειάζεστε διαφορετικές στρατηγικές για να προσεγγίσετε διαφορετικούς πελάτες. Θα εκτιμήσετε τη δύναμη ενός τέτοιου εργαλείου όπως η τμηματοποίηση πελατών για τη βελτιστοποίηση του κόστους. Για να βελτιώσετε τις γνώσεις σας σχετικά με την ανάλυση συμπλέγματος, εξετάστε το ακόλουθο παράδειγμα, που απεικονίζει 8 πελάτες και τη μέση διάρκεια συνομιλίας τους (τοπικές και διεθνείς). Ακολουθούν τα στοιχεία:

Για καλύτερη αντίληψη, ας σχεδιάσουμε ένα γράφημα όπου ο άξονας x θα είναι η μέση διάρκεια των διεθνών κλήσεων και ο άξονας y - η μέση διάρκεια των τοπικών κλήσεων. Παρακάτω είναι το γράφημα:

Το σημείωμα: Αυτό μοιάζει με την ανάλυση της θέσης των αστεριών στον νυχτερινό ουρανό (εδώ τα αστέρια αντικαθίστανται από καταναλωτές). Επιπλέον, αντί για τρισδιάστατο χώρο, έχουμε έναν 2D, που ορίζεται από τη διάρκεια των τοπικών και διεθνών κλήσεων, ως άξονες x και y.
Τώρα, μιλώντας με όρους γαλαξιών, το πρόβλημα διατυπώνεται ως εξής - να βρούμε τη θέση των μαύρων τρυπών. στην ανάλυση συστάδων ονομάζονται κεντροειδή. Για να ανιχνεύσουμε κεντροειδείς, θα ξεκινήσουμε παίρνοντας αυθαίρετα σημεία ως τη θέση των κεντροειδών.

Ευκλείδεια απόσταση για την εύρεση κεντροειδών για συστάδες

Στην περίπτωσή μας, θα τοποθετήσουμε τυχαία δύο κεντροειδή (C1 και C2) στα σημεία με συντεταγμένες (1, 1) και (3, 4). Γιατί επιλέξαμε αυτά τα δύο κεντροειδή; Η οπτική εμφάνιση σημείων στο γράφημα μας δείχνει ότι υπάρχουν δύο συστάδες που θα αναλύσουμε. Ωστόσο, θα δούμε αργότερα ότι η απάντηση σε αυτή την ερώτηση δεν θα είναι τόσο απλή για ένα μεγάλο σύνολο δεδομένων.
Στη συνέχεια, θα μετρήσουμε την απόσταση μεταξύ των κεντροειδών (C1 και C2) και όλων των σημείων του γραφήματος χρησιμοποιώντας τον τύπο του Ευκλείδη για να βρούμε την απόσταση μεταξύ δύο σημείων.

Σημείωση: Η απόσταση μπορεί επίσης να υπολογιστεί χρησιμοποιώντας άλλους τύπους, για παράδειγμα,

  1. το τετράγωνο της Ευκλείδειας απόστασης - για να δώσει βάρος σε αντικείμενα που είναι πιο απομακρυσμένα μεταξύ τους
  2. Απόσταση Μανχάταν - για τη μείωση των επιπτώσεων των εκπομπών
  3. απόσταση ισχύος - για αύξηση / μείωση της επιρροής σε συγκεκριμένες συντεταγμένες
  4. τοις εκατό διαφωνία - για κατηγορηματικά δεδομένα
  5. και τα λοιπά.
Οι στήλες 3 και 4 (Απόσταση από C1 και C2) είναι η απόσταση που υπολογίζεται χρησιμοποιώντας αυτόν τον τύπο. Για παράδειγμα, για τον πρώτο χρήστη

Η αναγωγή σε κεντροειδή (τελευταία στήλη) υπολογίζεται σύμφωνα με την αρχή της εγγύτητας με τα κεντροειδή (C1 και C2). Ο πρώτος καταναλωτής είναι πιο κοντά στο κεντροειδές #1 (1,41 σε σύγκριση με 2,24) επομένως ανήκει στο σύμπλεγμα με το κέντρο C1.

Παρακάτω είναι ένα γράφημα που απεικονίζει τα κεντροειδή C1 και C2 (που απεικονίζονται ως μπλε και πορτοκαλί διαμάντι). Οι καταναλωτές εμφανίζονται με το χρώμα του αντίστοιχου κέντρου στο οποίο έχουν αντιστοιχιστεί.

Εφόσον έχουμε επιλέξει αυθαίρετα κεντροειδή, το δεύτερο βήμα είναι να κάνουμε αυτή την επιλογή επαναληπτική. Η νέα θέση των κεντροειδών επιλέγεται ως μέσος όρος για τα σημεία της αντίστοιχης συστάδας. Έτσι, για παράδειγμα, για το πρώτο centroid (αυτοί είναι οι καταναλωτές 1, 2 και 3). Επομένως, η νέα συντεταγμένη x για το κέντρο C1 είναι ο μέσος όρος των συντεταγμένων x αυτών των καταναλωτών (2+1+1)/3 = 1,33. Θα λάβουμε νέες συντεταγμένες για C1 (1.33, 2.33) και C2 (4.4, 4.2). Η νέα γραφική παράσταση είναι παρακάτω:

Τέλος, θα τοποθετήσουμε τα κεντροειδή στο κέντρο του αντίστοιχου συμπλέγματος. Το διάγραμμα παρακάτω:

Οι θέσεις των μαύρων οπών μας (κέντρα συστάδων) στο παράδειγμά μας είναι C1 (1,75, 2,25) και C2 (4,75, 4,75). Τα δύο σμήνη παραπάνω είναι σαν δύο γαλαξίες που χωρίζονται στο διάστημα ο ένας από τον άλλο.

Ας δούμε, λοιπόν, παραδείγματα περαιτέρω. Ας αντιμετωπίσουμε το καθήκον της τμηματοποίησης των καταναλωτών σύμφωνα με δύο παραμέτρους: ηλικία και εισόδημα. Ας υποθέσουμε ότι έχουμε 2 καταναλωτές ηλικίας 37 και 44 ετών με εισοδήματα 90.000 $ και 62.000 $ αντίστοιχα. Αν θέλουμε να μετρήσουμε την Ευκλείδεια απόσταση μεταξύ των σημείων (37, 90000) και (44, 62000), θα δούμε ότι στην περίπτωση αυτή η μεταβλητή εισοδήματος «κυριαρχεί» στη μεταβλητή ηλικία και η μεταβολή της επηρεάζει έντονα την απόσταση. Χρειαζόμαστε κάποιο είδος στρατηγικής για να λύσουμε αυτό το πρόβλημα, διαφορετικά η ανάλυσή μας θα δώσει ένα εσφαλμένο αποτέλεσμα. Η λύση σε αυτό το πρόβλημα είναι να φέρουμε τις αξίες μας σε συγκρίσιμες κλίμακες. Η κανονικοποίηση είναι η λύση στο πρόβλημά μας.

Κανονικοποίηση δεδομένων

Υπάρχουν πολλές προσεγγίσεις για την ομαλοποίηση των δεδομένων. Για παράδειγμα, κανονικοποίηση ελάχιστου-μέγιστου. Για αυτήν την κανονικοποίηση, χρησιμοποιείται ο ακόλουθος τύπος

Σε αυτήν την περίπτωση, το X* είναι μια κανονικοποιημένη τιμή, το min και το max είναι οι ελάχιστες και μέγιστες συντεταγμένες σε ολόκληρο το σύνολο X
(Σημείωση, αυτός ο τύπος τοποθετεί όλες τις συντεταγμένες στο τμήμα )
Εξετάστε το παράδειγμά μας, ας το μέγιστο εισόδημα είναι 130.000 $ και το ελάχιστο 45.000 $. Η κανονικοποιημένη αξία του εισοδήματος για τον καταναλωτή Α είναι

Θα κάνουμε αυτή την άσκηση για όλα τα σημεία για κάθε μεταβλητή (συντεταγμένη). Το εισόδημα για τον δεύτερο καταναλωτή (62000) θα γίνει 0,2 μετά τη διαδικασία κανονικοποίησης. Επιπλέον, η ελάχιστη και η μέγιστη ηλικία είναι 23 και 58 αντίστοιχα. Μετά την κανονικοποίηση, οι ηλικίες των δύο καταναλωτών μας θα είναι 0,4 και 0,6.

Είναι εύκολο να δούμε ότι τώρα όλα τα δεδομένα μας είναι μεταξύ 0 και 1. Επομένως, έχουμε πλέον κανονικοποιημένα σύνολα δεδομένων σε συγκρίσιμες κλίμακες.

Θυμηθείτε, πριν από τη διαδικασία ανάλυσης συμπλέγματος, είναι απαραίτητο να πραγματοποιήσετε κανονικοποίηση.

Τύποι εισόδου

  • Ενδεικτική περιγραφή αντικειμένων. Κάθε αντικείμενο περιγράφεται από ένα σύνολο χαρακτηριστικών του, που ονομάζεται σημάδια. Τα χαρακτηριστικά μπορεί να είναι αριθμητικά ή μη αριθμητικά.
  • Πίνακας αποστάσεων μεταξύ αντικειμένων. Κάθε αντικείμενο περιγράφεται από τις αποστάσεις από όλα τα άλλα αντικείμενα στο δείγμα εκπαίδευσης.

Πίνακας αποστάσεωνμπορεί να υπολογιστεί από τη μήτρα των περιγραφών χαρακτηριστικών αντικειμένων με άπειρους τρόπους, ανάλογα με τον τρόπο εισαγωγής της συνάρτησης απόστασης (μετρική) μεταξύ των περιγραφών χαρακτηριστικών. Η Ευκλείδεια μέτρηση χρησιμοποιείται συχνά, αλλά αυτή η επιλογή στις περισσότερες περιπτώσεις είναι ευρετική και οφείλεται μόνο σε λόγους ευκολίας.

Το αντίστροφο πρόβλημα - η αποκατάσταση των περιγραφών χαρακτηριστικών από τη μήτρα των αποστάσεων ανά ζεύγη μεταξύ των αντικειμένων - στη γενική περίπτωση δεν έχει λύση και η κατά προσέγγιση λύση δεν είναι μοναδική και μπορεί να έχει σημαντικό σφάλμα. Αυτό το πρόβλημα επιλύεται με μεθόδους πολυδιάστατης κλίμακας.

Έτσι, η διατύπωση του προβλήματος της ομαδοποίησης από πίνακας απόστασηςείναι γενικότερο. Από την άλλη πλευρά, παρουσία περιγραφών χαρακτηριστικών, είναι συχνά δυνατό να δημιουργηθούν πιο αποτελεσματικές μέθοδοι ομαδοποίησης.

Στόχοι ομαδοποίησης

  • Κατανόηση δεδομένων μέσω της αναγνώρισης της δομής των συστάδων. Η διαίρεση του δείγματος σε ομάδες παρόμοιων αντικειμένων καθιστά δυνατή την απλοποίηση της περαιτέρω επεξεργασίας δεδομένων και λήψης αποφάσεων, εφαρμόζοντας τη δική του μέθοδο ανάλυσης σε κάθε σύμπλεγμα (η στρατηγική «διαίρει και βασίλευε»).
  • Συμπίεση δεδομένων. Εάν το αρχικό δείγμα είναι υπερβολικά μεγάλο, τότε μπορεί να μειωθεί, αφήνοντας έναν από τους πιο τυπικούς εκπροσώπους από κάθε ομάδα.
  • Ανίχνευση καινοτομίας. Επιλέγονται άτυπα αντικείμενα που δεν μπορούν να προσαρτηθούν σε κανένα από τα συμπλέγματα.

Στην πρώτη περίπτωση, προσπαθούν να κάνουν τον αριθμό των συστάδων μικρότερο. Στη δεύτερη περίπτωση, είναι πιο σημαντικό να διασφαλιστεί ένας υψηλός (ή σταθερός) βαθμός ομοιότητας των αντικειμένων σε κάθε σύμπλεγμα και μπορεί να υπάρχει οποιοσδήποτε αριθμός συστάδων. Στην τρίτη περίπτωση, μεμονωμένα αντικείμενα που δεν χωρούν σε κανένα από τα συμπλέγματα έχουν μεγαλύτερο ενδιαφέρον.

Σε όλες αυτές τις περιπτώσεις, η ιεραρχική ομαδοποίηση μπορεί να εφαρμοστεί, όταν μεγάλα συμπλέγματα χωρίζονται σε μικρότερα, τα οποία, με τη σειρά τους, χωρίζονται ακόμη μικρότερα, κλπ. Τέτοιες εργασίες ονομάζονται εργασίες ταξινόμησης.

Το αποτέλεσμα της ταξινόμησης είναι μια ιεραρχική δομή που μοιάζει με δέντρο. Επιπλέον, κάθε αντικείμενο χαρακτηρίζεται από μια απαρίθμηση όλων των συστάδων στις οποίες ανήκει, συνήθως από μεγάλο σε μικρό. Οπτικά, η ταξινόμηση αναπαρίσταται ως ένα γράφημα που ονομάζεται δενδρόγραμμα.

Ένα κλασικό παράδειγμα ταξινόμησης που βασίζεται στην ομοιότητα είναι διωνυμική ονοματολογία των ζωντανών όντωνπου προτάθηκε από τον Carl Linnaeus στα μέσα του 18ου αιώνα. Παρόμοιες συστηματοποιήσεις κατασκευάζονται σε πολλά γνωστικά πεδία προκειμένου να οργανωθούν πληροφορίες για μεγάλο αριθμό αντικειμένων.

Λειτουργίες απόστασης

Μέθοδοι ομαδοποίησης

  • Αλγόριθμοι στατιστικής ομαδοποίησης
  • Ιεραρχική ομαδοποίηση ή ταξινόμηση

Επίσημη δήλωση του προβλήματος ομαδοποίησης

Έστω ένα σύνολο αντικειμένων, ένα σύνολο αριθμών (ονόματα, ετικέτες) συμπλεγμάτων. Δίνεται η συνάρτηση απόστασης μεταξύ των αντικειμένων. Υπάρχει ένα πεπερασμένο εκπαιδευτικό σύνολο αντικειμένων. Απαιτείται ο διαχωρισμός του δείγματος σε μη επικαλυπτόμενα υποσύνολα, που ονομάζονται συστάδες, έτσι ώστε κάθε σύμπλεγμα να αποτελείται από αντικείμενα κοντά στη μέτρηση και τα αντικείμενα διαφορετικών συστάδων διαφέρουν σημαντικά. Σε αυτήν την περίπτωση, σε κάθε αντικείμενο εκχωρείται ένας αριθμός συμπλέγματος.

Αλγόριθμος ομαδοποίησηςείναι μια συνάρτηση που συνδέει οποιοδήποτε αντικείμενο με έναν αριθμό συμπλέγματος. Το σύνολο σε ορισμένες περιπτώσεις είναι γνωστό εκ των προτέρων, αλλά πιο συχνά το καθήκον είναι να προσδιοριστεί ο βέλτιστος αριθμός συστάδων, από την άποψη του ενός ή του άλλου κριτήρια ποιότηταςομαδοποίηση.

Η ομαδοποίηση (μάθηση χωρίς επίβλεψη) διαφέρει από την ταξινόμηση (εποπτευόμενη μάθηση) στο ότι οι ετικέτες των αρχικών αντικειμένων δεν έχουν οριστεί αρχικά και το ίδιο το σύνολο μπορεί ακόμη και να είναι άγνωστο.

Η λύση του προβλήματος της ομαδοποίησης είναι θεμελιωδώς ασαφής και υπάρχουν διάφοροι λόγοι για αυτό:

  • Δεν υπάρχει μοναδικά καλύτερο κριτήριο για την ποιότητα της ομαδοποίησης. Είναι γνωστός ένας αριθμός ευρετικών κριτηρίων, καθώς και ένας αριθμός αλγορίθμων που δεν έχουν ένα σαφώς καθορισμένο κριτήριο, αλλά πραγματοποιούν μια αρκετά λογική ομαδοποίηση «κατά κατασκευή». Όλα αυτά μπορούν να δώσουν διαφορετικά αποτελέσματα.
  • Ο αριθμός των συστάδων είναι συνήθως άγνωστος εκ των προτέρων και ορίζεται σύμφωνα με κάποιο υποκειμενικό κριτήριο.
  • Το αποτέλεσμα της ομαδοποίησης εξαρτάται σημαντικά από τη μέτρηση, η επιλογή της οποίας, κατά κανόνα, είναι επίσης υποκειμενική και καθορίζεται από έναν ειδικό.

Συνδέσεις

  • Vorontsov K.V. Μαθηματικές Μέθοδοι Διδασκαλίας κατά Προηγούμενα. Ινστιτούτο Φυσικής και Τεχνολογίας της Μόσχας (2004), VMiK MGU (2007).
  • Σεργκέι Νικολένκο. Διαφάνειες διάλεξης "Αλγορίθμοι ομαδοποίησης 1" και "Αλγόριθμοι ομαδοποίησης 2". Μάθημα «Συστήματα αυτομάθησης».

Βιβλιογραφία

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D.Εφαρμοσμένη Στατιστική: Ταξινόμηση και Μείωση Διαστάσεων. - Μ.: Οικονομικά και στατιστική, 1989.
  2. Zhuravlev Yu. I., Ryazanov V. V., Senko O. V."Αναγνώριση". Μαθηματικές μέθοδοι. Σύστημα λογισμικού. Πρακτικές εφαρμογές. - Μ.: Φαζής, 2006. .
  3. Ζαγορούικο Ν. Γ.Εφαρμοσμένες μέθοδοι ανάλυσης δεδομένων και γνώσης. - Novosibirsk: IM SO RAN, 1999. .
  4. Mandel I. D.ανάλυση συστάδων. - Μ.: Οικονομικά και στατιστική, 1988. .
  5. Shlesinger M., Glavach V.Δέκα διαλέξεις για τη στατιστική και δομική αναγνώριση. - Κίεβο: Naukova Dumka, 2004. .
  6. Hastie T., Tibshirani R., Friedman J.Τα Στοιχεία της Στατιστικής Μάθησης. - Springer, 2001. .