Tiểu sử Đặc trưng Phân tích

Ưu điểm của hình thức trình bày thông tin trực quan. Các cách thể hiện dữ liệu một cách trực quan

2.1. Ưu điểm của hình thức trình bày thông tin trực quan

Ngôn ngữ bằng lời nói và các phạm trù lời nói chứa các phương tiện cực kỳ nguyên thủy để xây dựng không gian, diễn giải nó hoặc làm điều gì đó với nó. Mục tiêu này được phục vụ bởi ngôn ngữ của hình ảnh và hệ thống các hành động tri giác, với sự trợ giúp của việc một người xây dựng hình ảnh về thực tại xung quanh và định hướng bản thân trong đó. Hệ thống này được gọi là nhận thức. Tri giác được định nghĩa là một hình ảnh tổng thể phản ánh sự thống nhất giữa cấu trúc và thuộc tính của một đối tượng. Đối tượng của tri giác trực quan là các đối tượng, quá trình, hiện tượng của thế giới xung quanh, có thể được phân chia và mô tả về không gian, chuyển động, hình dạng, kết cấu, màu sắc, độ sáng, ... Khi tri giác các đối tượng, hình ảnh ít nhiều phản ánh đầy đủ đối tượng hoặc tình huống có một người.

Hình ảnh được tạo ra trên cơ sở nhận thức trực quan có sức mạnh liên tưởng hơn so với lời nói. Có lẽ vì vậy mà chúng được lưu trữ một cách hoàn hảo trong bộ nhớ. Thậm chí chỉ sau một lần xem vài nghìn bức tranh, người quan sát vẫn có thể xác định chính xác khoảng 90% trong số đó. Hình ảnh trực quan rất dẻo. Tính chất này được thể hiện ở chỗ, về mặt hình ảnh, có thể chuyển đổi nhanh chóng từ đánh giá khái quát tình hình sang phân tích chi tiết các yếu tố của nó. Có thể có nhiều loại chuyển động khác nhau của các đối tượng được phản ánh trong hình ảnh, sự thay đổi, xoay của chúng, cũng như phóng to, thu nhỏ, biến dạng phối cảnh và chuẩn hóa. Khả năng thao túng đặc biệt này của hệ thống trực quan cho phép chúng ta trình bày tình huống theo cả góc nhìn trực tiếp và ngược lại. Thao tác với hình ảnh, sự hoàn thành của chúng là phương tiện quan trọng nhất của nhận thức hiệu quả và tư duy hình ảnh.

Nhiều nghiên cứu chỉ ra rằng có những cơ chế trong hệ thống thị giác đảm bảo sự ra đời của một hình ảnh mới. Nhờ chúng, một người có thể nhìn thế giới không chỉ như nó thực sự tồn tại mà còn như nó có thể (hoặc nên). Điều này có nghĩa là hình ảnh trực quan là điều kiện cần, thậm chí hơn thế, chúng là một công cụ của hoạt động trí óc. Chúng được kết nối trực tiếp hơn so với biểu tượng và lời nói, với thực tế khách quan xung quanh một người. Một hình ảnh không chỉ và không phải là một sự chiêm nghiệm quá nhiều như một sự tái hiện của thực tế. Nó, thực tại này, có thể được tái tạo dưới dạng (hoặc gần với nó) mà đối tượng thực sự tồn tại. Nhưng cũng có thể phá hủy đối tượng, tình huống và tạo lại phiên bản hoặc các biến thể mới của nó. Trên cơ sở hình ảnh bị thay đổi so với hiện thực này, một người lại hướng về hiện thực khách quan và xây dựng lại nó trong hoạt động thực tiễn của mình. không thể chuẩn bị cho một chuyên gia tư duy sáng tạo mà không phát triển khả năng biểu diễn tượng hình, trí tưởng tượng và tư duy của anh ta. Một lợi ích hữu hình trong vấn đề này được cung cấp bởi bộ máy phổ quát của phép chiếu toán học. Một trong những công cụ mô hình chiếu quan trọng nhất được sử dụng để hình thành các biểu diễn không gian là giải đoán hình học. Đối tượng diễn giải là mô hình đồ họa dưới dạng kết hợp của hình vẽ, sơ đồ, văn bản, sơ đồ, ... Mô hình đồ họa liên quan đến việc hiển thị thông tin dưới dạng một tập hợp các phương tiện để trình bày thông tin bằng đồ thị: đường thẳng, ký hiệu, dấu hiệu ghi nhớ được sử dụng phù hợp với các quy tắc xây dựng mô hình đồ họa. Khi nhận thức thông tin ở dạng này, cần phải nhập không gian hoạt động có chiều cao hơn so với khi cảm nhận văn bản. Mức độ chính xác khi so sánh một đối tượng thông tin với mô hình của nó phụ thuộc vào mức độ đầy đủ của thông tin về thiết bị chiếu, diễn ra trong quá trình mô hình hóa. Hình 2.1 cho thấy một trong những cách phân loại có thể có của các mô hình đồ họa. Mô hình ảnh- một mô hình đồ họa được biên dịch bằng cách sử dụng các hình ảnh đồ họa có điều kiện (tượng hình) biểu thị các đối tượng, hành động hoặc sự kiện. Mô hình lý tưởng- một mô hình đồ họa được biên dịch bằng cách sử dụng các biểu tượng - các ký hiệu viết thông thường biểu thị các khái niệm.

Vấn đề về hiệu quả của việc chuyển giao và đồng hóa thông tin là một trong những vấn đề chính trong nhiều thập kỷ qua. Phương tiện giao tiếp chính trên thế giới vào đầu thế kỷ 21 là trực quan (một hình thức truyền tải thông tin bằng hình ảnh). Lượng thông tin lớn nhất (khoảng 80-90%) một người nhận thức bằng mắt. "Tầm quan trọng vượt trội của hệ thống thị giác đối với con người được giải thích bởi thực tế rằng nó là nguồn thông tin mạnh mẽ nhất về thế giới bên ngoài, có phạm vi lớn nhất và các chức năng giác quan lập thể".

Hiệu quả, lợi thế của phương pháp truyền thông tin bằng đồ họa, so với phương pháp truyền động cơ hoặc âm thanh (Hình 2.2), là nhận thức trực quan của người đó về thông tin được truyền và việc tạo ra hình ảnh tinh thần của người đó diễn ra nhanh chóng đến mức người đó coi quá trình này là “tức thì”. Điều này giải thích tác động của tính đồng thời, hoặc đồng thời, dựa trên thuộc tính nhận thức của con người về thông tin: các hình ảnh tinh thần được tạo ra trong quá trình nhận thức thông tin và các mô hình đồ họa được truyền tải rất giống nhau về hình thức.

Với sự gia tăng lượng dữ liệu tích lũy, ngay cả khi sử dụng các thuật toán Khai phá dữ liệu linh hoạt và mạnh mẽ tùy ý, việc "tiêu hóa" và diễn giải kết quả ngày càng trở nên khó khăn hơn. Và, như bạn biết, một trong những điều khoản của DM là tìm kiếm các mẫu thực tế hữu ích. Một mẫu có thể trở nên hữu ích thực tế chỉ khi nó có thể được hiểu và hiểu.

Các phương pháp trình bày trực quan hoặc đồ họa dữ liệu bao gồm đồ thị, biểu đồ, bảng, báo cáo, danh sách, sơ đồ khối, bản đồ, v.v.

Trực quan từ trước đến nay được xem như một biện pháp hỗ trợ cho việc phân tích dữ liệu, nhưng giờ đây, nhiều nghiên cứu hơn đang cho thấy vai trò của nó theo đúng nghĩa của nó.

Các kỹ thuật hình ảnh truyền thống có thể được sử dụng theo những cách sau:

 trình bày thông tin cho người dùng dưới dạng trực quan;

 mô tả chính xác các mẫu vốn có trong tập dữ liệu gốc;

giảm kích thước hoặc nén thông tin;

 sửa chữa những khoảng trống trong tập dữ liệu;

Tìm những tiếng ồn và ngoại lệ trong tập dữ liệu.

Phương pháp hình ảnh

Phương pháp hình ảnh, tùy thuộc vào số lượng phép đo được sử dụng, được chấp nhận

phân loại thành hai nhóm:

 trình bày dữ liệu trong một, hai và ba chiều;

Trình bày dữ liệu theo bốn chiều hoặc nhiều hơn.

Biểu diễn dữ liệu trong 4 thứ nguyên trở lên

Sự thể hiện thông tin trong bốn chiều và nhiều chiều hơn là không thể tiếp cận được đối với nhận thức của con người. Tuy nhiên, các phương pháp đặc biệt đã được phát triển để cho phép một người hiển thị và nhận thức những thông tin đó.

Các cách biểu diễn thông tin đa chiều nổi tiếng nhất:

 tọa độ song song;

 "Khuôn mặt của Chernov";

Các biểu đồ radar.

Biểu diễn các đặc điểm không gian

Một khu vực trực quan riêng biệt là một hình ảnh đại diện

đặc điểm không gian của đối tượng. Trong hầu hết các trường hợp, các công cụ này đánh dấu các vùng riêng lẻ trên bản đồ và chỉ định chúng bằng các màu khác nhau tùy thuộc vào giá trị của chỉ số được phân tích.



Bản đồ được trình bày dưới dạng giao diện đồ họa hiển thị dữ liệu trong cảnh quan ba chiều của các hình dạng được xác định và định vị tùy ý (biểu đồ thanh, mỗi biểu đồ có độ cao và màu sắc riêng). Phương pháp này cho phép bạn hiển thị trực quan các đặc tính định lượng và quan hệ của định hướng không gian

dữ liệu và nhanh chóng xác định xu hướng trong đó.

Quá trình khai thác dữ liệu. Phân tích miền. Công thức của vấn đề. Chuẩn bị dữ liệu.

Quá trình khai thác dữ liệu. Giai đoạn đầu

Quá trình DM là một loại nghiên cứu. Giống như bất kỳ nghiên cứu nào, quá trình này bao gồm các giai đoạn nhất định, bao gồm các yếu tố so sánh, định dạng, phân loại, khái quát hóa, trừu tượng hóa, lặp lại.

Quá trình DM được liên kết chặt chẽ với quá trình ra quyết định.

Quá trình DM xây dựng một mô hình, và trong quá trình quyết định, mô hình này được khai thác.

Xem xét quy trình DM truyền thống. Nó bao gồm các bước sau:

phân tích lĩnh vực chủ đề;

thiết lập nhiệm vụ;

 Chuẩn bị dữ liệu;

xây dựng mô hình;

Kiểm tra và đánh giá mô hình;

 sự lựa chọn của mô hình;

Ứng dụng của mô hình;

 Chỉnh sửa và cập nhật mô hình.

Trong bài giảng này, chúng ta sẽ xem xét chi tiết ba giai đoạn đầu tiên của quá trình Khai phá dữ liệu,

phần còn lại của các bước sẽ được thảo luận trong bài giảng tiếp theo.

Giai đoạn 1. Phân tích đối tượng

Học- là quá trình nhận thức về một lĩnh vực, sự vật, hiện tượng cụ thể với mục tiêu cụ thể.

Quá trình nghiên cứu bao gồm quan sát các thuộc tính của đối tượng để xác định và đánh giá quan trọng, theo quan điểm của đối tượng nghiên cứu, mối quan hệ thường xuyên giữa các chỉ số của các thuộc tính này.

Giải pháp của bất kỳ vấn đề nào trong lĩnh vực phát triển phần mềm nên bắt đầu bằng việc nghiên cứu lĩnh vực này.

Chủ đề lĩnh vực- đây là một lĩnh vực thực tế giới hạn về mặt tinh thần, có thể được mô tả hoặc mô hình hóa và nghiên cứu.

Chủ thể bao gồm các đối tượng được phân biệt theo thuộc tính và có mối quan hệ nhất định với nhau hoặc tương tác với nhau theo một cách nào đó.

Chủ đề lĩnh vực là một phần của thế giới thực, nó là vô hạn và chứa cả hai

theo quan điểm của nghiên cứu.

Nhà nghiên cứu cần có khả năng xác định phần thiết yếu của chúng. Ví dụ, khi giải quyết vấn đề "Có thể phát hành một khoản vay?" quan trọng là tất cả dữ liệu về cuộc sống riêng tư của khách hàng, cho đến việc vợ / chồng có công việc hay không, khách hàng có con chưa thành niên hay không, trình độ học vấn của họ ra sao, v.v. Để giải quyết một vấn đề ngân hàng khác, dữ liệu này sẽ hoàn toàn không quan trọng. Do đó, tính trọng yếu của dữ liệu phụ thuộc vào việc lựa chọn lĩnh vực chủ đề.

Kỹ thuật hình ảnh tinh thần và hình dung thường là cơ sở của chiến lược định hướng để giải thích biểu đồ. Đối với một số người, điều này là dễ dàng, đối với những người khác thì khó hơn, mặc dù các kỹ năng được cải thiện theo kinh nghiệm. Mô tả một bức tranh dưới dạng văn bản viết liên quan đến một môn thể thao cụ thể thường được sử dụng để giúp người tham gia tạo ra một hình ảnh sinh động. Điều này cho phép họ xây dựng các chiến lược đối phó thích hợp cho các tình huống môi trường khó khăn tiềm ẩn. Mô tả địa hình thường được sử dụng trong việc định hướng như một phần của đào tạo kỹ thuật. Ví dụ, huấn luyện viên hoặc người khác yêu cầu người định hướng trình bày và sau đó mô tả bằng lời vị trí của điều khiển hoặc các mốc chính trên một phần nhỏ của bản đồ. Vị trí của CP là trên đỉnh một gò đồi có các đầm nước nhỏ về phía đông bắc và tây nam. Một mỏm dài trải dài về phía tây, và các gò đất nhỏ hơn nằm ở phía đông bắc, đông và tây nam. CP nằm trên ngọn đồi nào? Tương tự, một người định hướng có thể nghe mô tả về một khu vực nhỏ trên bản đồ hoặc vị trí điểm kiểm soát, sau đó cố gắng tái tạo mô tả bằng lời nói: Ngọn đồi hình xúc xích có hai đỉnh, mỗi đỉnh ở cuối phía đông hẹp - sườn núi phía tây. Dãy núi có hai gò tạo thế yên ngựa cách các đỉnh một khoảng bằng nhau. Một thung lũng xuống dốc về phía tây bắc của yên ngựa. Đỉnh phía đông cao hơn đỉnh phía tây và có độ dốc lớn ở phía đông, một mỏm rộng lớn chạy về phía bắc và dốc thoải ở phía nam. Đỉnh phía tây có độ dốc thoải về phía bắc và phía tây và một chóp mỏng dài ở phía nam. Cả hai cách này đều giúp phát triển khả năng biểu diễn trực quan. Kỹ năng hình dung là nền tảng để định hướng. Khả năng trực quan hóa vị trí của kiểm soát hoặc một khu vực cụ thể trên bản đồ sẽ được cải thiện theo kinh nghiệm. Thực hành, tuy nhiên, không nên giới hạn trong đào tạo hoặc thi đấu. Có nhiều cơ hội khác để thực hành cả trong nhà và ngoài trời. Ví dụ, dần dần học bản đồ của các khu vực quen thuộc và không quen thuộc và sau đó hình dung vị trí của điểm kiểm soát dựa trên thông tin bản đồ có thể trước chuyến thăm thực tế đến khu vực đó. Thông thường, khi thảo luận về vị trí của một trạm kiểm soát hoặc một phần của bản đồ, người ta có thể nghe thấy từ người định hướng "đây không phải là điều tôi mong đợi." Một phương pháp khác được một số người định hướng sử dụng là thực hành trên địa hình quen thuộc, làm việc trên bản đồ của một khu vực khác và cố gắng hình dung các đặc điểm của địa hình không quen thuộc trong khi chạy. Điều này có vẻ khá kỳ lạ, nhưng nó là một bài tập tập trung rất tốt.

"Họ nói một bức tranh đáng giá ngàn lời nói, và đó là sự thật, nhưng với điều kiện bức tranh đó phải đẹp." Bowman

Với sự gia tăng lượng dữ liệu tích lũy, ngay cả khi sử dụng các thuật toán Khai phá dữ liệu linh hoạt và mạnh mẽ tùy ý, việc "tiêu hóa" và diễn giải kết quả ngày càng trở nên khó khăn hơn. Và, như bạn đã biết, một trong những quy định của Khai phá dữ liệu là tìm kiếm các mẫu thực tế hữu ích. Một mẫu có thể trở nên hữu ích thực tế chỉ khi nó có thể được hiểu và hiểu.

Năm 1987, theo sáng kiến ​​của Ủy ban Kỹ thuật Đồ họa Máy tính ACM SIGGRAPH IEEE của Hiệp hội Máy tính, do nhu cầu sử dụng các phương pháp, công cụ và công nghệ dữ liệu mới, các nhiệm vụ tương ứng của hướng trực quan hóa đã được đưa ra.

Các phương pháp trình bày trực quan hoặc đồ họa dữ liệu bao gồm đồ thị, biểu đồ, bảng, báo cáo, danh sách, sơ đồ khối, bản đồ, v.v.

Trực quan từ trước đến nay được xem như một biện pháp hỗ trợ cho việc phân tích dữ liệu, nhưng giờ đây, nhiều nghiên cứu hơn đang cho thấy vai trò của nó theo đúng nghĩa của nó.

Các kỹ thuật hình ảnh truyền thống có thể được sử dụng theo những cách sau:

trình bày thông tin cho người dùng dưới dạng trực quan;

mô tả ngắn gọn các mẫu vốn có trong tập dữ liệu gốc;

giảm thứ nguyên hoặc nén thông tin;

sửa chữa các khoảng trống trong tập dữ liệu;

tìm tiếng ồn và ngoại lệ trong tập dữ liệu.

Trực quan hóa các công cụ khai thác dữ liệu

Mỗi thuật toán Khai phá dữ liệu sử dụng một cách tiếp cận trực quan hóa cụ thể. Trong các bài giảng trước, chúng ta đã xem xét một số phương pháp Khai phá dữ liệu. Trong quá trình sử dụng từng phương pháp, hay nói đúng hơn là việc triển khai phần mềm của nó, chúng tôi đã nhận được một số trình trực quan hóa, với sự trợ giúp của chúng, chúng tôi có thể diễn giải kết quả thu được là kết quả của công việc của các phương pháp và thuật toán tương ứng.

Đối với cây quyết định, đây là trình trực quan hóa cây quyết định, danh sách các quy tắc, bảng dự phòng.

Đối với mạng nơ-ron, tùy thuộc vào công cụ, đây có thể là cấu trúc liên kết của mạng, biểu đồ về sự thay đổi độ lớn của lỗi, thể hiện quá trình học tập.

Đối với bản đồ Kohonen: lối vào, lối ra, các bản đồ cụ thể khác.

Đối với hồi quy tuyến tính, trực quan hóa là đường hồi quy.

Đối với phân cụm: dendrograms, scatterplots.

Các lô và đồ thị phân tán thường được sử dụng để đánh giá hiệu suất của một phương pháp.

Tất cả các cách thể hiện hoặc hiển thị dữ liệu một cách trực quan này có thể thực hiện một trong các chức năng sau:

là một minh họa về việc xây dựng một mô hình (ví dụ, một biểu diễn cấu trúc (đồ thị) của mạng nơ-ron);

giúp giải thích kết quả;

là phương tiện đánh giá chất lượng của mô hình đã xây dựng;

kết hợp các chức năng được liệt kê ở trên (cây quyết định, dendrogram).

Trực quan hóa các mô hình khai thác dữ liệu

Thực tế, chức năng đầu tiên (minh họa cho việc xây dựng mô hình) là một hình ảnh hóa của mô hình Khai phá dữ liệu. Có nhiều cách khác nhau để trình bày mô hình, nhưng biểu diễn bằng đồ họa mang lại cho người dùng "giá trị" tối đa. Người dùng, trong hầu hết các trường hợp, không phải là một chuyên gia về mô hình hóa, hầu hết anh ta là một chuyên gia trong lĩnh vực chủ đề của mình. Do đó, mô hình Khai phá dữ liệu nên được trình bày bằng ngôn ngữ tự nhiên nhất cho nó, hoặc ít nhất chứa một số lượng tối thiểu các yếu tố toán học và kỹ thuật khác nhau.

Do đó, tính khả dụng là một trong những đặc điểm chính của mô hình Khai phá dữ liệu. Mặc dù vậy, cũng có một cách phổ biến và đơn giản nhất để biểu thị một mô hình là "hộp đen". Trong trường hợp này, người dùng không hiểu hành vi của mô hình anh ta đang sử dụng. Tuy nhiên, bất chấp sự hiểu lầm, anh ta nhận được kết quả - các mô hình được tiết lộ. Một ví dụ cổ điển của mô hình như vậy là mô hình mạng nơ-ron.

Một cách khác để trình bày một mô hình là trình bày nó một cách trực quan, dễ hiểu. Trong trường hợp này, người dùng thực sự có thể hiểu những gì đang xảy ra "bên trong" mô hình. Có như vậy mới đảm bảo được sự tham gia trực tiếp của anh ta vào quá trình.

Các mô hình như vậy cung cấp cho người dùng cơ hội thảo luận hoặc giải thích logic của nó với đồng nghiệp, khách hàng và những người dùng khác.

Hiểu mô hình dẫn đến hiểu nội dung của nó. Kết quả của sự hiểu biết, niềm tin vào mô hình tăng lên. Ví dụ cổ điển là cây quyết định. Cây quyết định được xây dựng thực sự cải thiện sự hiểu biết về mô hình, tức là đã sử dụng công cụ khai thác dữ liệu.

Ngoài sự hiểu biết, những mô hình như vậy cung cấp cho người dùng cơ hội tương tác với mô hình, đặt câu hỏi và nhận được câu trả lời. Một ví dụ về sự tương tác như vậy là cơ sở "điều gì sẽ xảy ra nếu". Thông qua hộp thoại hệ thống-người dùng, người dùng có thể hiểu được mô hình.

Bây giờ chúng ta hãy chuyển sang các chức năng giúp diễn giải và đánh giá kết quả của việc xây dựng các mô hình Khai phá dữ liệu. Đây là tất cả các loại đồ thị, biểu đồ, bảng, danh sách, v.v.

Ví dụ về các công cụ trực quan có thể được sử dụng để đánh giá chất lượng của mô hình là biểu đồ phân tán, bảng dự phòng, biểu đồ về sự thay đổi giá trị lỗi.

Scatterplot là biểu đồ độ lệch của các giá trị được dự đoán bởi mô hình so với giá trị thực. Các biểu đồ này được sử dụng cho số lượng liên tục. Chỉ có thể đánh giá trực quan chất lượng của mô hình đã xây dựng khi kết thúc quá trình xây dựng mô hình.

Bảng dữ liệu thống kê dùng để đánh giá kết quả phân loại. Các bảng như vậy được sử dụng cho các phương pháp phân loại khác nhau. Chúng tôi đã sử dụng chúng trong các bài giảng trước. Việc đánh giá chất lượng của mô hình đã xây dựng chỉ có thể thực hiện khi kết thúc quá trình xây dựng mô hình.

Biểu đồ về sự thay đổi mức độ của lỗi. Biểu đồ thể hiện sự thay đổi giá trị lỗi trong quá trình vận hành mô hình. Ví dụ, trong quá trình hoạt động của mạng nơ-ron, người dùng có thể quan sát sự thay đổi của lỗi trên các tập huấn luyện và kiểm tra và dừng huấn luyện để ngăn mạng "đào tạo lại". Ở đây có thể đánh giá trực tiếp việc đánh giá chất lượng của mô hình và những thay đổi của nó trong quá trình xây dựng mô hình.

Ví dụ về các công cụ trực quan giúp giải thích kết quả là: đường xu hướng trong hồi quy tuyến tính, bản đồ Kohonen, biểu đồ phân tán trong phân tích cụm.

Phương pháp hình ảnh

Các phương pháp trực quan, tùy thuộc vào số lượng phép đo được sử dụng, thường được phân thành hai nhóm:

trình bày dữ liệu trong một, hai và ba chiều;

biểu diễn dữ liệu trong bốn chiều trở lên.

Biểu diễn dữ liệu trong một, hai và ba chiều

Nhóm phương pháp này bao gồm các cách hiển thị thông tin nổi tiếng có sẵn cho trí tưởng tượng của con người. Hầu hết mọi công cụ Khai thác dữ liệu hiện đại đều bao gồm các biểu diễn trực quan từ nhóm này.

Theo số thứ nguyên xem, đây có thể là những cách sau:

thứ nguyên đơn biến, hoặc 1-D;

phép đo lưỡng biến, hoặc 2D;

phép đo ba chiều hoặc phép chiếu, hoặc 3D.

Cần lưu ý rằng mắt người nhận thức một cách tự nhiên nhất các biểu diễn thông tin hai chiều.

Khi sử dụng biểu diễn thông tin hai và ba chiều, người dùng có cơ hội xem các mẫu của tập dữ liệu:

cấu trúc cụm của nó và sự phân bố các đối tượng thành các lớp (ví dụ, trong một biểu đồ phân tán);

các tính năng tôpô;

sự hiện diện của các xu hướng;

thông tin về vị trí tương đối của dữ liệu;

sự tồn tại của các phụ thuộc khác vốn có trong tập dữ liệu đang nghiên cứu.

Nếu tập dữ liệu có nhiều hơn ba thứ nguyên, thì các tùy chọn sau có thể thực hiện được:

việc sử dụng các phương pháp đa chiều để trình bày thông tin (chúng sẽ được thảo luận dưới đây);

giảm kích thước thành biểu diễn một, hai hoặc ba chiều. Có nhiều cách khác nhau để giảm thứ nguyên, một trong số chúng - phân tích nhân tố - đã được xem xét trong một trong những bài giảng trước đây. Để giảm kích thước và đồng thời trực quan hóa thông tin trên bản đồ hai chiều, bản đồ tự tổ chức của Kohonen được sử dụng.

Biểu diễn dữ liệu trong 4 thứ nguyên trở lên

Sự thể hiện thông tin trong bốn chiều và nhiều chiều hơn là không thể tiếp cận được đối với nhận thức của con người. Tuy nhiên, các phương pháp đặc biệt đã được phát triển để cho phép một người hiển thị và nhận thức những thông tin đó.

Các cách biểu diễn thông tin đa chiều nổi tiếng nhất:

tọa độ song song;

∙ "Khuôn mặt của Chernov";

biểu đồ cánh hoa.

Tọa độ song song

Trong tọa độ song song, các biến được mã hóa theo chiều ngang, đường thẳng đứng xác định giá trị của biến. Ví dụ về tập dữ liệu được trình bày dưới dạng tọa độ Descartes và tọa độ song song được đưa ra trong hình. 16.1. Phương pháp biểu diễn dữ liệu đa chiều này được phát minh bởi Alfred Inselberg vào năm 1985.