Биографии Характеристики Анализ

Преимущества визуальной формы представления информации. Способы визуального представления данных

2.1. Преимущества визуальной формы представления информации

Вербальный язык и вербальные категории содержат крайне примитивные средства для того, чтобы строить пространство, интерпретировать его или производить с ним какие-то действия. Этой цели служат язык образов и система перцептивных действий, с помощью которых человек строит образ окружающей действительности и ориентируется в ней. Эта система называется восприятием. Восприятие определяется как целостный образ, отражающий единство структуры и свойств объекта. Объектами зрительного восприятия служат предметы, процессы и явления окружающего мира, которые можно расчленить и описать в категориях пространства, движения, формы, текс­туры, цвета, яркости и т. п. При восприятии предметов образ более или менее полно отражает объект или ситуацию, в которой находится человек.

Образы, созданные на основе визуального восприятия, обладают большей, чем слова, ассоциативной силой. Возможно, поэтому они прекрасно хранятся в памяти. Даже после однократного просмотра нескольких тысяч картин наблюдатели способны правильно опознать из них около 90 %. Зрительный образ весьма пластичен. Это свойство проявляется в том, что в плане образа возможен быстрый переход от обобщенной оценки ситуации к подробному анализу ее элементов. Возможны различного рода перемещения отраженных в образе объектов, их сдвиги, повороты, а также увеличение, уменьшение, перспективные искажения и нормализация. Эта своеобразная манипулятивная способность зрительной системы позволяет представить ситуацию как в прямой, так и в обратной перспективе. Манипуляции образами, их достраивание – важнейшие средства продуктивного восприятия и визуального мышления.

Многие исследования свидетельствуют о том, что в зрительной системе имеются механизмы, обеспечивающие рождение нового образа. Благодаря им человек способен видеть мир не только таким, каким он существует в действительности, но и таким, каким он может (или должен) быть. Это означает, что зрительные образы являются необходимым условием, даже более того – орудием мыслительной деятельности. Они связаны более непосредственно по сравнению с символами и речью, с окружающей человека предметной действительностью. Образ – это не только и не столько созерцание, сколько воссоздание действительности. Она, эта действительность, может воссоздаваться в той форме (или близкой к ней), в которой объект реально существует. Но возможны также и деструкция объекта, ситуации и воссоздание ее нового варианта или вариантов. На основе этого измененного по сравнению с реальностью образа человек вновь обращается к предметной действительности и перестраивает ее в своей практической деятельности. невозможно подготовить творчески мыслящего специалиста без развития у него образного представления, воображения и мышления. Ощутимую пользу в этом деле оказывает универсальный аппарат проекционного схематизма. Один из важнейших инструментов проекционного моделирования, служащих для формирования пространственных представлений, – это геометрическая интерпретация. Объектами интерпретации являются графические модели в виде комбинации чертежей, схем, текста, диаграмм и т. п. Графические модели предполагают отображение информации в виде набора средств графического представления информации: линий, символов, мнемонических знаков, используемых в соответствии с правилами построения графических моделей. При восприятии информации в таком виде необходим выход в более высокое по размерности операционное пространство, чем при восприятии текста. Степень точности при сопоставлении информационного объекта с его моделью зависит от полноты сведений о проекционном аппарате, который имел место при моделировании. На рисунке 2.1 представлена одна из возможных классификаций графических моделей. Пиктографическая модель – графическая модель, составленная с использованием условных графических изображений (пиктограмм), обозначающих предметы, действия или события. Идеографическая модель – графическая модель, составленная с использованием идеограмм – условных письменных знаков, обозначающих понятия.

Вопрос эффективности передачи и усвоения информации является одним из главных на протяжении последних десятилетий. Основным средством коммуникации в мире в начале ХХI века служит визуализация (визуальная форма передачи) информации. Наибольшее количество информации (примерно 80–90 %) человек воспринимает визуально. «Доминирующее значение зрительной системы для человека объясняется тем, что она является самым мощным источником информации о внешнем мире, обладает наибольшей дальномерностью и стереоскопичностью сенсорных функций» .

Эффективность, преимущество графического способа передачи информации, по сравнению с двигательным или звуковым (рисунок 2.2), состоит в том, что зрительное восприятие человеком передаваемой информации и создание им мысленного образа происходят настолько быстро, что человек этот процесс воспринимает как «мгновенный». Этим объясняется эффект одновременности, или симультанности, основанный на свойстве человечес кого восприятия информации: создаваемые мысленные образы при восприятии информации и передаваемые графические модели очень близки по форме.

С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений DM - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.

Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Традиционные методы визуализации могут находить следующее применение:

представлять пользователю информацию в наглядном виде;

компактно описывать закономерности, присущие исходному набору данных;

снижать размерность или сжимать информацию;

восстанавливать пробелы в наборе данных;

находить шумы и выбросы в наборе данных.

Методы визуализации

Методы визуализации, в зависимости от количества используемых измерений, принято

классифицировать на две группы :

представление данных в одном, двух и трех измерениях;

представление данных в четырех и более измерениях.

Представление данных в 4 + измерениях

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.

Наиболее известные способы многомерного представления информации:

параллельные координаты;

"лица Чернова";

лепестковые диаграммы.

Представление пространственных характеристик

Отдельным направлением визуализации является наглядное представление

пространственных характеристик объектов. В большинстве случаев такие средства выделяют на карте отдельные регионы и обозначают их различными цветами в зависимости от значения анализируемого показателя.



Карта представлена в видеграфического интерфейса, отображающего данные в виде трехмерного ландшафтапроизвольно определенных и позиционированных форм (столбчатых диаграмм, каждая синдивидуальными высотой и цветом). Такой способ позволяет наглядно показыватьколичественные и реляционные характеристики пространственно-ориентированных

данных и быстро идентифицировать в них тренды.

Процесс Data Mining. Анализ предметной области. Постановка задачи. Подготовка данных.

Процесс Data Mining. Начальные этапы

Процесс DM является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.

Процесс DM неразрывно связан с процессом принятия решений.

Процесс DM строит модель, а в процессе принятия решений эта модель эксплуатируется.

Рассмотрим традиционный процесс DM. Он включает следующие этапы:

анализ предметной области;

постановка задачи;

подготовка данных;

построение моделей;

проверка и оценка моделей;

выбор модели;

применение модели;

коррекция и обновление модели.

В этой лекции мы подробно рассмотрим первые три этапа процесса Data Mining,

остальные этапы будут рассмотрены в следующей лекции.

Этап 1. Анализ предметной области

Исследование - это процесс познания определенной предметной области, объекта или явления с определенной целью.

Процесс исследования заключается в наблюдении свойств объектов с целью выявления и оценки важных, с точки зрения субъекта-исследователя, закономерных отношений между показателями данных свойств.

Решение любой задачи в сфере разработки программного обеспечения должно начинаться с изучения предметной области.

Предметная область - это мысленно ограниченная область реальной действительности, подлежащая описанию или моделированию и исследованию.

Предметная область состоит из объектов, различаемых по свойствам и находящихся в определенных отношениях между собой или взаимодействующих каким-либо образом.

Предметная область - это часть реального мира, она бесконечна и содержит как

существенные, так и не значащие данные, с точки зрения проводимого исследования.

Исследователю необходимо уметь выделить существенную их часть. Например, при решении задачи "Выдавать ли кредит?" важными являются все данные про частную жизнь клиента, вплоть до того, имеет ли работу супруг, есть ли у клиента несовершеннолетние дети, каков уровень его образования и т.д. Для решения другой задачи банковской деятельности эти данные будут абсолютно неважны. Существенность данных, таким образом, зависит от выбора предметной области.

Методы мысленного отображения и визуального представления часто являются основой стратегии ориентирования при интерпретации карты. Некоторым это дается легко, другим труднее, хотя с опытом навыки улучшаются. Описание картины в виде написанного текста, связанное с определенным видом спорта, часто используется, чтобы помочь участникам создать яркий образ. Это позволяет им построить соответствующие преодолевающие стратегии для потенциально трудных ситуаций окружающей среды. Описание местности часто используется в ориентировании как часть технической тренировки. Например, тренер или другой человек просит, чтобы oриентировщик представил, а затем устно описал местоположение КП или основные ориентиры маленького участка карты. Местоположение КП на вершине холмика, который имеет маленькие болота к северо-востоку и юго-западу. Длинный отрог тянется на запад, а меньшие холмики расположены к северо-востоку, востоку и юго-западу. На котором холмике стоит КП? Аналогично ориентировщик мог бы выслушать описание маленького участка карты или местоположения КП, а затем попробовать воспроизвести устное описание: Холм в виде сосиски имеет две вершины, по одной в каждом конце узкого горного хребта, расположенного в восточно-западном направлении. Горный хребет имеет два холмика, создающих седловину на равном расстоянии от вершин. К северо-западу от седловины круто спускается долина. Восточная вершина выше, чем западная и имеет крутой склон на востоке, большой широкий отрог, убегающий на север и пологий склон на юге. Западная вершина имеет пологий склон на севере и западе и длинный тонкий отрог, лежащий к югу. Оба эти способа помогают развить визуальное представление. Навыки визуального представления фундаментальны для ориентирования. Способность представить местоположение КП или определенную область карты должна улучшиться с опытом. Практика, однако, не должна ограничиваться тренировкой или участием в соревнованиях. Существуют другие возможности для практики, как в помещении, так и на улице. Например, постепенное изучение карт знакомых и незнакомых областей и затем визуальное представление местоположения КП, основанное на информации карты, может предшествовать фактическому посещению местности. Очень часто во время обсуждения местоположения КП или участка карты можно услышать от ориентировщика "это не было то, что я ожидал". Другой способ, используемый некоторыми oриентировщиками, заключается в том, чтобы, тренируясь на знакомом ландшафте, работать с картой другой территории и на бегу пытаться представить характерные черты незнакомого ландшафта. Это может показаться довольно причудливым, но это очень хорошее упражнение на концентрацию.

"Говорят, один рисунок стоит тысячи слов, и это действительно так, но при условии, что рисунок хороший." Боумена

С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений Data Mining - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.

В 1987 году по инициативе ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics, в связи с необходимостью использования новых методов, средств и технологий данных, были сформулированы соответствующие задачи направления визуализации.

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.

Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Традиционные методы визуализации могут находить следующее применение:

представлять пользователю информацию в наглядном виде;

компактно описывать закономерности, присущие исходному набору данных;

снижать размерность или сжимать информацию;

восстанавливать пробелы в наборе данных;

находить шумы и выбросы в наборе данных.

Визуализация инструментов Data Mining

Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В предыдущих лекциях мы рассмотрели ряд методов Data Mining. В ходе использования каждого из методов, а точнее, его программной реализации, мы получали некие визуализаторы, при помощи которых нам удавалось интерпретировать результаты, полученные в результате работы соответствующих методов и алгоритмов.

Для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности.

Для нейронных сетей в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.

Для карт Кохонена: карты входов, выходов, другие специфические карты.

Для линейной регрессии в качестве визуализатора выступает линия регрессии.

Для кластеризации: дендрограммы, диаграммы рассеивания.

Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода.

Все эти способы визуального представления или отображения данных могут выполнять одну из функций:

являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);

помогают интерпретировать полученный результат;

являются средством оценки качества построенной модели;

сочетают перечисленные выше функции (дерево решений, дендрограмма).

Визуализация Data Mining моделей

Первая функция (иллюстрация построения модели), по сути, является визуализацией Data Mining модели. Существует много различных способов представления моделей, но графическое ее представление дает пользователю максимальную "ценность". Пользователь, в большинстве случаев, не является специалистом в моделировании, чаще всего он эксперт в своей предметной области. Поэтому модель Data Mining должна быть представлена на наиболее естественном для него языке или, хотя бы, содержать минимальное количество различных математических и технических элементов.

Таким образом, доступность является одной из основных характеристик модели Data Mining. Несмотря на это, существует и такой распространенный и наиболее простой способ представления модели, как "черный ящик". В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако, несмотря на непонимание, он получает результат - выявленные закономерности. Классическим примером такой модели является модель нейронной сети.

Другой способ представления модели - представление ее в интуитивном, понятном виде. В этом случае пользователь действительно может понимать то, что происходит "внутри" модели. Таким образом, можно обеспечить его непосредственное участие в процессе.

Такие модели обеспечивают пользователю возможность обсуждать ее логику с коллегами, клиентами и другими пользователями, или объяснять ее.

Понимание модели ведет к пониманию ее содержания. В результате понимания возрастает доверие к модели. Классическим примером является дерево решений. Построенное дерево решений действительно улучшает понимание модели, т.е. используемого инструмента Data Mining.

Кроме понимания, такие модели обеспечивают пользователя возможностью взаимодействовать с моделью, задавать ей вопросы и получать ответы. Примером такого взаимодействия является средство "что, если". При помощи диалога "системапользователь" пользователь может получить понимание модели.

Теперь перейдем к функциям, которые помогают интерпретировать и оценить результаты построения Data Mining моделей. Это всевозможные графики, диаграммы, таблицы, списки и т.д.

Примерами средств визуализации, при помощи которых можно оценить качество модели, являются диаграмма рассеивания, таблица сопряженности, график изменения величины ошибки.

Диаграмма рассеивания представляет собой график отклонения значений, прогнозируемых при помощи модели, от реальных. Эти диаграммы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по окончанию процесса построения модели.

Таблица сопряженности используется для оценки результатов классификации. Такие таблицы применяются для различных методов классификации. Они уже использовались нами в предыдущих лекциях. Оценка качества построенной модели возможно только по окончанию процесса построения модели.

График изменения величины ошибки . График демонстрирует изменение величины ошибки в процессе работы модели. Например, в процессе работы нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и остановить обучение для недопущения "переобучения" сети. Здесь оценка качества модели и его изменения может оцениваться непосредственно в процессе построения модели.

Примерами средств визуализации, которые помогают интерпретировать результат, являются: линия тренда в линейной регрессии, карты Кохонена, диаграмма рассеивания в кластерном анализе.

Методы визуализации

Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы :

представление данных в одном, двух и трех измерениях;

представление данных в четырех и более измерениях.

Представление данных в одном, двух и трех измерениях

К этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы.

В соответствии с количеством измерений представления это могут быть следующие способы:

одномерное (univariate) измерение, или 1-D;

двумерное (bivariate) измерение, или 2-D;

трехмерное или проекционное (projection) измерение, или 3-D.

Следует заметить, что наиболее естественно человеческий глаз воспринимает двухмерные представления информации.

При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных:

его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания);

топологические особенности;

наличие трендов;

информацию о взаимном расположении данных;

существование других зависимостей, присущих исследуемому набору данных.

Если набор данных имеет более трех измерений, то возможны такие варианты:

использование многомерных методов представления информации (они рассмотрены ниже);

снижение размерности до одно-, двухили трехмерного представления. Существуют различные способы снижения размерности, один из них - факторный анализ - был рассмотрен в одной из предыдущих лекций. Для снижения размерности и одновременного визуального представления информации на двумерной карте используются самоорганизующиеся карты Кохонена.

Представление данных в 4 + измерениях

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.

Наиболее известные способы многомерного представления информации:

параллельные координаты;

∙ "лица Чернова";

лепестковые диаграммы.

Параллельные координаты

В параллельных координатах переменные кодируются по горизонтали, вертикальная линия определяет значение переменной. Пример набора данных, представленного в декартовых координатах и параллельных координатах, дан на рис. 16.1 . Этот метод представления многомерных данных был изобретен Альфредом Инселбергом (Alfred Inselberg) в 1985 году.