Статистические методы анализа научных данных. Статистические методы - это что такое? Применение статистических методов

ФЕДЕРАЛЬНОЕ АНЕНСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ЮГОРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

ИНСТИТУТ ДОПОЛНИТЕЛЬНОГО ОБРАЗОВАНИЯ

ПРОФЕССИОНАЛЬНАЯ ПЕРЕПОДГОТОВКА ПО ПРОГРАММЕ

«ГОСУДАРСТВЕННОЕ И МУНИЦИПАЛЬНОЕ УПРАВЛЕНИЕ»

РЕФЕРАТ

По дисциплине: «Статистика»

«Статистические методы исследования»

Выполнила:

Ханты-Мансийск

Введение

1. Методы статистического исследования.

1.1. Метод статистического наблюдения

1.4. Вариационные ряды

1.5. Выборочный метод

1.6. Корреляционный и регрессионный анализ

1.7. Ряды динамики

1.8. Статистические индексы

Заключение

Список использованной литературы

Полная и достоверная статистическая информация является тем необходимым основанием, на котором базируется процесс управления экономикой. Вся информация, имеющая народнохозяйственную значимость, в конечном счете, обрабатывается и анализируется с помощью статистики.

Именно статистические данные позволяют определить объемы валового внутреннего продукта и национального дохода, выявить основные тенденции развития отраслей экономики, оценить уровень инфляции, проанализировать состояние финансовых и товарных рынков, исследовать уровень жизни населения и другие социально-экономические явления и процессы. Овладение статистической методологией - одно из условий познания конъюнктуры рынка, изучения тенденций и прогнозирования, принятия оптимальных решений на всех уровнях деятельности.

Статистическая наука - это отрасль знаний, изучающая явления общественной жизни с их количественной стороны в неразрывной связи с их качественным содержанием в конкретных условиях места и времени. Статистическая практика - это деятельность по сбору, накоплению, обработке и анализу цифровых данных, характеризующих все явления в жизни общества.

Говоря о статистике следует помнить, что цифры в статистике не абстрактные, а выражают глубокий экономический смысл. Каждый экономист должен уметь пользоваться статистическими цифрами, анализировать их, уметь использовать для обоснования своих выводов.

Статистические законы действуют в пределах времени и места, в которых они обнаружены.

Окружающий мир состоит из массовых явлений. Если отдельный факт зависит от законов случая, то масса явлений подчиняется закономерностям. Для обнаружения этих закономерностей используется закон больших чисел.

Для получения статистической информации органы государственной и ведомственной статистики, а также коммерческие структуры проводят различного рода статистические исследования. Процесс статистического исследования включает три основные стадии: сбор данных, их сводка и группировка, анализ и расчет обобщающих показателей.

От того, как собран первичный статистический материал, как он обработан и сгруппирован в значительной степени зависят результаты и качество всей последующей работы, а в конечном итоге при нарушениях могут привести к абсолютно ошибочным выводам.

Сложной, трудоемкой и ответственной является заключительная, аналитическая стадия исследования. На этой стадии рассчитываются средние показатели и показатели распределения, анализируется структура совокупности, исследуется динамика и взаимосвязь между изучаемыми явлениями и процессами.

На всех стадиях исследования статистика использует различные методы. Методы статистики - это особые примы и способы изучения массовых общественных явлений.

На первой стадии исследования применяются методы массового наблюдения, собирается первичный статистический материал. Основное условие - массовость, т.к. закономерности общественной жизни проявляются в достаточно большом массиве данных в силу действия закона больших чисел, т.е. в сводных статистических характеристиках случайности взаимопогашаются.

На второй стадии исследования, когда собранная информация подвергается статистической обработке, используется метод группировок. Применение метода группировок требует непременного условия - качественной однородности совокупности.

На третьей стадии исследования проводится анализ статистической информации с помощью таких методов как метод обобщающих показателей, табличный и графический методы, методы оценки вариации, балансовый метод, индексный метод.

Аналитическая работа должна содержать элементы предвидения, указывать на возможные последствия складывающихся ситуаций.

Руководство статистикой в стране осуществляет Государственный комитет Российской Федерации по статистике. Как федеральный орган исполнительной власти он осуществляет общее руководство статистикой в стране, предоставляет официальную статистическую информацию Президенту, Правительству, Федеральному Собранию, федеральным органам исполнительной власти, общественным и международным организациям, разрабатывает статистическую методологию, координирует статистическую деятельность федеральных и региональных организаций исполнительной власти, осуществляет анализ экономико-статистической информации, составляет национальные счета и делает балансовые расчеты.

Система органов статистики в РФ образована в соответствии с административно территориальным делением страны. В республиках, входящих в РФ, имеются Республиканские комитеты. В автономных округах, краях, областях, в Москве и Санкт-Петербурге действуют Государственные комитеты по статистике.

В районах (городах) - управления (отделы) государственной статистики. Кроме государственной существует еще ведомственная статистика (на предприятиях, ведомствах, министерствах). Она обеспечивает внутренние потребности в статистической информации.

Цель данной работы – рассмотреть статистические методы исследования.

1. Методы статистического исследования

Между наукой-статистикой и практикой существует тесная взаимосвязь: статистика использует данные практики, обобщает и разрабатывает методы проведения статистических исследований. В свою очередь в практической деятельности применяются теоретические положения статистической науки для решения конкретных управленческих задач. Знание статистики необходимо современному специалисту для принятия решений в условиях стохастики (когда анализируемые явления подвержены влиянию случайностей), для анализа элементов рыночной экономики, в сборе информации, в связи с увеличением числа хозяйственных единиц и их типов, аудите, финансовом менеджменте, прогнозировании.

Для изучения предмета статистики разработаны и применяются специфические приемы, совокупность которых образует методологию статистики (методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод и др.). Применение в статистике конкретных методов предопределяется поставленными задачами и зависит от характера исходной информации. При этом статистика опирается на такие диалектические категории, как количество и качество, необходимость и случайность, причинность, закономерность, единичное и массовое, индивидуальное и общее. Статистические методы используются комплексно (системно). Это обусловлено сложностью процесса экономико-статистического исследования, состоящего из трех основных стадий: первая - сбор первичной статистической информации; вторая - статистическая сводка и обработка первичной информации; третья - обобщение и интерпретация статистической информации.

Общей методологией изучения статистических совокупностей является использование основных принципов которыми руководствуются в любой науке. К этим принципам, как к своего рода началам относятся следующие:

1. объективность изучаемых явлений и процессов;

2. выявление взаимосвязи и системности в которых проявляется содержание изучаемых факторов;

3. целеполагание, т.е. достижение поставленных целей со стороны исследователя, изучающего соответствующие статистические данные.

Это выражается в получении сведений о тенденциях, закономерностях и возможных последствиях развития изучаемых процессов. Знание закономерностей развития социально-экономических процессов, интересующих общество, имеет важное практическое значение.

К числу особенностей статистического анализа данных следует отнести метод массового наблюдения, научной обоснованности качественного содержания группировок и его результатов, вычисление и анализ обобщенных и обобщающих показателей изучаемых объектов.

Что касается конкретных методов экономической, промышленной или статистики культуры, населения, национального богатства и т.п., то здесь могут быть свои специфические методы сбора, группировки и анализа соответствующих совокупностей (суммы фактов).

В экономической статистике, например, широко применяется балансовый метод как наиболее распространенный метод взаимной увязки отдельных показателей в единой системе экономических связей в общественном производстве. К методам применяемым в экономической статистике также относятся составление группировок, исчисление относительных показателей (процентное соотношение), сравнения, исчисление различных видов средних величин, индексов и т.п.

Метод связующих звеньев состоит в том, что два объемных, т.е. количественных показателя сопоставляются на основе существующего между ними отношения. Например, производительность труда в натуральных показателях и отработанного времени, или объем перевозок в тоннах и средней дальности перевозок в км.

При анализе динамики развития народного хозяйства основным методом выявления этой динамики (движения) является индексный метод, методы анализа временных рядов.

При статистическом анализе основных экономических закономерностей развития народного хозяйства важным методом статистики является вычисление тесноты связей между показателями с помощью корреляционного и дисперсионного анализа и др.

Кроме названных методов широкое распространение получили математико-статистические методы исследования которые расширяются по мере движения масштабов применения ЭВМ и создания автоматизированных систем.

Этапы статистического исследования:

1. Статистическое наблюдение – массовый научно организованный сбор первичной информации об отдельных единицах изучаемого явления.

2. Группировка и сводка материала – обобщение данных наблюдения для получения абсолютных величин (учетно-оценочных показателей) явления.

3. Обработка статистических данных и анализ результатов для получения обоснованных выводов о состоянии изучаемого явления и закономерностях его развития.

Все этапы статистического исследования тесно связаны друг с другом и одинаково важны. Недостатки и ошибки, возникающие на каждой стадии, сказываются на все исследовании в целом. Поэтому правильное использование специальных методов статистической науки на каждом этапе позволяет получить достоверную информацию в результате статистического исследования.

Методы статистического исследования:

1. Статистическое наблюдение

2. Сводка и группировка данных

3. Расчет обобщающих показателей (абсолютные, относительные и средние величины)

4. Статистические распределения (вариационные ряды)

5. Выборочный метод

6. Корреляционно-регрессионный анализ

7. Ряды динамики

Задача статистики – исчисление статистических показателей и их анализ, благодаря чему управляющие органы получают всестороннюю характеристику управляемого объекта, будь то вся национальная экономика или отдельные ее отрасли, предприятия и их подразделения. Управлять социально-экономическими системами нельзя, не располагая оперативной, достоверной и полной статистической информацией.

Статистическое наблюдение - это планомерный, научно-организованный и, как правило, систематический сбор данных о явлениях общественной жизни. Оно осуществляется путем регистрации заранее намеченных существенных признаков с целью получения в дальнейшем обобщающих характеристик этих явлений.

Например, при проведении переписи населения о каждом жителе страны записываются сведения о его поле, возрасте, семейном положении, образовании и др., а затем статистические органы определяют на основе этих сведений численность населения страны, его возрастную структуру, размещение по территории страны, семейный состав и другие показатели.

К статистическому наблюдению предъявляются следующие требования: полнота охвата изучаемой совокупности, достоверность и точность данных, их однообразие и сопоставимость.

Формы, виды и способы статистического наблюдения

Статистическое наблюдение осуществляется в двух формах: отчетность и специально организованное статистическое наблюдение.

Отчетностью называют такую организационную форму статистического наблюдения, при которой сведения поступают в статистические органы от предприятий, учреждений и организаций в виде обязательных отчетов об их деятельности.

Отчетность может быть общегосударственной и внутриведомственной.

Общегосударственная - поступает в вышестоящие органы и в органы государственной статистики. Она необходима для целей обобщения, контроля, анализа и прогнозирования.

Внутриведомственная - используется в Министерствах и ведомствах для оперативных нужд.

Отчетность утверждается Госкомстатом РФ. Отчетность составляется на основании первичного учета. Особенность отчетности в том, что она обязательна, документально обоснована и юридически подтверждена подписью руководителя.

Специально-организованное статистическое наблюдение - наблюдение, организуемое с какой-нибудь особой целью для получения сведений, которых нет в отчетности, или для проверки и уточнения данных отчетности. Это перепись населения, скота, оборудования, всевозможные единовременные учеты. Как, например, бюджетные обследования домашних хозяйств, опросы общественного мнения и т.п.

Виды статистического наблюдения можно сгруппировать по двум признакам: по характеру регистрации фактов и по охвату единиц совокупности.

По характеру регистрации фактов статистическое наблюдение может быть: текущим или систематическим и прерывным .

Текущее наблюдение - это непрерывный учет, например, производства продукции, отпуск материала со склада и т.д., т.е. регистрация осуществляется по мере совершения факта.

Прерывное наблюдение может быть периодическим, т.е. повторяющимся через определенные промежутки времени. Например, перепись скота на 1 января или регистрация цен на рынке на 22 число каждого месяца. Единовременное наблюдение организуется по мере надобности, т.е. без соблюдения периодичности или вообще единожды. Например, изучение общественного мнения.

По охвату единиц совокупности наблюдение может быть сплошным и несплошным.

При сплошном наблюдении обследованию подвергаются все единицы совокупности. Например, перепись населения.

При несплошном наблюдении обследуется часть единиц совокупности. Несплошное наблюдение можно подразделить на подвиды: выборочное, монографическое, метод основного массива.

Выборочное наблюдение - это наблюдение, основанное на принципе случайного отбора. При правильной его организации и проведении выборочное наблюдение дает достаточно достоверные данные об изучаемой совокупности. В некоторых случаях им можно заменить сплошной учет, т.к. результаты выборочного наблюдения с вполне определенной вероятностью можно распространить на всю совокупность. Например, контроль качества продукции, изучение продуктивности скота и т.д. В условиях рыночной экономики сфера применения выборочного наблюдения расширяется.

Монографическое наблюдение - это детальное, глубокое изучение и описание характерных в каком-то отношении единиц совокупности. Оно проводится с целью выявления имеющихся и намечающихся тенденций в развитии явления (выявление недостатков, изучения передового опыта, новых форм организации и т.д.)

Метод основного массива заключается в том, что обследованию подвергается наиболее крупные единицы, которые вместе взятые имеют преобладающий удельный вес в совокупности по основному для данного исследования признаку (признакам). Так при изучении работы рынков в городах обследованию подвергаются рынки крупных городов, где проживает 50% всего населения, а оборот рынков составляет 60% от общего оборота.

По источнику сведений различают непосредственное наблюдение, документальное и опрос.

Непосредственным называют такое наблюдение, при котором сами регистраторы путем замера, взвешивания или подсчета устанавливают факт и производят запись его в формуляре (бланке) наблюдения.

Документальное - предполагает запись ответов на основании соответствующих документов.

Опрос - это наблюдение, при котором ответы на вопросы записываются со слов опрашиваемого. Например, перепись населения.

В статистике сведения об изучаемом явлении могут быть собраны различными способами: отчетным, экспедиционным, самоисчислением, анкетным, корреспондентским.

Сущность отчетного способа заключается в предоставлении отчетов в строго обязательном порядке.

Экспедиционный способ заключается в том, что специально привлеченные и обученные работники записывают сведения в формуляр наблюдения (перепись населения).

При самоисчислении (саморегистрации) формуляры заполняют сами опрашиваемые. Этот способ применяется, например, при изучении маятниковой миграции (передвижения населения от места жительства до места работы и обратно).

Анкетный способ - это сбор статистических данных с помощью специальных вопросников (анкет), рассылаемых определенному кругу лиц или публикуемых в периодической печати. Этот способ применяется очень широко, особенно в различных социологических обследованиях. Однако он имеет большую долю субъективизма.

Сущность корреспондентского способа заключается в том, что статистические органы договариваются с определенными лицами (добровольными корреспондентами), которые берут на себя обязательство вести наблюдение за какими-либо явлениями в установленные сроки и сообщать результаты в статистические органы. Так, например, проводятся экспертные оценки по конкретным вопросам социально-экономического развития страны.

1.2. Сводка и группировка материалов статистического наблюдения

Сущность и задачи сводки и группировки

Сводка - это операция по отработке конкретных единичных фактов, образующих совокупность и собранных в результате наблюдения. В результате сводки множество индивидуальных показателей относящихся к каждой единице объекта наблюдения, превращаются в систему статистических таблиц и итогов, проявляются типические черты и закономерности изучаемого явления в целом.

По глубине и точности обработки различают сводку простую и сложную.

Простая сводка - это операция по подсчету общих итогов, т.е. по совокупности единиц наблюдения.

Сложная сводка - это комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по объекту в целом, оформление результатов в виде статистических таблиц.

Проведение сводки включает следующие этапы:

Выбор группировочного признака;

Определение порядка формирования группы;

Разработка системы показателей для характеристики групп и объекта в целом;

Разработка макетов таблиц для представления результатов сводки.

По форме обработки сводка бывает:

Централизованная (весь первичный материал поступает в одну вышестоящую организацию, например, Госкомстат РФ, и там полностью обрабатывается);

Децентрализованная (обработка собранного материала идет по восходящей линии, т.е. материал подвергается сводке и группировке на каждой ступени).

На практике обычно сочетают обе формы организации сводки. Так, например, при переписи предварительные итоги получают в порядке децентрализованной сводки, а сводные окончательные - в результате централизованной разработки бланков переписи.

По технике выполнения сводка бывает механизированной и ручной.

Группировкой называется расчленение изучаемой совокупности на однородные группы по определенным существенным признакам.

На основе метода группировок решаются центральные задачи исследования, обеспечивается правильное применение других методов статистического и статистико-математического анализа.

Работа по составлению группировок сложная и трудная. Приемы группировок разнообразны, что обусловлено разнообразием группировочных признаков и различными задачами исследования. К основным задачам, решаемым с помощью группировок относятся:

Выделение социально -экономических типов;

Изучение структуры совокупности, структурных сдвигов в ней;

Выявление связи между явлениями и взаимозависимости.

Виды группировок

В зависимости от задач, решаемых с помощью группировок, выделяют 3 типа группировок: типологические, структурные и аналитические.

Типологическая группировка решает задачу выявления социально-экономических типов. При построении группировки этого вида основное внимание должно быть уделено идентификации типов и выбору группировочного признака. Исходят при этом из сущности изучаемого явления. (таблица 2.3).

Структурная группировка решает задачу изучения состава отдельных типических групп по какому-то признаку. Например, распределение постоянного населения по возрастным группам.

Аналитическая группировка позволяет выявить взаимосвязи между явлениями и их признаками, т.е. выявить влияние одних признаков (факторных) на другие (результативные). Взаимосвязь проявляется в том, что с возрастанием факторного признака возрастает или убывает значение результативного признака. В основе аналитической группировки всегда лежит факторный признак, а каждая группа характеризуется средними величинами результативного признака.

Например, зависимость объема розничного товарооборота от величины торговой площади магазина. Здесь факторный (группировочный) признак - торговая площадь, а результативный - средний на 1 магазин объем товарооборота.

По сложности группировка бывает простой и сложной (комбинированной).

В простой группировке в основании один признак, а в сложной - два и более в сочетании (в комбинации). В этом случае сначала группы образуются по одному (основному) признаку, а затем каждая из них делится на подгруппы по второму признаку и т.д.

1.3. Абсолютные и относительные статистические величины

Абсолютные статистические величины

Исходной, первичной формой выражения статистических показателей являются абсолютные величины. Абсолютные величины характеризуют размер явлений в мерах массы, площади, объема, протяженности, времени и т.д.

Индивидуальные абсолютные показатели получаются, как правило, непосредственно в процессе наблюдения в результате замера, взвешивания, подсчета, оценки. В некоторых случаях абсолютные индивидуальные показатели представляют собой разность.

Сводные, итоговые объемные абсолютные показатели получают в результате сводки и группировки.

Абсолютные статистические показатели всегда являются числами именованными, т.е. имеют единицы измерения . Существует 3 типа единиц измерения абсолютных величин: натуральные, трудовые и стоимостные.

Натуральные единицы измерения - выражают величину явления в физических мерах, т.е. мерах веса, объема, протяженности, времени, счета, т.е. в килограммах, кубических метрах, километрах, часах, штуках и т.д.

Разновидностью натуральных единиц являются условно-натуральные единицы измерения , которые используются для сведения воедино нескольких разновидностей одной и той же потребительной стоимости. Одну из них принимают за эталон, а другие пересчитываются с помощью специальных коэффициентов в единицы меры этого эталона. Так, например, мыло с разным содержанием жирных кислот пересчитывают на 40% содержание жирных кислот.

В отдельных случаях для характеристики какого-либо явления одной единицы измерения недостаточно, и используется произведение двух единиц измерения.

Примером может служить грузооборот в тонно-километрах, производство электроэнергии в киловатт-часах и др.

В условиях рыночной экономики наибольшее значение имеют стоимостные (денежные) единицы измерения (рубль, доллар, марка и т.д.). Они позволяют получить денежную оценку любых социально-экономических явлений (объем продукции, товарооборота, национального дохода и т.п.). Однако, следует помнить, что в условиях высоких темпов инфляции показатели в денежной оценке становятся несопоставимыми. Это следует учитывать при анализе стоимостных показателей в динамике. Для достижения сопоставимости показатели необходимо пересчитывать в сопоставимые цены.

Трудовые единицы измерения (человеко-часы, человеко-дни) используются для определения затрат труда на производстве продукции, на выполнение какой-нибудь работы и т.п.

Относительные статистические величины, их сущность и формы выражения

Относительными величинами в статистике называются величины, выражающие количественное соотношение между явлениями общественной жизни. Они получаются в результате деления одной величины на другую.

Величина с которой производится сравнение (знаменатель) называется основанием, базой сравнения; а та, которая сравнивается (числитель) - называется, сравниваемой, отчетной или текущей величиной.

Относительная величина показывает, во сколько раз сравниваемая величина больше или меньше базисной, или какую долю первая составляет от второй; а в отдельных случаях - сколько единиц одной величины приходится на единицу (или на 100, на 1000 и т.д.) другой (базисной) величины.

В результате сопоставления одноименных абсолютных величин получаются отвлеченные неименованные относительные величины, показывающие во сколько раз данная величина больше или меньше базисной. В этом случае базисная величина принимается за единицу (в результате получается коэффициент ).

Кроме коэффициента широко распространенной формой выражения относительных величин являются проценты (%). В этом случае базисная величина принимается за 100 единиц.

Относительные величины могут выражаться в промилле (‰), в продецимилле (0 / 000). В этих случаях база сравнения принимается соответственно за 1 000 и за 10 000. В отдельных случаях база сравнения может быть принята и за 100 000.

Относительные величины могут быть числами именованными. Ее наименование представляет собой сочетание наименований сравниваемого и базисного показателей. Например, плотность населения чел/кв. км (сколько человек приходится на 1 квадратный километр).

Виды относительных величин

Виды относительных величин подразделяются в зависимости от их содержания. Это относительные величины: планового задания, выполнения плана, динамики, структуры, координации, интенсивности и уровня экономического развития, сравнения.

Относительная величина планового задания представляет собой отношение величины показателя, устанавливаемой на планируемый период к величине его, достигнутой к планируемому периоду.

Относительной величиной выполнения плана называется величина, выражающая соотношение между фактическим и плановым уровнем показателя.

Относительная величина динамики представляет собой отношение уровня показателя за данный период к уровню этого же показателя в прошлом.

Три вышеперечисленные относительные величины связаны между собой, а именно: относительная величина динамики равна произведению относительных величин планового задания и выполнения плана.

Относительная величина структуры представляет собой отношение размеров части к целому. Она характеризует структуру, состав той или иной совокупности.

Эти же величины в процентах называют удельным весом.

Относительной величиной координации называют соотношение частей целого между собой. В результате получают, во сколько раз данная часть больше базисной. Или сколько процентов от нее составляет или сколько единиц данной структурной части приходится на 1 единицу (100 или 1000 и т.д. единиц) базисной структурной части.

Относительная величина интенсивности характеризует развитие изучаемого явления или процесса в другой среде. Это отношение двух взаимосвязанных явлений, но разных. Оно может быть выражено и в процентах, и в промилле, и продецемилле, и именованной. Разновидностью относительной величины интенсивности является показатель уровня экономического развития , характеризующий производство продукции на душу населения.

Относительная величина сравнения представляет собой соотношение одноименных абсолютных показателей по разным объектам (предприятиям, районам, областям, странам и т.д.). Он может быть выражен как в коэффициентах, так и в процентах.

Средние величины их сущность и виды

Статистика, как известно, изучает массовые социально-экономические явления. Каждое из этих явлений может иметь различное количественное выражение одного и того же признака. Например, заработная плата одной и той же профессии рабочих или цены на рынке на один и тот же товар и т.д.

Для изучения какой-либо совокупности по варьирующим (количественно изменяющимся) признакам статистика использует средние величины.

Средняя величина - это обобщающая количественная характеристика совокупности однотипных явлений по одному варьирующему признаку.

Важнейшее свойство средней величины заключается в том, что она представляет значение определенного признака во всей совокупности одним числом, несмотря на количественные различия его у отдельных единиц совокупности, и выражает то общее, что присуще всем единицам изучаемой совокупности. Таким образом, через характеристику единицы совокупности она характеризует всю совокупность в целом.

Средние величины связаны с законом больших чисел. Суть этой связи заключается в том, что при осреднении случайные отклонения индивидуальных величин в силу действия закона больших чисел взаимопогашаются и в средней выявляется основная тенденция развития, необходимость, закономерность однако, для этого среднюю необходимо вычислять на основе обобщения массы фактов.

Средние величины позволяют сравнивать показатели, относящиеся к совокупностям с различной численностью единиц.

Важнейшим условием научного использования средних величин в статистическом анализе общественных явлений является однородность совокупности, для которой исчисляется средняя. Одинаковая по форме и технике вычисления средняя в одних условиях (для неоднородной совокупности) фиктивная, а в других (для однородной совокупности) соответствует действительности. Качественная однородность совокупности определяется на основе всестороннего теоретического анализа сущности явления. Так, например, при исчислении средней урожайности требуется, чтобы исходные данные относились к одной и той же культуре (средняя урожайность пшеницы) или группе культур (средняя урожайность зерновых). Нельзя вычислять среднюю для разнородных культур.

Математические приемы, используемые в различных разделах статистики, непосредственно связаны с вычислением средних величин.

Средние в общественных явлениях обладают относительным постоянством, т.е. в течение какого-то определенного промежутка времени однотипные явления характеризуются примерно одинаковыми средними.

Средине величины очень тесно связаны с методом группировок, т.к. для характеристики явлений необходимо исчислять не только общие (для всего явления) средние, но и групповые (для типических групп этого явления по изучаемому признаку).

Виды средних величин

От того, в каком виде представлены исходные данные для расчета средней величины, зависит по какой формуле она будет определятся. Рассмотрим наиболее часто применяемые в статистике виды средних величин:

Среднюю арифметическую;

Среднюю гармоническую;

Среднюю геометрическую;

Среднюю квадратическую.

1.4. Вариационные ряды

Сущность и причины вариации

Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для глубокого анализа изучаемого процесса или явления.

Необходимо учитывать и разброс или вариацию значений отдельных единиц, которая является важной характеристикой изучаемой совокупности. Каждое индивидуальное значение признака складывается под совместным воздействием многих факторов. Социально-экономические явления, как правило, обладают большой вариацией. Причины этой вариации содержатся в сущности явления.

Показатели вариации определяют как группируются значения признака вокруг средней величины. Они используются для характеристики упорядоченных статистических совокупностей: группировок, классификаций, рядов распределения. В наибольшей степени вариации подвержены курсы акций, объёмы спроса и предложения, процентные ставки в разные периоды и в разных местах.

Абсолютные и относительные показатели вариации

По смыслу определения вариация измеряется степенью колеблемости вариантов признака от уровня их средней величины, т.е. как разность х-х. На использовании отклонений от средней построено большинство показателей применяемых в статистике для измерения вариаций значений признака в совокупности.

Самым простейшим абсолютным показателем вариации является размах вариации R=xmax-xmin . Размах вариации выражается в тех же единицах измерения, что и Х. Он зависит только от двух крайних значений признака и, поэтому, недостаточно характеризует колеблемость признака.

Абсолютные показатели вариации зависят от единиц измерения признака и затрудняют сравнение двух или нескольких различных вариационных рядов.

Относительные показатели вариации вычисляются как отношение различных абсолютных показателей вариации к средней арифметической. Наиболее распространённым из них является коэффициент вариации.

Коэффициент вариации характеризует колеблемость признака внутри средней. Самые лучшие значения его до 10%, неплохие до 50%, плохие свыше 50%. Если коэффициент вариации не превышает 33%, то совокупность по рассматриваемому признаку можно считать однородной.

1.5. Выборочный метод

Сущность выборочного метода заключается в том, чтобы по свойствам части (выборки) судить о численных характеристиках целого (генеральной совокупности), по отдельным группам вариантов их общей совокупности, которая иногда мыслится как совокупность неограниченно большого объема. Основу выборочного метода составляет та внутренняя связь, которая существует в популяциях между единичным и общим, частью и целым.

Выборочный метод имеет очевидные преимущества перед сплошным изучением генеральной совокупности, так как сокращает объем работы (за счет уменьшения числа наблюдении) позволяет экономить силы и средства, получать информацию о таких совокупностях, полное обследование которых практически невозможно или нецелесообразно.

Опыт показал, что правильно произведенная выборка довольно хорошо представляет или репрезентирует (от лат. represento-представляю) структуру и состояние генеральной совокупности. Однако полного совпадения выборочных данных с данными обработки генеральной совокупности, как правило, не бывает. В этом и заключается недостаток выборочного метода, на фоне которого видны преимущества сплошного описания генеральной совокупности.

В виду неполного отображения выборкой статистических характеристик (параметров) генеральной совокупности перед исследователем возникает важная задача: во-первых, учитывать и соблюдать те условия, при которых выборка наилучшим образом репрезентирует генеральную совокупность, а во-вторых, в каждом конкретном случае устанавливать, с какой уверенностью можно перенести результаты выборочного наблюдения на всю генеральную совокупность, из которой выборка взята.

Репрезентативность выборки зависит от целого ряда условий и прежде всего от того, как она осуществляется, или планомерно (т. е. по заранее намеченной схеме), или путем непланомерного отбора вариант из генеральной совокупности. В любом случае выборка должна быть типичной и вполне объективной. Эти требования должны выполняться неукоснительно как наиболее существенные условия репрезентативности выборки. Прежде чем обрабатывать выборочный материал, его нужно тщательно проверить и освободить выборку от всего лишнего, что нарушает условия репрезентативности. В то же время при образовании выборки нельзя поступать по произволу, включать в ее состав только те варианты, которые кажутся типичными, а все остальные браковать. Доброкачественная выборка должна быть объективной, т. е. производиться без предвзятых побуждений, при исключении субъективных влияний на ее состав. Выполнению этого условия репрезентативности отвечает принцип рендомизации (от англ. rendom-случай), или случайного отбора вариант из генеральной совокупности.

Этот принцип положен в основу теории выборочного метода и должен соблюдаться во всех случаях образования репрезентативной выборочной совокупности, не исключая и случаев планомерного или преднамеренного отбора.

Существуют различные способы отбора. В зависимости от способа отбора различают выборки следующих типов:

Случайная выборка с возвратом;

Случайная выборка без возврата;

Механическая;

Типическая;

Серийная.

Рассмотрим образование случайных выборок с возвратом и без возврата. Если выборка производится из массы изделий (например, из ящика), то после тщательного перемешивания следует брать объекты случайно, т. е. так, что бы они все имели одинаковую вероятность попасть в выборку. Часто для образования случайной выборки элементы генеральной совокупности предварительно номеруются, а каждый номер записывается на отдельной карточке. В результате получается пачка карточек, число которых совпадает с объемом генеральной совокупности. После тщательного перемешивания из этой пачки берут по одной карточке. Объект, имеющий одинаковый номер с карточкой считается попавшим в выборку. При этом возможны два принципиально различных способа образования выборочной совокупности.

Первый способ - вынутая карточка после фиксации ее номера возвращается в пачку, после чего карточки снова тщательно перемешиваются. Повторяя такие выборки по одной карточке, можно образовать выборочную совокупность любого объема. Выборочная совокупность, образованная по такой схеме, получила название случайной выборки с возвратом.

Второй способ - каждая вынутая карточка после ее записи обратно не возвращается. Повторяя по такой схеме выборки по одной карточке, можно получить выборочную совокупность любого заданного объема. Выборочную совокупность, образованную по данной схеме называют случайной выборкой без возврата. Случайная выборка без возврата образуется в том случае, если из тщательно перемешанной пачки сразу берут нужное число карточек.

Однако при большом объеме генеральной совокупности описанный выше способ образования случайной выборки с возвратом и без возврата оказывается очень трудоемким. В этом случае пользуются таблицами случайных чисел, в которых числа расположены в случайном порядке. Доля того, что бы отобрать, например, 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 случайных чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами, если случайное число таблицы окажется больше объема генеральной совокупности, то такое число пропускают.

Заметим, что различие между случайными выборками с возвратом и без возврата стирается, если они составляют незначительную часть большой генеральной совокупности.

При механическом способе образования выборочной совокупности, подлежащие обследованию элементы генеральной совокупности отбираются через определенный интервал. Так, например, если выборка должна составлять 50% генеральной совокупности, то отбирается каждый второй элемент генеральной совокупности. Если выборка десяти процентная, то отбирается каждый десятый ее элемент и т. д.

Следует отметить, что иногда механический отбор может не обеспечить репрезентативной выборки. Например, если отбирается каждый двенадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае необходимо устранить совпадение ритма отбора с ритмом замены резца, для чего следует отбирать хотя бы каждый десятый валик из двенадцати обточенных.

При большом количестве выпускаемой однородной продукции, когда в ее изготовлении принимают участие различные станки, и даже цеха, для образования репрезентативной выборки пользуются типическим способом отбора. В этом случае, генеральную совокупность предварительно разбивают на непересекающиеся группы. Затем из каждой группы, по схеме случайной выборки с возвратом или без возврата отбирают определенной число элементов. Они и образуют выборочную совокупность, которая называется типической.

Пусть, например, выборочным путем исследуется продукция цеха, в котором имеются 10 станков, производящих одну и ту же продукцию. Пользуясь схемой случайной выборки с возвратом или без возврата, отбирают изделия, сначала из продукции, сделанной на первом, затем на втором и т. д. станках. Такой способ отбора позволяет образовать типическую выборку.

Иногда на практике бывает целесообразно пользоваться серийным способом отбора, идея которого заключается в том, что генеральную совокупность разбивают на некоторое количество непересекающихся серий и по схеме случайной выборки с возвратом или без возврата контролируют все элементы лишь отобранных серий. Например, если изделия изготовляются большой группой станков-автоматов, то сплошному обследованию подвергают продукцию только нескольких станков. Серийным отбором пользуются в случае, если обследуемый признак колеблется в различных сериях незначительно.

О том, какому способу отбора следует отдать предпочтение в той или иной ситуации, следует судить, исходя из требований поставленной задачи и условий производства. Заметим, что на практике при составлении выборки часто используют одновременно несколько способов отбора в комплексе.

1.6. Корреляционный и регрессионный анализ

Регрессионный и корреляционный анализы - это эффективные методы, которые разрешают анализировать значительные объемы информации с целью исследования вероятной взаимосвязи двух или больше переменных.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

1.7. Ряды динамики

Понятие о рядах динамики и виды рядов динамики

Рядом динамики называется ряд последовательно расположенных во времени статистических показателей, которые в своем изменении отражают ход развития изучаемого явления.

Ряд динамики состоит из двух элементов: момента или периода времени , которым относятся данные и статистических показателей (уровней) . Оба элемента вместе образуют члены ряда . Уровни ряда обычно обозначают через "y", а период времени - через "t".

По длительности времени, к которым относятся уровни ряда, ряды динамики делятся на моментные и интервальные.

В моментных рядах каждый уровень характеризует явления на момент времени . Например: число вкладов населения в учреждениях сберегательного банка РФ, на конец года.

В интервальных рядах динамики каждый уровень ряда характеризует явление за период времени . Например: производство часов в РФ по годам.

В интервальных рядах динамики уровни ряда можно суммировать и получить общую величину за ряд следующих друг за другом периодов. В моментных рядах эта сумма не имеет смысла.

В зависимости от способа выражения уровней ряда различают ряды динамики абсолютных величин, относительных величин и средних величин.

Ряды динамики могут быть с равным и неравным интервалами. Понятие интервала в моментных и интервальных рядах различные. Интервал моментного ряда - это период времени от одной даты до другой даты, на которые приведены данные. Если это данные о числе вкладов на конец года, то интервал равен от конца одного года, до конца другого года. Интервал интервального ряда - это период времени за который обобщены данные. Если это производство часов по годам, то интервал равен одному году.

Интервал ряда может быть равным и неравным как в моментных, так и в интервальных рядах динамики.

С помощью рядов динамики определяют скорость и интенсивность развития явлений, выявляют основную тенденцию их развития, выделяют сезонные колебания, сравнивают развитие во времени отдельных показателей разных стран, выявляют связи между развивающимися во времени явлениями.

1.8. Статистические индексы

Понятие об индексах

Слово "index" латинское и означает "показатель", "указатель". В статистике под индексом понимается обобщающий количественный показатель, выражающий соотношение двух совокупностей, состоящих из элементов, непосредственно не поддающихся суммированию. Например, объем продукции предприятия в натуральном выражении суммировать нельзя (кроме однородной), а для обобщающей характеристики объема это необходимо. Нельзя суммировать цены на отдельные виды продукции и т.д. Для обобщающей характеристики таких совокупностей в динамике, в пространстве и по сравнению с планом применяются индексы. Кроме сводной характеристики явлений индексы позволяют дать оценку роли отдельных факторов в изменении сложного явления. Индексы используются и для выявления структурных сдвигов в народном хозяйстве.

Индексы рассчитываются как для сложного явления (общие или сводные), так и для отдельных его элементов (индивидуальные индексы).

В индексах, характеризующих изменение явления во времени различают базисный и отчетный (текущий) периоды. Базисный период - это период времени к которому относится величина, принятая за базу сравнения. Обозначается он подстрочным знаком "0". Отчетный период - это период времени, к которому относится величина, подвергающаяся сравнению. Обозначается он подстрочным знаком "1".

Индивидуальные индексы - это обычная относительная величина.

Сводный индекс - характеризует изменение всей сложной совокупности в целом, т.е. состоящей из несуммируемых элементов. Следовательно, чтобы рассчитать такой индекс надо преодолеть несуммарность элементов совокупности.

Это достигается введением дополнительного показателя (соизмерителя). Сводный индекс состоит из двух элементов: индексируемой величины и веса.

Индексируемая величина - это показатель, для которого рассчитывается индекс. Вес (соизмеритель) - это дополнительный показатель вводимый для целей соизмерения индексируемой величины. В сводном индексе в числителе и знаменателе всегда сложная совокупность, выраженная суммой произведений индексируемой величины и веса.

В зависимости от объекта исследования как общие, так и индивидуальные индексы подразделяются на индексы объемных (количественных) показателей (физического объема продукции, посевной площади, численности рабочих и др.) и индексы качественных показателей (цены, себестоимости, урожайности, производительности труда, заработной платы и др.).

В зависимости от базы сравнения индивидуальные и общие индексы могут быть цепными и базисными .

В зависимости от методологии расчета общие индексы имеют две формы: агрегатную и форму среднего индекса.

Правильно проведённый сбор, анализ данных и статистические расчёты позволяют обеспечить заинтересованные структуры и общественность информацией о развитии экономики, о направлении её развития, показать эффективность использования ресурсов, учесть занятость населения и его трудоспособность, определить темпы роста цен и влияние торговли на сам рынок или отдельно взятую сферу.

Список использованной литературы

1. Глинский В.В., Ионин В.Г. Статистический анализ. Учебное пособие.- М.: ФИЛИНЪ, 1998 г.-264 с.

2. Елисеева И.И., Юзбашев М.М. Общая теория статистики. Учебник.-

М.: Финансы и статистика, 1995 г.-368 с.

3. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. Учебник.-М.: ИНФРА-М, 1996 г.-416 с.

4. Костина Л.В. Методика построения статистических графиков. Методическое пособие.- Казань, ТИСБИ, 2000 г.-49 с.

5. Курс социально-экономической статистики: Учебник/под ред. проф. М.Г. Назарова.-М.: Финстатинформ, ЮНИТИ-ДИАНА, 2000 г.-771 с.

6. Общая теория статистики: статистическая методология в изучении коммерческой деятельности: Учебник/под ред. А.А. Спирина, О.Э.Башеной-М.: Финансы и статистика, 1994 г.-296 с.

7. Статистика: курс лекций/ Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др.- Новосибирск,: НГАЭиУ, М.: ИНФРА-М, 1997 г.-310 с.

8. Статистический словарь/ гл.ред. М.А. Королёв.-М.: Финансы и статистика, 1989 г.-623 с.

9. Теория статистики: Учебник/под ред. проф. Шмойловой Р.А.- М.: Финансы и статистика, 1996 г.-464 с.

Наблюдение как начальный этап исследования связано со сбором исходных данных об изучаемом вопросе. Оно свойственно многим наукам. Однако каждая наука имеет свою специфику, отличаясь по своим наблюдениям. Поэтому не всякое наблюдение — статистическое.

Статистическое исследование — это научно организованный по единой программе сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве с регистрацией их наиболее существенных признаков в учетной документации.

Отличительными чертами (спецификой) статистического исследования являются: целенаправленность, организованность, массовость, системность (комплексность), сопоставимость, документированность, контролируемость, практичность.

В целом статистическое исследование должно:

Иметь общественно-полезную цель и всеобщую (государственную) значимость;
Относиться к в конкретных условиях его места и времени;
Выражать статистический вид учета (а не бухгалтерский и не оперативный);
Проводиться по заранее разработанной программе с ее научно обоснованным методологическим и другим обеспечением;
Осуществлять сбор массовых данных (фактов), в которых отражается вся совокупность причинно-следственных и других факторов, разносторонне характеризующих явление;
Регистрироваться в виде учетных документов установленного образца;
Гарантировать отсутствие ошибок наблюдения или же сводить их к возможному минимуму;
Предусматривать определенные критерии качества и способы контроля собранных данных, обеспечивая их достоверность, полноту и содержательность;
Ориентироваться на экономически эффективную технологию сбора и обработки данных;
Быть надежной информационной базой для всех последующих этапов статистического исследования и всех пользователей статистической информацией.

Исследования, не удовлетворяющие этим требованиям, статистическими не являются. Не являются статистическими исследования, например, наблюдения и исследования: матери за играющим ребенком (личный вопрос); зрителей за театральной постановкой (нет учетной документации по зрелищу); научного работника за физико-химическими опытами с их измерениями, расчетами и документальной регистрацией (не массово-общественные данные); врача за больными с ведением медицинских карточек (оперативный учет); бухгалтера за движением денежных средств на банковском счете предприятия (бухгалтерский учет); журналистов за общественной и личной жизнедеятельностью государственных лиц или иных знаменитостей (не предмет статистики).

Множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом статистического исследования.

См.также:

Статистическое наблюдение является первой стадией статистического исследования, представляющий собой научно организованный сбор данных об изучаемых явлениях и процессах общественной жизни.

Этапы статистических операций

Любое статистическое исследования состоит из шести этапов.

Этап 1. Статистическое исследование начинается с формирования первичной статистической информационной базы по выбранному комплексу показателей.

Проведение .
Использование официальных государственных и корпоративных (фирменных) источников.
Использование научных статистических исследований в журналах, газетах, монографиях и т.д.
Использование электронных средств информации (Internet, CD, дискет, и др.).

Этап 2. Первичное обобщение и группировка статистических данных.

, кумуляты (), графики распределения частот (частостей).
Формирование и их первичный анализ. Графический прогноз (с концепцией "оптимист", "пессимист", "реалист").
Расчет моментов К-го порядка (средних, дисперсий, мер скошенности, измерения эксцесса) с целью определения показателей центра расширения , показателей скошенности (асимметрии), показателей эксцесса (островершинности).
Формирование и первичные расчеты сложных статистических показателей (относительных, сводных многоуровневых).
Формирование и первичные расчеты индексных показателей.

Этап 3. Следующий этап статистического исследования включает экономическую интерпретацию первичного обобщения.

и финансовая оценка объекта анализа.
Формирование тревоги (удовлетворения) экономических и финансовых ситуаций.
Предупреждение о приближении к пороговым статистическим значениям в прикладных, как правило, макроэкономических задачах.
Диверсификация первичного статистического обобщения полученных прикладных результатов по иерархии власти, партнерства, бизнеса.

Этап 4. Компьютерный анализ первичных и обобщенных расширенных (объемных) статистических данных.

Анализ вариации расширенных статистических данных.
Анализ динамики расширенных статистических данных.
Анализ связей расширенных статистических данных.
Многомерные сводки и группировки.

Этап 5. Компьютерное прогнозирование по выбранным наиболее важным направлениям.

Метод Наименьших Квадратов (МНК).
Скользящие средние.
Технический анализ.
Представления сводного анализа и вариантов прогноза с рекомендациями о внесении коррективов в управление и инвестиции.

Этап 6. Обобщенный анализ полученных результатов и проверка их на достоверность по статистическим критериям. Этап 7. Завершающим этапом статистического исследования является принятие .

Выделяют пять основных видов статистического анализа, используемых при проведении маркетинговых исследований: дескриптивный анализ, выводной анализ, анализ различий, анализ связей и предсказательный анализ. Иногда эти виды анализа используются по отдельности, иногда - совместно.

В основе дескриптивного анализа лежит использование таких статистических мер, как средняя величина (средняя), мода, среднее квадратическое отклонение, размах или амплитуда вариации.

Анализ, в основе которого лежит использование статистических процедур (например, проверка гипотез) с целью обобщения полученных результатов на всю совокупность, называется выводным анализом.

Анализ различий используется для сравнения результатов исследования двух групп (двух рыночных сегментов) для определения степени реального отличия в их поведении, в реакции на одну и ту же рекламу и т.п.

Анализ связей направлен на определение систематических связей (их направленности и силы) переменных. Например, определение, как увеличение затрат на рекламу влияет на увеличение сбыта.

Предсказательный анализ используется в целях прогнозирования развития событий в будущем, например путем анализа временных рядов. Статистические методы прогнозирования рассмотрены в разделе 7.

Инструменты дескриптивного анализа

Для описания информации, полученной на основе выборочных измерений, широко используется две группы мер. Первая включает меры «центральной тенденции», или меры, которые описывают типичного респондента или типичный ответ. Вторая включает меры вариации, или меры, описывающие степень схожести или несхожести респондентов или ответов с «типичными» респондентами или ответами.

Существуют и другие описательные меры, например меры асимметрии (насколько найденные кривые распределения отличаются от нормальных кривых распределения). Однако они используются не столь часто, как вышеупомянутые, и не представляют особого интереса для заказчика.

Ниже дается только краткая характеристика указанных мер. Более подробную информацию можно получить из книг по математической статистике, например , .

К числу мер центральной тенденции относятся мода, медиана и средняя.

Мода характеризует величину признака, появляющуюся наиболее часто по сравнению с другими величинами данного признака. Мода носит относительный характер, и необязательно, чтобы большинство респондентов указало именно эту величину признака.

Медиана характеризует значение признака, занимающее срединное место в упорядоченном ряду значений данного признака.

Третьей мерой центральной тенденции является средняя величина, которая чаще всего рассчитывается как средняя арифметическая величина. При ее вычислении общий объем признака поровну распределяется между всеми единицами совокупности.

Видно, что степень информативности средней величины больше, чем медианы, а медианы - моды.

Однако рассмотренные меры не характеризуют вариацию ответов на какой-то вопрос или, говоря другими словами, несходство, различие респондентов или измеренных характеристик. Очевидно, что помимо знания величин мер центральной тенденции важно установить, насколько близко к этим величинам расположены остальные полученные оценки. Обычно используют три меры вариации: распределение частот, размах вариации и среднее квадратическое отклонение.

Распределение частот представляет в табличной или графической форме число случаев появления каждого значения измеренной характеристики (признака) в каждом выбранном диапазоне ее значений. Распределение частот позволяет быстро сделать выводы о степени подробности результатов измерений.

Размах вариации определяет абсолютную разность между максимальным и минимальным значениями измеренного признака. Говоря другими словами, это разница между конечными точками в распределении упорядоченных величин измеренного признака. Данная мера определяет интервал распределения значений признака.

Среднее квадратическое отклонение является обобщающей статистической характеристикой вариации значений признака. Если эта мера мала, то кривая распределения имеет узкую, сжатую форму (результаты измерений обладают высокой степенью схожести); если мера велика, то кривая распределения имеет широкий, растянутый вид (велика степень различия оценок).

Ранее было отмечено, что выбор шкалы измерений, а следовательно, типа вопросов в опросном листе предопределяют количество получаемой информации. Подобным образом, количество информации, получаемой при использовании рассмотренных выше мер, является различным. Общим правилом является то, что статистические меры дают возможность получить больше информации при применении наиболее информативных шкал измерений. Выбор шкалы измерений предопределяет выбор статистических мер. Например, один из вопросов демографического исследования, при проведении которого использовалась шкала наименований, касался национальности. Русским был присвоен код 1, украинцам - 2, татарам - 3 и т.д. В данном случае, конечно, можно вычислить среднее значение. Но как интерпретировать среднюю национальность, равную, скажем, 5,67? Для вычисления средних надо использовать интервальную шкалу или шкалу отношений. Однако в нашем примере можно использовать моду.

Что касается мер вариации, то при использовании номинальной шкалы применяется распределение частот, при использовании шкалы порядков - кумулятивное распределение частот, а при использовании интервальной шкалы и шкалы отношений - среднее квадратическое отклонение.

Статистический вывод

Вывод является видом логического анализа, направленного на получение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности.

Выводы делаются на основе анализа малого числа фактов. Например, если два ваших товарища, имеющих одну и ту же марку автомобиля, жалуются на его качество, то вы можете сделать вывод о низком качестве данной марки автомобиля в целом.

Статистический же вывод основан на статистическом анализе результатов выборочных исследований и направлен на оценку параметров совокупности в целом. В данном случае результаты выборочных исследований являются только отправной точкой для получения общих выводов.

Например, автомобилестроительная компания провела два независимых исследования с целью определения степени удовлетворенности потребителей своими автомобилями. Первая выборка включала 100 потребителей, купивших данную модель в течение последних шести месяцев. Вторая выборка включала 1000 потребителей. В ходе телефонного интервьюирования респонденты отвечали на вопрос: «Удовлетворены вы или не удовлетворены купленной вами моделью автомобиля?» Первый опрос выявил 30% неудовлетворенных, второй - 35%.

Поскольку существуют ошибки выборки и в первом и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Для второго случая около 35% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина «около»? Для этого введем показатель ошибки: 30% ± х% и 35% ± у% и сравним х и у. Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потребителей. Видно, что решающим фактором для получения правильных выводов является размер выборки. Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистического вывода.

При проведении маркетинговых исследований чаще всего используются следующие методы статистического вывода: оценка параметров и проверка гипотез.

Оценка параметров генеральной совокупности представляет из себя процесс определения, исходя из данных о выборке, интервала, в котором находится один из параметров генеральной совокупности, например среднее значение. Для этого используют следующие статистические показатели: средние величины, среднюю квадратическую ошибку и желаемый уровень доверительности (обычно 95% или 99%).

Ниже пойдет разговор об их роли при проведении оценки параметров.

Средняя квадратическая ошибка является, как отмечалось выше, мерой вариации выборочного распределения при теоретическом предположении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.

Она определяется по следующей формуле:

Где s x - средняя квадратическая ошибка выборочной средней;

s - среднее квадратическое отклонение от средней величины в выборке;

n - объем выборки.

Если используются процентные меры, выражающие альтернативную изменчивость качественных признаков, то

где s - средняя квадратическая ошибка выборочной средней при использовании процентных мер;

р - процент респондентов в выборке, поддержавших первую альтернативу;

q = (100 - q) - процент респондентов в выборке, поддержавших

вторую альтернативу;

n - объем выборки.

Видно, что средняя ошибка выборки тем больше, чем больше вариация, и тем меньше, чем больше объем выборки.

Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокупности. Предположим, исследователь выбрал уровень доверительности, равный 99%. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z = ± 2,58. Средняя для генеральной совокупности в целом вычисляется по формуле

Если используются процентные меры, то

Это означает, что если вы хотите, чтобы при 99%-ном уровне доверительности диапазон оценок включал истинную для генеральной совокупности оценку, то необходимо умножить среднюю квадратическую ошибку на 2,58 и добавить полученный результат к процентному значению р (верхняя предельная оценка). Если же произвести вычитание данного произведения, то найдем нижнюю предельную оценку.

Как эти формулы связаны со статистическим выводом?

Поскольку производится оценка параметра генеральной совокупности, то здесь указывается диапазон, в который попадает истинное значение параметра генеральной совокупности. С этой целью для выборки берутся статистическая мера центральной тенденции, величина дисперсии и объем выборки. Далее делается предположение об уровне доверительности и рассчитывается диапазон разброса параметра для генеральной совокупности.

Например, для членов выборки (100 читателей какой-то газеты) было установлено, что среднее время чтения газеты составляет 45 минут при средней квадратической ошибке в 20 минут. При уровне доверительности, равном 95%-ном, получим

При 99%-ном уровне доверительности получим

Видно, что доверительный интервал шире для 99% по сравнению с 95%-ным уровнем доверительности.

Если используются проценты и оказалось, что из выборки в 100 человек 50% опрошенных по утрам пьет кофе, то при уровне доверительности в 99% получим следующий диапазон оценок:

Таким образом, логика статистического вывода направлена на получение конечных заключений об изучаемом параметре генеральной совокупности на основе выборочного исследования, осуществленного по законам математической статистики. Если используется простое заключение, не основанное на статистических измерениях, то конечные выводы носят субъективный характер и на основе одних и тех же фактов разные специалисты могут сделать разные выводы.

При использовании статистического вывода используются формулы, носящие объективный характер, в основе которых лежат общепризнанные статистические концепции. В результате конечные выводы носят намного более объективный характер.

В ряде случаев делаются суждения относительно какого-то параметра генеральной совокупности (величине средней, дисперсии, характере распределения, форме и тесноте связи между переменными) исходя только из некоторых предположений, размышлений, интуиции, неполных знаний. Такие суждения называются гипотезами.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки.

Подпроверкой гипотезы понимается статистическая процедура, применяемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими. Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.

Проверка гипотезы проводится в пять этапов:

1. Делается некоторое предположение относительно какой-то характеристики генеральной совокупности, например о средней величине определенного параметра.

2. Формируется случайная выборка, проводится выборочное исследование и определяются статистические показатели выборки.

3. Сравниваются гипотетическое и статистическое значения исследуемой характеристики.

4. Определяется, соответствуют или нет результаты выборочного исследования принятой гипотезе.

5. Если результаты выборочного исследования не подтверждают гипотезу, последняя пересматривается - она должна соответствовать данным выборочного исследования.

Вследствие вариации результатов выборочных исследований невозможно сделать абсолютно точный вывод о достоверности гипотезы, проводя простое арифметическое сравнение величин характеристик. Поэтому статистическая проверка гипотезы включает использование: выборочного значения характеристики, среднего квадратического отклонения, желательного уровня доверительности и гипотетитеского значения характеристики для генеральной совокупности в целом.

Для проверки гипотез о средних величинах применяется следующая формула:

Например, готовя рекламу учебной программы по подготовке торговых агентов в колледже, руководитель программы считал, что выпускники программы получают в среднем 1750 долларов в месяц. Таким образом, гипотетическая средняя для генеральной совокупности равна 1750 долларам. Для проверки данной гипотезы было проведено телефонное обследование торговых агентов разных фирм.

Выборка составила 100 человек, средняя для выборки равнялась 1800 долларам и среднее квадратическое отклонение составляло 350 долларов. Возникает вопрос, является ли большой разница (50 долларов) между гипотетической зарплатой и ее средним значением для выборки. Проводим расчеты по формуле (4.2):

Видно, что средняя квадратическая ошибка средней величины была равна 35 долларам, а частное от деления 50 на 45 составляет 1,43 (нормированное отклонение), что меньше ±1,96 - величины, характеризующей уровень доверительности 95%. В данном случае выдвинутую гипотезу можно признать достоверной.

При использовании процентной меры испытание гипотезы осуществляется следующим образом. Предположим, что, исходя из собственного опыта, один из автолюбителей выдвинул гипотезу, согласно которой только 10% автолюбителей используют ремни безопасности. Однако национальные выборочные исследования 1000 автолюбителей показали, что 80% из них используют ремни безопасности. Расчеты в данном случае проводятся следующим образом:

где р - процент из выборочных исследований;

π H - процент из гипотезы;

s p - средняя квадратическая ошибка при расчетах в процентах.

Видно, что первоначальная гипотеза отличалась от найденных 80% на величину 55,3, умноженную на среднеквадратическую ошибку, т.е. не может быть признана достоверной.

В ряде случаев целесообразно использовать направленные гипотезы. Направленные гипотезы определяет направления возможных значений какого-то параметра генеральной совокупности. Например, заработная плата составляет больше 1750 долларов. В данном случае используется только одна сторона кривой распределения, что находит отражение в применении знаков «+» и «-» в расчетных формулах.

Более детальную информацию по данной проблеме можно получить из .

Здесь, правда, возникает вопрос. Если можно провести выборочные исследования, то зачем выдвигать гипотезы? Обработка результатов выборочных исследований дает возможность получить средние величины и их статистические характеристики, не выдвигая никаких гипотез. Поэтому проверка гипотез скорее применяется в случаях, когда невозможно или чрезвычайно трудоемко проводить полномасштабные исследования и когда требуется сравнивать результаты нескольких исследований (для разных групп респондентов или проведенных в разное время). Такого рода задачи, как правило, возникают в социальной статистике. Трудоемкость статистико-социологических исследований приводит к тому, что почти все они строятся на несплошном учете. Поэтому проблема доказательности выводов в социальной статистике стоит особенно остро.

Применяя процедуру проверки гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «беспристрастным» выборкам, на основе объективных данных.

Анализ различий

Проверка существенности различий заключается в сопоставлении ответов на один и тот же вопрос, полученных для двух или более независимых групп респондентов. Кроме того, в ряде случаев представляет интерес сравнение ответов на два или более независимых вопросов для одной и той же выборки.

Примером первого случая может служить изучение вопроса: что предпочитают пить по утрам жители определенного региона: кофе или чай. Первоначально было опрошено на основе формирования случайной выборки 100 респондентов, 60% которых отдают предпочтение кофе; через год исследование было повторено, и только 40% из 300 опрошенных человек высказалось за кофе. Как можно сопоставить результаты этих двух исследований? Прямым арифметическим путем сравнивать 40% и 60% нельзя из-за разных ошибок выборок. Хотя в случае больших различий в цифрах, скажем, 20 и 80%, легче сделать вывод об изменении вкусов в пользу кофе. Однако если есть уверенность, что эта большая разница обусловлена прежде всего тем, что в первом случае использовалась очень малая выборка, то такой вывод может оказаться сомнительным. Таким образом, при проведении подобного сравнения в расчет необходимо принять два критических фактора: степень существенности различий между величинами параметра для двух выборок и средние квадратические ошибки двух выборок, определяемые их объемами.

Для проверки, является ли существенной разница измеренных средних, используется нулевая гипотеза. Нулевая гипотеза предполагает, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются друг от друга. При этом предполагается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер , .

Для проверки существенности разницы между двумя измеренными средними (процентами) вначале проводится их сравнение, а затем полученная разница переводится в значение среднеквадратических ошибок, и определяется, насколько далеко они отклоняются от гипотетического нулевого значения.

Как только определены среднеквадратические ошибки, становится известной площадь под нормальной кривой распределения и появляется возможность сделать заключение о вероятности выполнения нулевой гипотезы.

Рассмотрим следующий пример. Попытаемся ответить на вопрос: «Есть ли разница в потреблении прохладительных напитков между девушками и юношами?». При опросе был задан вопрос относительно числа банок прохладительных напитков, потребляемых в течение недели. Описательная статистика показала, что в среднем юноши потребляют 9, а девушки 7,5 банок прохладительных напитков. Средние квадратические отклонения, соответственно, составили 2 и 1,2. Объем выборок в обоих случаях составлял 100 человек. Проверка статистически значимой разницы в оценках осуществлялась следующим образом:

где x 1 и x 2 - средние для двух выборок;

s 1 и s 2 - средние квадратические отклонения для двух выборок;

n 1 и n 2 - объем соответственно первой и второй выборки.

Числитель данной формулы характеризует разницу средних. Кроме того, необходимо учесть различие формы двух кривых распределения. Это осуществляется в знаменателе формулы. Выборочное распределение теперь рассматривается как выборочное распределение разницы между средними (процентными мерами). Если нулевая гипотеза справедлива, то распределение разницы является нормальной кривой со средней, равной нулю, и средней квадратической ошибкой, равной 1.

Видно, что величина 6,43 существенно превышает значение ±1,96 (95%-ный уровень доверительности) и ±2,58 (99%-ный уровень доверительности). Это означает, что нулевая гипотеза не является истинной.

На рис. 4.6 приводятся кривые распределения для этих двух сравниваемых выборок и средняя квадратическая ошибка кривой разницы. Средняя квадратическая ошибка средней кривой разницы равна 0. Вследствие большого значения среднеквадратических ошибок вероятность справедливости нулевой гипотезы об отсутствии разницы между двумя средними меньше 0,001.

Основы статистического анализа данных

статистика» биостатистикой» .

1. номинальную;
2. ординальную;
3. интервальную;

выборки

репрезентативной

выборочной рамки простой случайной выборкой интервальная выборка

стратифицированной выборки

кластерная и квотная выборки

нулевой гипотезы

альтернативной гипотезы мощности

доверительной вероятности».

Название: Основы статистического анализа данных
Детальное описание:

После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента. Тем не менее, медицинское образование не дает не только знания статистики, но даже основ высшей математики. Поэтому очень часто можно столкнуться с мнением, что вопросами статобработки в биомедицинских исследованиях должен заниматься только специалист по статистике, а врачу-исследователю следует сосредоточиться на медицинских вопросах своей научной работы. Подобное разделение труда, подразумевающее помощь в анализе данных, вполне оправдано. Однако понимание принципов статистики необходимо хотя бы для того, чтобы избежать некорректной постановки задачи перед специалистом, общение с которым до начала исследования является в такой же степени важным, как и на этапе обработки данных.

Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика» . Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных». В свою очередь, использование статистики в приложении к живому миру называют «биометрией» или «биостатистикой» .

Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.

Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:

1. номинальную;
2. ординальную;
3. интервальную;
4. рациональную (шкалу отношений).

В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия пациента». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).

Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. В медицинской статистике классическим примером порядковой шкалы является градация степеней тяжести заболевания. В данном случае мы можем выстроить тяжесть по возрастанию, но все еще не имеем возможности задать количественные взаимоотношения, т. е. дистанция между значениями, измеренными в ординальной шкале, неизвестна или не имеет значения. Установить порядок следования значений переменной «степень тяжести» легко, но при этом невозможно определить, во сколько раз тяжелое состояние отличается от состояния средней тяжести.

Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.

Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого. Так, повышение температуры тела на 1 градус Цельсия всегда означает увеличение выделяемой теплоты на фиксированное количество единиц. Однако в интервальной шкале есть и положительные и отрицательные величины (нет абсолютного нуля). В связи с этим невозможно сказать, что 20 градусов Цельсия - это в два раза теплее, чем 10. Мы можем лишь констатировать, что 20 градусов настолько же теплее 10, как 30 - теплее 20.

Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения. В медицине большинство рациональных шкал - это концентрации. Например, уровень глюкозы 10 ммоль/л - это в два раза большая концентрация по сравнению с 5 ммоль/л. Для температуры рациональной шкалой является шкала Кельвина, где есть абсолютный ноль (отсутствие тепла).

Следует добавить, что любая количественная переменная может быть непрерывной, как в случае измерения температуры тела (это непрерывная интервальная шкала), или же дискретной, если мы считаем количество клеток крови или потомство лабораторных животных (это дискретная рациональная шкала).

Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.

После того как будет решен вопрос о типе переменной, следует заняться формированием выборки . Выборка - это небольшая группа объектов определенного класса (в медицине - популяция). Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся биомедицинская статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений, ведь при исследованиях на людях важен и этический момент. Мы не можем позволить себе подвергать риску большее количество пациентов, чем это необходимо.

Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной . Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.

Однако перед тем как начать выбор исследуемой группы, следует определиться с необходимостью изучения конкретной популяции. Примером популяции могут быть все пациенты с определенной нозологией или люди трудоспособного возраста и т. д. Так, результаты, полученные для популяции молодых людей призывного возраста, вряд ли удастся экстраполировать на женщин в постменопаузе. Набор характеристик, которые будет иметь изучаемая группа, определяет «обобщаемость» данных исследования.

Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sampling frame). Такой способ называется «простой случайной выборкой ». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка . Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.

Возможен вариант создания так называемой «стратифицированной выборки », которая предполагает, что популяция состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.

Кроме описанных способов формирования групп есть еще кластерная и квотная выборки . Первая используется в случае, когда получение полной информации о выборочной рамке затруднено из-за ее размеров. Тогда выборка формируется из нескольких групп, входящих в популяцию. Вторая - квотная - аналогична стратифицированной выборке, но здесь распределение объектов не соответствует таковому в популяции.

Возвращаясь к объему выборки, следует сказать, что он тесно связан с вероятностью статистических ошибок первого и второго рода. Статистические ошибки могут быть обусловлены тем, что в исследовании изучается не вся популяция, а ее часть. Ошибка первого рода - это ошибочное отклонение нулевой гипотезы . В свою очередь, нулевая гипотеза - это предположение о том, что все изучаемые группы взяты из одной генеральной совокупности, а значит, различия либо связи между ними случайны. Если провести аналогию с диагностическими тестами, то ошибка первого рода представляет собой ложноположительный результат.

Ошибка второго рода - это неверное отклонение альтернативной гипотезы , смысл которой заключается в том, что различия либо связи между группами обусловлены не случайным совпадением, а влиянием изучаемых факторов. И снова аналогия с диагностикой: ошибка второго рода - это ложноотрицательный результат. С этой ошибкой связано понятие мощности , которое говорит о том, насколько определенный статистический метод эффективен в данных условиях, о его чувствительности. Мощность вычисляется по формуле: 1-β, где β - это вероятность ошибки второго рода. Данный показатель зависит преимущественно от объема выборки. Чем больше размеры групп, тем меньше вероятность ошибки второго рода и выше мощность статистических критериев. Зависимость эта как минимум квадратичная, то есть уменьшение объема выборка в два раза приведет к падению мощности минимум в четыре раза. Минимально допустимой мощностью считают 80%, а максимально допустимый уровень ошибки первого рода принимают 5%. Однако всегда следует помнить, что эти границы заданы произвольно и могут изменяться в зависимости от характера и целей исследования. Как правило, научным сообществом признается произвольное изменение мощности, однако в подавляющем большинстве случаев уровень ошибки первого рода не может превышать 5%.

Все сказанное выше имеет непосредственное отношение к этапу планирования исследования. Тем не менее, многие исследователи ошибочно относятся к статистической обработке данных только как к неким манипуляциям, выполняемым после завершения основной части работы. Зачастую после окончания никак не спланированного эксперимента, появляется непреодолимое желание заказать анализ статистических данных на стороне. Но из «кучи мусора» даже специалисту по статистике будет очень сложно выудить ожидаемый исследователем результат. Поэтому при недостаточных знаниях биостатистики необходимо обращаться за помощью в статистическом анализе еще до начала эксперимента.

Обращаясь к самой процедуре анализа, следует указать на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя методы позволяющие представить данные в компактном и легком для восприятия виде. Сюда можно отнести таблицы, графики, частоты (абсолютные и относительные), меры центральной тенденции (средние, медиана, мода) и меры разброса данных (дисперсия, стандартное отклонение, межквартильный интервал и пр.). Другими словами, описательные методы дают характеристику изучаемым выборкам.

Наиболее популярный (хотя и зачастую ошибочный) способ описания имеющихся количественных данных заключается в определении следующих показателей:

количество наблюдений в выборке или ее объем;
средняя величина(среднее арифметическое);
стандартное отклонение- показатель того, насколько широко изменяются значения переменных.

Важно помнить, что среднее арифметическое и стандартное отклонение - это меры центральной тенденции и разброса в достаточно небольшом числе выборок. В таких выборках значения у большинства объектов с равной вероятностью отклонены от среднего, а их распределение образует симметричный «колокол» (гауссиану или кривую Гаусса-Лапласа). Такое распределение еще называют «нормальным», но в практике медицинского эксперимента оно встречается лишь в 30% случаев. Если же значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей (процентилей, квартилей, децилей).

Завершив описание групп, необходимо ответить на вопрос об их взаимоотношениях и о возможности обобщить результаты исследования на всю популяцию. Для этого используются доказательные методы биостатистики. Именно о них в первую очередь вспоминают исследователи, когда идет речь о статистической обработке данных. Обычно этот этап работы называют «тестированием статистических гипотез».

Задачи тестирования гипотез можно разделить на две большие группы. Первая группа отвечает на вопрос, имеются ли различия между группами по уровню некоторого показателя, например, различия в уровне печеночных трансаминаз у пациентов с гепатитом и здоровых людей. Вторая группа позволяет доказать наличие связи между двумя или более показателями, например, функции печени и иммунной системы.

В практическом плане задачи из первой группы можно разделить на два подтипа:

сравнение показателя только в двух группах(здоровые и больные, мужчины и женщины);
сравнение трех и более групп(изучение разных доз препарата).

Необходимо учитывать, что статистические методы существенно отличаются для качественных и количественных данных.

В ситуации, когда изучаемая переменная - качественная и сравниваются только две группы, можно использовать критерий «хи-квадрат». Это достаточно мощный и широко известный критерий, однако, он оказывается недостаточно эффективным в случае, если количество наблюдений мало. Для решения данной проблемы существуют несколько методов, такие как поправка Йейтса на непрерывность и точный метод Фишера.

Если изучаемая переменная является количественной, то можно использовать один из двух видов статистических критериев. Критерии первого вида основаны на конкретном типе распределения генеральной совокупности и оперируют параметрами этой совокупности. Такие критерии называют «параметрическими», и они, как правило, базируются на предположении о нормальности распределения значений. Непараметрические критерии не базируются на предположении о типе распределения генеральной совокупности и не используют ее параметры. Иногда такие критерии называют «свободными от распределения» (distribution-free tests). В определенной степени это ошибочно, поскольку любой непараметрический критерий предусматривает, что распределения во всех сравниваемых группах будут одинаковыми, иначе могут быть получены ложноположительные результаты.

Существует два параметрических критерия применяемых к данным, извлеченным из нормально распределенной совокупности: t-тест Стьюдента для сравнения двух групп и F-тест Фишера, позволяющий проверить равенство дисперсий (он же - дисперсионный анализ). Непараметрических же критериев значительно больше. Разные критерии отличаются друг от друга по допущениям, на которых они основаны, по сложности вычислений, по статистической мощности и т. д. Однако наиболее приемлемыми в большинстве случаев считаются критерий Вилкоксона (для связанных групп) и критерий Манна-Уитни, также известный как критерий Вилкоксона для независимых выборок. Эти тесты удобны тем, что не требуют предположения о характере распределения данных. Но если окажется, что выборки взяты из нормально распределенной генеральной совокупности, то их статистическая мощность будет несущественно отличаться от таковой для теста Стьюдента.

Полное описание статистических методов можно найти в специальной литературе, однако, ключевым моментом является то, что каждый статистический тест требует набора правил (допущений) и условий для своего использования, и механический перебор нескольких методов для поиска «нужного» результата абсолютно неприемлем с научной точки зрения. В этом смысле статистические тесты близки к лекарственным препаратам - у каждого есть показания и противопоказания, побочные эффекты и вероятность неэффективности. И столь же опасным является бесконтрольное применение статистических тестов, ведь на них базируются гипотезы и выводы.

Для более полного понимания вопроса точности статистического анализа необходимо определить и разобрать понятие «доверительной вероятности». Доверительная вероятность - это величина, принятая в качестве границы между вероятными и маловероятными событиями. Традиционно, она обозначается буквой «p». Для многих исследователей единственной целью выполнения статистического анализа является расчет заветного значения p, которое словно проставляет запятые в известной фразе «казнить нельзя помиловать». Максимально допустимой доверительной вероятностью считается величина 0,05. Следует помнить, что доверительная вероятность - это не вероятность некоторого события, а вопрос доверия. Выставляя перед началом анализа доверительную вероятность, мы тем самым определяем степень доверия к результатам наших исследований. А, как известно, чрезмерная доверчивость и излишняя подозрительность одинаково негативно сказываются на результатах любой работы.

Уровень доверительной вероятности показывает, какую максимальную вероятность возникновения ошибки первого рода исследователь считает допустимой. Уменьшение уровня доверительной вероятности, иначе говоря, ужесточение условий тестирования гипотез, увеличивает вероятность ошибок второго рода. Следовательно, выбор уровня доверительной вероятности должен осуществляться с учетом возможного ущерба от возникновения ошибок первого и второго рода. Например, принятые в биомедицинской статистике жесткие рамки, определяющие долю ложноположительных результатов не более 5% - это суровая необходимость, ведь на основании результатов медицинских исследований внедряется либо отклоняется новое лечение, а это вопрос жизни многих тысяч людей.

Необходимо иметь в виду, что сама по себе величина p малоинформативна для врача, поскольку говорит только о вероятности ошибочного отклонения нулевой гипотезы. Этот показатель ничего не говорит, например, о размере терапевтического эффекта при применении изучаемого препарата в генеральной совокупности. Поэтому есть мнение, что вместо уровня доверительной вероятности лучше было бы оценивать результаты исследования по величине доверительного интервала. Доверительный интервал - это диапазон значений, в котором с определенной вероятностью заключено истинное популяционное значение (для среднего, медианы или частоты). На практике удобнее иметь оба эти значения, что позволяет с большей уверенностью судить о применимости полученных результатов к популяции в целом.

В заключение следует сказать несколько слов об инструментах, которыми пользуется специалист по статистике, либо исследователь, самостоятельно проводящий анализ данных. Давно ушли в прошлое ручные вычисления. Существующие на сегодняшний день статистические компьютерные программы позволяют проводить статистический анализ, не имея серьезной математической подготовки. Такие мощные системы как SPSS, SAS, R и др. дают возможность исследователю использовать сложные и мощные статистические методы. Однако далеко не всегда это является благом. Не зная о степени применимости используемых статистических тестов к конкретным данным эксперимента, исследователь может провести расчеты и даже получить некоторые числа на выходе, но результат будет весьма сомнительным. Поэтому, обязательным условием для проведения статистической обработки результатов эксперимента должно быть хорошее знание математических основ статистики.

Достаточно подробно изложены в отечественной литературе. В практике российских предприятий, между тем, используются только некоторые из них. Рассмотрим далее некоторые методы статистической обработки.

Общие сведения

В практике отечественных предприятий распространены преимущественно статистические методы контроля . Если говорить о регулировании технологического процесса, то оно отмечается крайне редко. Применение статистических методов предусматривает, что на предприятии формируется группа из специалистов, которые имеют соответствующую квалификацию.

Значение

Согласно требованиям ИСО сер. 9000, поставщику необходимо определить необходимость в статистических методах, которые применяются в процессе разработки, регулирования и проверки возможностей производственного процесса и характеристики изделий. Используемые приемы базируются на теории вероятностей и математических расчетах. Статистические методы анализа данных могут внедряться на любом этапе жизненного цикла изделия. Они обеспечивают оценку и учет степени неоднородности продукции либо вариабельности ее свойств относительно установленных номиналов или требуемых значений, а также изменчивости процесса ее создания. Статистические методы - это приемы, посредством которых можно с заданной точностью и достоверностью судить о состоянии явлений, которые исследуются. Они позволяют спрогнозировать те или иные проблемы, выработать оптимальные решения на основе изученной фактической информации, тенденциях и закономерностях.

Направления использования

Основные области, в которых широко распространены статистические методы, - это :

Практика развитых стран

Статистические методы - это база, обеспечивающая создание продукции с высокими потребительскими характеристиками. Эти приемы широко используются в промышленно развитых государствах. Статистические методы - это, по сути, гаранты получения потребителями продукции, соответствующей установленным требованиям. Эффект их использования доказан практикой промышленных предприятий Японии. Именно они способствовали достижению высочайшего производственного уровня в этой стране. Многолетний опыт зарубежных стран показывает, насколько эффективны эти приемы. В частности, известно, что компания Hewlelt Packard, применяя статистические методы, смогла снизить в одном из случаев количество брака за месяц с 9 000 до 45 ед.

Сложности внедрения

В отечественной практике существует ряд препятствий, не позволяющих использовать статистические методы изучения показателей. Сложности возникают вследствие:

Разработка программы

Необходимо сказать, что определение потребности в тех или иных статистических методах в сфере качества, выбор, освоение конкретных приемов является довольно сложной и длительной работой для любого отечественного предприятия. Для эффективного ее осуществления целесообразно разработать специальную долговременную программу. В ней следует предусмотреть формирование службы, в задачи которой будет входить организация и методическое руководство применения статистических методов. В рамках программы нужно предусмотреть оснащение соответствующими техническими средствами, обучение специалистов, определить состав производственных задач, которые должны решаться с помощью выбранных приемов. Освоение рекомендуется начать с использования самых простых подходов. К примеру, можно использовать известные элементарные производством. Впоследствии целесообразно перейти к другим приемам. Например, это может быть анализ дисперсии, выборочная обработка информации, регулирование процессов, планирование факторного исследования и экспериментов и пр.

Классификация

К статистическим методам экономического анализа относятся разные приемы. Стоит сказать, их насчитывается довольно много. Однако ведущий специалист в сфере менеджмента качества в Японии К. Исикава рекомендует использовать семь основных методов:

Диаграммы Парето.
Группировка сведений по общим признакам.
Контрольные карты.
Причинно-следственные диаграммы.
Гистограммы.
Контрольные листки.
Диаграммы разброса.

Руководствуясь собственным опытом в сфере менеджмента, Исикава утверждает, что 95% всех вопросов и проблем на предприятии можно решить, используя эти семь подходов.

Диаграмма Парето

Этот базируется на определенном соотношении. Оно было названо "принципом Парето". В соответствии с ним, из 20% причин появляется 80% следствий. в наглядной и понятной форме показывает относительное влияние каждого обстоятельства на общую проблему в убывающем порядке. Это воздействие можно исследовать на количестве потерь, дефектов, спровоцированных каждой причиной. Относительное влияние иллюстрируется с помощью столбиков, накопленное воздействие факторов посредством кумулятивной прямой.

Причинно-следственная диаграмма

На ней исследуемую проблему условно изображают в форме горизонтальной прямой стрелки, а условия и факторы, косвенно либо прямо влияющие на нее, - в виде наклонных. При построении следует учитывать даже незначительные на первый взгляд обстоятельства. Это обуславливается тем, что на практике достаточно часто бывают случаи, в которых решение задачи обеспечивается исключением нескольких, кажущихся несущественными, факторов. Причины, которые влияют на основные обстоятельства (первого и следующих порядков) изображают на диаграмме горизонтальными короткими стрелками. Детализированная схема будет иметь форму скелета рыбы.

Группировка сведений

Этот экономико-статистический метод используется для упорядочения множества показателей, которые были получены при оценке и измерении одного или нескольких параметров объекта. Как правило, такая информация представлена в форме неупорядоченной последовательности значений. Это могут быть линейные размеры заготовки, температура плавления, твердость материала, количество дефектов и так далее. На основе такой системы сложно делать выводы о свойствах изделия либо процессах его создания. Упорядочивание осуществляется с помощью линейных графиков. Они наглядно показывают изменения наблюдаемых параметров в течение определенного периода.

Контрольный листок

Как правило, он представлен в виде таблицы распределения частот вхождения измеряемых величин параметров объекта в соответствующие промежутки. Контрольные листки составляются в зависимости от поставленной цели исследования. Диапазон значений показателей разделяется на одинаковые интервалы. Их число выбирают обычно равное квадратному корню из количества выполненных измерений. Бланк должен быть простым, чтобы исключить проблемы при заполнении, прочтении, проверке.

Гистограмма

Она представлена в форме ступенчатого многоугольника. Он наглядно иллюстрирует распределение показателей измерений. Диапазон установленных величин разбивается на равные промежутки, которые откладывают по оси абсцисс. К каждому интервалу строится прямоугольник. Его высота равна частоте вхождения величины в данный промежуток.

Диаграммы разброса

Они используются при проверке гипотезы о взаимосвязи двух переменных величин. Модель строится следующим образом. На оси абсцисс откладывают величину одного параметра, ординат - другого показателя. В результате на графике появляется точка. Данные действия повторяются для всех значений переменных. При наличии взаимосвязи поле корреляции вытянуто, и направление не будет совпадать с направленностью оси ординат. Если зависимость отсутствует, оно параллельно одной из осей или будет иметь форму круга.

Контрольные карты

Они используются при оценке процесса в течение конкретного периода. Формирование контрольных карт базируется на следующих положениях:

Все процессы отклоняются от заданных параметров с течением времени.
Нестабильный ход явления не изменяются случайно. Неслучайными выступают отклонения, выходящие за границы предполагаемых пределов.
Отдельные изменения могут быть спрогнозированы.
Стабильный процесс может случайно отклоняться и в предполагаемых границах.

Использование в практике российских предприятий

Следует сказать, что отечественный и зарубежный опыт показывает, что наиболее эффективным статистическим методом оценки стабильности и точности оборудования и технологических процессов выступает составление контрольных карт. Этот способ используется также при регулировании производственных потенциальных мощностей. При построении карт необходимо правильно выбрать исследуемый параметр. Рекомендуется отдавать предпочтение тем показателям, которые непосредственно относятся к назначению изделия, могут быть легко измерены и на которые можно оказать воздействие посредством регулирования процесса. Если такой выбор затруднителен или не оправдан, можно выполнить оценку величин, коррелированных (взаимосвязанных) с контролируемым параметром.

Нюансы

Если измерение показателей с точностью, требуемой для составления карт по количественному критерию, экономически или технически невозможно, используют альтернативный признак. С ним связаны такие термины, как "брак" и "дефект". Под последним понимают каждое обособленное несоответствие изделия установленным требованиям. Браком называют продукцию, предоставление которой не допускается потребителям, в связи с наличием в ней дефектов.

Особенности

У каждого типа карт есть своя специфика. Ее необходимо принимать во внимание при их выборе для конкретного случая. Карты по количественному критерию считаются более чувствительными к изменениям процесса, чем те, в которых используется альтернативный признак. Однако при этом первые более трудоемки. Их используют для:

Отладки процесса.
Оценки возможностей внедрения технологии.
Проверки точности работы оборудования.
Определения допусков.
Сопоставления нескольких допустимых способов создания продукта.

Дополнительно

Если разладка процесса отличается смещением контролируемого параметра, необходимо использовать Х-карты. Если имеет место увеличение рассеяния значений, выбирать нужно R или S-модели. Необходимо, однако, учитывать ряд особенностей. В частности, использование S-карт позволит точнее и быстрее установить разладку процесса, чем R-модели при одинаковых Вместе с тем, построение последних не требует выполнения сложных расчетов.

Заключение

В экономике позволяют исследовать факторы, которые обнаруживаются в ходе качественной оценки, в пространстве и динамике. С их помощью можно выполнять прогнозные расчеты. К статистическим методам экономическая анализа не относят способы оценки причинно-следственных связей хозяйственных процессов и событий, выявления перспективных и неиспользованных резервов повышения результативности деятельности. Другими словами, в число рассмотренных подходов не включаются факторные приемы.