Биографии Характеристики Анализ

Уравнение регрессии и прогнозирования результатов. Прогнозирование по модели множественной регрессии

Прогнозирование по модели множественной линейной регрессии предполагает оценку ожидаемых значений зависимой переменной при заданных значениях независимых переменных, входящих в уравнение регрессии. Различают точечный и интервальный прогнозы.

Точечный прогноз – это расчетное значение зависимой переменной, полученное подстановкой в уравнение множественной линейной регрессии прогнозных (заданных исследователем) значений независимых переменных. Если заданы значения , то прогнозное значение зависимой переменной (точечный прогноз) будет равно

Интервальный прогноз – это минимальное и максимальное значения зависимой переменной, в промежуток между

которыми она попадает с заданной долей вероятности и при заданных значениях независимых переменных.

Интервальный прогноз для линейной функции вычисляется по формуле

где t T – теоретическое значение критерия Стьюдента при df=n- – т – 1 степенях свободы; s y – стандартная ошибка прогноза, вычисляемая по формуле

(2.57)

где Х – матрица исходных значений независимых переменных; Х пр – матрица-столбец прогнозных значений независимых переменных вида

Найдем прогнозные значения поступления налогов (пример 2.1), при условии, что связь между показателями описывается уравнением

Зададим прогнозные значения независимых переменных:

  • – количество занятых Xj: 500 тыс. человек;
  • – объем отгрузки в обрабатывающих производствах х 2: 65 000 млн руб.;
  • – производство энергии х3:15 000 млн руб.

Найдем точечный и интервальный прогноз поступления налогов.

При заданных значения независимых переменных поступление налогов в среднем составит

Вектор прогнозных значений независимых переменных будет иметь вид

Ошибка прогноза, рассчитанная по формуле (2.57), составила 5556,7. Табличное значение t-критерия при числе степеней свободы df = 44 и уровне значимости а = 0,05 равно 2,0154. Следовательно, прогнозные значения поступления налогов будут с вероятностью 0,95 находиться в границах:

от 18 013,69 – 2,0154-5556,7=6814,1 млн руб.;

до 18 013,69 + 2,0154-5556,7=29 212 млн руб.

Прогнозирование по нелинейным моделям множественной регрессии также можно осуществлять по формулам (2.55)–(2.57), предварительно линеаризовав указанные модели.

Мультиколлинеарность данных

При построении эконометрической модели предполагается, что независимые переменные воздействуют на зависимую изолированно, т. е. влияние отдельной переменной на результативный признак не связано с влиянием других переменных. В реальной экономической действительности все явления в той или иной мере связаны, поэтому добиться выполнения этого предположения практически невозможно. Наличие связи между независимыми переменными приводит к необходимости оценки ее влияния на результаты корреляционно-регрессионного анализа.

Различают функциональные и стохастические связи между объясняющими переменными. В первом случае говорят об ошибках спецификации модели, которые должны быть исправлены.

Функциональная связь возникает, если в уравнение регрессии в качестве объясняющих переменных включают, в частности, все переменные, входящие в тождество. Например, можно сказать, что доход У складывается из потребления С и инвестиций I, т. е. имеет место тождество. Мы предполагаем, что уровень процентных ставок г зависит от дохода, т.е. модель в общем виде может быть представлена в виде

Неопытный исследователь, желая улучшить модель, может включить в уравнение также переменные "потребление" и "инвестиции", что приведет к функциональной связи между объясняющими переменными:

Функциональная взаимосвязь столбцов матрицы X приведет к невозможности найти единственное решение уравнения

регрессии, так как, а нахождение обратной

матрицыпредполагает деление алгебраических дополнений матрицына ее определитель, который в дан

ном случае будет равен нулю.

Более часто между объясняющими переменными наблюдается стохастическая связь, что приводит к уменьшению

величины определителя матрицы: чем сильнее связь,

тем меньше будет определитель. Это приводит к росту не только оценок параметров, полученных с использованием МНК, но и их стандартных ошибок, которые вычисляются по формуле (2.24):

в которой, как мы видим, также используется матрица Корреляционная связь может существовать как между двумя объясняющими переменными (интеркорреляция ), так и между несколькими (мультиколлинеарность).

Существует несколько признаков, указывающих на наличие мультиколлинеарности. В частности, такими признаками являются:

  • – не соответствующие экономической теории знаки коэффициентов регрессии. Например, нам известно, что объясняющая переменная х оказывает прямое воздействие на объясняемую переменную у, в то же время коэффициент регрессии при этой переменной меньше нуля;
  • значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности;
  • – незначимость параметров регрессии, обусловленная высокими значениями стандартных ошибок параметров.

Существование корреляционной связи между независимыми переменными может быть выявлено с помощью показателей корреляции между ними, в частности с помощью парных коэффициентов корреляции r XiX, которые можно записать в виде матрицы

(2.58)

Коэффициент корреляции переменной с самой собой равен единице хх = 1), а коэффициент корреляции переменной*, с переменной *,■ равен коэффициенту корреляции переменной XjC переменной X, х х х х ). Следовательно, данная матрица является симметрической, поэтому в ней указывают только главную диагональ и элементы под ней:

Высокие значения парных линейных коэффициентов корреляции указывают на наличие интеркорреляции, т.е. линейной связи между двумя объясняющими переменными. Чем выше величина , тем выше интеркорреляция. Так как при построении моделей избежать отсутствия связей между объясняющими переменными практически невозможно, существует следующая рекомендация относительно включения двух переменных в модель в качестве объясняющих. Обе переменные можно включить в модель, если выполняются соотношения

т.е. теснота связи результирующей и объясняющей переменных больше, чем теснота связи между объясняющими переменными.

Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы (2.58). Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы – единице. Если связь между независимыми переменными близка к функциональной (т.е. является очень тесной), то определитель матрицы гхг будет близок к нулю.

Еще один метод измерения мультиколлинеарности является следствием анализа формулы стандартной ошибки коэффициента регрессии (2.28):

Как следует из данной формулы, стандартная ошибка будет тем больше, чем меньше будет величина, которую называют фактор инфляции дисперсии (или фактор вздутия дисперсии ) VIF:

где – коэффициент детерминации, найденный для уравнения зависимости переменной Xj от других переменных , входящих в рассматриваемую модель множественной регрессии.

Так как величина отражает тесноту связи между переменной Xj и прочими объясняющими переменными, то она, по сути, характеризует мультиколлинеарность применительно К данной переменной Xj. При отсутствии связи показатель VIF X будет равен (или близок) единице, усиление связи ведет к стремлению этого показателя к бесконечности. Считают, что если VIF X >3 для каждой переменной *, то имеет место мультиколлинеарность.

Измерителем мультиколлинеарности является также так называемый показатель (число) обусловленности матрицы . Он равен отношению максимального и минимального собственных чисел этой матрицы:

Считается, что если порядок этого соотношения превышает 10s–106, то имеет место сильная мультиколлинеарность .

Проверим наличие мультиколлинеарности в рассматриваемом нами примере 2.1. Матрица парных коэффициентов корреляции имеет вид

Можно отметить, что связи между объясняющими переменными достаточно тесные, особенно между переменными.Xj и х2; X] и х3, что указывает на интеркорреляцию этих переменных. Более слабая связь наблюдается между переменными х2 и х3. Найдем определитель матрицы г^..

Полученное значение ближе к нулю, чем к единице, что указывает на наличие мультиколлинеарности объясняющих переменных.

Проверим обоснованность включения всех трех независимых переменных в модель регрессии, используя правило (2.59). Парные линейные коэффициенты корреляции зависимой и независимых переменных равны

Они больше, чем показатели тесноты связи между независимыми переменными, следовательно, правило (2.59) выполняется, все три переменные можно включить в модель регрессии.

Измерим степень мультиколлинеарности переменных с помощью фактора инфляции дисперсии (VIF ). Для этого необходимо рассчитать коэффициенты детерминации для регрессий:

Для этого к каждой регрессии необходимо применить МНК, оценить ее параметры и рассчитать коэффициент детерминации. Для нашего примера результаты расчетов следующие:

Следовательно, фактор инфляции дисперсии для каждой независимой переменной будет равен

Все рассчитанные величины не превысили критического значения, равного трем, следовательно, при построении модели можно пренебречь существованием связей между независимыми переменными.

Для нахождения собственных чисел матрицы (с целью расчета показателя обусловленности η (2.60)) необходи мо найти решение характеристического уравнения

Матрица для нашего примера имеет вид

а матрица, модуль определителя которой нужно приравнять нулю, получится следующей:

Характеристический многочлен в данном случае будет иметь четвертую степень, что затрудняет решение задачи вручную. В данном случае рекомендуется воспользоваться возможностями вычислительной техники. Например, в ППП EViews получены следующие собственные числа матрицы :

Следовательно, показатель обусловленности η будет равен

что свидетельствует о наличии в модели сильной мультиколлинеарности.

Методами устранения мультиколлинеарности являются следующие.

  • 1. Анализ связей между переменными, включаемыми в модель регрессии в качестве объясняющих (независимых), с целью отбора только тех переменных, которые слабо связаны друг с другом.
  • 2. Функциональные преобразования тесно связанных между собой переменных. Например, мы предполагаем, что поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной "плотность населения".
  • 3. Если по каким-то причинам перечень независимых переменных не подлежит изменению, то можно воспользоваться специальными методами корректировки моделей с целью исключения мультиколинеарности: ридж-регрессией (гребневой регрессией), методом главных компонент.

Применение ридж-регрессии предполагает корректировку элементов главной диагонали матрицы на некую произвольно задаваемую положительную величину τ. Значение рекомендуется брать от 0,1 до 0,4. Н. Дрейпер, Г. Смит в своей работе приводят один из способов "автоматического" выбора величины τ, предложенный Хоэрлом, Кеннардом и Белдвином :

(2.61)

где т – количество параметров (без учета свободного члена) в исходной модели регрессии; SS e – остаточная сумма квадратов, полученная по исходной модели регрессии без корректировки на мультиколлинеарность; а – вектор-столбец коэффициентов регрессии, преобразованных по формуле

(2.62)

где cij – параметр при переменной у, в исходной модели регрессии.

После выбора величины τ формула для оценки параметров регрессии будет иметь вид

(2.63)

где I единичная матрица; X, – матрица значений независимых переменных: исходных или преобразованных по формуле (2.64); Υ τ – вектор значений зависимой переменной: исходных или преобразованных по формуле (2.65).

(2.64)

и результативную переменную

В этом случае после оценки параметров по формуле (2.63) необходимо перейти к регрессии по исходным переменным, используя соотношения

Оценки параметров регрессии, полученные с помощью формулы (2.63), будут смещенными. Однако, так как определитель матрицы больше определителя матрицы , дисперсия оценок параметров регрессии уменьшится, что положительно повлияет на прогнозные свойства модели.

Рассмотрим применение ридж-регрессии для примера 2.1. Найдем величину τ с помощью формулы (2.61). Для этого сначала рассчитаем вектор преобразованных коэффициентов регрессии по формуле (2.62):

Произведение равно 1,737-109. Следовательно, рекомендуемое τ составит

После применения формулы (2.63) и преобразований по фор муле (2.66) получим уравнение регрессии

Применение метода главных компонент предполагает переход от взаимозависимых переменных х к независимым друг от друга переменным ζ, которые называют главными

компонентами . Каждая главная компонента z, может быть представлена как линейная комбинация центрированных (или стандартизованных) объясняющих переменных t:. Напомним, что центрирование переменной предполагает вычитание из каждого і-го значения данной j-й переменной ее среднего значения:

а стандартизация (масштабирование) –деление выражения (2.67) на среднее квадратическое отклонение, рассчитанное для исходных значений переменной Xj

Так как независимые переменные часто имеют разный масштаб измерения, формула (2.68) считается более предпочтительной.

Количество компонент может быть меньше или равно количеству исходных независимых переменных р. Компоненту с номером к можно записать следующим образом:

(2.69)

Можно показать, что оценки в формуле (2.69) соответствуют элементам к- го собственного вектора матрицы , где Т – матрица размером , содержащая стандартизованные переменные. Нумерация главных компонент не является произвольной. Первая главная компонента имеет максимальную дисперсию, ей соответствует максимальное собственное число матрицы ; последняя – минимальную дисперсию и наименьшее собственное число.

Доля дисперсии к- й компоненты в общей дисперсии независимых переменных рассчитывается по формуле

где Х к – собственное число, соответствующее данной компоненте; в знаменателе формулы (2.70) приведена сумма всех собственных чисел матрицы .

После расчета значений компонент z, строят регрессию, используя МНК. Зависимую переменную в регрессии по главным компонентам (2.71) целесообразно центрировать (стандартизовать) по формулам (2.67) или (2.68).

где t y – стандартизованная (центрированная) зависимая переменная; – коэффициенты регрессии по главным компонентам; – главные компоненты, упорядоченные по убыванию собственных чисел Х к; δ – случайный остаток.

После оценки параметров регрессии (2.71) можно перейти к уравнению регрессии в исходных переменных, используя выражения (2.67)–(2.69).

Рассмотрим применение метода главных компонент на данных примера 2.1. Отметим, что матрица для стандартизованных переменных является в то же время матрицей парных линейных коэффициентов корреляции между независимыми переменными. Она уже была рассчитана и равна

Найдем собственные числа и собственные векторы этой матрицы, используя ППП Eviews. Получим следующие результаты.

Собственные числа матрицы :

Доля дисперсии независимых переменных, отражаемой компонентами, составила

Объединим собственные векторы матрицы , записав их как столбцы приведенной ниже матрицы F. Они упорядочены по убыванию собственных чисел, т.е. первый столбец является собственным вектором максимального собственного числа и т.д.:

Следовательно, три компоненты (соответствующие трем собственным векторам) можно записать в виде

После стандартизации исходных переменных по формуле (2.68) и расчета значений компонент (по n значений каждой компоненты) с помощью МНК найдем параметры уравнения (2.71):

В полученном уравнении регрессии значим только параметр при первой компоненте. Это закономерный результат с учетом того, что данная компонента описывает 70,8% вариации независимых переменных. Так как компоненты независимы, при исключении из модели одних компонент параметры уравнения при других компонентах не меняются. Таким образом, имеем уравнение регрессии с одной компонентой:

Преобразуем полученное выражение в регрессию с исходными переменными

Таким образом, используя метод главных компонент, мы получили уравнение регрессии

Устранение мультиколлинеарности с помощью ридж-регрессии и метода главных компонент привело к определенному изменению параметров исходной регрессии, которая имела вид

Отметим, что эти изменения были относительно невелики, что указывает на невысокую степень мультиколлинеарности.

  • См., например, Вучков И., Бояджиева Л., Солаков Е. Прикладной регрессионный анализ: пер. с болг. M.: Финансы и статистика, 1987. С. 110.
  • Дрейпер Н., Смит Г. Указ. соч. С. 514.

Интервалы прогноза по линейному уравнению регрессии.

В прогнозных расчётах по уравнению регрессии определяется то, что уравнение не является реальным , для есть ещё стандартная ошибка . Поэтому интервальная оценка прогнозного значения

Выразим из уравнения

То есть стандартная ошибка зависит и ошибки коэффициента регрессии b,

Из теории выборки известно, что . Используя в качестве оценки остаточную дисперсию на одну степень свободы , получим формулу расчёта ошибки среднего значения переменной y: .

Ошибка коэффициента регрессии: .

В прогнозных расчетах по уравнению регрессии определяется уравнение как точечный прогноз при , то есть путём подстановки в уравнение регрессии . Однако точечный прогноз явно нереален.

- формула стандартной ошибки предсказываемого значения y при заданных , характеризует ошибку положения линии регрессии. Величина стандартной ошибки , достигает min при , и возрастает по мере того, как «удаляется» от в любом направлении. То есть чем больше разность между и x, тем больше ошибка , с которой предсказывается среднее значение y для заданного значения .

Можно ожидать наилучшие результаты прогноза, если признак - фактор x находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении от .

Если же значение оказывается за пределами наблюдаемых значений х, используемых при построении ЛР, то результаты прогноза ухудшаются в зависимости то того, насколько отклоняется от области наблюдаемых значений фактора х. Доверит. интервалы при .

На графике доверительной границы представляет собой гиперболы, расположенные по обе стороны от линии регрессии.

Две гиперболы по обе стороны от ЛР определяют 95%-ные доверительные интервалы для среднего значения y при заданном значении x.

Однако фактические значения y варьируют около среднего значения . Индивидуальные значения y могут отклоняться от на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы . Поэтому ошибка предсказываемого индивидуального значения y должна включать не только стандартную ошибку , но и случайную ошибку.

Средняя ошибка прогнозируемого индивидуального значения y составит:

.

При прогнозировании на основе УР следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения y, но и от точности прогноза значений фактора x.

Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также из анализа динамики данного фактора.

Рассмотренная формула средней ошибки индивидуального значения признака y() может быть использована также для оценки существенности различия предсказываемого значения исходя из регрессионной модели и выдвинутой гипотезы развития событий.

Понятие о множественной регрессии. Классическая линейная модель множественной регрессии (КЛММР). Определение параметров уравнения множественной регрессии методом наименьших квадратов.

Парная регрессия используется при моделировании, если влияние других факторов, воздействующих на объект исследования можно пренебречь.

Например, при построении модели потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.

Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественно-научных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.

Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

такого рода уравнения используется при изучении потребления.

Коэффициенты b j – частные производные у по факторами х i

при условии, что все остальные х i = const

Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)

c- потребление. у – доход

P – цена, индекс стоимости.

M – наличные деньги

Z – ликвидные активы

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.

В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя 2 круга вопросов:

1. отбор факторов

2. выбор уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию

1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).

2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда R у x 1 нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются интерпретируемыми.

В уравнение предполагается, что факторы х 1 и х 2 независимы друг от друга, r х1х2 = 0, тогда параметр b1 измеряет силу влияния фактора х 1 на результат у при неизменном значении фактора х 2 . Если r х1х2 =1, то с изменением фактора х 1 фактор х 2 не может оставаться неизменным. Отсюда b 1 и b 2 нельзя интерпретировать как показатели раздельного влияния х 1 и х 2 и на у.



Пример, рассмотрим регрессию себестоимости единицы продукции у (руб.) от заработной платы работника х (руб.) и производительности труда z (ед. в час).

у = 22600 - 5x - 10z + e

коэффициент b 2 = -10, показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты.

Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной х обусловлено высокой корреляцией между х и z (r х z = 0,95). Поэтому роста заработной платы при неизменности производительности труда (не учитывая инфляции) быть не может.

Включенные во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строиться модель с набором р факторов, то для нее рассчитывается показатель детерминации R 2 , которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R 2 c соответствующей остаточной дисперсией S 2 .

При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.

R 2 p +1 >= R 2 p и S 2 p +1 <= S 2 p

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор x р+1 не улучшает модель и практически является лишним фактором.

Если для регрессии, включающей 5 факторов R 2 = 0,857, и включенный 6 дало R 2 = 0,858, то нецелесообразно включать в модель этот фактор.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.

Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов осуществляется в две стадии:

на первой – подбирают факторы, исходя из сущности проблемы.

на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если r х i х j >=0.7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. Rх i x j = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)

y x z v
y
x 0,8
z 0,7 0,8
v 0,6 0,5 0,2

Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (r у z < r ух), но зато слабее межфакторная корреляция (r zv < r х v)

Поэтому в данном случае в уравнение множественной регрессии включает факторы z и v

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Но наиболее трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарности факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

Если рассмотренная регрессия у = a + bx + cx + dv + e, то для расчета параметров, применяется МНК

S y = S факт +S e

общая сумма = факторная + остаточная

Кв.отклонения

В свою очередь, при независимости факторов друг от друга выполнимо равенство:

S = S x +S z + S v

Суммы квадратов отклонения, обусловленных влиянием соответствующих факторов

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующего:

· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарных факторов будем использовать определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов была бы единичной.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

Если же между факторами существует полная линейная зависимость, то:

Чем ближе к 0 определитель, тем сильнее межколлинеарность факторов и ненадежны результаты множественной регрессии. Чем ближе к 1, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методами испытания гипотезы 0 независимости переменных H 0:

Доказано, что величина имеет приближенное распределение с степенями свободы. Если фактически значение превосходит табличное (критическое) то гипотеза H 0 отклоняется. Это означает, что , недиагональные коэффициенты указывают на коллинеарность факторов. Мультиколлинеарности считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение R 2 к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.

Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.

Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Если y = f(x 1 , x 2 , x 3), то возможно построение следующего совмещенного уравнения:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).

Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию

b 123 x 1 x 2 х 3 – взаимодействие второго порядка.

Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х 1 и х 3 , то уравнение будет имеет вид:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

Взаимодействие факторов х 1 и х 3 означает, что на разных уровнях фактора х 3 влияние фактора х 1 на у будет неодинаково, т.е. оно зависит от значения фактора х 3 . На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х 1 на у при разных уровнях фактора х 3 означают отсутствие взаимодействия факторов х 1 и х 3 .

Рис 3.1. Графическая иллюстрация взаимодействия факторов.

а - х 1 влияет на у, причем это влияние одинаково при х 3 =В 1 , так и при х 3 =В 2 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х 1 и х 3 ;

б – с ростом х 1 результативный признак у возрастает при х 3 =В 1 , с ростом х 1 результативный признак у снижается при х 3 =В 2 . Между х 1 и х 3 существует взаимодействие.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:

К нему для оценки параметров может быть применен МНК.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии :

· метод исключения;

· метод включения;

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется в процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободны остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регресс оказываются статистически незначимыми, а F-критерий меньше табличного значения.

Оценка статистической значимости параметров регрессии проводится с помощью t-статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей. Выдвигается гипотеза Н 0 о статистически значимом отличие показателей от 0 a = b = r = 0. Рассчитываются стандартные ошибки параметров a,b, r и фактическое значение t-критерия Стьюдента.

Определяется статистическая значимость параметров.

t a > T табл - параметр a статистически значим.

t b > T табл - параметр b статистически значим.

Находятся границы доверительных интервалов.

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что параметры a и b находясь в указанных границах не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличается от 0. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. - М.: Дело, 2001. - С. 45.

Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы, параболы второй степени и д.р.

Различают два класса нелинейных регрессий:

  • - регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
  • - регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:

полиномы разных степеней;

равносторонняя гипербола.

К нелинейным регрессиям по оцениваемым параметрам относятся функции:

степенная;

показательная;

экспоненциальная.

Нелинейная регрессия по включенным переменным не таит каких-либо сложностей в оценке ее параметров. Она определяется, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам. Так, в параболе второй степени y=a 0 +a 1 x+a 2 x 2 +е заменяя переменные x=x 1 ,x 2 =x 2 , получим двухфакторное уравнение линейной регрессии: у=а 0 +а 1 х 1 +а 2 х 2 + е.

Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное), значение результативного признака: приравниваем к нулю первую производную параболы второй степени: , т.е. b+2cx=0 и x=-b/2c.

Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:

Решение ее возможно методом определителей:

В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Если в линейной модели и моделях, нелинейных по переменным, при оценке параметров исходят из критерия min, то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а к их преобразованным величинам, т.е. ln y, 1/y. Так, в степенной функции МНК применяется к преобразованному уравнению lny = lnб + в ln x ln е. Это значит, что оценка параметров основывается на минимизации суммы квадратов отклонений в логарифмах. Соответственно если в линейных моделях то в моделях, нелинейных по оцениваемым параметрам, . Вследствие этого оценка параметров оказываются несколько смещенной.

Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (R):

Величина данного показателя находится в границах: 0 ? R ? 1, чем ближе к 1, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

Индекс детерминации используется для проверки существенности в целом урпвнения нелинейной регрессии по F- критерию Фишера:

Данный способ расчета наиболее обоснован теоретически и дает самые точные результаты в практическом применении. Но дело осложняется рядом обстоятельств. Во-первых, качество большинства видов продукции, а, следовательно, и его уровень формируются чаще не одним, а несколькими свойствами, причем значимость их в формировании полезности различна. Встает сложная проблема определения их значимости. Во-вторых, полезность продукта находится чаще в нелинейной зависимости от значения свойств (частных качественных характеристик), а это означает непостоянство их значимости. Указанные сложности преодолимы, но не всегда.

Теснота связи между переменными величинами может иметь различные значения, если рассматривать ее с позиции характера зависимости (линейная, нелинейная). Если установлена слабая связь между переменными в линейной зависимости, то это совсем не означает, что такая связь должна быть в нелинейной зависимости. Показателем, характеризующим значимость факторов при различной форме связи, является корреляционное отношение. Оценка факторов по корреляционному отношению уже на этом этапе анализа позволяет предварительно уст0новить вид многофакторной связи, что служит хорошей предпосылкой при выборе конкретной модели исследуемого показателя.

В случае нелинейной зависимости линейный коэффициент корреляции теряет смысл, и для измерения тесноты связи применяют так называемое корреляционное отношение, известное также под названием «индекс корреляции»:

Для нахождения лучшей подстановки можно использовать визуальный метод, когда «на глаз» определяется вид нелинейной зависимости, связывающей результирующий параметр и независимый фактор, а можно выбор наилучшей замены осуществлять, используя коэффициент корреляции. Та подстановка, у которой коэффициент корреляции является максимальным, и является наилучшей. Ланге О. Введение в эконометрику. - М.: Прогресс, 1964. - С. 76.

Если модель регрессии признана адекватной, то переходят к построению прогноза.

Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой величины независимой переменной х прогн :

Данный прогноз называется точечным. Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большой надежностью:

где t – t-критерий Стьюдента, определяемый по таблице при уровне значимости 0,05 и числе степеней свободы k=n-2 (для парной регрессии);

– остаточная дисперсия на одну степень свободы, определяемая по формуле:

;

s – стандартная ошибка предсказания, определяемая по формуле:

.

По статистическим данным, описывающим зависимость удельного веса бракованной продукции от удельного веса рабочих со специальной подготовкой на предприятиях построить уравнение парной регрессии и определить его значимость.

1. Построим диаграмму рассеяния для определения наличия зависимости между признаками и типа этой зависимости.

Диаграмма рассеяния или корреляционное поле показывает наличие линейной обратной связи.

2. Определим линейный коэффициент корреляции по формуле . Для этого построим вспомогательную таблицу:

Номер предприя-тия Удельный вес рабочих со специальной подготовкой, % х Удельный вес бракован-ной продукции, % y (x-xср)^2 (y-yср)^2 xy
857,6531 83,59184
371,9388 9,877551
86,22449 1,306122
0,510204 0,734694
114,7959 8,163265
429,0816 14,87755
661,2245 34,30612
Сумма 2521,429 152,8571
Среднее значение 44,28571 8,857143 360,2041 21,83673 306,4286

Линейный коэффициент корреляции будет равен:

С помощью встроенной функции КОРРЕЛ Excel получаем такое же значение линейного коэффициента корреляции. Для этого в ячейку необходимо ввести =КОРРЕЛ(массив1; массив2), причем не имеет значения последовательность ввода массивов.

Таким образом, делаем вывод о сильной обратной линейной зависимости между изучаемыми признаками.

2. Построим уравнение парной линейной регрессии . Оценим параметры уравнения регрессии а и b с помощью МНК. Для этого построим вспомогательную таблицу.



Номер х у x^2 xy
Сумма

Система нормальных уравнений для нахождения параметров парной линейной регрессии имеет вид:

Подставим необходимые данные и получим:

Решив систему, получим

С помощью встроенной функции ЛИНЕЙН Excel получаем такие же значения параметров уравнения регрессии. Для этого необходимо выделить две ячейки в одной строке, выбрать в главном меню Вставка/Функция , далее выбрать из категории Статистические функцию ЛИНЕЙН . В образовавшемся окне заполнить аргументы функции:

Известные значения y – диапазон, содержащий данные результативного признака;

Известные значения x – диапазон, содержащий данные факторного признака;

Константа – логическое значение, которое указывает на наличие или отсутствие свободного члена в уравнении регрессии, может принимать значение 0 или 1. Указываем 1.

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если указать 0, будут выведены только значения параметров уравнения регрессии а и b в двух выделенных ячейках.

Чтобы вывести всю статистику по уравнению регрессии изначально необходимо выделить диапазон из пяти строк и двух столбцов и задать логическое значение 1 в аргументе функции ЛИНЕЙН Статистика . Дополнительная регрессионная статистика будет выводится в порядке, указанном в следующей схеме:

Для разбираемого примера таблица будет выглядеть следующим образом:

-0,23824 19,40793
0,027796 1,339265
0,936275 1,395765
73,46237
143,1163 9,740793

Таким образом, уравнение регрессии будет иметь вид: .

. Табличное значение t-критерия Стьюдента составляет 2,57. Поскольку расчетное значение больше табличного параметр а признается статистически значимым.

t-критерий Стьюдента для параметра а будет равен . Поскольку , параметр b признается статистически значимым.

Т.к. коэффициент детерминации , коэффициент корреляции равен и будет иметь отрицательное значение, поскольку связь обратная, на что указывает отрицательный коэффициент при х в уравнении регрессии.

Расчетное значение F-критерия Фишера равно 73,46, табличное значение F-критерия Фишера равно 6,61. Поскольку расчетное значение F-критерия больше табличного или критического, уравнение парной линейной регрессии в целом признается статистически значимым с вероятностью 95%.

t-критерий Стьюдента для линейного коэффициента корреляции определяется по формуле: , что больше табличного значения, поэтому линейный коэффициент корреляции признается статистически значимым.

Для прогнозирования с помощью уравнения регрессии необходимо вычислить коэффициенты и уравнения регрессии. И здесь существует еще одна проблема сказывающаяся на точности прогнозирования. Она заключается в том, что обычно нет всех возможных значений переменных Х и У, т.е. генеральная совокупность совместного распределения в задачах прогнозирования не известна, известна только выборка из этой генеральной совокупности. В результате этого при прогнозировании помимо случайной составляющей возникает еще один источник ошибок – ошибки, вызванные не полным соответствием выборки генеральной совокупности и порождаемыми этим погрешностями в определении коэффициентов уравнения регрессии.

Иными словами вследствие того, что генеральная совокупность не известна, точные значения коэффициентов и уравнения регрессии определить не возможно. Используя выборку из этой неизвестной генеральной совокупности можно лишь получить оценки и истинных коэффициентов и.

Для того чтобы ошибки прогнозирования в результате такой замены были минимальными, оценку необходимо осуществлять методом который гарантирует несмещенность и эффективность полученных значений. Метод обеспечивает несмещенные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается выполнение условия и. Метод обеспечивает эффективные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается минимальная дисперсия коэффициентов a и b, т.е. выполняются условия и.

В теории вероятности доказана теорема согласно которой эффективность и несмещенность оценок коэффициентов уравнения линейной регрессии по данным выборки обеспечивается при применении метода наименьших квадратов.

Суть метода наименьших квадратов заключается в следующем.

Для каждой из точек выборки записываются уравнение вида. Затем находятся ошибка между расчетным и фактическим значениями. Решение оптимизационной задачи по нахождению таких значений и которые обеспечивают минимальную сумму квадратов ошибок для всех n точек, т.е. решение задачи поиска, дает несмещенные и эффективные оценки коэффициентов и. Для случая парной линейной регрессии это решение имеет вид:

Следует отметить, что полученные таким образом по выборке несмещенные и эффективные оценки истинных значений коэффициентов регрессии для генеральной совокупности вовсе не гарантируют от ошибки при однократном применении. Гарантия заключается в том, что, в итоге многократного повторения этой операции с другими выборками из той же генеральной совокупности, гарантирована меньшая сумма ошибок по сравнению любым другим способом и разброс этих ошибок будет минимален.


Полученные коэффициенты уравнения регрессии определяют положение регрессионной прямой, она является главной осью облака образованного точками исходной выборки. Оба коэффициента имеют вполне определенный смысл. Коэффициент показывает значение при, но в многих случаях не имеет смысла, кроме того часто также не имеет смысла, по этому приведенной трактовкой коэффициента нужно пользоваться осторожно. Более универсальная трактовка смысла заключается в следующем. Если, то относительное изменение независимой переменной (изменение в процентах) всегда меньше чем относительное изменение зависимой переменной.

Коэффициент показывает насколько единиц изменится зависимая переменная при изменении независимой переменной на одну единицу. Коэффициент часто называют коэффициентом регрессии подчеркивая этим, что он важнее чем. В частности, если вместо значений зависимой и независимой переменных взять их отклонения от своих средних значений, то уравнение регрессии преобразуется к виду.

Коэффициент корреляции меняется в пределах от –1 до +1. Чем он ближе по абсолютному значению к единице, тем сильнее зависимость (тем сильнее облако данных прижато к своей главной оси). Если то наклон линии регрессии отрицателен, чем ближе он к 0 тем слабее связь, при линейной связи между переменными нет, а при связь переменных является функциональной. Коэффициент корреляции позволяет получить оценку точности уравнения регрессии - коэффициент детерминации. Для парной линейной регрессии он равен квадрату коэффициента корреляции, для многомерной или нелинейной регрессии его определение сложнее. Коэффициент детерминации показывает, сколько процентов дисперсии зависимой переменной объясняется уравнением регрессии, а - сколько процентов дисперсии осталась необъясненной (зависит от неконтролируемого нами случайного члена).

32. Временные ряды: понятие, классификация.

Модели, построенные по данным, характеризующим один объект за ряд последовательных моментов (периодов), называются моделями временных рядов.

Временной ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов.

Предполагается, что в общем случае каждый уровень временного ряда содержит три основные компоненты: тенденцию (Т), циклические или сезонные колебания (S) и случайную компоненту (E).

Виды временных рядов.

Временные ряды делятся на моментные и интервальные. В моментных временных рядах уровни характеризуют значения показателя по состоянию на определенные моменты времени. Например, моментными являются временные ряды цен на определенные виды товаров, временные ряды курсов акций, уровни которых фиксируются для конкретных чисел. Примерами моментных временных рядов могут служить также ряды численности населения или стоимости основных фондов, т.к. значения уровней этих рядов определяются ежегодно на одно и то же число.

В интервальных рядах уровни характеризуют значение показателя за определенные интервалы (периоды) времени. Примерами рядов этого типа могут служить временные ряды производства продукции в натуральном или стоимостном выражении за месяц, квартал, год и т.д.

Иногда уровни ряда представляют собой не непосредственно наблюдаемые значения, а производные величины: средние или относительные. Такие ряды называются производными. Уровни таких временных рядов получаются с помощью некоторых вычислений на основе непосредственно наблюдаемых показателей. Примерами таких рядов могут служить ряды среднесуточного производства основных видов промышленной продукции или ряды индексов цен.

Уровни ряда могут принимать детерминированные или случайные значения. Примером ряда с детерминированными значениями уровней

служит ряд последовательных данных о количестве дней в месяцах. Естественно, анализу, а в дальнейшем и прогнозированию, подвергаются ряды со случайными значениями уровней. В таких рядах каждый уровень может рассматриваться как реализация случайной величины - дискретной или непрерывной.

33. Компонентный анализ рядов динамики.

Ряды динамики - это ряды статистических показателей, характеризующих развитие явлений природы и общества во времени. Публикуемые Госкомстатом России статистические сборники содержат большое количество рядов динамики в табличной форме. Ряды динамики позволяют выявить закономерности развития изучаемых явлений.

Для более глубокого изучения закономерностей развития показателя используется компонентный анализ, который представляет из себя разложение данного временного ряда на конечное число соответствующих. Любой экономический процесс может быть представлен хотя бы одним из нижеуказанных компонент.

Наиболее часто встречающимися, на которые можно разложить временной ряд, являются следующие:

U (t) – характеризует устойчивые систематические изменения уровней ряда, т.е. тренд

K (t) – нестрого периодические циклические колебания

V (t) – строго периодические колебания (сезонные).

E (t) – случайная компонента (несистематические колебания, которые возникают от случая.

Однако часто приходится встречаться с такими рядами динамики, в которых уровни ряда претерпевают самые различные изменения (то возрастают, то убывают) и общая тенденция развития неясна.

На развитие явления во времени оказывают влияние факторы, различные по характеру и силе воздействия. Одни из них оказывают практически постоянное воздействие и формируют в рядах динамики определенную тенденцию развития. Воздействие же других факторов может быть кратковременным или носить случайный характер.

Поэтому при анализе динамики речь идет не просто о тенденции развития, а об основной тенденции, достаточно стабильной (устойчивой) на протяжении изученного этапа развития.

34. Способы установления наличия тенденции в ряду динамики.

Приемы для установления тенденций или закономерностей.

o Преобразование ряда - применяется для большей наглядности зменений изучаемых явлений. Одно число ряда принимается за 1, чаще всего за 100 или 1000, и, по отношению к данному числу ряда, рассчитываются остальные.

o Выравнивание ряда - применяется при скачкообразных изменениях (колебаниях) уровней ряда. Цель выравнивания - устранить влияние случайных факторов и выявить тенденцию изменений значений явлений (или признаков), а в дальнейшем установить закономерности этих изменений

Способы и методы выявления тренда:

1)Увеличение интервалов.

Первоначальный ряд динамики заменяется другим рядом, уровни которого относятся к большим по продолжительности периодам времени. Новые уровни образуются суммированием старых.

2)Вычисление средних уровней для укрупненных интервалов. Является частным случаем первого метода.

3)Определение скользящей средней – для первоначального ряда динамики формируются увеличенные интервалы, состоящие из одинакового количества уровней. Каждый новый интервал получается из предыдущего смещением на один уровень.