Биографии Характеристики Анализ

Метод наименьших квадратов из 2 неизвестных. Слободянюк А.И

Метод наименьших квадратов является одним из наиболее распространенных и наиболее разработанных вследствие своей простоты и эффективности методов оценки параметров линейных . Вместе с тем, при его применении следует соблюдать определенную осторожность, поскольку построенные с его использованием модели могут не удовлетворять целому ряду требований к качеству их параметров и, вследствие этого, недостаточно “хорошо” отображать закономерности развития процесса .

Рассмотрим процедуру оценки параметров линейной эконометрической модели с помощью метода наименьших квадратов более подробно. Такая модель в общем виде может быть представлена уравнением (1.2):

y t = a 0 + a 1 х 1 t +...+ a n х nt + ε t .

Исходными данными при оценке параметров a 0 , a 1 ,..., a n является вектор значений зависимой переменной y = (y 1 , y 2 , ... , y T)" и матрица значений независимых переменных

в которой первый столбец, состоящий из единиц, соответствует коэффициенту модели .

Название свое метод наименьших квадратов получил, исходя из основного принципа, которому должны удовлетворять полученные на его основе оценки параметров: сумма квадратов ошибки модели должна быть минимальной.

Примеры решения задач методом наименьших квадратов

Пример 2.1. Торговое предприятие имеет сеть, состоящую из 12 магазинов, информация о деятельности которых представлена в табл. 2.1.

Руководство предприятия хотело бы знать, как зависит размер годового от торговой площади магазина.

Таблица 2.1

Номер магазина

Годовой товарооборот, млн руб.

Торговая площадь, тыс. м 2

Решение методом наименьших квадратов. Обозначим — годовой товарооборот -го магазина, млн руб.; — торговая площадь -го магазина, тыс. м 2 .

Рис.2.1. Диаграмма рассеяния для примера 2.1

Для определения формы функциональной зависимости между переменными и построим диаграмму рассеяния (рис. 2.1).

На основании диаграммы рассеяния можно сделать вывод о позитивной зависимости годового товарооборота от торговой площади (т.е. у будет расти с ростом ). Наиболее подходящая форма функциональной связи — линейная .

Информация для проведения дальнейших расчетов представлена в табл. 2.2. С помощью метода наименьших квадратов оценим параметры линейной однофакторной эконометрической модели

Таблица 2.2

Таким образом,

Cледовательно, при увеличении торговой площади на 1 тыс. м 2 при прочих равных условиях среднегодовой товарооборот увеличивается на 67,8871 млн руб.

Пример 2.2. Руководство предприятия заметило, что годовой товарооборот зависит не только от торговой площади магазина (см. пример 2.1), но и от среднего числа посетителей. Соответствующая информация представлена в табл. 2.3.

Таблица 2.3

Решение. Обозначим — среднее число посетителей -го магазина в день, тыс. чел.

Для определения формы функциональной зависимости между переменными и построим диаграмму рассеяния (рис. 2.2).

На основании диаграммы рассеяния можно сделать вывод о позитивной зависимости годового товарооборота от среднего числа посетителей в день (т.е. у будет расти с ростом ). Форма функциональной зависимости — линейная.

Рис. 2.2. Диаграмма рассеяния для примера 2.2

Таблица 2.4

В целом необходимо определить параметры двухфакторной эконометрической модели

у t = a 0 + a 1 х 1 t + a 2 х 2 t + ε t

Информация, требующаяся для дальнейших расчетов, представлена в табл. 2.4.

Оценим параметры линейной двухфакторной эконометрической модели с помощью метода наименьших квадратов.

Таким образом,

Оценка коэффициента =61,6583 показывает, что при прочих равных условиях с увеличением торговой площади на 1 тыс. м 2 годовой товарооборот увеличится в среднем на 61,6583 млн руб.

Пример.

Экспериментальные данные о значениях переменных х и у приведены в таблице.

В результате их выравнивания получена функция

Используя метод наименьших квадратов , аппроксимировать эти данные линейной зависимостью y=ax+b (найти параметры а и b ). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Сделать чертеж.

Суть метода наименьших квадратов (мнк).

Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данныха и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов.

Таким образом, решение примера сводится к нахождению экстремума функции двух переменных.

Вывод формул для нахождения коэффициентов.

Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменныма и b , приравниваем эти производные к нулю.

Решаем полученную систему уравнений любым методом (например методом подстановки или методом Крамера ) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК).

При данных а и b функция принимает наименьшее значение. Доказательство этого факта приведенониже по тексту в конце страницы .

Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы ,,,и параметрn - количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a .

Пришло время вспомнить про исходый пример.

Решение.

В нашем примере n=5 . Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов.

Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i .

Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i .

Значения последнего столбца таблицы – это суммы значений по строкам.

Используем формулы метода наименьших квадратов для нахождения коэффициентов а и b . Подставляем в них соответствующие значения из последнего столбца таблицы:

Следовательно, y = 0.165x+2.184 - искомая аппроксимирующая прямая.

Осталось выяснить какая из линий y = 0.165x+2.184 или лучше аппроксимирует исходные данные, то есть произвести оценку методом наименьших квадратов.

Оценка погрешности метода наименьших квадратов.

Для этого требуется вычислить суммы квадратов отклонений исходных данных от этих линий и, меньшее значение соответствует линии, которая лучше в смысле метода наименьших квадратов аппроксимирует исходные данные.

Так как , то прямаяy = 0.165x+2.184 лучше приближает исходные данные.

Графическая иллюстрация метода наименьших квадратов (мнк).

На графиках все прекрасно видно. Красная линия – это найденная прямая y = 0.165x+2.184 , синяя линия – это , розовые точки – это исходные данные.

На практике при моделировании различных процессов - в частности, экономических, физических, технических, социальных - широко используются те или иные способы вычисления приближенных значений функций по известным их значениям в некоторых фиксированных точках.

Такого рода задачи приближения функций часто возникают:

    при построении приближенных формул для вычисления значений характерных величин исследуемого процесса по табличным данным, полученным в результате эксперимента;

    при численном интегрировании, дифференцировании, решении дифференциальных уравнений и т. д.;

    при необходимости вычисления значений функций в промежуточных точках рассматриваемого интервала;

    при определении значений характерных величин процесса за пределами рассматриваемого интервала, в частности при прогнозировании.

Если для моделирования некоторого процесса, заданного таблицей, построить функцию, приближенно описывающую данный процесс на основе метода наименьших квадратов, она будет называться аппроксимирующей функцией (регрессией), а сама задача построения аппроксимирующих функций - задачей аппроксимации.

В данной статье рассмотрены возможности пакета MS Excel для решения такого рода задач, кроме того, приведены методы и приемы построения (создания) регрессий для таблично заданных функций (что является основой регрессионного анализа).

В Excel для построения регрессий имеются две возможности.

    Добавление выбранных регрессий (линий тренда - trendlines) в диаграмму, построенную на основе таблицы данных для исследуемой характеристики процесса (доступно лишь при наличии построенной диаграммы);

    Использование встроенных статистических функций рабочего листа Excel, позволяющих получать регрессии (линии тренда) непосредственно на основе таблицы исходных данных.

Добавление линий тренда в диаграмму

Для таблицы данных, описывающих некоторый процесс и представленных диаграммой, в Excel имеется эффективный инструмент регрессионного анализа, позволяющий:

    строить на основе метода наименьших квадратов и добавлять в диаграмму пять типов регрессий, которые с той или иной степенью точности моделируют исследуемый процесс;

    добавлять к диаграмме уравнение построенной регрессии;

    определять степень соответствия выбранной регрессии отображаемым на диаграмме данным.

На основе данных диаграммы Excel позволяет получать линейный, полиномиальный, логарифмический, степенной, экспоненциальный типы регрессий, которые задаются уравнением:

y = y(x)

где x - независимая переменная, которая часто принимает значения последовательности натурального ряда чисел (1; 2; 3; …) и производит, например, отсчет времени протекания исследуемого процесса (характеристики).

1 . Линейная регрессия хороша при моделировании характеристик, значения которых увеличиваются или убывают с постоянной скоростью. Это наиболее простая в построении модель исследуемого процесса. Она строится в соответствии с уравнением:

y = mx + b

где m - тангенс угла наклона линейной регрессии к оси абсцисс; b - координата точки пересечения линейной регрессии с осью ординат.

2 . Полиномиальная линия тренда полезна для описания характеристик, имеющих несколько ярко выраженных экстремумов (максимумов и минимумов). Выбор степени полинома определяется количеством экстремумов исследуемой характеристики. Так, полином второй степени может хорошо описать процесс, имеющий только один максимум или минимум; полином третьей степени - не более двух экстремумов; полином четвертой степени - не более трех экстремумов и т. д.

В этом случае линия тренда строится в соответствии с уравнением:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

где коэффициенты c0, c1, c2,... c6 - константы, значения которых определяются в ходе построения.

3 . Логарифмическая линия тренда с успехом применяется при моделировании характеристик, значения которых вначале быстро меняются, а затем постепенно стабилизируются.

y = c ln(x) + b

4 . Степенная линия тренда дает хорошие результаты, если значения исследуемой зависимости характеризуются постоянным изменением скорости роста. Примером такой зависимости может служить график равноускоренного движения автомобиля. Если среди данных встречаются нулевые или отрицательные значения, использовать степенную линию тренда нельзя.

Строится в соответствии с уравнением:

y = c xb

где коэффициенты b, с - константы.

5 . Экспоненциальную линию тренда следует использовать в том случае, если скорость изменения данных непрерывно возрастает. Для данных, содержащих нулевые или отрицательные значения, этот вид приближения также неприменим.

Строится в соответствии с уравнением:

y = c ebx

где коэффициенты b, с - константы.

При подборе линии тренда Excel автоматически рассчитывает значение величины R2, которая характеризует достоверность аппроксимации: чем ближе значение R2 к единице, тем надежнее линия тренда аппроксимирует исследуемый процесс. При необходимости значение R2 всегда можно отобразить на диаграмме.

Определяется по формуле:

Для добавления линии тренда к ряду данных следует:

    активизировать построенную на основе ряда данных диаграмму, т. е. щелкнуть в пределах области диаграммы. В главном меню появится пункт Диаграмма;

    после щелчка на этом пункте на экране появится меню, в котором следует выбрать команду Добавить линию тренда.

Эти же действия легко реализуются, если навести указатель мыши на график, соответствующий одному из рядов данных, и щелкнуть правой кнопкой мыши; в появившемся контекстном меню выбрать команду Добавить линию тренда. На экране появится диалоговое окно Линия тренда с раскрытой вкладкой Тип (рис. 1).

После этого необходимо:

Выбрать на вкладке Тип необходимый тип линии тренда (по умолчанию выбирается тип Линейный). Для типа Полиномиальная в поле Степень следует задать степень выбранного полинома.

1 . В поле Построен на ряде перечислены все ряды данных рассматриваемой диаграммы. Для добавления линии тренда к конкретному ряду данных следует в поле Построен на ряде выбрать его имя.

При необходимости, перейдя на вкладку Параметры (рис. 2), можно для линии тренда задать следующие параметры:

    изменить название линии тренда в поле Название аппроксимирующей (сглаженной) кривой.

    задать количество периодов (вперед или назад) для прогноза в поле Прогноз;

    вывести в область диаграммы уравнение линии тренда, для чего следует включить флажок показать уравнение на диаграмме;

    вывести в область диаграммы значение достоверности аппроксимации R2, для чего следует включить флажок поместить на диаграмму величину достоверности аппроксимации (R^2);

    задать точку пересечения линии тренда с осью Y, для чего следует включить флажок пересечение кривой с осью Y в точке;

    щелкнуть на кнопке OK, чтобы закрыть диалоговое окно.

Для того, чтобы начать редактирование уже построенной линии тренда, существует три способа:

    воспользоваться командой Выделенная линия тренда из меню Формат, предварительно выбрав линию тренда;

    выбрать команду Формат линии тренда из контекстного меню, которое вызывается щелчком правой кнопки мыши по линии тренда;

    двойным щелчком по линии тренда.

На экране появится диалоговое окно Формат линии тренда (рис. 3), содержащее три вкладки: Вид, Тип, Параметры, причем содержимое последних двух полностью совпадает с аналогичными вкладками диалогового окна Линия тренда (рис.1-2). На вкладке Вид, можно задать тип линии, ее цвет и толщину.

Для удаления уже построенной линии тренда следует выбрать удаляемую линию тренда и нажать клавишу Delete.

Достоинствами рассмотренного инструмента регрессионного анализа являются:

    относительная легкость построения на диаграммах линии тренда без создания для нее таблицы данных;

    достаточно широкий перечень типов предложенных линий трендов, причем в этот перечень входят наиболее часто используемые типы регрессии;

    возможность прогнозирования поведения исследуемого процесса на произвольное (в пределах здравого смысла) количество шагов вперед, а также назад;

    возможность получения уравнения линии тренда в аналитическом виде;

    возможность, при необходимости, получения оценки достоверности проведенной аппроксимации.

К недостаткам можно отнести следующие моменты:

    построение линии тренда осуществляется лишь при наличии диаграммы, построенной на ряде данных;

    процесс формирования рядов данных для исследуемой характеристики на основе полученных для нее уравнений линий тренда несколько загроможден: искомые уравнения регрессий обновляются при каждом изменении значений исходного ряда данных, но только в пределах области диаграммы, в то время как ряд данных, сформированный на основе старого уравнения линии тренда, остается без изменения;

    в отчетах сводных диаграмм при изменении представления диаграммы или связанного отчета сводной таблицы имеющиеся линии тренда не сохраняются, то есть до проведения линий тренда или другого форматирования отчета сводных диаграмм следует убедиться, что макет отчета удовлетворяет необходимым требованиям.

Линиями тренда можно дополнить ряды данных, представленные на диаграммах типа график, гистограмма, плоские ненормированные диаграммы с областями, линейчатые, точечные, пузырьковые и биржевые.

Нельзя дополнить линиями тренда ряды данных на объемных, нормированных, лепестковых, круговых и кольцевых диаграммах.

Использование встроенных функций Excel

В Excel имеется также инструмент регрессионного анализа для построения линий тренда вне области диаграммы. Для этой цели можно использовать ряд статистических функций рабочего листа, однако все они позволяют строить лишь линейные или экспоненциальные регрессии.

В Excel имеется несколько функций для построения линейной регрессии, в частности:

    ТЕНДЕНЦИЯ;

  • НАКЛОН и ОТРЕЗОК.

А также несколько функций для построения экспоненциальной линии тренда, в частности:

    ЛГРФПРИБЛ.

Следует отметить, что приемы построения регрессий с помощью функций ТЕНДЕНЦИЯ и РОСТ практически совпадают. То же самое можно сказать и о паре функций ЛИНЕЙН и ЛГРФПРИБЛ. Для четырех этих функций при создании таблицы значений используются такие возможности Excel, как формулы массивов, что несколько загромождает процесс построения регрессий. Заметим также, что построение линейной регрессии, на наш взгляд, легче всего осуществить с помощью функций НАКЛОН и ОТРЕЗОК, где первая из них определяет угловой коэффициент линейной регрессии, а вторая - отрезок, отсекаемый регрессией на оси ординат.

Достоинствами инструмента встроенных функций для регрессионного анализа являются:

    достаточно простой однотипный процесс формирования рядов данных исследуемой характеристики для всех встроенных статистических функций, задающих линии тренда;

    стандартная методика построения линий тренда на основе сформированных рядов данных;

    возможность прогнозирования поведения исследуемого процесса на необходимое количество шагов вперед или назад.

А к недостаткам относится то, что в Excel нет встроенных функций для создания других (кроме линейного и экспоненциального) типов линий тренда. Это обстоятельство часто не позволяет подобрать достаточно точную модель исследуемого процесса, а также получить близкие к реальности прогнозы. Кроме того, при использовании функций ТЕНДЕНЦИЯ и РОСТ не известны уравнения линий тренда.

Следует отметить, что авторы не ставили целью статьи изложение курса регрессионного анализа с той или иной степенью полноты. Основная ее задача - на конкретных примерах показать возможности пакета Excel при решении задач аппроксимации; продемонстрировать, какими эффективными инструментами для построения регрессий и прогнозирования обладает Excel; проиллюстрировать, как относительно легко такие задачи могут быть решены даже пользователем, не владеющим глубокими знаниями регрессионного анализа.

Примеры решения конкретных задач

Рассмотрим решение конкретных задач с помощью перечисленных инструментов пакета Excel.

Задача 1

С таблицей данных о прибыли автотранспортного предприятия за 1995-2002 гг. необходимо выполнить следующие действия.

    Построить диаграмму.

    В диаграмму добавить линейную и полиномиальную (квадратичную и кубическую) линии тренда.

    Используя уравнения линий тренда, получить табличные данные по прибыли предприятия для каждой линии тренда за 1995-2004 г.г.

    Составить прогноз по прибыли предприятия на 2003 и 2004 гг.

Решение задачи

    В диапазон ячеек A4:C11 рабочего листа Excel вводим рабочую таблицу, представленную на рис. 4.

    Выделив диапазон ячеек В4:С11, строим диаграмму.

    Активизируем построенную диаграмму и по описанной выше методике после выбора типа линии тренда в диалоговом окне Линия тренда (см. рис. 1) поочередно добавляем в диаграмму линейную, квадратичную и кубическую линии тренда. В этом же диалоговом окне открываем вкладку Параметры (см. рис. 2), в поле Название аппроксимирующей (сглаженной) кривой вводим наименование добавляемого тренда, а в поле Прогноз вперед на: периодов задаем значение 2, так как планируется сделать прогноз по прибыли на два года вперед. Для вывода в области диаграммы уравнения регрессии и значения достоверности аппроксимации R2 включаем флажки показывать уравнение на экране и поместить на диаграмму величину достоверности аппроксимации (R^2). Для лучшего визуального восприятия изменяем тип, цвет и толщину построенных линий тренда, для чего воспользуемся вкладкой Вид диалогового окна Формат линии тренда (см. рис. 3). Полученная диаграмма с добавленными линиями тренда представлена на рис. 5.

    Для получения табличных данных по прибыли предприятия для каждой линии тренда за 1995-2004 гг. воспользуемся уравнениями линий тренда, представленными на рис. 5. Для этого в ячейки диапазона D3:F3 вводим текстовую информацию о типе выбранной линии тренда: Линейный тренд, Квадратичный тренд, Кубический тренд. Далее вводим в ячейку D4 формулу линейной регрессии и, используя маркер заполнения, копируем эту формулу c относительными ссылками в диапазон ячеек D5:D13. Следует отметить, что каждой ячейке с формулой линейной регрессии из диапазона ячеек D4:D13 в качестве аргумента стоит соответствующая ячейка из диапазона A4:A13. Аналогично для квадратичной регрессии заполняется диапазон ячеек E4:E13, а для кубической регрессии - диапазон ячеек F4:F13. Таким образом, составлен прогноз по прибыли предприятия на 2003 и 2004 гг. с помощью трех трендов. Полученная таблица значений представлена на рис. 6.

Задача 2

    Построить диаграмму.

    В диаграмму добавить логарифмическую, степенную и экспоненциальную линии тренда.

    Вывести уравнения полученных линий тренда, а также величины достоверности аппроксимации R2 для каждой из них.

    Используя уравнения линий тренда, получить табличные данные о прибыли предприятия для каждой линии тренда за 1995-2002 гг.

    Составить прогноз о прибыли предприятия на 2003 и 2004 гг., используя эти линии тренда.

Решение задачи

Следуя методике, приведенной при решении задачи 1, получаем диаграмму с добавленными в нее логарифмической, степенной и экспоненциальной линиями тренда (рис. 7). Далее, используя полученные уравнения линий тренда, заполняем таблицу значений по прибыли предприятия, включая прогнозируемые значения на 2003 и 2004 гг. (рис. 8).

На рис. 5 и рис. видно, что модели с логарифмическим трендом, соответствует наименьшее значение достоверности аппроксимации

R2 = 0,8659

Наибольшие же значения R2 соответствуют моделям с полиномиальным трендом: квадратичным (R2 = 0,9263) и кубическим (R2 = 0,933).

Задача 3

С таблицей данных о прибыли автотранспортного предприятия за 1995-2002 гг., приведенной в задаче 1, необходимо выполнить следующие действия.

    Получить ряды данных для линейной и экспоненциальной линии тренда с использованием функций ТЕНДЕНЦИЯ и РОСТ.

    Используя функции ТЕНДЕНЦИЯ и РОСТ, составить прогноз о прибыли предприятия на 2003 и 2004 гг.

    Для исходных данных и полученных рядов данных построить диаграмму.

Решение задачи

Воспользуемся рабочей таблицей задачи 1 (см. рис. 4). Начнем с функции ТЕНДЕНЦИЯ:

    выделяем диапазон ячеек D4:D11, который следует заполнить значениями функции ТЕНДЕНЦИЯ, соответствующими известным данным о прибыли предприятия;

    вызываем команду Функция из меню Вставка. В появившемся диалоговом окне Мастер функций выделяем функцию ТЕНДЕНЦИЯ из категории Статистические, после чего щелкаем по кнопке ОК. Эту же операцию можно осуществить нажатием кнопки (Вставка функции) стандартной панели инструментов.

    В появившемся диалоговом окне Аргументы функции вводим в поле Известные_значения_y диапазон ячеек C4:C11; в поле Известные_значения_х - диапазон ячеек B4:B11;

    чтобы вводимая формула стала формулой массива, используем комбинацию клавиш + + .

Введенная нами формула в строке формул будет иметь вид: ={ТЕНДЕНЦИЯ(C4:C11;B4:B11)}.

В результате диапазон ячеек D4:D11 заполняется соответствующими значениями функции ТЕНДЕНЦИЯ (рис. 9).

Для составления прогноза о прибыли предприятия на 2003 и 2004 гг. необходимо:

    выделить диапазон ячеек D12:D13, куда будут заноситься значения, прогнозируемые функцией ТЕНДЕНЦИЯ.

    вызвать функцию ТЕНДЕНЦИЯ и в появившемся диалоговом окне Аргументы функции ввести в поле Известные_значения_y - диапазон ячеек C4:C11; в поле Известные_значения_х - диапазон ячеек B4:B11; а в поле Новые_значения_х - диапазон ячеек B12:B13.

    превратить эту формулу в формулу массива, используя комбинацию клавиш Ctrl + Shift + Enter.

    Введенная формула будет иметь вид: ={ТЕНДЕНЦИЯ(C4:C11;B4:B11;B12:B13)}, а диапазон ячеек D12:D13 заполнится прогнозируемыми значениями функции ТЕНДЕНЦИЯ (см. рис. 9).

Аналогично заполняется ряд данных с помощью функции РОСТ, которая используется при анализе нелинейных зависимостей и работает точно так же, как ее линейный аналог ТЕНДЕНЦИЯ.

На рис.10 представлена таблица в режиме показа формул.

Для исходных данных и полученных рядов данных построена диаграмма, изображенная на рис. 11.

Задача 4

С таблицей данных о поступлении в диспетчерскую службу автотранспортного предприятия заявок на услуги за период с 1 по 11 число текущего месяца необходимо выполнить следующие действия.

    Получить ряды данных для линейной регрессии: используя функции НАКЛОН и ОТРЕЗОК; используя функцию ЛИНЕЙН.

    Получить ряд данных для экспоненциальной регрессии с использованием функции ЛГРФПРИБЛ.

    Используя вышеназванные функции, составить прогноз о поступлении заявок в диспетчерскую службу на период с 12 по 14 число текущего месяца.

    Для исходных и полученных рядов данных построить диаграмму.

Решение задачи

Отметим, что, в отличие от функций ТЕНДЕНЦИЯ и РОСТ, ни одна из перечисленных выше функций (НАКЛОН, ОТРЕЗОК, ЛИНЕЙН, ЛГРФПРИБ) не является регрессией. Эти функции играют лишь вспомогательную роль, определяя необходимые параметры регрессии.

Для линейной и экспоненциальной регрессий, построенных с помощью функций НАКЛОН, ОТРЕЗОК, ЛИНЕЙН, ЛГРФПРИБ, внешний вид их уравнений всегда известен, в отличие от линейной и экспоненциальной регрессий, соответствующих функциям ТЕНДЕНЦИЯ и РОСТ.

1 . Построим линейную регрессию, имеющую уравнение:

y = mx+b

с помощью функций НАКЛОН и ОТРЕЗОК, причем угловой коэффициент регрессии m определяется функцией НАКЛОН, а свободный член b - функцией ОТРЕЗОК.

Для этого осуществляем следующие действия:

    заносим исходную таблицу в диапазон ячеек A4:B14;

    значение параметра m будет определяться в ячейке С19. Выбираем из категории Статистические функцию Наклон; заносим диапазон ячеек B4:B14 в поле известные_значения_y и диапазон ячеек А4:А14 в поле известные_значения_х. В ячейку С19 будет введена формула: =НАКЛОН(B4:B14;A4:A14);

    по аналогичной методике определяется значение параметра b в ячейке D19. И ее содержимое будет иметь вид: =ОТРЕЗОК(B4:B14;A4:A14). Таким образом, необходимые для построения линейной регрессии значения параметров m и b будут сохраняться соответственно в ячейках C19, D19;

    далее заносим в ячейку С4 формулу линейной регрессии в виде: =$C*A4+$D. В этой формуле ячейки С19 и D19 записаны с абсолютными ссылками (адрес ячейки не должен меняться при возможном копировании). Знак абсолютной ссылки $ можно набить либо с клавиатуры, либо с помощью клавиши F4, предварительно установив курсор на адресе ячейки. Воспользовавшись маркером заполнения, копируем эту формулу в диапазон ячеек С4:С17. Получаем искомый ряд данных (рис. 12). В связи с тем, что количество заявок - целое число, следует установить на вкладке Число окна Формат ячеек числовой формат с числом десятичных знаков 0.

2 . Теперь построим линейную регрессию, заданную уравнением:

y = mx+b

с помощью функции ЛИНЕЙН.

Для этого:

    вводим в диапазон ячеек C20:D20 функцию ЛИНЕЙН как формулу массива: ={ЛИНЕЙН(B4:B14;A4:A14)}. В результате получаем в ячейке C20 значение параметра m, а в ячейке D20 - значение параметра b;

    вводим в ячейку D4 формулу: =$C*A4+$D;

    копируем эту формулу с помощью маркера заполнения в диапазон ячеек D4:D17 и получаем искомый ряд данных.

3 . Строим экспоненциальную регрессию, имеющую уравнение:

с помощью функции ЛГРФПРИБЛ оно выполняется аналогично:

    в диапазон ячеек C21:D21 вводим функцию ЛГРФПРИБЛ как формулу массива: ={ ЛГРФПРИБЛ (B4:B14;A4:A14)}. При этом в ячейке C21 будет определено значение параметра m, а в ячейке D21 - значение параметра b;

    в ячейку E4 вводится формула: =$D*$C^A4;

    с помощью маркера заполнения эта формула копируется в диапазон ячеек E4:E17, где и расположится ряд данных для экспоненциальной регрессии (см. рис. 12).

На рис. 13 приведена таблица, где видны используемые нами функции с необходимыми диапазонами ячеек, а также формулы.

Величина R 2 называется коэффициентом детерминации .

Задачей построения регрессионной зависимости является нахождение вектора коэффициентов m модели (1) при котором коэффициент R принимает максимальное значение.

Для оценки значимости R применяется F-критерий Фишера, вычисляемый по формуле

где n - размер выборки (количество экспериментов);

k - число коэффициентов модели.

Если F превышает некоторое критическое значение для данных n и k и принятой доверительной вероятности, то величина R считается существенной. Таблицы критических значений F приводятся в справочниках по математической статистике.

Таким образом, значимость R определяется не только его величиной, но и соотношением между количеством экспериментов и количеством коэффициентов (параметров) модели. Действительно, корреляционное отношение для n=2 для простой линейной модели равно 1 (через 2 точки на плоскости можно всегда провести единственную прямую). Однако если экспериментальные данные являются случайными величинами, доверять такому значению R следует с большой осторожностью. Обычно для получения значимого R и достоверной регрессии стремятся к тому, чтобы количество экспериментов существенно превышало количество коэффициентов модели (n>k).

Для построения линейной регрессионной модели необходимо:

1) подготовить список из n строк и m столбцов, содержащий экспериментальные данные (столбец, содержащий выходную величину Y должен быть либо первым, либо последним в списке); для примера возьмем данные предыдущего задания, добавив столбец с названием "№ периода", пронумеруем номера периодов от 1 до 12. (это будут значения Х )

2) обратиться к меню Данные/Анализ данных/Регрессия

Если пункт "Анализ данных" в меню "Сервис" отсутствует, то следует обратиться к пункту "Надстройки" того же меню и установить флажок "Пакет анализа".

3) в диалоговом окне "Регрессия" задать:

· входной интервал Y;

· входной интервал X;

· выходной интервал - верхняя левая ячейка интервала, в который будут помещаться результаты вычислений (рекомендуется разместить на новом рабочем листе);

4) нажать "Ok" и проанализировать результаты.

Слободянюк А.И. Метод наименьших квадратов в школьном физическом эксперименте // Фiзiка: праблемы. выкладання.– 1995. – Вып. 1. – С. 88-99.

К настоящему времени разработано несколько методов обработки результатов измерений. Наиболее употребительным и точным является метод наименьших квадратов (МНК).

В статье излагается суть метода наименьших квадратов, условия его применимости. Авторы предлагают примеры использования метода МНК.

Как правило, все физические эксперименты сводятся к измерению зависимости некоторой величины u от одной или нескольких других величин z 1 , z 2 , …, z n .

Необходимость получения зависимости (а не проведения «точечного» измерения при фиксированных значениях параметров) оправдывается следующими преимуществами:

  • возможностью проверки теоретических построений;
  • возможностью исключения трудноопределяемых параметров;
  • в некоторых случаях более простым способом оценки погрешностей.

К настоящему времени разработано несколько методов обработки результатов измерений. Наиболее употребительным, простым и обоснованным является метод наименьших квадратов (МНК).

1. Суть метода наименьших квадратов, условия его применимости

Допустим, нам известен вид функциональной зависимости физической величины u от другой физической величины z , но не известны параметры этой зависимости a , b , c ,... . В результате проведенных измерений получена таблица значений u i при некоторых значениях . Требуется найти такие значения параметров a , b , c ,... при которых функция наилучшим образом описывает экспериментальные данные.

МНК утверждает, что «наилучшей» кривой будет такая, для которой сумма квадратов отклонений экспериментальных значений u i от значений функции минимальна. Таким образом, для определения параметров a , b , c ,... необходимо найти минимум функции

. (1)

Отметим, что Φ рассматривается здесь как функция параметров a , b , c ,..., так как величины u i , z i известны из экспериментальных данных.

В общем случае нахождение минимума функции (1) удается сделать далеко не всегда. Поэтому для практической реализации МНК часто применяют следующий искусственный прием: находят некоторое функциональное преобразование , которое приводит исследуемую зависимость к линейному виду

для которого реализация МНК наиболее проста. Примеры преобразований такого типа приведены в табл. 1. Некоторые преобразования будут рассмотрены ниже при изложении конкретных примеров.

Подставим выражение (2) в выражение (1)

(3)

и получим уравнения для определения параметров а и b . Для этого вычислим производные функции Φ по а и b и приравняем их к нулю,

(4)

Данная система является линейной и легко решается:

(5)

Однако полученные выражения не очень удобны для практических расчетов, поэтому перепишем их в несколько иной форме. Для этого обозначим

(6)

(угловые скобки означают среднее арифметическое по экспериментальным данным) и запишем

(7)

Из второго уравнения системы (4) выразим .

Выражения (6), (7) позволяют достаточно быстро с помощью непрограммируемого калькулятора рассчитать параметры линейной зависимости (2).

Сформулируем условия, при которых полученные таким способом значения параметров являются оптимальными (несмещенными, состоятельными, эффективными оценками ).

1. Результаты измерений являются независимыми.

2. Погрешности измерений подчиняются нормальному распределению.

3. Величины х i , известны точно.

Практически МНК в изложенной форме применяют, если погрешности измерений у i значительно (более чем на порядок) превосходят погрешности измерений величин x i .

При выполнении этих условий параметры а , b линейно выражаются через результаты измерений у i , (погрешностями измерений x i пренебрегаем), поэтому погрешность определения параметров может быть найдена стандартным методом как погрешность косвенного измерения. Несколько громоздкие выкладки приводят к следующим формулам для оценок погрешностей:

(8)

где , остальные обозначения сохраняем прежними:

(9)

Таким образом, формулы (6) – (9) полностью исчерпывают МНК для анализа линейной зависимости. Формулы (7) – (8) дают оценки только случайных погрешностей измерений. Их использование полностью оправдано, если этот тип погрешностей преобладает, что чаще всего бывает на практике. Свидетельством такого преобладания является заметный разброс точек (у i , х i ) на графике, когда эти точки не ложатся точно на прямую. Отметим, что постоянная систематическая приборная погрешность не влияет на определение параметра а и является аддитивной добавкой к погрешности параметра b , т.е. если приборная погрешность измерения величин у i равна , то .

Отметим также, что в некоторых случаях необходимо проводить несколько измерений величины u при одном и том же значении z . В этом случае никаких модификаций МНК не требуется. Достаточно рассматривать эти значения как независимые, т.е. включать в расчеты пары z i , u i ·с одними и теми же значениями z i . Иными словами, одному значению z может соответствовать несколько значений u . Естественно, не могут быть все z одинаковыми, иначе в формуле (5) в знаменателе окажется нуль.

2. Практическая реализация МНК для линейной зависимости на непрограммируемом калькуляторе

Как показывает опыт, лучше всего для расчетов параметров линейной зависимости и их погрешностей воспользоваться заранее приготовленным бланком (табл. 2). В колонке 1 записываются номера проведенных измерений (i = 1, 2, ..., Ν ); в колонках 2, 3 – результаты измерений величин z i , u i .

Первым шагом использования этого бланка для реализации МНК является заполнение колонок 4, 5. В них представляются результаты преобразований от z , u к величинам х , у , между которыми ищется линейная зависимость.

Расчетные формулы, представленные в колонке 6, допускают вычисления на калькуляторе без записи промежуточных результатов. Любой, даже самый простейший калькулятор, имеет одну ячейку памяти, в которой можно накапливать значения сумм. Расчеты следует проводить в такой последовательности:

1) вычислить – для этого последовательно ввести в память все значения х i , записанные в колонке 4, и после этого содержимое разделить на число пар измерений N, результат записать в колонке 7;

2) вычислить , последовательно набирая значения x i , накопить в памяти сумму их квадратов (набрать значения – «умножить» – «равно» – «в память +») и разделить на N , от полученного результата вычесть квадрат среднего, результат записать в колонке 7;

3 – 4) аналогично вычислить и ;

5) в памяти накопить сумму произведений , разделить на N , вычесть произведение средних и разделить на – получить значение параметра а .

Дальнейшие расчеты вполне очевидны.

3. Пример использования МНК

Задача . С помощью математического маятника измерить ускорение свободного падения.

Оборудование : нить, грузик, штатив, линейка, секундомер.

Решение . Период малых колебаний математического маятника Т определяется по формуле . Эту формулу можно преобразовать к виду .

Иными словами, между длиной маятника l и квадратом периода существует линейная связь, которую мы запишем в виде: , где (преобразование к линейному виду). Введение параметра b в данном случае не является обязательным, так как теоретически b = 0. Однако запись линейной зависимости в общем виде позволяет учесть автоматически погрешность в определении длины маятника, более того, в этом случае можно измерять не длину маятника, а только ее изменение. Если же все измерения проведены корректно, то МНК должен привести к результату , что и будет свидетельствовать о том, что .

Результаты измерений изменения длины маятника Δl (измерялось расстояние от точки подвеса до некоторой фиксированной точки на нити) и времени t двадцати колебаний (измерено с помощью ручных часов) приведены в табл. 3. Там же представлены результаты расчетов по изложенной методике.

Вычислив коэффициент а , можно найти значение ускорения свободного падения и его погрешность .

Окончательный результат м/с.

Значение параметра b не использовалось (смысл полученной величины – расстояние от фиксированной точки на нити до центра масс груза). Использование этого параметра оправдано сложностью точного определения положения центра тяжести.

4. Экспериментальные задачи, предполагающие использование МНК

В заключение предложим несколько экспериментальных задач, для решения которых следует использовать изложенный метод. Каждая задача снабжена краткими указаниями к решению. Так как в каждом случае формулы для оценок погрешностей очевидны, то здесь они не приводятся.

Задача 1 . Период колебаний математического маятника зависит от амплитуды j 0 (в радианах) по закону

(10)

Определите значение параметра β.

Оборудование : нить, груз, штатив, транспортир, электронный секундомер.

Указания к решению . Зависимость периода колебаний от амплитуды достаточно слабая. Чтобы ее обнаружить, необходимо проводить измерения с высокой точностью (–0,01 с), для чего требуется электронный секундомер.

Зависимость (10) представим в виде , где y = T ,b = Т 0 . По МНК для линейной зависимости можно найти значения параметров а и b , тогда искомый коэффициент определится по формуле (отметим, что теоретическое значение ).

Задача 2 . Определите фокусное расстояние собирающей линзы.

Оборудование : источник света, экран, линза, линейка.

Указания к решению . Воспользуемся формулой тонкой линзы

где d – расстояние от предмета до линзы, f – расстояние от линзы до изображения, F – фокусное расстояние линзы.

Обозначим , тогда . Если измерить несколько пар значений d i и f i и нанести на график точки , то эти точки должны лечь на прямую, которая отсекает на осях х , у отрезки, численно равные . Если обработать эту зависимость по МНК, можно получить и затем найти .

Задача 3 . Остывание воды описывается формулой , где Δ T –разность температур воды и воздуха в комнате, ΔT 0 – эта же разность в момент времени t = 0. Определите, сколько времени прошло с момента кипения воды.

Оборудование : горячая вода в сосуде, термометр, часы.

Указания к решению . Необходимо заранее закипятить воду и поставить ее остывать. Через некоторое время этот сосуд можно предоставить для выполнения задания. Следует иметь в виду, что время остывания стакана воды при комнатных условиях порядка 40 мин.

Для решения поставленной задачи необходимо измерить зависимость температуры воды T от времени t . Далее, перепишем приведенную формулу в виде , где T 0 – комнатная температура, T кип – температура кипения воды, t 0 – время, прошедшее от закипания до начала измерения. Так как в. формулу входят только разности температур, то можно пользоваться шкалой Цельсия. Прологарифмируем последнее выражение

(12)

и обозначим , x = t , получим линейную зависимость

Обрабатывая результаты измерений по МНК, найдем значения параметров а , b , из которых можно вычислить искомое значение времени t 0: .

Задача 4 . Исследуйте, как зависит сила сопротивления воздуха, действующая на падающие кусочки бумаги, от скорости последних.

Оборудование : кусочки бумаги, секундомер.

Указания к решению . Кусочки бумаги следует сделать квадратными (приблизительно см).и слегка изогнуть в виде «парашютиков», чтобы их падений было устойчивым. Отлично для этой же цели подходят одноразовые тарелочки, изготовленные из плотной бумаги или фольги.

Падение бумажных тарелочек (или парашютиков) происходит с постоянной скоростью, если пренебречь небольшим начальным этапом разгона. Сила сопротивления воздуха зависит от скорости u по закону

(требуется определить γ), при установившемся движении эта сила численно равна силе тяжести , следовательно, скорость установившегося движения , а время падения с высоты h :

(14)

Возьмем несколько (1, 2, 3, ..., 5) одинаковых тарелочек и измерим время падения t n сложенных вместе n тарелочек. Коэффициент с в формуле (13) будет одинаков (он зависит только от формы тарелочки), масса же падающих тел , где m 0 – масса одной тарелочки. Используем (14): , в логарифмической форме

(15)

Как следует из этой формулы, между и существует линейная связь , где , в b вошли все остальные постоянные величины, измерять которые нет необходимости.

Таким образом, измерив зависимость времени падения t n , от числа сложенных вместе n тарелочек и построив зависимость (15), по МНК можно найти значение параметра а и искомой величины .

При проведении эксперимента необходимо иметь в виду, что время падения кусочка бумаги см с высоты равно приблизительно 1,5 с, поэтому необходимо измерять время падения с погрешностью порядка 0,1 с. Следовательно, для каждого значения числа n нужно получить несколько значений t n . Подчеркнем, что в этой ситуации нет необходимости предварительно рассчитывать средние значения , можно (и нужно) рассматривать все результаты измерения как независимые и включать их в бланк расчета.

Еще одна задача подобного типа подробно рассмотрена в журнале «Фокус» .

5. Заключение

Рассмотренный алгоритм расчетов по МНК апробирован на летних сборах в лагере «Зубренок». Проведенные с победителями олимпиад занятия показали, что этот метод вполне доступен школьникам старших классов с углубленным изучением физики. После приобретения навыка работы на микрокалькуляторе расчеты занимают приблизительно 5–10 мин.

Необходимость изучения методов графической обработки результатов (по MHK или другим) обосновывается участием команд республики на международных соревнованиях, (олимпиадах, турнирах юных физиков), где графические методы занимают главенствующее место и оцениваются весьма высоко.

1. Тэйлор Дж. Введение в теорию ошибок. – М: Мир, 1985.

2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983.

3. Тимофеев А.. Проверим Стокса? – Фокус. – 1995. – №2. – С. 44-49.

Приведение к линейной зависимости

Вид зависимости

Преобразование

Параметры

Бланк расчета параметров линейной зависимости

i

z

u

x

y

Расчетные формулы

Результаты

Определение параметров зависимости
периода колебаний маятника от его длины

Δl ,

Расчетные формулы

Результаты

Он имеет множество применений, так как позволяет осуществлять приближенное представление заданной функции другими более простыми. МНК может оказаться чрезвычайно полезным при обработке наблюдений, и его активно используют для оценки одних величин по результатам измерений других, содержащих случайные ошибки. Из этой статьи вы узнаете, как реализовать вычисления по методу наименьших квадратов в Excel.

Постановка задачи на конкретном примере

Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

Несколько слов о корректности исходных данных, используемых для предсказания

Допустим, у нас есть таблица, построенная по данным для n магазинов.

Согласно математической статистике, результаты будут более-менее корректными, если исследуются данные по хотя бы 5-6 объектам. Кроме того, нельзя использовать «аномальные» результаты. В частности, элитный небольшой бутик может иметь товарооборот в разы больший, чем товарооборот больших торговых точек класса «масмаркет».

Суть метода

Данные таблицы можно изобразить на декартовой плоскости в виде точек M 1 (x 1 , y 1), … M n (x n , y n). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M 1, M 2, .. M n .

Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов - a и b.

Оценка точности

При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через e i разность (отклонение) между функциональными и экспериментальными значениями для точки x i , т. е. e i = y i - f (x i).

Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы e i во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

Метод наименьших квадратов

В Excel, как известно, существует встроенная функция автосуммы, позволяющая вычислить значения всех значений, расположенных в выделенном диапазоне. Таким образом, ничто не помешает нам рассчитать значение выражения (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

В математической записи это имеет вид:

Так как изначально было принято решение об аппроксимировании с помощью прямой, то имеем:

Таким образом, задача нахождения прямой, которая лучше всего описывает конкретную зависимость величин X и Y, сводится к вычислению минимума функции двух переменных:

Для этого требуется приравнять к нулю частные производные по новым переменным a и b, и решить примитивную систему, состоящую из двух уравнений с 2-мя неизвестными вида:

После нехитрых преобразований, включая деление на 2 и манипуляции с суммами, получим:

Решая ее, например, методом Крамера, получаем стационарную точку с некими коэффициентами a * и b * . Это и есть минимум, т. е. для предсказания, какой товарооборот будет у магазина при определенной площади, подойдет прямая y = a * x + b * , представляющая собой регрессионную модель для примера, о котором идет речь. Конечно, она не позволит найти точный результат, но поможет получить представление о том, окупится ли покупка в кредит магазина конкретной площади.

Как реализоавать метод наименьших квадратов в Excel

В "Эксель" имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

  • диапазон известных значений для Y (в данном случае данные для товарооборота);
  • диапазон x 1 , …x n , т. е. величины торговых площадей;
  • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

Некоторые особенности

Регрессионный анализ может быть доступен даже чайникам. Формула Excel для предсказания значения массива неизвестных переменных — «ТЕНДЕНЦИЯ» — может использоваться даже теми, кто никогда не слышал о методе наименьших квадратов. Достаточно просто знать некоторые особенности ее работы. В частности:

  • Если расположить диапазон известных значений переменной y в одной строке или столбце, то каждая строка (столбец) с известными значениями x будет восприниматься программой в качестве отдельной переменной.
  • Если в окне «ТЕНДЕНЦИЯ» не указан диапазон с известными x, то в случае использования функции в Excel программа будет рассматривать его как массив, состоящий из целых чисел, количество которых соответствует диапазону с заданными значениями переменной y.
  • Чтобы получить на выходе массив «предсказанных» значений, выражение для вычисления тенденции нужно вводить как формулу массива.
  • Если не указаны новые значения x, то функция «ТЕНДЕНЦИЯ» считает их равным известным. Если и они не заданы, то в качестве аргумента берется массив 1; 2; 3; 4;…, который соразмерен диапазону с уже заданными параметрами y.
  • Диапазон, содержащий новые значения x должен состоять из такого же или большего количества строк или столбцов, как диапазон с заданными значениями y. Иными словами он должен быть соразмерным независимым переменным.
  • В массиве с известными значениями x может содержаться несколько переменных. Однако если речь идет лишь об одной, то требуется, чтобы диапазоны с заданными значениями x и y были соразмерны. В случае нескольких переменных нужно, чтобы диапазон с заданными значениями y вмещался в одном столбце или в одной строке.

Функция «ПРЕДСКАЗ»

Реализуется с помощью нескольких функций. Одна из них называется «ПРЕДСКАЗ». Она аналогична «ТЕНДЕНЦИИ», т. е. выдает результат вычислений по методу наименьших квадратов. Однако только для одного X, для которого неизвестно значение Y.

Теперь вы знаете формулы в Excel для чайников, позволяющие спрогнозировать величину будущего значения того или иного показателя согласно линейному тренду.

3. Аппроксимация функций с помощью метода

наименьших квадратов

Метод наименьших квадратов применяется при обработке результатов эксперимента для аппроксимации (приближения) экспериментальных данных аналитической формулой. Конкретный вид формулы выбирается, как правило, из физических соображений. Такими формулами могут быть:

и другие.

Сущность метода наименьших квадратов состоит в следующем. Пусть результаты измерений представлены таблицей:

Таблица 4

x n

y n

(3.1)

где f - известная функция, a 0 , a 1 , …, a m - неизвестные постоянные параметры, значения которых надо найти. В методе наименьших квадратов приближение функции (3.1) к экспериментальной зависимости считается наилучшим, если выполняется условие

(3.2)

то есть сумм a квадратов отклонений искомой аналитической функции от экспериментальной зависимости должна быть минимальна .

Заметим, что функция Q называется невязкой.


Так как невязка

то она имеет минимум. Необходимым условием минимума функции нескольких переменных является равенство нулю всех частных производных этой функции по параметрам. Таким образом, отыскание наилучших значений параметров аппроксимирующей функции (3.1), то есть таких их значений, при которых Q = Q (a 0 , a 1 , …, a m ) минимальна, сводится к решению системы уравнений:

(3.3)

Методу наименьших квадратов можно дать следующее геометрическое истолкование: среди бесконечного семейства линий данного вида отыскивается одна линия, для которой сумма квадратов разностей ординат экспериментальных точек и соответствующих им ординат точек, найденных по уравнению этой линии, будет наименьшей.

Нахождение параметров линейной функции

Пусть экспериментальные данные надо представить линейной функцией:

Требуется подобрать такие значения a и b , для которых функция

(3.4)

будет минимальной. Необходимые условия минимума функции (3.4) сводятся к системе уравнений:

После преобразований получаем систему двух линейных уравнений с двумя неизвестными:

(3.5)

решая которую , находим искомые значения параметров a и b .

Нахождение параметров квадратичной функции

Если аппроксимирующей функцией является квадратичная зависимость

то её параметры a , b , c находят из условия минимума функции:

(3.6)

Условия минимума функции (3.6) сводятся к системе уравнений:


После преобразований получаем систему трёх линейных уравнений с тремя неизвестными:

(3.7)

при решении которой находим искомые значения параметров a , b и c .

Пример . Пусть в результате эксперимента получена следующая таблица значений x и y :

Таблица 5

y i

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

Требуется аппроксимировать экспериментальные данные линейной и квадратичной функциями.

Решение. Отыскание параметров аппроксимирующих функций сводится к решению систем линейных уравнений (3.5) и (3.7). Для решения задачи воспользуемся процессором электронных таблиц Excel .

1. Сначала сцепим листы 1 и 2. Занесём экспериментальные значения x i и y i в столбцы А и В, начиная со второй строки (в первой строке поместим заголовки столбцов). Затем для этих столбцов вычислим суммы и поместим их в десятой строке.

В столбцах C – G разместим соответственно вычисление и суммирование

2. Расцепим листы.Дальнейшие вычисления проведём аналогичным образом для линейной зависимости на Листе 1и для квадратичной зависимости на Листе 2.

3. Под полученной таблицей сформируем матрицу коэффициентов и вектор-столбец свободных членов. Решим систему линейных уравнений по следующему алгоритму:

Для вычисления обратной матрицы и перемножения матриц воспользуемся Мастером функций и функциями МОБР и МУМНОЖ .

4. В блоке ячеек H2: H 9 на основе полученных коэффициентов вычислим значенияаппроксимирующего полинома y i выч ., в блоке I 2: I 9 – отклонения D y i = y i эксп . - y i выч .,в столбце J – невязку:

Полученные таблицы и построенные с помощью Мастера диаграмм графики приведёны на рисунках6, 7, 8.


Рис. 6. Таблица вычисления коэффициентов линейной функции,

аппроксимирующей экспериментальные данные.


Рис. 7. Таблица вычисления коэффициентов квадратичной функции,

аппроксимирующей экспериментальные данные.


Рис. 8. Графическое представление результатов аппроксимации

экспериментальных данных линейной и квадратичной функциями.

Ответ. Аппроксимировали экспериментальные данные линейной зависимостью y = 0,07881 x + 0,442262 c невязкой Q = 0,165167 и квадратичной зависимостью y = 3,115476 x 2 – 5,2175 x + 2,529631 c невязкой Q = 0,002103 .

Задания. Аппроксимировать функцию, заданную таблично, линейной и квадратичной функциями.

Таблица 6

№0

x

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599