Биографии Характеристики Анализ

Използване на метода на най-малките квадрати за приближение. Апроксимация на изходни данни чрез линейна зависимост

КУРСОВА РАБОТА

дисциплина: Информатика

Тема: Апроксимация на функция чрез метод най-малки квадрати

Въведение

1. Постановка на проблема

2.Формули за изчисление

Изчисляване с помощта на таблици, направени по средства Microsoft Excel

Алгоритъмна схема

Изчисление в MathCad

Линейни резултати

Представяне на резултатите под формата на графики


Въведение

Целта на курсовата работа е да задълбочи знанията по компютърни науки, да развие и консолидира умения за работа с електронната таблица Microsoft Excel и софтуерен продукт MathCAD и приложението им за решаване на задачи с помощта на компютър от предметна областсвързани с изследвания.

Апроксимация (от латинското "approximare" - "приближаване") - приблизителен израз на всяка математически обекти(например числа или функции) чрез други, които са по-прости, по-лесни за използване или просто по-известни. AT научно изследванеапроксимацията се използва за описване, анализиране, обобщаване и по-нататъшно използване на емпирични резултати.

Както е известно, между стойностите може да има точна (функционална) връзка, когато една стойност на аргумента съответства на една конкретна стойност, и по-малко точна (корелационна) връзка, когато една конкретна стойност на аргумента съответства на приблизителна стойност или някакъв набор от функционални стойности, които са повече или по-малко близки една до друга. Когато провеждате научни изследвания, обработвате резултатите от наблюдение или експеримент, обикновено трябва да се справите с втория вариант.

При изучаване на количествените зависимости на различни показатели, чиито стойности се определят емпирично, като правило има известна променливост. Отчасти се определя от разнородността на изследваните обекти на неживата и особено от живата природа и отчасти от грешката на наблюдението и количествената обработка на материалите. Не винаги е възможно последният компонент да се елиминира напълно, той може да бъде сведен до минимум само чрез внимателен избор на адекватен метод на изследване и точност на работа. Следователно, когато се извършва всякаква изследователска работа, възниква проблемът с идентифицирането на истинската природа на зависимостта на изследваните показатели, в една или друга степен, маскирани от пренебрегването на променливостта: стойности. За това се използва апроксимация - приблизително описание на корелационната зависимост на променливите чрез подходящо уравнение на функционалната зависимост, което предава основната тенденция на зависимостта (или нейната "тенденция").

При избора на приближение трябва да се изхожда от конкретната задача на изследването. Обикновено колкото по-просто е уравнението, използвано за апроксимация, толкова по-приближено е полученото описание на зависимостта. Ето защо е важно да се прочете колко значими и какво е причинило отклоненията на конкретни стойности от резултантната тенденция. При емпирично описание на зависимостта определени стойностимного по-голяма точност може да се постигне с помощта на някои по-сложни, много параметрично уравнение. Въпреки това, няма смисъл да се опитвате да предадете случайни отклонения на стойностите в конкретни серии от емпирични данни с максимална точност. Много по-важно е да се схване общата закономерност, която в този случайнай-логично и с приемлива точност се изразява именно чрез двупараметричното уравнение степенна функция. По този начин, когато избира метод за приближение, изследователят винаги прави компромис: той решава до каква степен в този случай е целесъобразно и уместно да се „пожертват“ детайлите и съответно колко обобщено трябва да се изрази зависимостта на сравняваните променливи. Заедно с идентифицирането на маскирани модели случайни отклоненияемпирични доказателства от общ модел, апроксимацията също така позволява решаването на много други важни задачи: формализира намерената зависимост; намирам неизвестни стойностизависима променлива чрез интерполация или, ако е приложимо, екстраполация.

Във всяка задача са формулирани условията на задачата, изходните данни, формата за издаване на резултати, посочени са основните математически зависимости за решаване на задачата. В съответствие с метода за решаване на задачата е разработен алгоритъм за решение, който е представен в графична форма.

1. Постановка на проблема

1. Използвайки метода на най-малките квадрати, приближете функцията, дадена в таблицата:

а) полином от първа степен;

б) полином от втора степен;

в) експоненциална зависимост.

За всяка зависимост изчислете коефициента на детерминизъм.

Изчислете коефициента на корелация (само в случай а).

Начертайте линия на тенденция за всяка зависимост.

Изчислете с помощта на функцията LINEST числови характеристикив зависимост от.

Сравнете вашите изчисления с резултатите, получени с помощта на функцията LINEST.

Решете коя от формулите по най-добрия начинприближава функцията.

Напишете програма на един от езиците за програмиране и сравнете резултатите от изчисленията с получените по-горе.

Вариант 3. Функцията е дадена в табл. един.

Маса 1.

xyxyxyxyxy0.281.052.349.113.3329.434.2386.445.55187.540.872.872.6516.863.4137.454.8390.856.32200.451.656.432.7717.973.5542.444.9299.066.66212.971.998.962.8318.993.8556.945.14120.457.13275.742.088.083.0623.754.0175.085.23139.657. 25321.43

2. Формули за изчисление

Често, когато се анализират емпирични данни, става необходимо да се намери функционална връзка между стойностите на x и y, които са получени в резултат на опит или измервания.

Xi ( независима променлива) се задава от експериментатора и yi , наречени емпирични или експериментални стойности, се получава в резултат на експеримента.

Аналитичната форма на функционалната зависимост, която съществува между стойностите x и y, обикновено е неизвестна, следователно възниква практически важна задача - да се намери емпирична формула

(където са параметрите), стойностите на които вероятно биха се различавали малко от експерименталните стойности.

Според метода на най-малките квадрати най-добрите коефициенти са тези, за които сумата от квадратите на отклоненията на намерената емпирична функция от зададени точкифункциите ще бъдат минимални.

Използвайки необходимо условиеекстремум на функция на няколко променливи - равенство на нула на частични производни, намерете набор от коефициенти, които доставят минимума на функцията, дефинирана с формула (2), и получете нормална системаза определяне на коефициентите:

Така намирането на коефициентите се свежда до решаване на система (3).

Типът на системата (3) зависи от класа емпирични формулитърсим зависимост (1). В случай на линейна зависимост системата (3) ще приеме формата:

В случай на квадратична зависимост системата (3) ще приеме формата:

В някои случаи като емпирична формула се приема функция, в която нелинейно влизат несигурни коефициенти. В този случай понякога проблемът може да бъде линеаризиран, т.е. намали до линейно. Сред такива зависимости е експоненциалната зависимост

където a1 и a2 са недефинирани коефициенти.

Линеаризацията се постига чрез вземане на логаритъм на равенство (6), след което се получава отношението

Означаваме и, съответно, с и, тогава зависимостта (6) може да бъде записана във формата, която ни позволява да приложим формули (4) с a1, заменени с и с.

Графиката на възстановената функционална зависимост y(x) въз основа на резултатите от измерванията (xi, yi), i=1,2,…,n се нарича регресионна крива. За да се провери съответствието на построената регресионна крива с резултатите от експеримента, обикновено се въвеждат следните числени характеристики: коефициент на корелация (линейна зависимост), съотношение на корелация и коефициент на детерминизъм.

Коефициентът на корелация е мярка за линейната връзка между зависимите случайни променливи: показва колко добре, средно, едно от количествата може да бъде представено като линейна функция на другото.

Коефициентът на корелация се изчислява по формулата:

къде е средното аритметична стойностсъответно в x, y.

Коефициентът на корелация между случайните променливи не надвишава по абсолютна стойност 1. Колкото по-близо до 1, толкова по-близо линейна връзкамежду x и y.

В случай на нелинейна корелация, условните средни стойности са разположени близо до кривата линия. В този случай, като характеристика на силата на връзката, се препоръчва да се използва съотношението на корелация, чието тълкуване не зависи от вида на изследваната зависимост.

Коефициентът на корелация се изчислява по формулата:

където числителят характеризира дисперсията на условните средни около безусловната средна стойност.

Е винаги. Равенство = съответства на произволни некорелирани променливи; = ако и само ако има точна функционална връзка между x и y. При линейна зависимост на y от x съотношението на корелация съвпада с квадрата на коефициента на корелация. Стойността се използва като индикатор за отклонението на регресията от линейността.

Коефициентът на корелация е мярка за корелацията y c x във всякаква форма, но не може да даде представа за степента на близост на емпиричните данни до специална форма. За да разберете колко точно построената крива отразява емпиричните данни, се въвежда още една характеристика - коефициентът на детерминация.


където Sost = - остатъчна сумаквадрати, което характеризира отклонението на експерименталните данни от теоретичните. пълен - обща сумаквадрати, където средната стойност е yi.

Регресионна сума от квадрати, характеризиращи разпространението на данните.

Колкото по-малък е остатъчният сбор от квадрати в сравнение с общата сумаквадрати, теми повече стойносткоефициент на детерминизъм r2, който показва колко добро е уравнението, получено с помощта на регресионен анализ, обяснява връзките между променливите. Ако е равно на 1, тогава има пълна корелация с модела, т.е. няма разлика между действителните и прогнозните стойности на y. В противен случай, ако коефициентът на детерминизъм е 0, тогава регресионното уравнение не успява да предвиди y стойности.

Коефициентът на детерминизъм винаги не надвишава съотношението на корелация. В случай, че равенството е изпълнено, тогава можем да приемем, че построената емпирична формула най-точно отразява емпиричните данни.

3. Изчисляване с помощта на таблици, направени с помощта на Microsoft Excel

За изчисления е препоръчително данните да се подредят под формата на таблица 2, като се използват средствата процесор за електронни таблици Microsoft Excel.

таблица 2

ABCDEFGHI10,281,050,07840,2940,0219520,0061470,082320,048790,01366120,872,870,75692,49690,6585030,5728982,1723031,0543120,91725131,656,432,722510,60954,4921257,41200617,505681,8609753,07060841, 998,963,960117,83047,88059915,6823935,48252,192774,36361352,088,084,326416,80648,99891218,7177434,957312,0893924,34593562,349,115,475621,317412,812929,982249,882722,2093735,16993272,6516, 867,022544,67918,6096349,31551118,39942,8249447,48610182,7717,977,672949,776921,2539358,87339137,8822,8887048,00170992,8318,998,008953,741722,6651964,14248152,0892,9439138, 331272103,0623,759,363672,67528,6526287,677222,38553,1675839,692803113,3329,4311,088998,001936,92604122,9637326,34633,38201511,26211123,4137,4511,6281127,704539,65182135,2127435, 47233,62300712,35445133,5542,4412,6025150,66244,73888158,823534,85013,74809113,30572143,8556,9414,8225219,21957,06663219,7065843,99324,04199815,56169154,0175,0816,0801301,070864, 4812258,56961207,2944,31855417,3174164,2386,4417,8929365,641275,68697320,15591546,6624,45945 118,86348174,8390,8523,3289438,8055112,6786544,23762119,4314,5092121,77948184,9299,0624,2064487,3752119,0955585,94982397,8864,59572622,61097195,14120,4526,4196619,113135,7967697, 99533182,2414,79123524,62695205,23139,6527,3529730,3695143,0557748,18113819,8324,93913925,8317215,55187,5430,80251040,847170,9539948,7945776,7015,23399229,04866226,32200,4539,94241266, 844252,4361595,3958006,4545,30056533,49957236,66212,9744,35561418,38295,40831967,4199446,4125,36115135,70527247,13275,7450,83691966,026362,46712584,3914017,775,61945840,06674257,25321, 4352.56252330.368381.07812762.81616895.165.7727841.852652695.932089.99453.310511850.652417.56813982.9971327.3490.97713415.0797 Нека обясним как се съставя Таблица 2.

Стъпка 1. В клетки A1: A25 въвеждаме стойностите xi.

Стъпка 2. В клетки B1:B25 въвеждаме стойностите на yi.

Стъпка 3. В клетка C1 въведете формулата = A1 ^ 2.

Стъпка 4. Тази формула се копира в клетки C1:C25.

Стъпка 5. В клетка D1 въведете формулата = A1 * B1.

Стъпка 6. Тази формула се копира в клетки D1:D25.

Стъпка 7. В клетка F1 въведете формулата = A1 ^ 4.

Стъпка 8. В клетки F1:F25 тази формула се копира.

Стъпка 9. В клетка G1 въведете формулата =A1^2*B1.

Стъпка 10. Тази формула се копира в клетки G1:G25.

Стъпка 11. В клетка H1 въведете формулата = LN (B1).

Стъпка 12. Тази формула се копира в клетки H1:H25.

Стъпка 13. В клетка I1 въведете формулата = A1 * LN (B1).

Стъпка 14. Тази формула се копира в клетки I1:I25.

Извършваме следните стъпки с помощта на автоматично сумиране С .

Стъпка 15. В клетка A26 въведете формулата = SUM (A1: A25).

Стъпка 16. В клетка B26 въведете формулата = SUM (B1: B25).

Стъпка 17. В клетка C26 въведете формулата = SUM (C1: C25).

Стъпка 18. В клетка D26 въведете формулата = SUM (D1: D25).

Стъпка 19. В клетка E26 въведете формулата = SUM (E1: E25).

Стъпка 20. В клетка F26 въведете формулата = SUM (F1: F25).

Стъпка 21. В клетка G26 въведете формулата = SUM (G1: G25).

Стъпка 22. В клетка H26 въведете формулата = SUM(H1:H25).

Стъпка 23. В клетка I26 въведете формулата = SUM(I1:I25).

Ние приближаваме функцията линейна функция. За определяне на коефициентите и използваме система (4). Използвайки сумите от таблица 2, разположени в клетки A26, B26, C26 и D26, записваме система (4) като

решавайки което, получаваме и.

Системата е решена по метода на Крамер. Същността на която е следната. Да разгледаме система от n алгебрични линейни уравненияс n неизвестни:

Системната детерминанта е системната матрична детерминанта:

Означаваме - детерминантата, която ще се получи от детерминантата на системата Δ чрез замяна на j-тата колона с колоната

Така линейното приближение има формата

Решаваме система (11) с помощта на инструменти на Microsoft Excel. Резултатите са представени в таблица 3.

Таблица 3

ABCDE282595.932089.992995.93453.310511850.653031

В таблица 3 клетки A32:B33 съдържат формулата (=MOBR(A28:B29)).

Клетки E32:E33 съдържат формулата (=MULTI(A32:B33),(C28:C29)).

След това приближаваме функцията квадратична функция. За определяне на коефициентите a1, a2 и a3 използваме система (5). Използвайки сумите от таблица 2, разположени в клетки A26, B26, C26, D26, E26, F26, G26, записваме система (5) като

решавайки което, получаваме a1=10,663624 и

По този начин квадратичното приближение има формата

Решаваме система (16) с помощта на инструменти на Microsoft Excel. Резултатите са представени в таблица 4.

Таблица 4

ABCDEF362595,93453,31052089,993795,93453,31052417,56811850,65538453,31052417,56813982,9971327,3453940Обратная матрица410,632687-0,314390,033846a1=10,66362442-0,314390,184534-0,021712a2=-18, 924512430.033846-0.021710.002728a3=8.0272305

В таблица 4 клетки A41:C43 съдържат формулата (=MOBR(A36:C38)).

Клетки F41:F43 съдържат формулата (=MMULT(A41:C43),(D36:D38)).

Сега апроксимираме функцията чрез експоненциална функция. За да определим коефициентите и да вземем логаритъма на стойностите и, използвайки сумите от таблица 2, разположени в клетки A26, C26, H26 и I26, получаваме системата

Решавайки система (18), получаваме и.

След потенциране получаваме

По този начин експоненциалното приближение има формата

Решаваме система (18) с помощта на инструменти на Microsoft Excel. Резултатите са представени в таблица 5.

Таблица 5

BCDEF462595.9390.977134795.93453.3105415.07974849 Обратна матрица=0.667679 500.212802-0.04503a2=0.774368 51-0.045030.011736a1=1.949707

Клетки A50:B51 съдържат формулата (=MOBR(A46:B47)).

Клетка E51 съдържа формулата=EXP(E49).

Изчислете средноаритметично и по формулите:

Резултатите от изчисленията и инструментите на Microsoft Excel са представени в таблица 6.

Таблица 6

BC54Xav=3.837255Yav=83.5996

Клетка B54 съдържа формулата =A26/25.

Клетка B55 съдържа формулата = B26/25

Таблица 7

ABJKLMNO10,281,05293,645412,653676814,4365987,97624,444081,88177520,872,87239,54098,8042766517,2682774,7226,7334610,91071731,656,43168,78534,7838445955,147448,035726,395820,32073741, 998,96137,87433,4121485571,0770,7358817,368220,02062652,088,08132,7033,0877525703,2112,138714,2039422,82478262,349,11111,52582,2416085548,70151,488211,4985887,99584272,6516, 8679,233251,4094444454,174178,5730,000622,83382582,7717,9770,039911,1389164307,244311,46313,4777091,73059692,8318,9965,074791,0144524174,4373,4915,7914362,382273103,0623,7546, 515110,604043581,975620,344117,375498,423061113,3329,4327,474820,2572522934,346983,819852,2462113,94466123,4137,4519,715110,18252129,786725,90914,090409102,2541133,5542,4411,821040, 0824841694,113797,89844,861044143,3219143,8556,94-0,341240,000164710,7343741,750,023142342,3946154,0175,08-1,472190,0298672,58358265,3212126,0007996,9257164,2386,441, 1157090.1542928.067872219.6288148.75781214.778174.8390.857 1,172456239,0241103,718163,9776121,868195,14120,4548,00871,6972881357,952471,908425,17881258,6007205,23139,6578,0671,9398923141,64743,1629470,45155769,9408215,55187,54178,02912, 93368410803,61725,38421200,5291951,06226,32200,45290,11626,16429613654,0227,28786126,28273577,409236,66212,97365,18687,968216736,76,038755767,788515795,87247,13275,74632,679910,8425336917, 931944,47565,1469344766,92257,25321,43811,667611,647256563,37121,842677,966445516,82695,932089,93830,94585,207919964427404,823786,286115678,1С у м м ыОстаточные суммыXY линейна квадратна експозиция

Нека обясним как се прави.

Клетките A1:A26 и B1:B26 вече са попълнени.

Стъпка 1. В клетка J1 въведете формулата = (A1-$B$54)*(B1-$B$55).

Стъпка 2. Тази формула се копира в клетки J2:J25.

Стъпка 3. В клетка K1 въведете формулата = (A1-$B$54)^2.

Стъпка 4. Тази формула се копира в клетки k2:K25.

Стъпка 5. В клетка L1 въведете формулата = (B1-$B$55)^2.

Стъпка 6. Тази формула се копира в клетки L2:L25.

Стъпка 7. В клетка M1 въведете формулата = ($E$32+$E$33*A1-B1)^2.

Стъпка 8. Тази формула се копира в клетки M2:M25.

Стъпка 9. В клетка N1 въведете формулата = ($F$41+$F$42*A1+$F$43*A1^2-B1)^2.

Стъпка 10. В клетки N2:N25 тази формула се копира.

Стъпка 11. В клетка O1 въведете формулата = ($E$51*EXP($E$50*A1)-B1)^2.

Стъпка 12. Тази формула се копира в клетки O2:O25.

Извършваме следните стъпки, като използваме автоматично сумиране С .

Стъпка 13. В клетка J26 въведете формулата = SUM (J1: J25).

Стъпка 14. В клетка K26 въведете формулата = SUM(K1:K25).

Стъпка 15. В клетка L26 въведете формулата = SUM (L1: L25).

Стъпка 16. В клетка M26 въведете формулата = SUM(M1:M25).

Стъпка 17. В клетка N26 въведете формулата = SUM(N1:N25).

Стъпка 18. В клетка O26 въведете формулата = SUM (O1: O25).

Сега нека изчислим коефициента на корелация, използвайки формула (8) (само за линейно приближение) и коефициента на детерминизъм, използвайки формула (10). Резултатите от изчисленията с помощта на Microsoft Excel са представени в таблица 8.

Таблица 8

AB57 Коефициент на корелация 0,92883358 Коефициент на детерминизъм (линейно приближение) 0,8627325960 Коефициент на детерминизъм (квадратично приближение) 0,9810356162 Коефициент на детерминизъм (експоненциално приближение) 0,42057863 Клетка E57 съдържа формулата =J26/(K26*L26)^(1/2).

Клетка E59 съдържа формулата=1-M26/L26.

Клетка E61 съдържа формулата=1-N26/L26.

Клетка E63 съдържа формулата=1-O26/L26.

Анализът на резултатите от изчисленията показва, че квадратичното приближение най-добре описва експерименталните данни.

Алгоритъмна схема

Ориз. 1. Схема на алгоритъма за изчислителната програма.

5. Изчисляване в MathCad

Линейна регресия

· линия (x, y) - двуелементен вектор (b, a) на коефициентите на линейна регресия b+ax;

· x е векторът на реалните данни на аргумента;

· y е вектор от реални стойности на данни с еднакъв размер.

Фигура 2.

Полиномна регресия означава напасване на данните (x1, y1) с полином k-та степенЗа k=i полиномът е права линия, за k=2 е парабола, за k=3 е кубична парабола и т.н. Като правило, к<5.

· regress (x,y,k) - вектор от коефициенти за изграждане на регресия на полиномни данни;

· interp (s,x,y,t) - резултат от полиномна регресия;

· s=регресия(x,y,k);

· x е вектор от реални аргументни данни, чиито елементи са подредени във възходящ ред;

· y е вектор от реални стойности на данни със същия размер;

· k е степента на регресионния полином (цяло положително число);

· t е стойността на аргумента на регресионния полином.

Фигура 3

В допълнение към разгледаните, в Mathcad са вградени още няколко типа трипараметрична регресия, тяхното изпълнение е малко по-различно от горните опции за регресия, тъй като в допълнение към масива от данни е необходимо да се зададат някои първоначални стойности на коефициентите a, b, c. Използвайте подходящия тип регресия, ако имате добра представа каква зависимост описва вашия масив от данни. Когато видът на регресията не отразява добре последователността от данни, тогава нейният резултат често е незадоволителен и дори много различен в зависимост от избора на начални стойности. Всяка от функциите произвежда вектор от прецизирани параметри a, b, c.

LINEST Резултати

Помислете за целта на функцията LINEST.

Тази функция използва метода на най-малките квадрати, за да изчисли правата линия, която най-добре отговаря на наличните данни.

Функцията връща масив, който описва получения ред. Уравнението за права линия е:

M1x1 + m2x2 + ... + b или y = mx + b,

алгоритъм табличен софтуер на Microsoft

За да получите резултатите, трябва да създадете формула за електронна таблица, която ще обхваща 5 реда и 2 колони. Този интервал може да бъде поставен навсякъде в работния лист. В този интервал трябва да въведете функцията LINEST.

В резултат на това всички клетки от интервала A65:B69 трябва да бъдат запълнени (както е показано в таблица 9).

Таблица 9

АВ6544,95997-88,9208663,73946615,92346670,86273234,5183168144,55492369172239,227404,82

Нека обясним предназначението на някои от количествата, разположени в таблица 9.

Стойностите, разположени в клетки A65 и B65, характеризират съответно наклона и отместването - коефициент на детерминизъм - F-наблюдавана стойност - брой степени на свобода.

Представяне на резултатите под формата на графики

Ориз. 4. Графика на линейна апроксимация

Ориз. 5. Графика на квадратично приближение

Ориз. 6. График на експоненциална апроксимация

заключения

Нека направим изводи въз основа на резултатите от получените данни.

Анализът на резултатите от изчислението показва, че квадратичното приближение най-добре описва експерименталните данни, тъй като тренд линията за него най-точно отразява поведението на функцията в тази област.

Сравнявайки резултатите, получени с помощта на функцията LINEST, виждаме, че те напълно съвпадат с извършените по-горе изчисления. Това показва, че изчисленията са правилни.

Резултатите, получени с помощта на програмата MathCad, напълно съответстват на стойностите, дадени по-горе. Това показва правилността на изчисленията.

Библиография

  1. Б.П. Демидович, И.А. Кестеняво. Основи на изчислителната математика. М: Държавно издателство за физико-математическа литература.
  2. Информатика: Учебник, изд. проф. Н.В. Макарова. М: Финанси и статистика, 2007 г.
  3. Информатика: Практикум по компютърна техника, изд. проф. Н.В. Макарова. М: Финанси и статистика, 2010.
  4. В.Б. Комягин. Програмиране в Excel във Visual Basic. М: Радио и комуникация, 2007.
  5. Н. Никол, Р. Албрехт. Excel. Електронни таблици. М: Изд. "ЕКОМ", 2008г.
  6. Указания за изпълнение на курсова работа по компютърни науки (за студенти от кореспондентския отдел на всички специалности), изд. Журова Г. Н., СПбГГИ(ТУ), 2011.

Приближение, или приближение- научен метод, състоящ се в замяна на някои обекти с други, в един или друг смисъл близки до оригинала, но по-прости.

Апроксимацията ви позволява да изследвате числовите характеристики и качествените свойства на даден обект, намалявайки проблема до изследване на по-прости или по-удобни обекти (например тези, чиито характеристики се изчисляват лесно или чиито свойства вече са известни). В теорията на числата се изучават диофантови приближения, по-специално приближения на ирационални числа с рационални. В геометрията се разглеждат апроксимации на криви с начупени линии. Някои раздели на математиката по същество са изцяло посветени на апроксимацията, например теорията на апроксимацията на функциите, числените методи за анализ.

В преносен смисъл се използва във философията като метод на приближение, указание с приблизителен, неокончателен характер. Например в този смисъл терминът "приближение" се използва активно от Сьорен Киркегор (1813-1855) в неговия "Последен ненаучен послеслов..."

Ако функцията ще се използва само за интерполация, тогава е достатъчно да се приближат точките с полином, да речем, от пета степен:

Ситуацията е много по-сложна, ако горните полеви данни служат като референтни точки за разкриване на закона за промяна с известни гранични условия. Например: и . Тук качеството на резултата зависи от професионализма на изследователя. В този случай най-приемливият закон ще бъде:

За оптимален избор на параметрите на уравненията обикновено се използва методът на най-малките квадрати.

Метод на най-малките квадрати (LSM,АнглийскиОбикновен Най-малко Квадрати , OLS ) - математически метод, използван за решаване на различни проблеми, базиран на минимизиране на сумата от квадратите на някои функции на желаните променливи. Може да се използва за "решаване" на свръхопределени системи от уравнения (когато броят на уравненията надвишава броя на неизвестните), за намиране на решение в случай на обикновени (не свръхопределени) нелинейни системи от уравнения, за приближаване на точкови стойности чрез някаква функция. OLS е един от основните методи за регресионен анализ за оценка на неизвестни параметри на регресионни модели от извадкови данни.

Ако някакво физическо количество зависи от друго количество, тогава тази зависимост може да бъде изследвана чрез измерване на y при различни стойности на x. В резултат на измерванията се получава серия от стойности:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Въз основа на данните от такъв експеримент е възможно да се начертае зависимостта y = ƒ(x). Получената крива позволява да се прецени формата на функцията ƒ(x). Въпреки това, постоянните коефициенти, които влизат в тази функция, остават неизвестни. Те могат да бъдат определени чрез метода на най-малките квадрати. Експерименталните точки по правило не лежат точно на кривата. Методът на най-малките квадрати изисква сумата от квадратите на отклоненията на експерименталните точки от кривата, т.е. 2 беше най-малкият.

На практика този метод най-често (и най-просто) се използва в случай на линейна зависимост, т.е. кога

y=kxили y = a + bx.

Линейната зависимост е много разпространена във физиката. И дори когато зависимостта е нелинейна, те обикновено се опитват да построят графика по такъв начин, че да получат права линия. Например, ако се приеме, че коефициентът на пречупване на стъклото n е свързан с дължината на вълната λ на светлинната вълна чрез отношението n = a + b/λ 2 , тогава зависимостта на n от λ -2 се изобразява на графиката .

Помислете за зависимостта y=kx(правата, минаваща през началото). Съставете стойността φ - сумата от квадратите на отклоненията на нашите точки от правата линия

.

Стойността на φ винаги е положителна и се оказва толкова по-малка, колкото по-близо са нашите точки до правата линия. Методът на най-малките квадрати гласи, че за k трябва да се избере такава стойност, при която φ има минимум

или (19)

Изчислението показва, че средноквадратичната грешка при определяне на стойността на k е равна на

, (20) където – n е броят на измерванията.

Нека сега разгледаме един малко по-сложен случай, когато точките трябва да удовлетворяват формулата y = a + bx(права линия, която не минава през началото).

Задачата е да се намерят най-добрите стойности на a и b от дадения набор от стойности x i , y i .

Отново съставяме квадратна форма φ, равна на сумата от квадратите на отклоненията на точките x i, y i от правата линия

и намерете стойностите a и b, за които φ има минимум

;

.

Съвместното решение на тези уравнения дава

(21)

Средноквадратичните грешки при определяне на a и b са равни

(23)

. (24)

Когато обработвате резултатите от измерванията по този метод, е удобно да обобщите всички данни в таблица, в която всички суми, включени във формули (19) - (24), са предварително изчислени. Формите на тези таблици са показани в примерите по-долу.

Пример 1 Изследва се основното уравнение на динамиката на въртеливото движение ε = M/J (права, минаваща през началото). За различни стойности на момента M се измерва ъгловото ускорение ε на определено тяло. Необходимо е да се определи инерционният момент на това тяло. Резултатите от измерванията на момента на силата и ъгловото ускорение са изброени във втората и третата колона таблици 5.

Таблица 5

По формула (19) определяме:

.

За да определим средноквадратичната грешка, използваме формула (20)

0.005775 килограма-един · м -2 .

По формула (18) имаме

SJ = (2,996 0,005775)/0,3337 = 0,05185 кг м 2 .

Като се има предвид надеждността P = 0,95 , съгласно таблицата на коефициентите на Стюдънт за n = 5, намираме t = 2,78 и определяме абсолютната грешка ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 кг м 2 .

Записваме резултатите във формата:

J = (3,0 ± 0,2) кг м 2 ;

Пример 2Изчисляваме температурния коефициент на съпротивление на метала по метода на най-малките квадрати. Съпротивлението зависи от температурата по линеен закон

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Свободният член определя съпротивлението R 0 при температура 0 ° C, а ъгловият коефициент е произведението на температурния коефициент α и съпротивлението R 0 .

Резултатите от измерванията и изчисленията са дадени в таблицата ( виж таблица 6).

Таблица 6

(r - bt - a) 2,10 -6

По формули (21), (22) определяме

R 0 = ¯R- α R 0 ¯t = 1,4005 - 0,002645 85,83333 = 1,1735 Ом .

Нека намерим грешка в дефиницията на α. Тъй като , то по формула (18) имаме:

.

Използвайки формули (23), (24) имаме

;

0.014126 Ом.

Като се има предвид надеждността P = 0,95, съгласно таблицата на коефициентите на Стюдънт за n = 6, намираме t = 2,57 и определяме абсолютната грешка Δα = 2,57 0,000132 = 0,000338 градушка -1 .

α = (23 ± 4) 10 -4 градушка-1 при Р = 0,95.

Пример 3Необходимо е да се определи радиусът на кривината на лещата от пръстените на Нютон. Бяха измерени радиусите на пръстените на Нютон r m и бяха определени номерата на тези пръстени m. Радиусите на пръстените на Нютон са свързани с радиуса на кривината на лещата R и номера на пръстена чрез уравнението

r 2 m = mλR - 2d 0 R,

където d 0 е дебелината на празнината между лещата и плоско-паралелната плоча (или деформация на лещата),

λ е дължината на вълната на падащата светлина.

λ = (600 ± 6) nm; r 2 m = y; m = x; λR = b; -2d 0 R = a,

тогава уравнението ще приеме формата y = a + bx.

Резултатите от измерванията и изчисленията се въвеждат таблица 7.

Таблица 7

y \u003d r 2, 10 -2 mm 2

y-bx-a, 10-4

(y - bx - a) 2, 10 -6

Ние очакваме:

1. a и b съгласно формули (21), (22).

a = ¯r 2 - b¯m = (0,208548333 - 0,0594957 3,5) = 0,0003133 мм 2 .

2. Изчислете средноквадратичните грешки за стойностите b и a, като използвате формули (23), (24)

3. При надеждност P = 0,95, съгласно таблицата на коефициентите на Стюдънт за n = 6, намираме t = 2,57 и определяме абсолютните грешки

Δb = 2,57 0,000211179 = 6 10 -4 мм 2 ;

Δa = 2,57 0,000822424 = 3 10 -3 мм 2 .

4. Запишете резултатите

b = (595 ± 6) 10 -4 мм 2 при Р = 0,95;

а = (0,3 ± 3) 10 -3 мм 2 при Р = 0,95;

От резултатите от експеримента следва, че в рамките на грешката на този експеримент правата r 2 m = ƒ(m) минава през началото, тъй като ако грешката на стойността на който и да е параметър се окаже сравнима или надвишава стойността на параметъра, това означава, че най-вероятно реалната стойност на този параметър е нула.

При условията на този експеримент стойността на a не представлява интерес. Затова повече няма да се занимаваме с това.

5. Изчислете радиуса на кривината на лещата:

R = b / λ = 594,5 / 6 = 99,1 мм.

6. Тъй като системната грешка е дадена за дължината на вълната, ние също изчисляваме систематичната грешка за R съгласно формула (16), като нейната случайна грешка Δb приемаме за системна грешка на b.

Запишете крайния резултат R = (99 ± 2) ммε ≈ 3% при P = 0,95.

Пример.

Експериментални данни за стойностите на променливите хи приса дадени в таблицата.

В резултат на тяхното подреждане функцията

Използвайки метод на най-малките квадрати, апроксимирайте тези данни с линейна зависимост y=ax+b(намерете параметри аи b). Разберете коя от двете линии по-добре (в смисъл на метода на най-малките квадрати) подравнява експерименталните данни. Направете рисунка.

Същността на метода на най-малките квадрати (МНК).

Проблемът е да се намерят коефициентите на линейна зависимост, за които функцията на две променливи аи b приема най-малката стойност. Това е предвид данните аи bсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най-малка. Това е целият смисъл на метода на най-малките квадрати.

Така решението на примера се свежда до намиране на екстремума на функция на две променливи.

Извеждане на формули за намиране на коефициенти.

Съставя се и се решава система от две уравнения с две неизвестни. Намиране на частни производни на функции по променливи аи b, ние приравняваме тези производни на нула.

Решаваме получената система от уравнения по произволен метод (напр метод на заместванеили Методът на Крамер) и получете формули за намиране на коефициентите с помощта на метода на най-малките квадрати (LSM).

С данни аи bфункция приема най-малката стойност. Дадено е доказателство за този факт под текста в края на страницата.

Това е целият метод на най-малките квадрати. Формула за намиране на параметъра асъдържа сумите ,,, и параметъра н- количество експериментални данни. Стойностите на тези суми се препоръчват да се изчисляват отделно. Коефициент bнамерени след изчисление а.

Време е да си припомним оригиналния пример.

Решение.

В нашия пример n=5. Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на необходимите коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на 2-ри ред по стойностите на 3-ти ред за всяко число аз.

Стойностите в петия ред на таблицата се получават чрез повдигане на квадрат на стойностите на 2-ри ред за всяко число аз.

Стойностите на последната колона на таблицата са сумите от стойностите в редовете.

Използваме формулите на метода на най-малките квадрати, за да намерим коефициентите аи b. Заменяме в тях съответните стойности от последната колона на таблицата:

Следователно, y=0,165x+2,184е желаната апроксимираща права линия.

Остава да разберем коя от линиите y=0,165x+2,184или по-добре приближава оригиналните данни, т.е. да направи оценка с помощта на метода на най-малките квадрати.

Оценка на грешката на метода на най-малките квадрати.

За да направите това, трябва да изчислите сумите на квадратите на отклоненията на оригиналните данни от тези редове и , по-малка стойност съответства на линия, която по-добре приближава оригиналните данни по отношение на метода на най-малките квадрати.

Тъй като , тогава линията y=0,165x+2,184приближава по-добре оригиналните данни.

Графична илюстрация на метода на най-малките квадрати (LSM).

Всичко изглежда страхотно в класациите. Червената линия е намерената линия y=0,165x+2,184, синята линия е , розовите точки са оригиналните данни.

На практика при моделиране на различни процеси - по-специално икономически, физически, технически, социални - широко се използва един или друг метод за изчисляване на приблизителните стойности на функциите от техните известни стойности в някои фиксирани точки.

Често възникват проблеми с апроксимацията на функции от този вид:

    при конструиране на приблизителни формули за изчисляване на стойностите на характерните количества на изследвания процес според табличните данни, получени в резултат на експеримента;

    при числено интегриране, диференциране, решаване на диференциални уравнения и др.;

    ако е необходимо да се изчислят стойностите на функциите в междинните точки на разглеждания интервал;

    при определяне на стойностите на характерните количества на процеса извън разглеждания интервал, по-специално при прогнозиране.

Ако, за да се моделира определен процес, определен от таблица, се конструира функция, която приблизително описва този процес въз основа на метода на най-малките квадрати, тя ще се нарича апроксимираща функция (регресия) и самата задача за конструиране на апроксимиращи функции ще бъде проблем с приближението.

В тази статия се разглеждат възможностите на пакета MS Excel за решаване на такива проблеми, освен това са дадени методи и техники за конструиране (създаване) на регресии за таблично зададени функции (което е в основата на регресионния анализ).

Има две възможности за изграждане на регресии в Excel.

    Добавяне на избрани регресии (линии на тренд) към диаграма, изградена на базата на таблица с данни за изследваната характеристика на процеса (достъпно само ако е изградена диаграма);

    Използване на вградените статистически функции на работния лист на Excel, което ви позволява да получавате регресии (линии на тренд) директно от таблицата с изходни данни.

Добавяне на трендови линии към диаграма

За таблица с данни, описваща определен процес и представена чрез диаграма, Excel разполага с ефективен инструмент за регресионен анализ, който ви позволява да:

    изградете на базата на метода на най-малките квадрати и добавете към диаграмата пет вида регресии, които моделират изследвания процес с различна степен на точност;

    добавете уравнение на построената регресия към диаграмата;

    определяне на степента на съответствие на избраната регресия с данните, показани на диаграмата.

Въз основа на данните от диаграмата, Excel ви позволява да получите линейни, полиномиални, логаритмични, експоненциални, експоненциални видове регресии, които са дадени от уравнението:

y = y(x)

където x е независима променлива, която често приема стойностите на последователност от естествени числа (1; 2; 3; ...) и произвежда, например, обратно броене на времето на процеса, който се изследва (характеристики) .

1 . Линейната регресия е добра при моделиране на характеристики, които нарастват или намаляват с постоянна скорост. Това е най-простият модел на изследвания процес. Изгражда се по уравнението:

y=mx+b

където m е тангенса на наклона на линейната регресия спрямо оста x; b - координата на пресечната точка на линейната регресия с оста y.

2 . Полиномиалната тренд линия е полезна за описване на характеристики, които имат няколко различни крайности (високи и ниски). Изборът на степента на полинома се определя от броя на екстремумите на изследваната характеристика. По този начин полином от втора степен може добре да опише процес, който има само един максимум или минимум; полином от трета степен - не повече от два екстремума; полином от четвърта степен - не повече от три екстремума и т.н.

В този случай тренд линията се изгражда в съответствие с уравнението:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

където коефициентите c0, c1, c2,... c6 са константи, чиито стойности се определят по време на конструирането.

3 . Логаритмичната тренд линия се използва успешно при моделиране на характеристики, чиито стойности се променят бързо в началото и след това постепенно се стабилизират.

y = c ln(x) + b

4 . Линията на тренда на мощността дава добри резултати, ако стойностите на изследваната зависимост се характеризират с постоянна промяна в скоростта на растеж. Пример за такава зависимост може да служи като графика на равномерно ускорено движение на автомобила. Ако има нулеви или отрицателни стойности в данните, не можете да използвате линия на тенденция на мощността.

Изгражда се в съответствие с уравнението:

y = cxb

където коефициентите b, c са константи.

5 . Трябва да се използва експоненциална тренд линия, ако скоростта на промяна в данните непрекъснато нараства. За данни, съдържащи нулеви или отрицателни стойности, този вид приближение също не е приложим.

Изгражда се в съответствие с уравнението:

y=cebx

където коефициентите b, c са константи.

При избор на линия на тенденция Excel автоматично изчислява стойността на R2, която характеризира точността на приближението: колкото по-близка е стойността на R2 до единица, толкова по-надеждно линията на тенденция приближава изследвания процес. Ако е необходимо, стойността на R2 винаги може да бъде показана на диаграмата.

Определя се по формулата:

За да добавите линия на тенденция към серия от данни:

    активирайте диаграмата, изградена въз основа на серията данни, т.е. щракнете в областта на диаграмата. Елементът Графика ще се появи в главното меню;

    след като щракнете върху този елемент, на екрана ще се появи меню, в което трябва да изберете командата Добавяне на тренд линия.

Същите действия се изпълняват лесно, ако задържите курсора на мишката над графиката, съответстваща на една от сериите данни, и щракнете с десния бутон на мишката; в контекстното меню, което се показва, изберете командата Добавяне на линия на тенденция. На екрана ще се появи диалоговият прозорец Trendline с отворен раздел Type (фиг. 1).

След това имате нужда от:

В раздела Тип изберете необходимия тип линия на тренда (Линеен е избран по подразбиране). За тип Полином в полето Степен посочете степента на избрания полином.

1 . Полето Създаден върху серия изброява всички серии от данни във въпросната диаграма. За да добавите линия на тенденция към конкретна серия от данни, изберете нейното име в полето Изградено върху серия.

Ако е необходимо, като отидете в раздела Параметри (фиг. 2), можете да зададете следните параметри за линията на тренда:

    променете името на тренд линията в полето Име на апроксимиращата (изгладена) крива.

    задайте броя на периодите (напред или назад) за прогнозата в полето Прогноза;

    показване на уравнението на тренд линията в областта на диаграмата, за което трябва да активирате квадратчето за отметка показване на уравнението на диаграмата;

    покажете стойността на апроксимационната надеждност R2 в областта на диаграмата, за която трябва да активирате отметката, поставете стойността на апроксимационната надеждност (R^2) на диаграмата;

    задайте точката на пресичане на линията на тренда с оста Y, за което трябва да поставите отметка в квадратчето Пресичане на кривата с оста Y в точка;

    щракнете върху бутона OK, за да затворите диалоговия прозорец.

Има три начина да започнете да редактирате вече изградена тренд линия:

    използвайте командата Selected trend line от меню Format, след като изберете тренд линията;

    изберете командата Format Trendline от контекстното меню, което се извиква чрез щракване с десния бутон върху линията на тренда;

    чрез двукратно щракване върху тренд линията.

На екрана ще се появи диалоговият прозорец Format Trendline (Фиг. 3), съдържащ три раздела: View, Type, Parameters, като съдържанието на последните два напълно съвпада с подобни раздели на диалоговия прозорец Trendline (фиг. 1-2). ). В раздела Изглед можете да зададете вида на линията, нейния цвят и дебелина.

За да изтриете вече изградена тренд линия, изберете тренд линията за изтриване и натиснете клавиша Delete.

Предимствата на разглеждания инструмент за регресионен анализ са:

    относителната лекота на начертаване на тренд линия върху диаграми, без да се създава таблица с данни за нея;

    доста широк списък от видове предложени линии на тренд, като този списък включва най-често използваните видове регресия;

    възможността за прогнозиране на поведението на изследвания процес за произволен (в рамките на здравия разум) брой стъпки напред, както и назад;

    възможността за получаване на уравнението на линията на тренда в аналитична форма;

    възможността, ако е необходимо, да се получи оценка на надеждността на приближението.

Недостатъците включват следните точки:

    изграждането на тренд линия се извършва само ако има диаграма, изградена върху серия от данни;

    процесът на генериране на серия от данни за изследваната характеристика въз основа на уравненията на тренд линията, получени за нея, е донякъде претрупан: желаните регресионни уравнения се актуализират с всяка промяна в стойностите на оригиналната серия от данни, но само в областта на диаграмата , докато серията данни, формирана на базата на тенденцията на старото уравнение на линията, остава непроменена;

    В отчетите с обобщена диаграма, когато промените изгледа на диаграмата или свързания отчет с обобщена таблица, съществуващите линии на тенденции не се запазват, така че трябва да се уверите, че оформлението на отчета отговаря на вашите изисквания, преди да начертаете линии на тенденция или да форматирате по друг начин отчета с обобщена диаграма.

Линиите на тренда могат да се добавят към серии от данни, представени на диаграми като графика, хистограма, плоски диаграми с ненормализирани площи, лентови, точкови, балонни и борсови диаграми.

Не можете да добавяте линии на тенденции към серии от данни на 3-D, стандартни, радарни, кръгови и кръгови диаграми.

Използване на вградени функции на Excel

Excel също така предоставя инструмент за регресионен анализ за начертаване на линии на тенденции извън областта на диаграмата. За тази цел могат да се използват редица функции на статистически работен лист, но всички те ви позволяват да изграждате само линейни или експоненциални регресии.

Excel има няколко функции за изграждане на линейна регресия, по-специално:

    ТЕНДЕНЦИЯ;

  • НАКЛОН и РЕЗ.

Както и няколко функции за конструиране на експоненциална тренд линия, по-специално:

    LGRFPприбл.

Трябва да се отбележи, че техниките за конструиране на регресии с помощта на функциите TREND и GROWTH са практически еднакви. Същото може да се каже и за двойката функции LINEST и LGRFPRIBL. За тези четири функции, когато създавате таблица със стойности, се използват функции на Excel като формули за масиви, което донякъде затруднява процеса на изграждане на регресии. Също така отбелязваме, че конструкцията на линейна регресия според нас е най-лесна за изпълнение с помощта на функциите SLOPE и INTERCEPT, където първата от тях определя наклона на линейната регресия, а втората определя сегмента, отрязан от регресията по оста у.

Предимствата на инструмента за вградени функции за регресионен анализ са:

    сравнително прост процес на формиране на серии от данни на изследваната характеристика за всички вградени статистически функции, които задават линии на тенденция;

    стандартна техника за конструиране на трендови линии въз основа на генерираните серии от данни;

    способността да се предвиди поведението на изследвания процес за необходимия брой стъпки напред или назад.

А недостатъците включват факта, че Excel няма вградени функции за създаване на други (освен линейни и експоненциални) типове линии на тренд. Това обстоятелство често не позволява да се избере достатъчно точен модел на изследвания процес, както и да се получат прогнози, близки до реалността. Освен това, когато използвате функциите TREND и GROW, уравненията на линиите на тренда не са известни.

Трябва да се отбележи, че авторите не са поставили за цел статията да представят хода на регресионния анализ с различна степен на пълнота. Основната му задача е да покаже на конкретни примери възможностите на пакета Excel при решаване на апроксимационни задачи; демонстрират какви ефективни инструменти има Excel за изграждане на регресии и прогнозиране; илюстрират колко сравнително лесно подобни проблеми могат да бъдат решени дори от потребител, който няма задълбочени познания за регресионния анализ.

Примери за решаване на конкретни проблеми

Обмислете решението на конкретни проблеми с помощта на изброените инструменти на пакета Excel.

Задача 1

С таблица с данни за печалбата на автотранспортно предприятие за 1995-2002 г. трябва да направите следното.

    Изградете диаграма.

    Добавете линейни и полиномни (квадратични и кубични) трендови линии към диаграмата.

    Използвайки уравненията на тренд линията, получете таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2004 г.

    Направете прогноза за печалбата на предприятието за 2003 и 2004 г.

Решението на проблема

    В диапазона от клетки A4:C11 на работния лист на Excel въвеждаме работния лист, показан на фиг. четири.

    След като избрахме диапазона от клетки B4:C11, изграждаме диаграма.

    Активираме изградената диаграма и, като използваме описания по-горе метод, след като изберем вида на линията на тренда в диалоговия прозорец Линия на тренда (виж Фиг. 1), последователно добавяме линейни, квадратни и кубични линии на тренд към графиката. В същия диалогов прозорец отворете раздела Параметри (вижте фиг. 2), в полето Име на апроксимиращата (изгладена) крива въведете името на тенденцията, която ще добавите, а в полето Прогноза напред за: периоди задайте стойността 2, тъй като се планира да се направи прогноза за печалба за две години напред. За да покажете уравнението на регресията и стойността на надеждността на приближението R2 в областта на диаграмата, активирайте квадратчетата за отметка Показване на уравнението на екрана и поставете стойността на надеждността на приближението (R^2) върху диаграмата. За по-добро визуално възприятие променяме вида, цвета и дебелината на изчертаните трендови линии, за което използваме раздела Изглед на диалоговия прозорец Формат на трендовата линия (виж Фиг. 3). Получената диаграма с добавени трендови линии е показана на фиг. 5.

    Да се ​​получат таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2004 г. Нека използваме уравненията на трендовите линии, представени на фиг. 5. За да направите това, в клетките на диапазона D3:F3 въведете текстова информация за вида на избраната тренд линия: Линеен тренд, Квадратичен тренд, Кубичен тренд. След това въведете формулата за линейна регресия в клетка D4 и, като използвате маркера за запълване, копирайте тази формула с относителни препратки към диапазона от клетки D5:D13. Трябва да се отбележи, че всяка клетка с формула за линейна регресия от диапазона от клетки D4:D13 има съответстваща клетка от диапазона A4:A13 като аргумент. По същия начин, за квадратична регресия се запълва диапазонът от клетки E4:E13, а за кубична регресия се запълва диапазонът от клетки F4:F13. Така е направена прогноза за печалбата на предприятието за 2003 и 2004 г. с три тенденции. Получената таблица със стойности е показана на фиг. 6.

Задача 2

    Изградете диаграма.

    Добавете логаритмични, експоненциални и експоненциални тренд линии към диаграмата.

    Изведете уравненията на получените трендови линии, както и стойностите на апроксимационната надеждност R2 за всяка от тях.

    Използвайки уравненията на тренд линията, получете таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2002 г.

    Направете прогноза за печалбата за бизнеса за 2003 и 2004 г., като използвате тези линии на тенденция.

Решението на проблема

Следвайки методологията, дадена при решаването на задача 1, получаваме диаграма с добавени логаритмични, експоненциални и експоненциални тренд линии (фиг. 7). Освен това, използвайки получените уравнения на тренд линията, попълваме таблицата със стойности за печалбата на предприятието, включително прогнозираните стойности за 2003 и 2004 г. (фиг. 8).

На фиг. 5 и фиг. се вижда, че моделът с логаритмичен тренд отговаря на най-ниската стойност на надеждността на апроксимацията

R2 = 0,8659

Най-високите стойности на R2 съответстват на модели с полиномен тренд: квадратичен (R2 = 0,9263) и кубичен (R2 = 0,933).

Задача 3

С таблица с данни за печалбата на автомобилно транспортно предприятие за 1995-2002 г., дадена в задача 1, трябва да изпълните следните стъпки.

    Вземете серии от данни за линейни и експоненциални трендови линии с помощта на функциите TREND и GROW.

    Използвайки функциите TREND и GROWTH, направете прогноза за печалбата на предприятието за 2003 и 2004 г.

    За изходните данни и получените серии от данни построете диаграма.

Решението на проблема

Нека използваме работния лист от задача 1 (виж фиг. 4). Да започнем с функцията TREND:

    изберете диапазона от клетки D4: D11, който трябва да бъде попълнен със стойностите на функцията TREND, съответстващи на известните данни за печалбата на предприятието;

    извикайте командата Функция от менюто Вмъкване. В диалоговия прозорец на съветника за функции, който се появява, изберете функцията TREND от категорията Statistical и след това щракнете върху бутона OK. Същата операция може да се извърши чрез натискане на бутона (функция Вмъкване) на стандартната лента с инструменти.

    В диалоговия прозорец Аргументи на функцията, който се появява, въведете диапазона от клетки C4:C11 в полето Known_values_y; в поле Известни_стойности_x - диапазонът от клетки B4:B11;

    за да направите въведената формула формула за масив, използвайте клавишната комбинация + + .

Формулата, която въведохме в лентата с формули, ще изглежда така: =(ТРЕНД(C4:C11;B4:B11)).

В резултат на това диапазонът от клетки D4:D11 се запълва със съответните стойности на функцията TREND (фиг. 9).

Да се ​​направи прогноза за печалбата на дружеството за 2003 и 2004г. необходимо:

    изберете диапазона от клетки D12:D13, където ще бъдат въведени стойностите, предвидени от функцията TREND.

    извикайте функцията TREND и в появилия се диалогов прозорец Arguments на функцията въведете в полето Known_values_y - диапазона от клетки C4:C11; в поле Известни_стойности_x - диапазонът от клетки B4:B11; а в полето New_values_x - диапазона от клетки B12:B13.

    превърнете тази формула във формула за масив, като използвате клавишната комбинация Ctrl + Shift + Enter.

    Въведената формула ще изглежда така: =(TREND(C4:C11;B4:B11;B12:B13)), а диапазонът от клетки D12:D13 ще бъде запълнен с прогнозираните стойности на функцията TREND (вижте фиг. 9).

По същия начин серия от данни се попълва с помощта на функцията GROWTH, която се използва при анализа на нелинейни зависимости и работи точно по същия начин като нейния линеен аналог TREND.

Фигура 10 показва таблицата в режим на показване на формула.

За първоначалните данни и получените серии от данни, диаграмата, показана на фиг. единадесет.

Задача 4

С таблица с данни за получаване на заявления за услуги от диспечерската служба на автотранспортно предприятие за периода от 1 до 11 число на текущия месец трябва да се извършат следните действия.

    Получаване на серии от данни за линейна регресия: използване на функциите SLOPE и INTERCEPT; с помощта на функцията LINEST.

    Извлечете серия от данни за експоненциална регресия с помощта на функцията LYFFPRIB.

    Използвайки горните функции, направете прогноза за получаването на заявления в диспечерската служба за периода от 12-ия до 14-ия ден на текущия месец.

    За оригиналната и получената серия от данни постройте диаграма.

Решението на проблема

Обърнете внимание, че за разлика от функциите TREND и GROW, нито една от изброените по-горе функции (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) не е регресия. Тези функции играят само спомагателна роля, определяйки необходимите регресионни параметри.

За линейни и експоненциални регресии, построени с помощта на функциите SLOPE, INTERCEPT, LINEST, LGRFPRIB, външният вид на техните уравнения винаги е известен, за разлика от линейните и експоненциалните регресии, съответстващи на функциите TREND и GROWTH.

1 . Нека изградим линейна регресия, която има уравнението:

y=mx+b

чрез функциите SLOPE и INTERCEPT, като наклонът на регресията m се определя от функцията SLOPE, а константният член b - от функцията INTERCEPT.

За да направим това, извършваме следните действия:

    въведете изходната таблица в диапазона от клетки A4:B14;

    стойността на параметъра m ще бъде определена в клетка C19. Изберете от категорията Statistical функцията Slope; въведете диапазона от клетки B4:B14 в полетоknown_values_y и диапазона от клетки A4:A14 в полетоknown_values_x. Формулата ще бъде въведена в клетка C19: =SLOPE(B4:B14;A4:A14);

    с помощта на подобен метод се определя стойността на параметъра b в клетка D19. И съдържанието му ще изглежда така: = INTERCEPT(B4:B14;A4:A14). По този начин стойностите на параметрите m и b, необходими за конструиране на линейна регресия, ще бъдат съхранени съответно в клетки C19, D19;

    след това въвеждаме формулата за линейна регресия в клетка C4 във формата: = $ C * A4 + $ D. В тази формула клетки C19 и D19 са записани с абсолютни препратки (адресът на клетката не трябва да се променя при евентуално копиране). Абсолютният референтен знак $ може да бъде въведен или от клавиатурата, или с помощта на клавиша F4, след поставяне на курсора върху адреса на клетката. С помощта на манипулатора за попълване копирайте тази формула в диапазона от клетки C4:C17. Получаваме желаната поредица от данни (фиг. 12). Поради факта, че броят на заявките е цяло число, трябва да зададете числовия формат в раздела Число на прозореца Формат на клетката с броя на десетичните знаци на 0.

2 . Сега нека изградим линейна регресия, дадена от уравнението:

y=mx+b

с помощта на функцията LINEST.

За това:

    въведете функцията LINEST като формула за масив в диапазона от клетки C20:D20: =(LINEST(B4:B14;A4:A14)). В резултат на това получаваме стойността на параметъра m в клетка C20 и стойността на параметъра b в клетка D20;

    въведете формулата в клетка D4: =$C*A4+$D;

    копирайте тази формула с помощта на маркера за запълване в диапазона от клетки D4:D17 и вземете желаната поредица от данни.

3 . Изграждаме експоненциална регресия, която има уравнението:

с помощта на функцията LGRFPRIBL се изпълнява по подобен начин:

    в диапазона от клетки C21:D21 въведете функцията LGRFPRIBL като формула за масив: =( LGRFPRIBL (B4:B14;A4:A14)). В този случай стойността на параметъра m ще бъде определена в клетка C21, а стойността на параметъра b ще бъде определена в клетка D21;

    формулата се въвежда в клетка E4: =$D*$C^A4;

    използвайки маркера за запълване, тази формула се копира в диапазона от клетки E4:E17, където ще бъдат разположени серията данни за експоненциална регресия (вижте Фиг. 12).

На фиг. 13 показва таблица, в която можем да видим функциите, които използваме с необходимите диапазони от клетки, както и формули.

Стойност Р 2 Наречен коефициент на детерминация.

Задачата за изграждане на регресионна зависимост е да се намери векторът на коефициентите m на модела (1), при който коефициентът R приема максимална стойност.

За оценка на значимостта на R се използва F-тест на Фишер, изчислен по формулата

където н- размер на извадката (брой експерименти);

k е броят на коефициентите на модела.

Ако F надвиши някаква критична стойност за данните ни ки приетото ниво на доверие, тогава стойността на R се счита за значима. Таблици с критични стойности на F са дадени в справочници по математическа статистика.

По този начин значимостта на R се определя не само от неговата стойност, но и от съотношението между броя на експериментите и броя на коефициентите (параметрите) на модела. Наистина, съотношението на корелация за n=2 за прост линеен модел е 1 (през 2 точки на равнината винаги можете да начертаете една права линия). Въпреки това, ако експерименталните данни са случайни променливи, на такава стойност на R трябва да се вярва много внимателно. Обикновено, за да се получи значително R и надеждна регресия, се цели да се гарантира, че броят на експериментите значително надвишава броя на коефициентите на модела (n>k).

За изграждане на линеен регресионен моделнеобходимо:

1) подгответе списък от n реда и m колони, съдържащи експерименталните данни (колона, съдържаща изходната стойност Yтрябва да е първи или последен в списъка); например, нека вземем данните от предишната задача, като добавим колона, наречена "номер на период", номерирайки номерата на периодите от 1 до 12. (това ще бъдат стойностите х)

2) отидете в меню Данни/Анализ на данни/Регресия

Ако елементът "Анализ на данни" в менюто "Инструменти" липсва, тогава трябва да отидете в елемента "Добавки" от същото меню и да поставите отметка в квадратчето "Пакет за анализ".

3) в диалоговия прозорец "Регресия" задайте:

входен интервал Y;

входен интервал X;

изходен интервал - горната лява клетка на интервала, в който ще бъдат поставени резултатите от изчислението (препоръчително е да го поставите на нов работен лист);

4) щракнете върху "Ok" и анализирайте резултатите.

Постановка на задачата за апроксимация чрез най-малки квадрати. условия за най-добро приближение.

Ако се получи набор от експериментални данни със значителна грешка, тогава интерполацията не само не е необходима, но и нежелателна! Тук се изисква да се построи крива, която да възпроизвежда графиката на първоначалната експериментална закономерност, т.е. ще бъде възможно най-близо до експерименталните точки, но в същото време ще бъде нечувствителен към случайни отклонения на измерената стойност.

Нека се запознаем непрекъсната функция φ(x)за апроксимиране на дискретната зависимост f(xаз ) , i = 0… н. Ще приемем, че φ(x)изграден според състоянието най-добро квадратично приближение, ако

. (1)

Тегло ρ за аз-та точка дава значение на точността на измерване дадена стойност: колкото повече ρ , толкова по-близо е апроксимиращата крива „привлечена“ към дадената точка. По-нататък ще приемем по подразбиране ρ = 1 за всички точки.

Помислете за случая линейно приближение:

φ(x) = c 0 φ 0 (x) + c 1 φ 1 (x) + … + c m φ m (x), (2)

където φ 0 …φ m– произволно базисни функции, c 0 …c m– неизвестни коефициенти, м < н. Ако се вземе броя на коефициентите на приближение равно на числотовъзли, тогава средноквадратичното приближение ще съвпадне с интерполацията на Лагранж и, ако не вземем предвид изчислителната грешка, Q = 0.

Ако грешката на експерименталните (първоначални) данни е известна ξ , след това изборът на броя на коефициентите, тоест стойностите м, се определя от условието:

С други думи, ако , броят на апроксимационните коефициенти не е достатъчен за правилното възпроизвеждане на графиката експериментална зависимост. Ако , много коефициенти в (2) няма да имат физическо значение.

За решаване на проблема с линейното приближение в общ случайнеобходимо е да се намерят условия за минимум на сумата от квадратите на отклоненията за (2). Проблемът за намиране на минимума може да се сведе до проблема за намиране на корена на системата от уравнения, к = 0…м. (4) .

Заместването на (2) в (1) и след това изчисляването на (4) в крайна сметка ще доведе до следваща система линейна алгебраикауравнения:

След това трябва да решите получения SLAE по отношение на коефициентите c 0 …c m. За решаване на SLAE обикновено се съставя разширена матрица от коефициенти, която се нарича Грам матрица, чиито елементи са точкови продуктибазисни функции и колона със свободни коефициенти:

,

където , , j = 0... м, к = 0…м.

След използване, например, на метода на Гаус, коеф c 0 …c m, можете да изградите апроксимираща крива или да изчислите координатите дадена точка. Така проблемът с приближението е решен.

Апроксимация с каноничен полином.

Избираме базисните функции под формата на последователност от степени на аргумента x:

φ 0 (x) = x0 = 1; φ 1 (x) = х 1 = х; φ m (x) = x m, м < н.

Разширената матрица на Gram за степенната основа ще изглежда така:

Особеността на изчисляването на такава матрица (за намаляване на броя на извършените действия) е, че е необходимо да се преброят само елементите на първия ред и последните две колони: останалите елементи се попълват чрез изместване на предишния ред (с изключение на последните две колони) с една позиция вляво. В някои езици за програмиране, където няма бърза процедура за степенуване, алгоритъмът за изчисляване на матрицата на Грам, представен по-долу, е полезен.

Избор на базисни функции под формата на степени x не е оптималнопо отношение на постигане на най-малка грешка. Това е следствие неортогоналностизбрани базисни функции. Имот ортогоналностсе крие във факта, че за всеки тип полином има сегмент [ x 0 , x n], на който скаларните произведения на полиноми от различни порядки се нулират:

, йk, pе някаква тегловна функция.

Ако базисните функции бяха ортогонални, тогава всички недиагонални елементи на матрицата на Грам биха били близки до нула, което би увеличило точността на изчисленията, в противен случай при , детерминантата на матрицата на Грам клони към нула много бързо, т.е. системата става некондиционирана.

Апроксимация с ортогонални класически полиноми.

Следните полиноми, свързани с Полиноми на Якоби, имат свойството ортогоналност в горния смисъл. Тоест, за да се постигне висока прецизностизчисления, се препоръчва да се изберат базисните функции за апроксимация под формата на тези полиноми.

Апроксимация (от латински "приблизително" - "приближаване") - приблизително изразяване на всякакви математически обекти (например числа или функции) чрез други по-прости, по-удобни за използване или просто по-известни. В научните изследвания апроксимацията се използва за описване, анализиране, обобщаване и по-нататъшно използване на емпирични резултати.

Както е известно, може да има точна (функционална) връзка между стойностите, когато една конкретна стойност съответства на една стойност на аргумента.

При избора на приближение трябва да се изхожда от конкретната задача на изследването. Обикновено колкото по-просто е уравнението, използвано за апроксимация, толкова по-приближено е полученото описание на зависимостта. Ето защо е важно да се прочете колко значими и какво е причинило отклоненията на конкретни стойности от резултантната тенденция. Когато се описва зависимостта на емпирично определени стойности, може да се постигне много по-голяма точност, като се използва някое по-сложно, многопараметрично уравнение. Въпреки това, няма смисъл да се опитвате да предадете случайни отклонения на стойностите в конкретни серии от емпирични данни с максимална точност. При избора на метод на приближение изследователят винаги прави компромис: той решава до каква степен в този случай е целесъобразно и уместно да се „жертват“ детайлите и съответно колко обобщено трябва да се изрази зависимостта на сравняваните променливи. Наред с разкриването на модели на емпирични данни, маскирани от случайни отклонения от общия модел, апроксимацията също така позволява решаването на много други важни проблеми: формализиране на намерената зависимост; намиране на неизвестни стойности на зависимата променлива чрез интерполация или, ако е приложимо, екстраполация.

Целта на тази курсова работа е да се проучи теоретични основиапроксимиране на табличната функция по метода на най-малките квадрати и прилагане теоретични знания, намиране на апроксимиращи полиноми. Намирането на апроксимиращи полиноми в рамките на тази курсова работа следва чрез написване на програма на Pascal, която прилага разработения алгоритъм за намиране на коефициентите на апроксимиращия полином, а също така решава същата задача с помощта на MathCad.

В тази курсова работа програмата Pascal е разработена в PascalABC shell версия 1.0 beta. Решението на проблема в средата на MathCad е извършено в Mathcad версия 14.0.0.163.

Формулиране на проблема

В тази курсова работа трябва да направите следното:

1. Разработете алгоритъм за намиране на коефициентите на три апроксимиращи полинома (полиноми) от формата

за табличната функция y=f(x):

за степента на полиномите n=2, 4, 5.

2. Постройте блокова схема на алгоритъма.

3. Създайте програма на Паскал, която реализира разработения алгоритъм.

5. Построете графики на 3 получени апроксимиращи функции в една координатна система. Графиката трябва да съдържа и началните точки. аз , y i ) .

6. Решете задачата с помощта на MathCAD.

Резултатите от решаването на задачата с помощта на създадената програма на езика Pascal и в средата на MathCAD трябва да бъдат представени под формата на три полинома, конструирани с помощта на намерените коефициенти; таблица, съдържаща стойностите на функцията, получена с помощта на намерените полиноми в точки xi и стандартни отклонения.

Построяване на емпирични формули по метода на най-малките квадрати

Много често, особено при анализиране на емпирични данни, става необходимо изрично да се намери функционалната връзка между стойностите x и y, които се получават в резултат на измерванията.

При аналитично изследване на връзката между две величини x и y се правят поредица от наблюдения и резултатът е таблица със стойности:

х ¼ ¼
г ¼ ¼

Тази таблица обикновено се получава в резултат на някои експерименти, в които