Phương pháp phân tích hồi quy. Phân tích hồi quy - một phương pháp thống kê để nghiên cứu sự phụ thuộc của một biến ngẫu nhiên vào các biến

Khi có mối tương quan giữa yếu tố và dấu hiệu kết quả, bác sĩ thường phải xác định giá trị của một dấu hiệu có thể thay đổi khi dấu hiệu khác thay đổi bằng một đơn vị đo lường thường được nhà nghiên cứu chấp nhận hoặc thiết lập.

Ví dụ, trọng lượng cơ thể của học sinh lớp 1 (trẻ em gái hoặc trẻ em trai) sẽ thay đổi như thế nào nếu chiều cao của chúng tăng thêm 1 cm.

Thông thường, phương pháp phân tích hồi quy được sử dụng để xây dựng các thang đo và tiêu chuẩn quy chuẩn cho sự phát triển thể chất.

Định nghĩa hồi quy. Hồi quy là một chức năng cho phép dựa trên giá trị trung bình của một thuộc tính để xác định giá trị trung bình của một thuộc tính khác có tương quan với thuộc tính đầu tiên.
Với mục đích này, hệ số hồi quy và một số tham số khác được sử dụng. Ví dụ, bạn có thể tính toán số lần cảm lạnh trung bình cho các giá trị nhất định của nhiệt độ không khí trung bình hàng tháng trong giai đoạn thu đông.
Định nghĩa hệ số hồi quy. Hệ số hồi quy là giá trị tuyệt đối mà giá trị của một thuộc tính thay đổi trung bình khi một thuộc tính khác liên kết với nó thay đổi theo một đơn vị đo lường xác định.
Công thức hệ số hồi quy. R y / x \ u003d r xy x (σ y / σ x)
trong đó R y / x - hệ số hồi quy;
r xy - hệ số tương quan giữa các đối tượng x và y;
(σ y và σ x) - độ lệch chuẩn của các đối tượng x và y.
Trong ví dụ của chúng tôi;
σ x = 4,6 (độ lệch chuẩn của nhiệt độ không khí thời kỳ thu đông;
σ y = 8,65 (độ lệch chuẩn của số ca cảm lạnh truyền nhiễm).
Do đó, R y / x là hệ số hồi quy.
R y / x \ u003d -0,96 x (4,6 / 8,65) \ u003d 1,8, tức là với nhiệt độ không khí trung bình tháng (x) giảm 1 độ, số trường hợp mắc bệnh cảm cúm truyền nhiễm trung bình (y) trong thời kỳ thu đông sẽ thay đổi 1,8 trường hợp.
Phương trình hồi quy. y \ u003d M y + R y / x (x - M x)
trong đó y là giá trị trung bình của thuộc tính, giá trị này sẽ được xác định khi giá trị trung bình của một thuộc tính khác (x) thay đổi;
x - giá trị trung bình đã biết của đối tượng địa lý khác;
R y / x - hệ số hồi quy;
M x, M y - giá trị trung bình đã biết của các đối tượng x và y.
Ví dụ, số lượng trung bình của bệnh cảm lạnh truyền nhiễm (y) có thể được xác định mà không cần các phép đo đặc biệt ở bất kỳ giá trị trung bình nào của nhiệt độ không khí trung bình hàng tháng (x). Vì vậy, nếu x \ u003d - 9 °, R y / x \ u003d 1.8 bệnh, M x \ u003d -7 °, M y \ u003d 20 bệnh, thì y \ u003d 20 + 1.8 x (9-7) \ u003d 20 + 3 .6 = 23,6 bệnh.
Phương trình này được áp dụng trong trường hợp quan hệ đường thẳng giữa hai đối tượng địa lý (x và y).
Mục đích của phương trình hồi quy. Phương trình hồi quy được sử dụng để vẽ đường hồi quy. Cái sau cho phép, không có phép đo đặc biệt, xác định bất kỳ giá trị trung bình nào (y) của một thuộc tính, nếu giá trị (x) của một thuộc tính khác thay đổi. Dựa trên những dữ liệu này, một biểu đồ được xây dựng - đường Hồi quy, có thể được sử dụng để xác định số lần cảm lạnh trung bình ở bất kỳ giá trị nào của nhiệt độ trung bình hàng tháng trong phạm vi giữa các giá trị được tính toán của số lần cảm lạnh.
Hồi quy sigma (công thức).
trong đó σ Ru / x - sigma (độ lệch chuẩn) của hồi quy;
σ y là độ lệch chuẩn của đối tượng địa lý y;
r xy - hệ số tương quan giữa các đối tượng x và y.
Vì vậy, nếu σ y là độ lệch chuẩn của số cảm = 8,65; r xy - hệ số tương quan giữa số đợt rét (y) và nhiệt độ không khí trung bình tháng trong thời kỳ thu đông (x) là - 0,96, thì
Mục đích của hồi quy sigma. Đưa ra một đặc trưng của thước đo mức độ đa dạng của đối tượng kết quả (y).
Ví dụ, nó đặc trưng cho sự đa dạng về số lượng các đợt rét ở một giá trị nhất định của nhiệt độ không khí trung bình tháng trong thời kỳ thu đông. Vì vậy, số bệnh cảm lạnh trung bình ở nhiệt độ không khí x 1 \ u003d -6 ° có thể từ 15,78 bệnh đến 20,62 bệnh.
Ở x 2 = -9 °, số bệnh cảm lạnh trung bình có thể từ 21,18 bệnh đến 26,02 bệnh, v.v.
Sigma hồi quy được sử dụng trong việc xây dựng thang đo hồi quy, phản ánh độ lệch của các giá trị của thuộc tính hiệu dụng so với giá trị trung bình của nó được vẽ trên đường hồi quy.
Dữ liệu cần thiết để tính toán và vẽ biểu đồ thang đo hồi quy
- hệ số hồi quy - Ry / x;
- phương trình hồi quy - y \ u003d M y + R y / x (x-M x);
- hồi quy sigma - σ Rx / y
Trình tự tính toán và biểu diễn đồ họa của thang đo hồi quy.
- xác định hệ số hồi quy theo công thức (xem đoạn 3). Ví dụ, người ta nên xác định trọng lượng cơ thể sẽ thay đổi trung bình bao nhiêu (ở một độ tuổi nhất định tùy thuộc vào giới tính) nếu chiều cao trung bình thay đổi 1 cm.
- theo công thức của phương trình hồi quy (xem đoạn 4), xác định giá trị trung bình, ví dụ, trọng lượng cơ thể (y, y 2, y 3 ...) * đối với một giá trị tăng trưởng nhất định (x, x 2, x 3 ...).
  ________________
  * Giá trị của "y" phải được tính cho ít nhất ba giá trị đã biết của "x".
  Đồng thời, giá trị trung bình của trọng lượng cơ thể và chiều cao (M x, và M y) cho một độ tuổi và giới tính nhất định được biết
- tính sigma của hồi quy, biết các giá trị tương ứng của σ y và r xy và thay các giá trị của chúng vào công thức (xem đoạn 6).
- dựa trên các giá trị đã biết x 1, x 2, x 3 và các giá trị trung bình tương ứng của chúng là y 1, y 2 y 3, cũng như nhỏ nhất (y - σ ru / x) và lớn nhất (y + σ ru / x) giá trị \ u200b \ u200b (y) xây dựng thang đo hồi quy.
  Đối với biểu diễn đồ họa của thang đo hồi quy, các giá trị x, x 2, x 3 (trục y) được đánh dấu đầu tiên trên biểu đồ, tức là một đường hồi quy được xây dựng, ví dụ, sự phụ thuộc của trọng lượng cơ thể (y) vào chiều cao (x).
  Sau đó, tại các điểm tương ứng y 1, y 2, y 3, các giá trị số của sigma hồi quy được đánh dấu, tức là trên đồ thị tìm giá trị nhỏ nhất và lớn nhất của y 1, y 2, y 3.
Thực tế sử dụng thang đo hồi quy. Các thang đo và tiêu chuẩn quy chuẩn đang được phát triển, đặc biệt là để phát triển thể chất. Theo thang điểm chuẩn, có thể đưa ra đánh giá cá nhân về sự phát triển của trẻ. Đồng thời, sự phát triển thể chất được đánh giá là hài hòa nếu, ở một chiều cao nhất định, trọng lượng cơ thể của trẻ nằm trong phạm vi một dấu của hồi quy về đơn vị trọng lượng cơ thể được tính toán trung bình - (y) cho một chiều cao nhất định (x) (y ± 1 σ Ry / x).
Sự phát triển thể chất được coi là không hài hòa về trọng lượng cơ thể nếu trọng lượng cơ thể của trẻ đối với một chiều cao nhất định nằm trong dấu hiệu hồi quy thứ hai: (y ± 2 σ Ry / x)
Sự phát triển thể chất sẽ không đồng đều cả do thừa và không đủ trọng lượng cơ thể nếu trọng lượng cơ thể đối với một chiều cao nhất định nằm trong dấu hiệu thứ ba của hồi quy (y ± 3 σ Ry / x).

Theo kết quả của một nghiên cứu thống kê về sự phát triển thể chất của bé trai 5 tuổi, được biết chiều cao trung bình (x) là 109 cm và trọng lượng cơ thể trung bình (y) là 19 kg. Hệ số tương quan giữa chiều cao và trọng lượng cơ thể là +0,9, độ lệch chuẩn được trình bày trong bảng.

Cần thiết:

tính hệ số hồi quy;
Sử dụng phương trình hồi quy, hãy xác định khối lượng cơ thể mong muốn của trẻ trai 5 tuổi có chiều cao lần lượt là x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
tính toán hồi quy sigma, xây dựng thang đo hồi quy, trình bày kết quả giải của nó bằng đồ thị;
rút ra kết luận thích hợp.

Điều kiện của vấn đề và kết quả của giải pháp của nó được trình bày trong bảng tóm tắt.

Bảng 1

Điều kiện của vấn đề				Kết quả giải pháp vấn đề
Điều kiện của vấn đề				phương trình hồi quy			hồi quy sigma	quy mô hồi quy (trọng lượng cơ thể dự kiến (tính bằng kg))
	M	σ	r xy	R y / x	X	Tại	σRx / y	y - σ Rу / х	y + σ Rу / х
1	2	3	4	5	6	7	8	9	10
Chiều cao (x)	109 cm	± 4,4cm	+0,9	0,16	100cm	17,56 kg	± 0,35 kg	17,21 kg	17,91 kg
Trọng lượng cơ thể (y)	19 kg	± 0,8 kg			110 cm	19,16 kg		18,81 kg	19,51 kg
Trọng lượng cơ thể (y)	19 kg	± 0,8 kg			120 cm	20,76 kg		20,41 kg	21,11 kg

Quyết định.

Sự kết luận. Do đó, thang đo hồi quy trong các giá trị tính toán của trọng lượng cơ thể cho phép bạn xác định nó cho bất kỳ giá trị tăng trưởng nào khác hoặc để đánh giá sự phát triển cá nhân của trẻ. Để làm điều này, hãy khôi phục sự vuông góc với đường hồi quy.

Vlasov V.V. Dịch tễ học. - M.: GEOTAR-MED, 2004. - 464 tr.
Lisitsyn Yu.P. Sức khỏe cộng đồng và chăm sóc sức khỏe. Sách giáo khoa dành cho các trường trung học phổ thông. - M.: GEOTAR-MED, 2007. - 512 tr.
Medik V.A., Yuriev V.K. Tập bài giảng về y tế và chăm sóc sức khỏe cộng đồng: Phần 1. Sức khỏe cộng đồng. - M.: Y học, 2003. - 368 tr.
Minyaev V.A., Vishnyakov N.I. và những tổ chức khác. Y học xã hội và tổ chức chăm sóc sức khỏe (Hướng dẫn trong 2 tập). - Xanh Pê-téc-bua, 1998. -528 tr.
Kucherenko V.Z., Agarkov N.M. Vệ sinh xã hội và tổ chức chăm sóc sức khỏe (Hướng dẫn) - Mátxcơva, 2000. - 432 tr.
S. Glantz. Thống kê y sinh học. Per từ tiếng Anh. - M., Luyện tập, 1998. - 459 tr.

A) Phân tích đồ thị của một hồi quy tuyến tính đơn giản.

Phương trình hồi quy tuyến tính đơn giản y = a + bx. Nếu có mối tương quan giữa các biến ngẫu nhiên Y và X, thì giá trị y = ý + ,

trong đó ý là giá trị lý thuyết của y thu được từ phương trình = f (x),

 là sai số lệch của phương trình lý thuyết so với số liệu thực tế (thực nghiệm).

Phương trình về sự phụ thuộc của giá trị trung bình của vào x, nghĩa là, = f (x) được gọi là phương trình hồi quy. Phân tích hồi quy bao gồm bốn bước:

1) thiết lập nhiệm vụ và thiết lập lý do kết nối.

2) giới hạn của đối tượng nghiên cứu, thu thập thông tin thống kê.

3) lựa chọn phương trình liên kết dựa trên phân tích và bản chất của dữ liệu thu thập được.

4) tính toán các giá trị số, các đặc điểm của mối tương quan.

Nếu hai biến có liên quan với nhau theo cách mà một thay đổi trong một biến tương ứng với một thay đổi có hệ thống trong biến kia, thì phân tích hồi quy được sử dụng để ước tính và chọn phương trình quan hệ giữa chúng nếu các biến này đã biết. Không giống như phân tích hồi quy, phân tích tương quan được sử dụng để phân tích mức độ chặt chẽ của mối quan hệ giữa X và Y.

Xem xét việc tìm một đường thẳng trong phân tích hồi quy:

Phương trình hồi quy lý thuyết.

Thuật ngữ "hồi quy đơn giản" chỉ ra rằng độ lớn của một biến được ước tính dựa trên kiến thức về một biến khác. Không giống như hồi quy đa biến đơn giản, nó được sử dụng để ước tính một biến dựa trên kiến thức về hai, ba hoặc nhiều biến. Hãy xem xét một phân tích đồ họa của một hồi quy tuyến tính đơn giản.

Giả sử rằng chúng ta có kết quả kiểm tra năng suất lao động và trước khi làm việc.

	Kết quả lựa chọn (100 điểm), x	Hiệu suất (20 điểm), y

Đưa các điểm lên đồ thị, ta được một biểu đồ (trường) tán xạ. Chúng tôi sử dụng nó để phân tích kết quả của các bài kiểm tra lựa chọn và năng suất lao động.

Hãy phân tích đường hồi quy bằng cách sử dụng biểu đồ phân tán. Trong phân tích hồi quy, ít nhất hai biến luôn được chỉ định. Một sự thay đổi có hệ thống trong một biến số này có liên quan đến sự thay đổi trong một biến số khác. mục tiêu chính Phân tích hồi quy là ước tính giá trị của một biến nếu giá trị của biến kia được biết. Để hoàn thành nhiệm vụ, việc đánh giá năng suất lao động là quan trọng.

Biến độc lập trong phân tích hồi quy, một đại lượng được sử dụng làm cơ sở để phân tích một biến khác. Trong trường hợp này, đây là kết quả của các bài kiểm tra lựa chọn (dọc theo trục X).

biến phụ thuộcđược gọi là giá trị ước tính (dọc theo trục Y). Trong một phân tích hồi quy, chỉ có thể có một biến phụ thuộc và nhiều biến độc lập.

Đối với một phân tích hồi quy đơn giản, sự phụ thuộc có thể được biểu diễn trong một hệ hai tọa độ (x và y), dọc theo trục x - một biến độc lập, dọc theo trục y - phụ thuộc. Chúng tôi vẽ các giao điểm theo cách mà một cặp đại lượng được trình bày trên đồ thị. Biểu đồ được gọi là scatterplot. Việc xây dựng nó là giai đoạn thứ hai của phân tích hồi quy, vì giai đoạn đầu tiên là lựa chọn các giá trị được phân tích và thu thập dữ liệu mẫu. Do đó, phân tích hồi quy được áp dụng để phân tích thống kê. Mối quan hệ giữa dữ liệu mẫu của biểu đồ là tuyến tính.

Để ước tính giá trị của biến y dựa trên biến x, cần xác định vị trí của đường biểu diễn tốt nhất mối quan hệ giữa x và y dựa trên vị trí của các điểm scatterplot. Trong ví dụ của chúng tôi, đây là phân tích hiệu suất. Đường được vẽ qua các điểm phân tán - đường Hồi quy. Một cách để xây dựng đường hồi quy dựa trên trải nghiệm trực quan là phương pháp tự do. Đường hồi quy của chúng tôi có thể được sử dụng để xác định năng suất lao động. Khi tìm phương trình của đường hồi quy

Thường sử dụng phép thử bình phương nhỏ nhất. Đường phù hợp nhất là đường mà tổng các độ lệch bình phương là nhỏ nhất.

Phương trình toán học của đường tăng trưởng biểu thị quy luật tăng trưởng trong cấp số cộng:

tại = một – bX.

Y = một + bX- Phương trình rút gọn với một tham số là dạng đơn giản nhất của phương trình ràng buộc. Nó có thể chấp nhận được đối với các giá trị trung bình. Để thể hiện rõ hơn mối quan hệ giữa X và tại, một hệ số tỷ lệ bổ sung được đưa vào b, chỉ ra độ dốc của đường hồi quy.

B) Xây dựng đường hồi quy lý thuyết.

Quá trình tìm kiếm nó bao gồm việc lựa chọn và biện minh cho loại đường cong và tính toán các tham số một, b, với vân vân. Quá trình xây dựng được gọi là san lấp mặt bằng, và kho các đường cong được cung cấp bởi tấm thảm. phân tích, đa dạng. Thông thường, trong các bài toán kinh tế, một họ các đường cong được sử dụng, các phương trình được biểu thị bằng các đa thức có bậc nguyên dương.

1)
- phương trình của một đường thẳng,

2)
là phương trình hyperbol,

3)
là phương trình parabol,

trong đó là các hoành độ của đường hồi quy lý thuyết.

Sau khi chọn loại phương trình, cần phải tìm các tham số mà phương trình này phụ thuộc vào. Ví dụ, bản chất của vị trí của các điểm trong trường phân tán cho thấy rằng đường hồi quy lý thuyết là thẳng.

Biểu đồ phân tán cho phép bạn biểu diễn năng suất lao động bằng cách sử dụng phân tích hồi quy. Trong kinh tế học, phân tích hồi quy dự đoán nhiều đặc điểm ảnh hưởng đến sản phẩm cuối cùng (có tính đến việc định giá).

C) Tiêu chuẩn của các khung nhỏ nhất để tìm một đường thẳng.

Một trong những tiêu chí mà chúng tôi có thể áp dụng cho một dòng hồi quy phù hợp trong biểu đồ phân tán là dựa trên việc chọn một dòng mà tổng các lỗi bình phương sẽ là nhỏ nhất.

Sự gần gũi của các điểm tán xạ với đường thẳng được đo bằng hoành độ của các đoạn. Độ lệch của những điểm này có thể dương hoặc âm, nhưng tổng bình phương độ lệch của đường lý thuyết so với đường thực nghiệm luôn dương và phải nhỏ nhất. Thực tế là tất cả các điểm phân tán không trùng với vị trí của đường hồi quy cho thấy sự tồn tại của sự khác biệt giữa dữ liệu thực nghiệm và lý thuyết. Như vậy, có thể nói rằng không có đường hồi quy nào khác, ngoại trừ đường vừa tìm được, có thể cho tổng sai lệch nhỏ hơn giữa dữ liệu thực nghiệm và thực nghiệm. Do đó, sau khi tìm ra phương trình lý thuyết ý và đường hồi quy, chúng ta thỏa mãn yêu cầu bình phương nhỏ nhất.

Điều này được thực hiện bằng cách sử dụng phương trình ràng buộc
, sử dụng công thức để tìm tham số một và b. Lấy giá trị lý thuyết
và biểu thị vế trái của phương trình thông qua f, chúng tôi nhận được chức năng
từ các thông số không xác định một và b. Giá trị một và b sẽ thỏa mãn mức tối thiểu của hàm f và được tìm thấy từ các phương trình đạo hàm riêng
và
. Đây là Điều kiện cần thiết Tuy nhiên, đối với một hàm số bậc hai dương, đây cũng là điều kiện đủ để tìm một và b.

Chúng ta hãy suy ra từ các phương trình đạo hàm riêng các công thức cho các tham số một và b:

ta nhận được một hệ phương trình:

ở đâu
- sai số trung bình cộng.

Thay thế các giá trị số, chúng tôi tìm thấy các tham số một và b.

Có một khái niệm
. Đây là hệ số gần đúng.

Nếu một e < 33%, то модель приемлема для дальнейшего анализа;

Nếu một e> 33%, sau đó chúng tôi lấy một hyperbola, một parabol, v.v. Điều này mang lại quyền phân tích trong các tình huống khác nhau.

Kết luận: theo tiêu chí của hệ số xấp xỉ, dòng phù hợp nhất là dòng mà

, và không có đường hồi quy nào khác cho vấn đề của chúng tôi đưa ra độ lệch tối thiểu.

D) Sai số bậc hai của ước lượng, xác minh tính điển hình của chúng.

Đối với dân số có ít hơn 30 tham số nghiên cứu ( N < 30), для проверки типичности параметров уравнения регрессии используется t-Tiêu chí của học sinh. Điều này tính toán giá trị thực tế t-tiêu chuẩn:

Từ đây

ở đâu là sai số bình phương căn bậc hai còn lại. Nhận t một và t b so với quan trọng t k từ bảng Sinh viên, tính đến mức ý nghĩa được chấp nhận ( = 0,01 = 99% hoặc  = 0,05 = 95%). P = f = k 1 = m là số tham số của phương trình đang nghiên cứu (bậc tự do). Ví dụ, nếu y = một + bx; m = 2, k 2 = f 2 = P 2 = N – (m+ 1), ở đâu N- số lượng các đối tượng địa lý được nghiên cứu.

t một < t k < t b .

Sự kết luận: theo các tham số của phương trình hồi quy được kiểm tra tính điển hình, một mô hình toán học của kết nối được xây dựng
. Trong trường hợp này, các tham số của hàm toán học được sử dụng trong phân tích (tuyến tính, hyperbol, parabol) nhận các giá trị định lượng tương ứng. Nội dung ngữ nghĩa của các mô hình thu được theo cách này là chúng đặc trưng cho giá trị trung bình của tính năng hiệu quả
từ một đặc điểm yếu tố X.

E) Hồi quy đường cong.

Khá thường xuyên có một mối quan hệ đường cong, khi một mối quan hệ thay đổi được thiết lập giữa các biến. Cường độ tăng (giảm) phụ thuộc vào mức độ tìm được X. Sự phụ thuộc đường cong có thể có nhiều loại khác nhau. Ví dụ, hãy xem xét mối quan hệ giữa sản lượng và lượng mưa. Với sự gia tăng lượng mưa trong điều kiện tự nhiên bình đẳng, năng suất thâm canh tăng, nhưng đạt đến một giới hạn nhất định. Sau điểm tới hạn, lượng mưa dư thừa, và sản lượng giảm thảm hại. Ví dụ cho thấy rằng lúc đầu mối quan hệ là tích cực, và sau đó là tiêu cực. Điểm tới hạn - mức tối ưu của đối tượng X, tương ứng với giá trị lớn nhất hoặc nhỏ nhất của đối tượng Y.

Trong kinh tế học, mối quan hệ như vậy được quan sát thấy giữa giá cả và tiêu dùng, năng suất và thời gian phục vụ.

phụ thuộc parabol.

Nếu dữ liệu cho thấy rằng sự gia tăng thuộc tính nhân tố dẫn đến sự gia tăng thuộc tính kết quả, thì phương trình bậc hai (parabol) được coi là phương trình hồi quy.

. Các hệ số a, b, c được tìm thấy từ phương trình đạo hàm riêng:

Ta nhận được một hệ phương trình:

Các loại phương trình đường cong:

Có thể cho rằng có mối quan hệ cong giữa năng suất lao động và điểm thi tuyển chọn. Điều này có nghĩa là với sự phát triển của hệ thống tính điểm, hiệu suất sẽ bắt đầu giảm ở một mức độ nào đó, do đó, mô hình trực tiếp có thể trở nên cong.

Mô hình thứ ba sẽ là một hyperbol, và trong tất cả các phương trình, thay vì biến x, sẽ có một biểu thức.

Trong các ghi chú trước đây, trọng tâm thường tập trung vào một biến số duy nhất, chẳng hạn như lợi tức quỹ tương hỗ, thời gian tải trang web hoặc mức tiêu thụ nước ngọt. Trong phần này và các ghi chú sau, chúng ta sẽ xem xét các phương pháp dự đoán giá trị của một biến số phụ thuộc vào các giá trị của một hoặc nhiều biến số khác.

Tài liệu sẽ được minh họa bằng một ví dụ thông qua. Dự báo doanh số bán hàng tại một cửa hàng quần áo. Chuỗi cửa hàng quần áo giảm giá của Sunflowers đã không ngừng mở rộng trong suốt 25 năm. Tuy nhiên, công ty hiện không có cách tiếp cận có hệ thống để lựa chọn các cửa hàng mới. Địa điểm mà công ty dự định mở một cửa hàng mới được xác định dựa trên những cân nhắc chủ quan. Tiêu chí lựa chọn là điều kiện thuê thuận lợi hoặc ý tưởng của người quản lý về vị trí lý tưởng của cửa hàng. Hãy tưởng tượng rằng bạn là người đứng đầu Phòng Kế hoạch và Dự án Đặc biệt. Bạn đã được giao nhiệm vụ phát triển một kế hoạch chiến lược để mở các cửa hàng mới. Kế hoạch này cần có dự báo về doanh thu hàng năm ở các cửa hàng mới mở. Bạn tin rằng không gian bán hàng có liên quan trực tiếp đến doanh thu và muốn đưa thực tế đó vào quá trình ra quyết định của mình. Làm thế nào để bạn phát triển một mô hình thống kê dự đoán doanh số hàng năm dựa trên quy mô cửa hàng mới?

Thông thường, phân tích hồi quy được sử dụng để dự đoán các giá trị của một biến. Mục tiêu của nó là phát triển một mô hình thống kê dự đoán các giá trị của biến phụ thuộc, hoặc phản ứng, từ các giá trị của ít nhất một biến độc lập hoặc giải thích. Trong ghi chú này, chúng tôi sẽ xem xét một hồi quy tuyến tính đơn giản - một phương pháp thống kê cho phép bạn dự đoán các giá trị của biến phụ thuộc Y bởi các giá trị của biến độc lập X. Các ghi chú sau đây sẽ mô tả một mô hình hồi quy bội được thiết kế để dự đoán các giá trị của biến độc lập Y bởi các giá trị của một số biến phụ thuộc ( X 1, X 2,…, X k).

Tải xuống ghi chú ở định dạng hoặc, ví dụ ở định dạng

Các loại mô hình hồi quy

ở đâu ρ 1 là hệ số tự tương quan; nếu ρ 1 = 0 (không có tự tương quan), D≈ 2; nếu ρ 1 ≈ 1 (tự tương quan dương), D≈ 0; nếu ρ 1 = -1 (tự tương quan âm), D ≈ 4.

Trên thực tế, việc áp dụng tiêu chí Durbin-Watson dựa trên việc so sánh giá trị D với các giá trị lý thuyết quan trọng d L và d U cho một số lượng quan sát nhất định N, số lượng biến độc lập của mô hình k(đối với hồi quy tuyến tính đơn giản k= 1) và mức ý nghĩa α. Nếu một D< d L , giả thuyết về tính độc lập của các sai lệch ngẫu nhiên bị bác bỏ (do đó, có tự tương quan dương); nếu D> dU, giả thuyết không bị bác bỏ (nghĩa là không có hiện tượng tự tương quan); nếu d L< D < d U không có đủ lý do để đưa ra quyết định. Khi giá trị được tính toán D vượt quá 2, sau đó d L và d U nó không phải là hệ số tự nó đang được so sánh D và biểu thức (4 - D).

Để tính toán thống kê Durbin-Watson trong Excel, chúng ta chuyển sang bảng dưới cùng trong Hình. mười bốn Rút tiền số dư. Tử số trong biểu thức (10) được tính bằng cách sử dụng hàm = SUMMQDIFF (array1, array2) và mẫu số = SUMMQ (array) (Hình 16).

Cơm. 16. Công thức tính toán thống kê Durbin-Watson

Trong ví dụ của chúng tôi D= 0,883. Câu hỏi chính là: giá trị nào của thống kê Durbin-Watson nên được coi là đủ nhỏ để kết luận rằng có tự tương quan dương? Cần phải tương quan giá trị của D với các giá trị tới hạn ( d L và d U) tùy thuộc vào số lượng quan sát N và mức ý nghĩa α (Hình 17).

Cơm. 17. Các giá trị quan trọng của thống kê Durbin-Watson (phân đoạn bảng)

Do đó, trong bài toán về khối lượng bán hàng trong một cửa hàng giao hàng đến nhà của bạn, có một biến số độc lập ( k= 1), 15 quan sát ( N= 15) và mức ý nghĩa α = 0,05. Vì thế, d L= 1,08 và dU= 1,36. Trong chừng mực D = 0,883 < d L= 1,08, có tự tương quan dương giữa các phần dư, không thể áp dụng phương pháp bình phương nhỏ nhất.

Kiểm định các giả thuyết về Hệ số tương quan và Độ dốc

Hồi quy trên chỉ được áp dụng để dự báo. Để xác định hệ số hồi quy và dự đoán giá trị của một biến Y cho một giá trị biến nhất định X phương pháp bình phương nhỏ nhất đã được sử dụng. Ngoài ra, chúng tôi đã xem xét sai số chuẩn của ước lượng và hệ số tương quan hỗn hợp. Nếu phân tích phần dư xác nhận rằng các điều kiện áp dụng của phương pháp bình phương nhỏ nhất không bị vi phạm và mô hình hồi quy tuyến tính đơn giản là đầy đủ, dựa trên dữ liệu mẫu, thì có thể lập luận rằng có mối quan hệ tuyến tính giữa các biến trong tổng thể.

Ứng dụngt -tiêu chuẩn về độ dốc. Bằng cách kiểm tra xem độ dốc tổng thể β 1 có bằng 0 hay không, người ta có thể xác định liệu có mối quan hệ có ý nghĩa thống kê giữa các biến hay không X và Y. Nếu giả thuyết này bị bác bỏ, có thể lập luận rằng giữa các biến X và Y có mối quan hệ tuyến tính. Các giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: β 1 = 0 (không có quan hệ tuyến tính), H1: β 1 ≠ 0 (có quan hệ tuyến tính). A-priory t- thống kê bằng hiệu số giữa độ dốc mẫu và độ dốc tổng thể giả định, chia cho sai số tiêu chuẩn của ước tính độ dốc:

(11) t = (b 1 – β 1 ) / Sb 1

ở đâu b 1 là độ dốc của hồi quy trực tiếp dựa trên dữ liệu mẫu, β1 là độ dốc giả định của tổng thể chung trực tiếp, và kiểm tra thống kê t Nó có t- phân phối với n - 2 bậc tự do.

Hãy kiểm tra xem có mối quan hệ có ý nghĩa thống kê giữa quy mô cửa hàng và doanh thu hàng năm ở mức α = 0,05 hay không. t-criteria được hiển thị cùng với các thông số khác khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả đầy đủ của Gói phân tích được trình bày trong Hình. 4, một đoạn liên quan đến thống kê t - trong hình. mười tám.

Cơm. 18. Kết quả ứng dụng t

Vì số lượng cửa hàng N= 14 (xem Hình 3), giá trị tới hạn t- Số liệu thống kê ở mức ý nghĩa α = 0,05 có thể được tìm thấy bằng công thức: t L= STUDENT.INV (0,025; 12) = -2,1788 trong đó 0,025 là một nửa mức ý nghĩa và 12 = N – 2; t U\ u003d STUDENT.INV (0,975, 12) \ u003d +2,1788.

Trong chừng mực t- thống kê = 10,64> t U= 2,1788 (Hình 19), giả thuyết không H 0 bị từ chối. Mặt khác, R-giá trị cho X\ u003d 10.6411, được tính bằng công thức \ u003d 1-STUDENT.DIST (D3, 12, TRUE), xấp xỉ bằng 0, vì vậy giả thuyết H 0 lại bị từ chối. Thực tế là R-giá trị gần như bằng 0, có nghĩa là nếu không có mối quan hệ tuyến tính thực sự giữa quy mô cửa hàng và doanh số hàng năm, thì hầu như không thể phát hiện ra nó bằng cách sử dụng hồi quy tuyến tính. Do đó, có một mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số cửa hàng trung bình hàng năm và quy mô cửa hàng.

Cơm. 19. Kiểm định giả thuyết về độ dốc của tổng thể chung với mức ý nghĩa 0,05 và 12 bậc tự do

Ứng dụngF -tiêu chuẩn về độ dốc. Một cách tiếp cận thay thế để kiểm tra các giả thuyết về độ dốc của một hồi quy tuyến tính đơn giản là sử dụng F-tiêu chuẩn. Nhớ lại điều đó F-criterion được sử dụng để kiểm tra mối quan hệ giữa hai phương sai (xem chi tiết). Khi kiểm định giả thuyết độ dốc, thước đo sai số ngẫu nhiên là phương sai sai số (tổng bình phương sai số chia cho số bậc tự do), do đó F-test sử dụng tỷ lệ của phương sai được giải thích bởi hồi quy (tức là các giá trị SSR chia cho số biến độc lập k), đối với phương sai lỗi ( MSE = S YX 2 ).

A-priory F-thống kê bằng với độ lệch bình phương trung bình do hồi quy (MSR) chia cho phương sai sai (MSE): F = MSR/ MSE, ở đâu MSR =SSR / k, MSE =SSE/(N- k - 1), k là số lượng biến độc lập trong mô hình hồi quy. Thống kê thử nghiệm F Nó có F- phân phối với k và N- k - 1 bậc tự do.

Với mức ý nghĩa cho trước α, quy tắc quyết định được xây dựng như sau: nếu F> FU, giả thuyết vô hiệu bị bác bỏ; nếu không, nó không bị từ chối. Các kết quả, được trình bày dưới dạng một bảng tóm tắt của việc phân tích phương sai, được trình bày trong hình. 20

Cơm. 20. Bảng phân tích phương sai kiểm định giả thuyết về ý nghĩa thống kê của hệ số hồi quy

Tương tự t-tiêu chuẩn F-criteria được hiển thị trong bảng khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả đầy đủ của công việc Gói phân tíchđược hiển thị trong hình. 4, đoạn liên quan đến F- thống kê - trong hình. 21.

Cơm. 21. Kết quả ứng dụng F- Các tiêu chí thu được bằng cách sử dụng Excel Analysis ToolPack

Thống kê F là 113,23 và R-giá trị gần bằng 0 (ô Ý nghĩaF). Nếu mức ý nghĩa α là 0,05, hãy xác định giá trị tới hạn F-phân phối với một và 12 bậc tự do có thể nhận được từ công thức F U\ u003d F. OBR (1-0,05; 1; 12) \ u003d 4,7472 (Hình 22). Trong chừng mực F = 113,23 > F U= 4,7472 và R-giá trị gần bằng 0< 0,05, нулевая гипотеза H 0 lệch, tức là Quy mô của một cửa hàng liên quan chặt chẽ đến doanh số bán hàng hàng năm của nó.

Cơm. 22. Kiểm định giả thuyết về độ dốc của tổng thể chung với mức ý nghĩa 0,05, với một và 12 bậc tự do

Khoảng tin cậy chứa hệ số góc β 1.Để kiểm tra giả thuyết về sự tồn tại của mối quan hệ tuyến tính giữa các biến, bạn có thể xây dựng khoảng tin cậy chứa hệ số góc β 1 và đảm bảo rằng giá trị giả thuyết β 1 = 0 thuộc khoảng này. Tâm của khoảng tin cậy chứa độ dốc β 1 là độ dốc mẫu b 1 và ranh giới của nó là số lượng b 1 ±t n –2 Sb 1

Như được hiển thị trong hình. mười tám, b 1 = +1,670, N = 14, Sb 1 = 0,157. t 12 \ u003d STUDENT.OBR (0,975, 12) \ u003d 2,1788. Vì thế, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 hoặc + 1,328 ≤ β 1 ≤ +2,012. Do đó, độ dốc của dân số với xác suất 0,95 nằm trong khoảng từ +1.328 đến +2.012 (tức là từ 1.328.000 đến 2.012.000 đô la). Bởi vì những giá trị này lớn hơn 0, có một mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số hàng năm và diện tích cửa hàng. Nếu khoảng tin cậy bằng 0, sẽ không có mối quan hệ nào giữa các biến. Ngoài ra, khoảng tin cậy có nghĩa là cứ 1.000 sq. chân dẫn đến việc tăng doanh số bán hàng trung bình từ $ 1,328,000 lên $ 2,012,000.

Cách sử dụngt - tiêu chí cho hệ số tương quan. hệ số tương quan đã được giới thiệu r, là thước đo mối quan hệ giữa hai biến số. Nó có thể được sử dụng để xác định liệu có mối quan hệ có ý nghĩa thống kê giữa hai biến hay không. Chúng ta hãy biểu thị hệ số tương quan giữa các quần thể của cả hai biến bằng ký hiệu ρ. Giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: ρ = 0 (không tương quan), H 1: ρ ≠ 0 (có mối tương quan). Kiểm tra sự tồn tại của mối tương quan:

ở đâu r = + , nếu b 1 > 0, r = – , nếu b 1 < 0. Тестовая статистика t Nó có t- phân phối với n - 2 bậc tự do.

Trong bài toán của chuỗi cửa hàng Hoa hướng dương r2= 0,904 và b 1- +1.670 (xem Hình 4). Trong chừng mực b 1> 0, hệ số tương quan giữa doanh số hàng năm và quy mô cửa hàng là r= + √0,904 = +0,951. Hãy kiểm tra giả thuyết rỗng rằng không có mối tương quan giữa các biến này bằng cách sử dụng t- số liệu thống kê:

Với mức ý nghĩa α = 0,05, giả thuyết vô hiệu nên bị bác bỏ vì t= 10,64> 2,1788. Do đó, có thể lập luận rằng có một mối quan hệ có ý nghĩa thống kê giữa doanh số hàng năm và quy mô cửa hàng.

Khi thảo luận về các suy luận về độ dốc dân số, khoảng tin cậy và tiêu chí để kiểm tra giả thuyết là những công cụ có thể thay thế cho nhau. Tuy nhiên, việc tính toán khoảng tin cậy có chứa hệ số tương quan hóa ra khó hơn, vì dạng phân phối lấy mẫu của thống kê r phụ thuộc vào hệ số tương quan thực.

Ước tính kỳ vọng toán học và dự đoán các giá trị riêng lẻ

Phần này thảo luận về các phương pháp ước tính phản hồi mong đợi Y và dự đoán các giá trị riêng lẻ Y cho các giá trị nhất định của biến X.

Xây dựng khoảng tin cậy. Trong ví dụ 2 (xem phần trên Phương pháp bình phương tối thiểu) phương trình hồi quy giúp nó có thể dự đoán giá trị của biến Y X. Trong bài toán chọn địa điểm cho cửa hàng bán lẻ, doanh thu trung bình hàng năm ở một cửa hàng có diện tích 4000 sq. feet tương đương với 7,644 triệu đô la. Tuy nhiên, ước tính này về kỳ vọng toán học của dân số chung là một điểm. để ước tính kỳ vọng toán học của dân số chung, khái niệm khoảng tin cậy đã được đề xuất. Tương tự, người ta có thể giới thiệu khái niệm khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị nhất định của một biến X:

ở đâu , = b 0 + b 1 X tôi- biến giá trị dự đoán Y tại X = X tôi, S YX là lỗi bình phương trung bình, N là kích thước mẫu, Xtôi- giá trị đã cho của biến X, µ Y|X = Xtôi- kỳ vọng toán học của một biến Y tại X = Tôi, SSX =

Phân tích công thức (13) cho thấy rằng độ rộng của khoảng tin cậy phụ thuộc vào một số yếu tố. Ở một mức ý nghĩa nhất định, sự gia tăng biên độ dao động xung quanh đường hồi quy, được đo bằng sai số bình phương trung bình, dẫn đến sự gia tăng độ rộng của khoảng. Mặt khác, như mong đợi, sự gia tăng kích thước mẫu đi kèm với việc thu hẹp khoảng thời gian. Ngoài ra, độ rộng của khoảng thay đổi tùy thuộc vào các giá trị Xtôi. Nếu giá trị của biến Y dự đoán cho số lượng X, gần với giá trị trung bình , khoảng tin cậy hóa ra hẹp hơn so với khi dự đoán phản hồi cho các giá trị xa giá trị trung bình.

Giả sử khi chọn vị trí cho một cửa hàng, chúng tôi muốn xây dựng khoảng tin cậy 95% cho doanh thu trung bình hàng năm ở tất cả các cửa hàng có diện tích 4000 mét vuông. đôi chân:

Do đó, doanh số bán hàng trung bình hàng năm tại tất cả các cửa hàng có diện tích 4.000 mét vuông. feet, với xác suất 95% nằm trong khoảng từ 6,971 đến 8,317 triệu đô la.

Tính khoảng tin cậy cho giá trị dự đoán. Ngoài khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị nhất định của biến X, thường cần biết khoảng tin cậy cho giá trị dự đoán. Mặc dù công thức tính khoảng tin cậy như vậy rất giống với công thức (13), nhưng khoảng này chứa một giá trị dự đoán chứ không phải ước tính của tham số. Khoảng thời gian cho phản hồi dự đoán YX = Xi cho một giá trị cụ thể của biến Xtôiđược xác định theo công thức:

Giả sử rằng khi chọn vị trí cho một cửa hàng bán lẻ, chúng tôi muốn xây dựng khoảng tin cậy 95% cho khối lượng bán hàng dự đoán hàng năm trong một cửa hàng có diện tích 4000 mét vuông. đôi chân:

Do đó, khối lượng bán hàng năm dự đoán cho một 4.000 mét vuông. feet, với xác suất 95% nằm trong khoảng từ 5,433 đến 9,854 triệu đô la. Như bạn có thể thấy, khoảng tin cậy cho giá trị phản hồi dự đoán rộng hơn nhiều so với khoảng tin cậy cho kỳ vọng toán học của nó. Điều này là do sự thay đổi trong dự đoán các giá trị riêng lẻ lớn hơn nhiều so với ước tính giá trị mong đợi.

Cạm bẫy và các vấn đề đạo đức liên quan đến việc sử dụng hồi quy

Những khó khăn liên quan đến phân tích hồi quy:

Bỏ qua các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
Một ước lượng sai về các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
Lựa chọn sai các phương pháp thay thế vi phạm các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
Ứng dụng phân tích hồi quy khi chưa có kiến thức chuyên sâu về đối tượng nghiên cứu.
Suy rộng hồi quy vượt ra ngoài phạm vi của biến giải thích.
Lẫn lộn giữa các mối quan hệ thống kê và nhân quả.

Việc sử dụng rộng rãi bảng tính và phần mềm thống kê đã loại bỏ các vấn đề tính toán ngăn cản việc sử dụng phân tích hồi quy. Tuy nhiên, điều này dẫn đến thực tế là phân tích hồi quy bắt đầu được sử dụng bởi những người dùng không có đủ trình độ và kiến thức. Làm sao người dùng biết về các phương pháp thay thế nếu nhiều người trong số họ không biết gì về điều kiện áp dụng của phương pháp bình phương nhỏ nhất và không biết cách kiểm tra việc thực hiện của chúng?

Nhà nghiên cứu không nên bị cuốn theo những con số mài giũa - tính toán sự dịch chuyển, độ dốc và hệ số tương quan hỗn hợp. Anh ấy cần kiến thức sâu hơn. Hãy minh họa điều này bằng một ví dụ cổ điển lấy từ sách giáo khoa. Anscombe đã chỉ ra rằng tất cả bốn tập dữ liệu được hiển thị trong Hình. 23 có các tham số hồi quy giống nhau (Hình 24).

Cơm. 23. Bốn tập dữ liệu nhân tạo

Cơm. 24. Phân tích hồi quy bốn tập dữ liệu nhân tạo; thực hiện với Gói phân tích(bấm vào ảnh để phóng to ảnh)

Vì vậy, theo quan điểm của phân tích hồi quy, tất cả các tập dữ liệu này hoàn toàn giống hệt nhau. Nếu quá trình phân tích kết thúc ở đó, chúng tôi sẽ mất rất nhiều thông tin hữu ích. Điều này được chứng minh bằng các đồ thị phân tán (Hình 25) và các đồ thị còn lại (Hình 26) được xây dựng cho các tập dữ liệu này.

Cơm. 25. Biểu đồ phân tán cho bốn tập dữ liệu

Đồ thị phân tán và đồ thị còn lại cho thấy rằng những dữ liệu này khác nhau. Tập hợp duy nhất được phân phối dọc theo một đường thẳng là tập A. Đồ thị của các phần dư được tính từ tập A không tuân theo bất kỳ sự đều đặn nào. Điều tương tự cũng không thể xảy ra đối với các tập hợp B, C và D. Biểu đồ phân tán được vẽ cho tập hợp B cho thấy một mẫu bậc hai rõ rệt. Kết luận này được khẳng định bằng biểu đồ phần dư, có dạng hình parabol. Biểu đồ phân tán và biểu đồ còn lại cho thấy rằng tập dữ liệu B chứa một ngoại lệ. Trong tình huống này, cần phải loại trừ giá trị ngoại lai khỏi tập dữ liệu và lặp lại phân tích. Kỹ thuật để phát hiện và loại bỏ các ngoại lệ khỏi các quan sát được gọi là phân tích ảnh hưởng. Sau khi loại bỏ yếu tố ngoại lệ, kết quả đánh giá lại mô hình có thể hoàn toàn khác. Biểu đồ phân tán được vẽ từ tập dữ liệu D minh họa một tình huống bất thường trong đó mô hình thực nghiệm phụ thuộc nhiều vào một phản hồi duy nhất ( X 8 = 19, Y 8 = 12,5). Các mô hình hồi quy như vậy cần phải được tính toán đặc biệt cẩn thận. Vì vậy, các đồ thị phân tán và phần dư là một công cụ cần thiết để phân tích hồi quy và phải là một phần không thể thiếu của nó. Nếu không có chúng, phân tích hồi quy không đáng tin cậy.

Cơm. 26. Lô số dư cho bốn tập dữ liệu

Cách tránh những cạm bẫy trong phân tích hồi quy:

Phân tích mối quan hệ có thể có giữa các biến X và Y luôn bắt đầu bằng biểu đồ phân tán.
Trước khi giải thích kết quả của một phân tích hồi quy, hãy kiểm tra các điều kiện về khả năng áp dụng của nó.
Vẽ đồ thị phần dư so với biến độc lập. Điều này sẽ cho phép xác định cách mô hình thực nghiệm tương ứng với kết quả quan sát và phát hiện sự vi phạm tính hằng số của phương sai.
Sử dụng biểu đồ, biểu đồ thân và lá, biểu đồ hộp và biểu đồ phân phối chuẩn để kiểm tra giả định về sai số có phân phối chuẩn.
Nếu các điều kiện áp dụng của phương pháp bình phương nhỏ nhất không được đáp ứng, hãy sử dụng các phương pháp thay thế (ví dụ: mô hình hồi quy bậc hai hoặc bội số).
Nếu các điều kiện áp dụng của phương pháp bình phương nhỏ nhất được đáp ứng, cần phải kiểm tra giả thuyết về ý nghĩa thống kê của các hệ số hồi quy và xây dựng khoảng tin cậy chứa kỳ vọng toán học và giá trị phản hồi dự đoán.
Tránh dự đoán các giá trị của biến phụ thuộc nằm ngoài phạm vi của biến độc lập.
Hãy nhớ rằng sự phụ thuộc thống kê không phải lúc nào cũng có quan hệ nhân quả. Hãy nhớ rằng mối tương quan giữa các biến không có nghĩa là có mối quan hệ nhân quả giữa chúng.

Tóm lược. Như được trình bày trong sơ đồ khối (Hình 27), ghi chú mô tả một mô hình hồi quy tuyến tính đơn giản, các điều kiện cho khả năng áp dụng của nó và các cách kiểm tra các điều kiện này. Được xem xét t- tiêu chuẩn để kiểm tra ý nghĩa thống kê của độ dốc của hồi quy. Một mô hình hồi quy đã được sử dụng để dự đoán các giá trị của biến phụ thuộc. Một ví dụ được xem xét liên quan đến việc lựa chọn địa điểm cho cửa hàng bán lẻ, trong đó nghiên cứu sự phụ thuộc của doanh số bán hàng năm vào diện tích cửa hàng. Thông tin thu được cho phép bạn chọn chính xác hơn vị trí cho cửa hàng và dự đoán doanh thu hàng năm của cửa hàng. Trong phần ghi chú sau đây, sẽ tiếp tục thảo luận về phân tích hồi quy, cũng như các mô hình hồi quy nhiều cấp.

Cơm. 27. Sơ đồ khối của một nốt nhạc

Tài liệu từ cuốn sách Levin và cộng sự. Thống kê cho các nhà quản lý được sử dụng. - M.: Williams, 2004. - tr. 792–872

Nếu biến phụ thuộc là phân loại, thì nên áp dụng hồi quy logistic.

Phân tích hồi quy là một trong những phương pháp nghiên cứu thống kê phổ biến nhất. Nó có thể được sử dụng để xác định mức độ ảnh hưởng của các biến độc lập đến biến phụ thuộc. Chức năng của Microsoft Excel có các công cụ được thiết kế để thực hiện loại phân tích này. Chúng ta hãy xem chúng là gì và làm thế nào để sử dụng chúng.

Tuy nhiên, để sử dụng chức năng cho phép bạn tiến hành phân tích hồi quy, trước hết, bạn cần kích hoạt Gói phân tích. Chỉ khi đó các công cụ cần thiết cho quy trình này mới xuất hiện trên dải băng Excel.

Bây giờ khi chúng ta chuyển đến tab "Dữ liệu", trên ruy-băng trong hộp công cụ "Phân tích" chúng ta sẽ thấy một nút mới - "Phân tích dữ liệu".

Các loại phân tích hồi quy

Có một số loại hồi quy:

đường parabol;
sức mạnh;
lôgarit;
số mũ;
cuộc biểu tình;
đường hypebol;
hồi quy tuyến tính.

Chúng ta sẽ nói chi tiết hơn về việc triển khai loại phân tích hồi quy cuối cùng trong Excel sau.

Hồi quy tuyến tính trong Excel

Ví dụ bên dưới là bảng thể hiện nhiệt độ không khí trung bình hàng ngày trên đường phố và số lượng khách hàng của cửa hàng trong ngày làm việc tương ứng. Hãy cùng tìm hiểu với sự trợ giúp của phân tích hồi quy chính xác điều kiện thời tiết dưới dạng nhiệt độ không khí có thể ảnh hưởng đến sự tham gia của một cơ sở bán lẻ như thế nào.

Phương trình hồi quy tuyến tính tổng quát có dạng như sau: Y = a0 + a1x1 + ... + axk. Trong công thức này Y nghĩa là biến có ảnh hưởng mà chúng tôi đang cố gắng nghiên cứu. Trong trường hợp của chúng tôi, đây là số lượng người mua. Nghĩa x là các yếu tố khác nhau ảnh hưởng đến biến số. Tùy chọn một là các hệ số hồi quy. Đó là, chúng xác định tầm quan trọng của một yếu tố cụ thể. Mục lục k biểu thị tổng số các yếu tố giống nhau.

Phân tích kết quả phân tích

Kết quả của phân tích hồi quy được hiển thị dưới dạng một bảng ở vị trí được chỉ định trong cài đặt.

Một trong những chỉ số chính là Quảng trường R. Nó chỉ ra chất lượng của mô hình. Trong trường hợp của chúng tôi, hệ số này là 0,705 hoặc khoảng 70,5%. Đây là mức chất lượng có thể chấp nhận được. Một mối quan hệ nhỏ hơn 0,5 là xấu.

Một chỉ báo quan trọng khác nằm trong ô ở giao điểm của đường "Giao lộ chữ Y" và cột "Hệ số". Ở đây nó được chỉ ra giá trị Y sẽ có và trong trường hợp của chúng tôi, đây là số lượng người mua, với tất cả các yếu tố khác bằng không. Trong bảng này, giá trị này là 58,04.

Giá trị tại giao điểm của biểu đồ "Biến X1" và "Hệ số" cho thấy mức độ phụ thuộc của Y vào X. Trong trường hợp của chúng ta, đây là mức độ phụ thuộc của số lượng khách hàng của cửa hàng vào nhiệt độ. Hệ số 1,31 được coi là một chỉ số ảnh hưởng khá cao.

Như bạn có thể thấy, khá dễ dàng để tạo một bảng phân tích hồi quy bằng Microsoft Excel. Tuy nhiên, chỉ một người được đào tạo mới có thể làm việc với dữ liệu thu được ở đầu ra và hiểu được bản chất của chúng.

Bài giảng 3

Phân tích hồi quy.

1) Đặc điểm số của hồi quy

2) Hồi quy tuyến tính

3) Hồi quy phi tuyến

4) Hồi quy nhiều lần

5) Sử dụng MS EXCEL để thực hiện phân tích hồi quy

Công cụ kiểm soát và đánh giá - nhiệm vụ kiểm tra

1. Đặc điểm số của hồi quy

Phân tích hồi quy là một phương pháp thống kê để nghiên cứu ảnh hưởng của một hoặc nhiều biến độc lập đến một biến phụ thuộc. Các biến độc lập được gọi là biến hồi quy hoặc dự báo, và các biến phụ thuộc được gọi là tiêu chí. Thuật ngữ của các biến phụ thuộc và độc lập chỉ phản ánh sự phụ thuộc toán học của các biến, chứ không phải mối quan hệ của nguyên nhân và kết quả.

Mục tiêu của phân tích hồi quy

Xác định mức độ xác định sự biến thiên của biến tiêu thức (phụ thuộc) bằng các yếu tố dự báo (biến độc lập).
Dự đoán giá trị của biến phụ thuộc bằng cách sử dụng (các) biến độc lập.
Xác định sự đóng góp của các biến độc lập riêng lẻ vào sự biến thiên của biến phụ thuộc.

Phân tích hồi quy không thể được sử dụng để xác định liệu có mối quan hệ giữa các biến hay không, vì sự tồn tại của mối quan hệ đó là điều kiện tiên quyết để áp dụng phân tích.

Để tiến hành phân tích hồi quy, trước tiên bạn cần làm quen với các khái niệm cơ bản về thống kê và lý thuyết xác suất.

Các đặc trưng số cơ bản của các biến ngẫu nhiên rời rạc và liên tục: kỳ vọng toán học, phương sai và độ lệch chuẩn.

Biến ngẫu nhiên được chia thành hai loại:

Rời rạc, có thể chỉ lấy các giá trị cụ thể, được xác định trước (ví dụ: giá trị của các số ở mặt trên của một con xúc xắc được ném ra hoặc các giá trị thứ tự của tháng hiện tại);
· Liên tục (thường xuyên nhất - các giá trị của một số đại lượng vật lý: trọng lượng, khoảng cách, nhiệt độ, v.v.), theo quy luật tự nhiên, có thể nhận bất kỳ giá trị nào, ít nhất là trong một khoảng thời gian nhất định.

Quy luật phân phối của một biến ngẫu nhiên là sự tương ứng giữa các giá trị có thể có của một biến ngẫu nhiên rời rạc và các xác suất của nó, thường được viết trong một bảng:

Định nghĩa thống kê của xác suất được thể hiện dưới dạng tần suất tương đối của một sự kiện ngẫu nhiên, tức là nó được tìm thấy dưới dạng tỷ số giữa số lượng các biến ngẫu nhiên trên tổng số các biến ngẫu nhiên.

Kỳ vọng toán học của một biến ngẫu nhiên rời rạcXđược gọi là tổng các tích của các giá trị của đại lượng X về xác suất của các giá trị này. Kỳ vọng toán học được biểu thị bằng hoặc M(X) .

= M(X) = x 1 P 1 + x 2 P 2 +… + x n p n = S x tôi số Pi

tôi=1

Độ phân tán của một biến ngẫu nhiên đối với kỳ vọng toán học của nó được xác định bằng cách sử dụng một đặc tính số gọi là độ phân tán. Nói một cách đơn giản, phương sai là sự lan truyền của một biến ngẫu nhiên xung quanh giá trị trung bình. Để hiểu bản chất của sự phân tán, hãy xem xét một ví dụ. Mức lương trung bình trong nước là khoảng 25 nghìn rúp. Con số này đến từ đâu? Rất có thể, tất cả các khoản lương đều được cộng lại và chia cho số lượng nhân viên. Trong trường hợp này, có sự phân tán rất lớn (mức lương tối thiểu là khoảng 4 nghìn rúp, và tối đa là khoảng 100 nghìn rúp). Nếu mọi người đều có mức lương như nhau, thì sự phân tán sẽ bằng không, và sẽ không có sự chênh lệch.

Sự phân tán của một biến ngẫu nhiên rời rạcXđược gọi là kỳ vọng toán học của bình phương chênh lệch của một biến ngẫu nhiên và kỳ vọng toán học của nó:

D = M [((X - M (X)) 2]

Sử dụng định nghĩa của kỳ vọng toán học để tính phương sai, chúng tôi thu được công thức:

D \ u003d S (x i - M (X)) 2 p i

Phương sai có thứ nguyên là bình phương của một biến ngẫu nhiên. Trong trường hợp cần đặc trưng số về sự phân tán của các giá trị có thể có cùng thứ nguyên với bản thân biến ngẫu nhiên, thì độ lệch chuẩn được sử dụng.

Độ lệch chuẩn biến ngẫu nhiên được gọi là căn bậc hai của phương sai của nó.

Độ lệch chuẩn là thước đo sự phân tán các giá trị của một biến ngẫu nhiên xung quanh kỳ vọng toán học của nó.

Ví dụ.

Quy luật phân phối của một biến ngẫu nhiên X được cho trong bảng sau:

Tìm kỳ vọng toán học, phương sai và độ lệch chuẩn của nó .

Chúng tôi sử dụng các công thức trên:

M (X) \ u003d 1 0,1 + 2 0,4 + 4 0,4 + 5 0,1 \ u003d 3

D \ u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \ u003d 1,6

Ví dụ.

Trong xổ số tiền tệ, người ta chơi 1 lần trúng 1000 rúp, 10 lần trúng 100 rúp và 100 lần thắng 1 rúp với tổng số vé là 10.000. Hãy lập luật phân phối cho người thắng ngẫu nhiên X cho chủ nhân của một tờ vé số và xác định kỳ vọng toán học, phương sai và độ lệch chuẩn của một biến ngẫu nhiên.

X 1 \ u003d 1000, X 2 \ u003d 100, X 3 \ u003d 1, X 4 \ u003d 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Chúng tôi đưa kết quả vào một bảng:

Kỳ vọng toán học - tổng các tích được ghép đôi có giá trị của một biến ngẫu nhiên theo xác suất của chúng. Đối với bài toán này, nên tính theo công thức

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rúp.

Chúng tôi đã nhận được một giá vé thực sự "công bằng".

D \ u003d S (x i - M (X)) 2 p i \ u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Hàm phân phối của biến ngẫu nhiên liên tục

Giá trị là kết quả của phép thử sẽ nhận một giá trị có thể có (không biết trước là giá trị nào), được gọi là biến ngẫu nhiên. Như đã nói ở trên, các biến ngẫu nhiên là rời rạc (không liên tục) và liên tục.

Biến rời rạc là một biến ngẫu nhiên nhận các giá trị có thể có riêng biệt với các xác suất nhất định có thể được đánh số.

Biến liên tục là một biến ngẫu nhiên có thể nhận tất cả các giá trị từ một khoảng hữu hạn hoặc vô hạn nào đó.

Cho đến thời điểm này, chúng tôi chỉ giới hạn ở một “nhiều loại” các biến ngẫu nhiên - rời rạc, tức là nhận giá trị hữu hạn.

Nhưng lý thuyết và thực hành thống kê yêu cầu sử dụng khái niệm biến ngẫu nhiên liên tục - cho phép bất kỳ giá trị số nào từ bất kỳ khoảng nào.

Luật phân phối của một biến ngẫu nhiên liên tục được xác định một cách thuận tiện bằng cách sử dụng cái gọi là hàm mật độ xác suất. f (x). Xác suất P (a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Đồ thị của hàm số f (x) được gọi là đường cong phân phối. Về mặt hình học, xác suất của một biến ngẫu nhiên rơi vào khoảng (a; b) bằng diện tích của hình thang cong tương ứng, giới hạn bởi đường cong phân phối, trục Ox và các đường thẳng x \ u003d a, x \ u003d b.

P (a £ X

Nếu một tập hợp hữu hạn hoặc tập đếm được bị trừ khỏi một sự kiện phức tạp, xác suất của một sự kiện mới sẽ không thay đổi.

Hàm f (x) - một hàm vô hướng số của đối số thực x được gọi là mật độ xác suất và tồn tại tại điểm x nếu có giới hạn tại điểm này:

Thuộc tính mật độ xác suất:

Mật độ xác suất là một hàm không âm, tức là f (x) ≥ 0

(nếu tất cả các giá trị của biến ngẫu nhiên X nằm trong khoảng (a; b) thì giá trị cuối cùng

đẳng thức có thể được viết dưới dạng ∫ f (x) dx = 1).

Bây giờ hãy xem xét hàm F (x) = P (X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

biến ngẫu nhiên liên tục X thì F (x) = ∫ f (x) dx = 1).

Nó tuân theo đẳng thức cuối cùng rằng f (x) = F "(x)

Đôi khi hàm f (x) được gọi là hàm phân phối xác suất vi phân, và hàm F (x) được gọi là hàm phân phối xác suất tích lũy.

Chúng tôi lưu ý các thuộc tính quan trọng nhất của hàm phân phối xác suất:

F (x) là hàm không giảm.
F (-∞) = 0.
F (+ ∞) = 1.

Khái niệm hàm phân phối là trọng tâm của lý thuyết xác suất. Sử dụng khái niệm này, người ta có thể đưa ra một định nghĩa khác về biến ngẫu nhiên liên tục. Một biến ngẫu nhiên được gọi là liên tục nếu hàm phân phối tích phân F (x) của nó là liên tục.

Đặc tính số của biến ngẫu nhiên liên tục

Kỳ vọng toán học, phương sai và các tham số khác của bất kỳ biến ngẫu nhiên nào hầu như luôn được tính toán bằng cách sử dụng các công thức tuân theo luật phân phối.

Đối với một biến ngẫu nhiên liên tục, kỳ vọng toán học được tính theo công thức:

M (X) = ∫ x f (x) dx

Sự phân tán:

D (X) = ∫ ( x- M (X)) 2 f(x) dx hoặc D (X) = ∫ x 2 f (x) dx - (M (X)) 2

2. Hồi quy tuyến tính

Cho các thành phần X và Y của biến ngẫu nhiên hai chiều (X, Y) là phụ thuộc. Chúng tôi sẽ giả định rằng một trong số chúng có thể được biểu diễn gần đúng như một hàm tuyến tính của hàm kia, ví dụ

Y ≈ g (X) = α + βX, và xác định các tham số α và β bằng phương pháp bình phương nhỏ nhất.

Sự định nghĩa. Hàm g (X) = α + βX được gọi là xấp xỉ tốt nhất Y theo nghĩa của phương pháp bình phương nhỏ nhất, nếu kỳ vọng toán học M (Y - g (X)) 2 nhận giá trị nhỏ nhất có thể; hàm g (X) được gọi là hồi quy bình phương có nghĩa là Y thành X.

Định lý Hồi quy bình phương tuyến tính trung bình của Y trên X là:

hệ số tương quan X và Y ở đâu.

Hệ số của phương trình.

Người ta có thể kiểm tra rằng đối với các giá trị này, hàm chức năng F (α, β)

F(α, β ) = M(Y - α - βX) ² có cực tiểu, điều này chứng tỏ khẳng định của định lý.

Sự định nghĩa. Hệ số được gọi là hệ số hồi quy Y trên X, và đường thẳng - - hồi quy bình phương trung bình trực tiếp của Y trên X.

Thay tọa độ của điểm đứng yên vào đẳng thức, ta có thể tìm được giá trị nhỏ nhất của hàm F (α, β) bằng Giá trị này được gọi là sự phân tán còn lại Y so với X và đặc trưng cho lượng lỗi cho phép khi thay thế Y bằng

g (X) = α + βX. Tại, phương sai còn lại là 0, nghĩa là, đẳng thức không gần đúng, nhưng chính xác. Do đó, khi Y và X được kết nối với nhau bằng một phụ thuộc hàm tuyến tính. Tương tự, bạn có thể nhận được một đường thẳng của hồi quy căn bậc hai của X trên Y:

và phương sai còn lại của X đối với Y. Đối với cả hai phép hồi quy trực tiếp đều trùng nhau. So sánh các phương trình hồi quy Y trên X và X trên Y và giải hệ phương trình, bạn có thể tìm thấy giao điểm của các đường hồi quy - một điểm có tọa độ (t x, t y), được gọi là trung tâm của phân phối chung của các giá trị X và Y.

Chúng ta sẽ xem xét thuật toán để biên soạn các phương trình hồi quy từ sách giáo khoa của V. E. Gmurman “Lý thuyết xác suất và thống kê toán học” trang 256.

1) Lập bảng tính toán trong đó số lượng phần tử mẫu, các tùy chọn mẫu, bình phương và tích của chúng sẽ được ghi lại.

2) Tính tổng trên tất cả các cột trừ số.

3) Tính các giá trị trung bình cho từng đại lượng, độ phân tán và độ lệch chuẩn.

5) Kiểm định giả thuyết về sự tồn tại của mối quan hệ giữa X và Y.

6) Lập phương trình của cả hai đường hồi quy và vẽ đồ thị của các phương trình này.

Hệ số góc của hồi quy đường thẳng Y trên X là hệ số hồi quy mẫu

Hệ số b =

Chúng ta thu được phương trình mong muốn của đường hồi quy Y trên X:

Y \ u003d 0,202 X + 1,024

Tương tự, phương trình hồi quy X trên Y:

Hệ số góc của hồi quy đường thẳng Y trên X là hệ số hồi quy mẫu pxy:

Hệ số b =

X \ u003d 4,119 Y - 3,714

3. Hồi quy phi tuyến

Nếu có các mối quan hệ phi tuyến tính giữa các hiện tượng kinh tế, thì chúng được thể hiện bằng cách sử dụng các hàm phi tuyến tính tương ứng.

Có hai loại hồi quy phi tuyến tính:

1. Hồi quy không tuyến tính đối với các biến giải thích được đưa vào phân tích, nhưng tuyến tính đối với các tham số ước tính, ví dụ:

Đa thức các mức độ khác nhau

Cường điệu bằng nhau -;

Hàm số bán nguyệt -.

2. Hồi quy phi tuyến tính về các tham số ước tính, ví dụ:

Quyền lực - ;

Biểu tình -;

Số mũ - .

Hồi quy phi tuyến tính trên các biến được bao gồm được giảm xuống dạng tuyến tính bằng một sự thay đổi đơn giản của các biến và việc ước lượng thêm các tham số được thực hiện bằng cách sử dụng phương pháp bình phương nhỏ nhất. Hãy xem xét một số chức năng.

Parabol bậc hai được giảm thành dạng tuyến tính bằng cách sử dụng thay thế:. Kết quả là, chúng ta đi đến một phương trình hai nhân tố, ước lượng tham số của nó bằng phương pháp bình phương nhỏ nhất dẫn đến hệ phương trình:

Parabol bậc hai thường được sử dụng trong trường hợp trong một khoảng giá trị nhân tố nhất định, bản chất của mối quan hệ của các đặc tính đang được xem xét thay đổi: mối quan hệ trực tiếp thay đổi thành mối liên hệ nghịch đảo hoặc mối quan hệ nghịch đảo thành mối quan hệ trực tiếp.

Hình hyperbol đều có thể dùng để mô tả mối quan hệ giữa chi phí nguyên liệu, vật liệu, nhiên liệu cụ thể với khối lượng sản phẩm đầu ra, thời gian lưu thông hàng hóa và giá trị doanh thu. Ví dụ cổ điển của nó là đường cong Phillips, đặc trưng cho mối quan hệ phi tuyến tính giữa tỷ lệ thất nghiệp x và phần trăm tăng lương y.

Hyperbol được rút gọn thành một phương trình tuyến tính bằng một phép thay thế đơn giản:. Bạn cũng có thể sử dụng phương pháp Bình phương nhỏ nhất để xây dựng một hệ phương trình tuyến tính.

Theo cách tương tự, các phụ thuộc được rút gọn thành dạng tuyến tính:, và các dạng khác.

Một hyperbol cạnh bằng và một đường cong bán logarit được sử dụng để mô tả đường cong Engel (một mô tả toán học về mối quan hệ giữa tỷ trọng chi tiêu cho hàng hóa lâu bền và tổng chi tiêu (hoặc thu nhập)). Các phương trình trong đó chúng được đưa vào được sử dụng trong các nghiên cứu về năng suất, cường độ lao động của sản xuất nông nghiệp.

4. Hồi quy nhiều lần

Hồi quy bội - một phương trình liên kết với nhiều biến độc lập:

biến phụ thuộc ở đâu (dấu kết quả);

Các biến (nhân tố) độc lập.

Để xây dựng một phương trình hồi quy bội, các hàm sau đây thường được sử dụng nhất:

tuyến tính -

sức mạnh -

nhà triển lãm -

cường điệu -.

Bạn có thể sử dụng các hàm khác có thể được rút gọn thành dạng tuyến tính.

Để ước tính các tham số của phương trình hồi quy bội, phương pháp bình phương nhỏ nhất (LSM) được sử dụng. Đối với phương trình tuyến tính và phương trình phi tuyến tính có thể rút gọn thành tuyến tính, hệ phương trình bình thường sau đây được xây dựng, nghiệm của hệ phương trình này giúp có thể thu được các ước lượng của các tham số hồi quy:

Để giải quyết, có thể áp dụng phương pháp xác định:

đâu là yếu tố quyết định hệ thống;

Các yếu tố quyết định riêng; thu được bằng cách thay thế cột tương ứng của ma trận của yếu tố xác định của hệ thống bằng dữ liệu ở phía bên trái của hệ thống.

Một loại phương trình hồi quy bội khác là phương trình hồi quy theo thang chuẩn, LSM có thể áp dụng cho phương trình hồi quy bội trên thang chuẩn.

5. Cách sử dụngCÔEXCELđể thực hiện phân tích hồi quy

Phân tích hồi quy thiết lập dạng mối quan hệ giữa biến ngẫu nhiên Y (phụ thuộc) và các giá trị của một hoặc nhiều biến (độc lập), và các giá trị của biến sau được coi là đã cho chính xác. Sự phụ thuộc như vậy thường được xác định bởi một số mô hình toán học (phương trình hồi quy) có chứa một số tham số chưa biết. Trong quá trình phân tích hồi quy, trên cơ sở dữ liệu mẫu, ước tính của các tham số này được tìm thấy, xác định sai số thống kê của ước lượng hoặc ranh giới của khoảng tin cậy và kiểm tra sự tuân thủ (đầy đủ) của mô hình toán học được chấp nhận với dữ liệu thực nghiệm.

Trong phân tích hồi quy tuyến tính, mối quan hệ giữa các biến ngẫu nhiên được giả định là tuyến tính. Trong trường hợp đơn giản nhất, trong một mô hình hồi quy tuyến tính theo cặp, có hai biến X và Y. Và nó được yêu cầu cho n cặp quan sát (X1, Y1), (X2, Y2), ..., (Xn, Yn) để xây dựng (chọn) một đường thẳng, được gọi là đường hồi quy, đường này "tốt nhất" gần đúng với các giá trị quan sát được. Phương trình của đường thẳng này y = ax + b là một phương trình hồi quy. Sử dụng phương trình hồi quy, bạn có thể dự đoán giá trị kỳ vọng của biến phụ thuộc y tương ứng với một giá trị nhất định của biến độc lập x. Trong trường hợp khi xét sự phụ thuộc giữa một biến phụ thuộc Y và một số biến độc lập X1, X2, ..., Xm thì người ta nói đến hồi quy tuyến tính bội.

Trong trường hợp này, phương trình hồi quy có dạng

y = a 0 + a 1 x 1 + a 2 x 2 +… + a m x m,

trong đó a0, a1, a2,…, am là các hệ số hồi quy được xác định.

Các hệ số của phương trình hồi quy được xác định bằng phương pháp bình phương nhỏ nhất, đạt được tổng bình phương tối thiểu có thể có giữa các giá trị thực của biến Y và các giá trị được tính bằng phương trình hồi quy. Vì vậy, ví dụ, một phương trình hồi quy tuyến tính có thể được xây dựng ngay cả khi không có tương quan tuyến tính.

Một thước đo hiệu quả của mô hình hồi quy là hệ số xác định R2 (R-square). Hệ số xác định có thể nhận các giá trị từ 0 đến 1 xác định mức độ chính xác mà phương trình hồi quy kết quả mô tả (gần đúng) dữ liệu ban đầu. Ý nghĩa của mô hình hồi quy cũng được khảo sát bằng cách sử dụng tiêu chí F (Fisher) và độ tin cậy của sự khác biệt giữa các hệ số a0, a1, a2, ..., am từ 0 được kiểm tra bằng phép thử t của Student.

Trong Excel, dữ liệu thử nghiệm được ước lượng gần đúng bằng một phương trình tuyến tính lên đến bậc 16:

y = a0 + a1x1 + a2x2 +… + a16x16

Để có được hệ số hồi quy tuyến tính, có thể sử dụng quy trình "Hồi quy" từ gói phân tích. Ngoài ra, hàm LINEST cung cấp thông tin đầy đủ về phương trình hồi quy tuyến tính. Ngoài ra, các hàm SLOPE và INTERCEPT có thể được sử dụng để lấy các tham số của phương trình hồi quy, và các hàm TREND và FORECAST có thể được sử dụng để thu được các giá trị Y được dự đoán tại các điểm cần thiết (đối với hồi quy theo cặp).

Chúng ta hãy xem xét chi tiết ứng dụng của hàm LINEST (known_y, [known_x], [hằng], [thống kê]): known_y - phạm vi các giá trị đã biết của tham số phụ thuộc Y. Trong phân tích hồi quy theo cặp, nó có thể có bất kỳ hình thức nào; ở số nhiều, nó phải là một hàng hoặc một cột; known_x là phạm vi các giá trị đã biết của một hoặc nhiều tham số độc lập. Phải có cùng hình dạng với phạm vi Y (đối với nhiều tham số, nhiều cột hoặc hàng, tương ứng); hằng số - đối số boolean. Nếu căn cứ vào ý nghĩa thực tiễn của nhiệm vụ phân tích hồi quy mà đường hồi quy phải đi qua gốc tọa độ, tức là hệ số tự do bằng 0 thì giá trị của đối số này nên được đặt thành 0 (hoặc "false "). Nếu giá trị được đặt thành 1 (hoặc "true") hoặc bị bỏ qua, thì hệ số tự do được tính theo cách thông thường; thống kê là một đối số boolean. Nếu giá trị được đặt thành 1 (hoặc "true"), thì một thống kê hồi quy bổ sung (xem bảng) sẽ được trả về, được sử dụng để đánh giá hiệu quả và ý nghĩa của mô hình. Trong trường hợp tổng quát, đối với hồi quy theo cặp y = ax + b, kết quả của việc áp dụng hàm LINEST trông giống như sau:

Bàn. Phạm vi đầu ra của LINEST để phân tích hồi quy theo cặp

Trong trường hợp phân tích hồi quy bội cho phương trình y = a0 + a1x1 + a2x2 +… + amxm, các hệ số am,…, a1, a0 được hiển thị ở dòng đầu tiên và các lỗi tiêu chuẩn cho các hệ số này được hiển thị ở dòng thứ hai . Các hàng 3-5, ngoại trừ hai cột đầu tiên chứa đầy thống kê hồi quy, sẽ mang lại giá trị # N / A.

Hàm LINEST phải được nhập dưới dạng công thức mảng, trước tiên hãy chọn một mảng có kích thước mong muốn cho kết quả (m + 1 cột và 5 hàng nếu yêu cầu thống kê hồi quy) và hoàn tất việc nhập công thức bằng cách nhấn CTRL + SHIFT + ENTER.

Kết quả cho ví dụ của chúng tôi:

Ngoài ra, chương trình còn được tích hợp chức năng - Phân tích dữ liệu trên tab Dữ liệu.

Nó cũng có thể được sử dụng để thực hiện phân tích hồi quy:

Trên trang trình bày - kết quả của phân tích hồi quy được thực hiện bằng Phân tích dữ liệu.

CÁC KẾT QUẢ

Thống kê hồi quy
Nhiều R
Quảng trường R
Hình vuông R chuẩn hóa
lỗi tiêu chuẩn
Quan sát

Phân tích phương sai
					Ý nghĩa F
hồi quy



	Tỷ lệ cược	lỗi tiêu chuẩn	thống kê t	Giá trị P	95% dưới cùng	95% hàng đầu	Thấp hơn 95,0%	95,0% hàng đầu
Ngã tư chữ Y
Biến X 1

Các phương trình hồi quy mà chúng ta đã xem xét trước đó cũng được xây dựng trong MS Excel. Để thực hiện chúng, đầu tiên một biểu đồ phân tán được xây dựng, sau đó thông qua menu ngữ cảnh, chọn - Thêm đường xu hướng. Trong cửa sổ mới, chọn các hộp - Hiển thị phương trình trên biểu đồ và đặt giá trị của độ tin cậy gần đúng (R ^ 2) trên biểu đồ.

Văn chương:

Lý thuyết Xác suất và Thống kê Toán học. Gmurman V. E. Giáo trình cho các trường đại học. - Ed. Ngày 10, sr. - M.: Cao hơn. trường học, 2010. - 479s.
Toán học cao hơn trong các bài tập và nhiệm vụ. Sách giáo khoa cho các trường đại học / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Trong 2 giờ - Ed. Thứ 6, sr. - M .: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 tr.
1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 % D1% 8F - một số thông tin về phân tích hồi quy