Tiểu sử Đặc trưng Phân tích

Ví dụ hồi quy bội. Giới thiệu về nhiều hồi quy

Tài liệu sẽ được minh họa bằng một ví dụ thông qua: dự báo bán hàng cho OmniPower. Hãy tưởng tượng rằng bạn là giám đốc tiếp thị của một chuỗi cửa hàng tạp hóa lớn trên toàn quốc. TẠI những năm trước Thanh dinh dưỡng chứa một số lượng lớn chất béo, carbohydrate và calo. Chúng cho phép bạn nhanh chóng khôi phục năng lượng dự trữ của người chạy bộ, người leo núi và các vận động viên khác trong các cuộc tập luyện và thi đấu mệt mỏi. Trong những năm gần đây, doanh số bán đồ ăn ở quán bar đã bùng nổ và ban lãnh đạo của OmniPower đã đưa ra kết luận rằng phân khúc thị trường này rất hứa hẹn. Trước khi giới thiệu một loại thanh mới ra thị trường toàn quốc, công ty muốn đánh giá tác động của chi phí và chi phí quảng cáo đến doanh số bán hàng. 34 cửa hàng đã được chọn để nghiên cứu tiếp thị. Bạn cần tạo một mô hình hồi quy cho phép bạn phân tích dữ liệu thu được trong quá trình nghiên cứu. Có thể sử dụng mô hình hồi quy tuyến tính đơn giản đã thảo luận trong ghi chú trước cho việc này không? Nó nên được thay đổi như thế nào?

Mô hình hồi quy nhiều lần

Để nghiên cứu thị trường, OmniPower đã tạo ra một mẫu gồm 34 cửa hàng với số lượng bán ra xấp xỉ nhau. Hãy xem xét hai biến số độc lập - giá của thanh OmniPower tính bằng xu ( X 1) và ngân sách hàng tháng chiến dịch quảng cáođược giữ trong cửa hàng, được biểu thị bằng đô la ( X 2). Ngân sách này bao gồm chi phí biển hiệu và cửa sổ cửa hàng, cũng như việc phân phát các phiếu giảm giá và hàng mẫu miễn phí. Biến phụ thuộc Yđại diện cho số lượng thanh OmniPower được bán mỗi tháng (Hình 1).

Cơm. 1. Doanh số hàng tháng của thanh OmniPower, giá cả và chi phí quảng cáo của chúng

Tải xuống ghi chú ở định dạng hoặc, ví dụ ở định dạng

Giải thích các hệ số hồi quy. Nếu nhiều biến giải thích đang được kiểm tra trong một vấn đề, mô hình hồi quy tuyến tính đơn giản có thể được mở rộng bằng cách giả định rằng có một khoảng cách giữa phản hồi và mỗi biến độc lập. phụ thuộc tuyến tính. Ví dụ, nếu có k các biến giải thích, mô hình hồi quy tuyến tính bội số có dạng:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i +… + β k X ki + ε i

ở đâu β 0 - sự thay đổi, β 1 - độ dốc đường thẳng Y, tùy thuộc vào biến X 1 nếu các biến X 2, X 3,…, X k là hằng số β 2 - độ dốc đường thẳng Y, tùy thuộc vào biến X 2 nếu các biến X 1, X 3,…, X k là hằng số β k- độ dốc đường thẳng Y, tùy thuộc vào biến X k nếu các biến X 1, X 2,…, X k-1 là hằng số ε tôi Y trong tôi m quan sát.

Cụ thể, một mô hình hồi quy bội với hai biến giải thích:

(2) Y tôi = β 0 + β 1 X 1 tôi + β 2 X 2 tôi + tôi

ở đâu β 0 - sự thay đổi, β 1 - độ dốc đường thẳng Y, tùy thuộc vào biến X 1 nếu biến X 2 là một hằng số, β 2 - độ dốc đường thẳng Y, tùy thuộc vào biến X 2 nếu biến X 1 là một hằng số, ε tôi- lỗi biến ngẫu nhiên Y trong tôi m quan sát.

Hãy so sánh mô hình hồi quy nhiều tuyến tính này và mô hình hồi quy tuyến tính đơn giản: Y tôi = β 0 + β 1 X tôi + tôi. Trong một mô hình hồi quy tuyến tính đơn giản, hệ số góc β 1 Y khi giá trị của biến X thay đổi một và không tính đến ảnh hưởng của các yếu tố khác. Trong mô hình hồi quy bội với hai biến độc lập (2), hệ số góc β 1 đại diện cho sự thay đổi giá trị trung bình của biến Y khi thay đổi giá trị của một biến x1 trên mỗi đơn vị, có tính đến ảnh hưởng của biến X 2. Giá trị này được gọi là hệ số của hồi quy thuần túy (hay hồi quy từng phần).

Như trong mô hình hồi quy tuyến tính đơn giản, các hệ số hồi quy mẫu b 0 , b 1 , và b 2 là ước tính của các tham số của dân số chung tương ứng β 0 , β 1 β 2 .

Phương trình hồi quy bội với hai biến độc lập:

(3) = b 0 + b 1 X 1 tôi + b 2 X 2 tôi

Để tính toán các hệ số hồi quy, phương pháp được sử dụng bình phương nhỏ nhất. Trong Excel, bạn có thể sử dụng Gói phân tích, lựa chọn hồi quy. Không giống như xây dựng một hồi quy tuyến tính, chỉ cần đặt là Khoảng đầu vào X khu vực bao gồm tất cả các biến độc lập (Hình 2). Trong ví dụ của chúng tôi, đây là $ C $ 1: $ D $ 35.

Cơm. 2. Cửa sổ hồi quy hàng loạt Phân tích Excel

Kết quả của Gói phân tích được trình bày trong hình. 3. Như chúng ta thấy, b 0 = 5 837,52, b 1 = -53.217 và b 2 = 3,163. Vì thế, = 5 837,52 –53,217 X 1 tôi + 3,163 X 2 tôi, ở đâu Ŷ tôi- doanh số dự đoán của thanh dinh dưỡng OmniPower trong tôi-m cửa hàng (miếng), X 1tôi- giá thanh (tính bằng xu) ở tôi-m cửa hàng, X 2i- chi tiêu quảng cáo hàng tháng tôi cửa hàng (bằng đô la).

Cơm. 3. Nghiên cứu hồi quy nhiều lần về khối lượng bán thanh OmniPower

Độ dốc có chọn lọc b 0 là 5.837,52 và là ước tính về số lượng OmniPower Bars trung bình được bán mỗi tháng với giá bằng 0 và không có chi phí quảng cáo. Vì những điều kiện này là vô nghĩa, trong tình huống này, giá trị của hệ số góc b 0 không có cách giải thích hợp lý.

Độ dốc có chọn lọc b 1 là -53.217. Điều này có nghĩa là đối với số tiền chi tiêu quảng cáo hàng tháng nhất định, giá thanh kẹo tăng một xu sẽ dẫn đến doanh số bán hàng dự kiến ​​giảm 53.217 đơn vị. Tương tự, độ dốc lấy mẫu b 2 , bằng 3,613, có nghĩa là khi giá cố định chi tiêu quảng cáo hàng tháng tăng 1 đô la đi kèm với sự gia tăng doanh số bán thanh dự kiến ​​là 3.613. Những ước tính này giúp bạn hiểu rõ hơn về tác động của giá cả và quảng cáo đối với doanh số bán hàng. Ví dụ: với số tiền chi tiêu quảng cáo cố định, giá một quán bar giảm 10 xu sẽ làm tăng doanh số bán hàng thêm 532.173 đơn vị và với giá cố định của một quán bar, chi phí quảng cáo tăng 100 đô la sẽ làm tăng doanh số bán hàng thêm 361,31 đơn vị. .

Giải thích độ dốc trong mô hình hồi quy bội. Các hệ số trong mô hình hồi quy bội được gọi là hệ số hồi quy thuần túy. Họ ước tính sự thay đổi trung bình trong phản ứng Y khi thay đổi giá trị X mỗi đơn vị nếu tất cả các biến giải thích khác bị "đóng băng". Ví dụ, trong bài toán thanh OmniPower, một cửa hàng có số tiền chi tiêu quảng cáo cố định mỗi tháng sẽ bán được ít hơn 53.217 thanh nếu họ tăng giá lên một xu. Có thể giải thích một cách khác về các hệ số này. Hãy tưởng tượng các cửa hàng giống nhau với cùng một số tiền chi tiêu cho quảng cáo. Nếu giá của một thanh giảm một xu, doanh số bán hàng tại các cửa hàng này sẽ tăng 53.217 thanh. Bây giờ hãy xem xét hai cửa hàng nơi các quầy bar có giá như nhau, nhưng chi phí quảng cáo khác nhau. Nếu các chi phí này tăng thêm một đô la, doanh số bán hàng tại các cửa hàng này sẽ tăng thêm 3.613 chiếc. Như chúng ta có thể thấy, việc giải thích độ dốc một cách hợp lý chỉ có thể thực hiện được dưới một số hạn chế nhất định đối với các biến giải thích.

Dự đoán các giá trị của biến phụ thuộc Y. Khi chúng tôi nhận thấy rằng dữ liệu tích lũy cho phép chúng tôi sử dụng mô hình hồi quy bội số, chúng tôi có thể dự đoán doanh số hàng tháng của OmniPower Bars và xây dựng khoảng tin cậy cho doanh số bán hàng trung bình và dự đoán. Để dự đoán doanh thu trung bình hàng tháng là 79 xu OmniPower Bars trong một cửa hàng chi 400 đô la mỗi tháng cho quảng cáo, hãy sử dụng phương trình hồi quy bội: Y = 5.837,53 - 53.2173 * 79 + 3.6131 * 400 = 3.079. Do đó, doanh số bán hàng dự kiến ​​cho các cửa hàng bán thanh OmniPower giá 79 xu và chi 400 đô la mỗi tháng cho quảng cáo là 3.079.

Tính toán giá trị Y và bằng cách đánh giá các phần dư, người ta có thể xây dựng các khoảng tin cậy chứa gia trị được ki vọng và giá trị phản hồi dự đoán. chúng tôi đã xem xét quy trình này trong khuôn khổ của một mô hình hồi quy tuyến tính đơn giản. Tuy nhiên, việc xây dựng các ước lượng tương tự cho mô hình hồi quy bội số đi kèm với những khó khăn lớn về tính toán và không được trình bày ở đây.

Hệ số tương quan nhiều hỗn hợp. Nhớ lại rằng mô hình hồi quy cho phép bạn tính toán hệ số tương quan hỗn hợp r2. Bởi vì có ít nhất hai biến giải thích trong mô hình hồi quy bội, hệ số tương quan hỗn hợp nhiều là phần phương sai của biến Y, được giải thích bởi một tập hợp các biến giải thích nhất định:

ở đâu SSR là tổng bình phương của hồi quy, SSTtổng cộng hình vuông.

Ví dụ, trong bài toán bán thanh OmniPower SSR = 39 472 731, SST= 52 093 677 và k = 2. Như vậy,

Điều này có nghĩa là 75,8% sự thay đổi của khối lượng bán hàng là do sự thay đổi giá và biến động trong chi tiêu quảng cáo.

Phân tích phần dư cho mô hình hồi quy bội số

Phân tích phần dư cho phép bạn xác định xem có thể áp dụng mô hình hồi quy bội số với hai (hoặc nhiều) biến giải thích hay không. Thường được tiến hành các loại sau phân tích dư lượng:

Biểu đồ đầu tiên (Hình 4a) cho phép chúng ta phân tích sự phân bố của phần dư phụ thuộc vào các giá trị dự đoán của. Nếu giá trị của các phần dư không phụ thuộc vào các giá trị dự đoán và nhận cả dương và giá trị âm(như trong ví dụ của chúng tôi), điều kiện cho sự phụ thuộc tuyến tính của biến Y trên cả hai biến giải thích đều được thỏa mãn. Thật không may, trong Gói phân tích Vì lý do nào đó, biểu đồ này không được tạo. Có thể ở trong cửa sổ hồi quy(xem hình 2) bật Còn lại. Điều này sẽ cho phép bạn hiển thị một bảng với các phần còn lại và đã xây dựng trên đó âm mưu phân tán(Hình 4).

Cơm. 4. Sự phụ thuộc của phần dư vào giá trị dự đoán

Đồ thị thứ hai và thứ ba cho thấy sự phụ thuộc của phần dư vào các biến giải thích. Những âm mưu này có thể tiết lộ hiệu ứng bậc hai. Trong tình huống này, cần phải thêm một biến giải thích bình phương vào mô hình hồi quy bội số. Các biểu đồ này được hiển thị bởi Gói phân tích (xem Hình 2) nếu bạn bật tùy chọn Đồ thị Thặng dư (Hình 5).

Cơm. 5. Sự phụ thuộc của phần còn lại vào giá cả và chi phí quảng cáo

Kiểm định ý nghĩa của mô hình hồi quy bội số.

Sau khi xác nhận, sử dụng phân tích phần dư, mô hình hồi quy bội tuyến tính là phù hợp, có thể xác định được liệu có mối quan hệ có ý nghĩa thống kê giữa biến phụ thuộc và tập hợp các biến giải thích hay không. Vì mô hình bao gồm một số biến giải thích nên giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: β 1 = β 2 = ... = β k = 0 (không có mối quan hệ tuyến tính giữa phản hồi và các biến giải thích), H 1: có ít nhất một giá trị β j ≠ 0 (có sự phụ thuộc tuyến tính giữa phản ứng và ít nhất một biến giải thích).

Để kiểm tra giả thuyết rỗng, chúng tôi sử dụng F-tiêu chuẩn - kiểm tra F- thống kê bằng bình phương trung bình hồi quy (MSR) chia cho phương sai lỗi (MSE):

ở đâu F F- phân phối với kn – k – 1 bậc tự do k- số lượng các biến độc lập trong mô hình hồi quy.

Quy tắc quyết định có dạng như sau: ở mức ý nghĩa α, giả thuyết không H 0 từ chối nếu F> F U (k, n - k - 1), nếu không thì giả thuyết H 0 không bị bác bỏ (Hình 6).

Cơm. 6. Bảng tổng hợp phân tích phương sai để kiểm định giả thuyết về ý nghĩa thống kê nhiều hệ số hồi quy

Bảng tóm tắt ANOVA đã hoàn thành bằng cách sử dụng Gói phân tích Excel khi giải quyết vấn đề bán thanh OmniPower được hiển thị trong hình. 3 (xem khu vực A10: F14). Nếu mức ý nghĩa là 0,05, giá trị tới hạn F-phân phối với hai và 31 bậc tự do FU (2,31)\ u003d F. OBR (1-0,05; 2; 31) \ u003d bằng 3,305 (Hình 7).

Cơm. 7. Kiểm định giả thuyết về mức ý nghĩa của các hệ số hồi quy ở mức ý nghĩa α = 0,05, với 2 và 31 bậc tự do

Như được hiển thị trong hình. 3, thống kê F là 48,477> FU (2,31)= 3,305 và P-giá trị gần 0,000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Suy luận thống kê về tập hợp các hệ số hồi quy

Để xác định mối quan hệ có ý nghĩa thống kê giữa các biến XY trong một mô hình hồi quy tuyến tính đơn giản, một kiểm định giả thuyết độ dốc đã được thực hiện. Ngoài ra, để ước tính độ dốc của dân số chung, chúng tôi đã xây dựng mức độ tin cậy(cm.).

Kiểm định giả thuyết.Để kiểm tra giả thuyết rằng độ dốc tổng thể β 1 bằng 0 trong mô hình hồi quy tuyến tính đơn giản, công thức t = (b 1 - β 1) / S b 1 được sử dụng. Nó có thể được mở rộng sang mô hình hồi quy bội:

ở đâu t là một thống kê thử nghiệm có t- phân phối với n – k – 1 bậc tự do bj- độ dốc của biến Xjđối với biến Y nếu tất cả các biến giải thích khác là hằng số, Sbj là sai số trung bình căn bậc hai của hệ số hồi quy bj, k- số lượng các biến giải thích trong phương trình hồi quy, β j - hệ số góc giả định của tập hợp các câu trả lời j-th đối với một biến khi tất cả các biến khác là cố định.

Trên hình. 3 (bảng dưới cùng) hiển thị kết quả của việc áp dụng t-criteria (thu được bằng cách sử dụng Gói phân tích) cho mỗi biến độc lập có trong mô hình hồi quy. Do đó, nếu cần xác định xem một biến có X 2(chi phí quảng cáo) tác động đáng kể đến việc bán hàng ở mức giá cố định của thanh OmniPower, giả thuyết rỗng và giả thuyết thay thế được xây dựng: H 0: β2 = 0, H 1: β2 ≠ 0. Theo công thức (6), chúng ta thu được :

Nếu mức ý nghĩa là 0,05, các giá trị tới hạn t-phân phối với 31 bậc tự do là t L = STUDENT.OBR (0,025; 31) = –2,0395 và t U = STUDENT.OBR (0,975; 31) = 2,0395 (Hình 8). R-value = 1-STUDENT.DIST (5,27; 31; TRUE) và gần bằng 0,0000. Dựa trên một trong những bất đẳng thức t= 5,27> 2,0395 hoặc R = 0,0000 < 0,05 нулевая гипотеза H 0 bị từ chối. Do đó, tại một mức giá cố định của một thanh giữa biến X 2(chi phí quảng cáo) và doanh số bán hàng, có mối quan hệ có ý nghĩa thống kê. Do đó, có rất ít khả năng bị từ chối giả thuyết vô hiệu nếu không có mối quan hệ tuyến tính giữa chi phí quảng cáo và khối lượng bán hàng.

Cơm. 8. Kiểm định giả thuyết về mức ý nghĩa của các hệ số hồi quy với mức ý nghĩa α = 0,05, với 31 bậc tự do

Kiểm định ý nghĩa của các hệ số hồi quy cụ thể thực chất là kiểm định giả thuyết về ý nghĩa của một biến cụ thể có trong mô hình hồi quy cùng với các biến khác. Vì thế, t-tiêu chuẩn để kiểm định giả thuyết về ý nghĩa của hệ số hồi quy tương đương với kiểm định giả thuyết về mức độ ảnh hưởng của từng biến giải thích.

Khoảng tin cậy. Thay vì kiểm tra giả thuyết về độ dốc của tổng thể, bạn có thể ước tính giá trị của độ dốc này. Trong mô hình hồi quy bội, công thức sau được sử dụng để xây dựng khoảng tin cậy:

(7) bj ± t nk –1 Sbj

Chúng tôi sử dụng công thức này để xây dựng khoảng tin cậy 95% chứa độ dốc của tổng thể β 1 (ảnh hưởng của giá x1 về khối lượng bán hàng Y với một lượng chi phí quảng cáo cố định X 2). Theo công thức (7) ta được: b 1 ± t nk –1 Sb 1 . Trong chừng mực b 1 = –53.2173 (xem Hình 3), Sb 1 = 6,8522, giá trị tới hạn t- thống kê ở mức 95% mức độ tự tin và 31 bậc tự do t nk –1 \ u003d STUDENT.OBR (0,975; 31) \ u003d 2,0395, chúng tôi nhận được:

–53.2173 ± 2.0395 * 6.8522

–53.2173 ± 13.9752

–67,1925 ≤ β 1 ≤ –39,2421

Do đó, nếu tính đến ảnh hưởng của chi phí quảng cáo, có thể lập luận rằng với việc tăng giá một thanh, lượng bán hàng giảm đi một lượng dao động từ 39,2 đến 67,2 đơn vị. Có 95% cơ hội rằng khoảng này ước tính chính xác mối quan hệ giữa hai biến. Vì khoảng tin cậy này không chứa 0, nên có thể lập luận rằng hệ số hồi quy β 1 có ảnh hưởng có ý nghĩa thống kê đến doanh số bán hàng.

Đánh giá tầm quan trọng của các biến giải thích trong mô hình hồi quy nhiều

Mô hình hồi quy bội chỉ nên bao gồm các biến giải thích dự đoán chính xác giá trị của biến phụ thuộc. Nếu bất kỳ biến giải thích nào không đáp ứng yêu cầu này, nó phải được loại bỏ khỏi mô hình. Là một phương pháp thay thế để ước tính đóng góp của biến giải thích, như một quy luật, một F-tiêu chuẩn. Nó bao gồm việc đánh giá sự thay đổi trong tổng bình phương của hồi quy sau khi đưa biến tiếp theo vào mô hình. Một biến mới chỉ được đưa vào mô hình khi nó làm tăng đáng kể độ chính xác của dự đoán.

Để áp dụng kiểm định F từng phần cho bài toán bán hàng thanh OmniPower, cần phải đánh giá sự đóng góp của biến X 2(chi phí quảng cáo) sau khi bao gồm biến trong mô hình x1(giá thanh). Nếu mô hình bao gồm nhiều biến giải thích, thì đóng góp của biến giải thích Xj có thể được xác định bằng cách loại trừ nó khỏi mô hình và đánh giá tổng hồi quy của bình phương (SSR) được tính trên các biến còn lại. Nếu mô hình bao gồm hai biến, đóng góp của mỗi biến trong số chúng được xác định theo công thức:

Ước tính đóng góp của một biến X 1 X 2:

(8a) SSR (X 1 | X 2) = SSR (X 1 va X 2) - SSR (X 2)

Ước tính đóng góp của một biến X 2 với điều kiện là biến được bao gồm trong mô hình X 1:

(8b) SSR (X 2 | X 1) = SSR (X 1 va X 2) - SSR (X 1)

Số lượng SSR (X2)SSR (X 1) tương ứng là tổng bình phương của hồi quy chỉ được tính cho một trong các biến được giải thích (Hình 9).

Cơm. 9. Các hệ số của mô hình hồi quy tuyến tính đơn giản, có tính đến: (a) khối lượng hàng bán và giá của thanh - SSR (X 1); (b) khối lượng bán hàng và chi phí quảng cáo - SSR (X2)(có được bằng cách sử dụng Excel Analysis ToolPack)

Giả thuyết vô hiệu và giả thuyết thay thế về sự đóng góp của một biến X 1được xây dựng như sau: H 0- bật biến X 1 không dẫn đến sự gia tăng đáng kể về độ chính xác của mô hình, có tính đến biến X 2; H 1- bật biến X 1 dẫn đến sự gia tăng đáng kể về độ chính xác của mô hình, có tính đến biến X 2. Số liệu thống kê làm cơ sở cho thương số F- tiêu chuẩn cho hai biến, được tính theo công thức:

ở đâu MSE là phương sai của sai số (dư) đối với đồng thời hai yếu tố. A-priory F-thống kê có F-phân phối từ một và N-k-1 bậc tự do.

Cho nên, SSR (X2)= 14 915 814 (Hình 9), SSR (X 1 và X 2)= 39 472 731 (Hình 3, ô C12). Do đó, theo công thức (8a), ta thu được: SSR (X 1 | X 2) \ u003d SSR (X 1 và X 2) - SSR (X 2) \ u003d 39 472 731 - 14 915 814 = 24 556 917. Vì vậy, đối với SSR (X 1 | X 2) = 24 556 917 và MSE (X 1 và X 2) = 407 127 (Hình 3, ô D13), sử dụng công thức (9), chúng tôi thu được: F= 24,556,917 / 407,127 = 60,32. Nếu mức ý nghĩa là 0,05 thì giá trị tới hạn F-phân phối với một và 31 bậc tự do = F. OBR (0,95; 1; 31) = 4,16 (Hình 10).

Cơm. 10. Kiểm định giả thuyết về mức ý nghĩa của các hệ số hồi quy với mức ý nghĩa 0,05, với một và 31 bậc tự do

Kể từ khi giá trị được tính toán F- thống kê nhiều hơn quan trọng (60,32> 4,17), giả thuyết H 0 bị từ chối, do đó tính đến biến X 1(giá) cải thiện đáng kể mô hình hồi quy đã bao gồm biến X 2(chi phí quảng cáo).

Tương tự, người ta có thể đánh giá ảnh hưởng của biến X 2(chi phí quảng cáo) cho mỗi mô hình đã bao gồm biến X 1(giá). Tự mình thực hiện các phép tính. Điều kiện quyết định gây ra 27,8> 4,17 và do đó bao gồm biến X 2 cũng dẫn đến sự gia tăng đáng kể độ chính xác của mô hình có tính đến biến X 1. Vì vậy, việc bao gồm từng biến sẽ cải thiện độ chính xác của mô hình. Do đó, cả hai biến phải được đưa vào mô hình hồi quy bội: giá cả và chi phí quảng cáo.

Thật kỳ lạ, giá trị t- thống kê được tính theo công thức (6) và giá trị của private F-số liệu thống kê, công thức đã cho(9) được kết nối với nhau duy nhất:

ở đâu một là số bậc tự do.

Mô hình hồi quy biến giả và hiệu ứng tương tác

Khi thảo luận về các mô hình hồi quy nhiều lần, chúng ta đã giả định rằng mỗi biến độc lập là một số. Tuy nhiên, trong nhiều tình huống, cần phải đưa các biến phân loại vào mô hình. Ví dụ, trong bài toán bán hàng thanh OmniPower, giá cả và chi phí quảng cáo đã được sử dụng để dự đoán doanh số bán hàng trung bình hàng tháng. Ngoài các biến số này, bạn có thể thử tính đến vị trí của hàng hóa bên trong cửa hàng trong mô hình (ví dụ: trong cửa sổ hoặc không). Để tính toán các biến phân loại trong mô hình hồi quy, các biến giả phải được đưa vào trong đó. Ví dụ: nếu một biến giải thích phân loại có hai danh mục, thì một biến giả đủ để đại diện cho chúng Xd: X d= 0 nếu quan sát thuộc loại đầu tiên, X d= 1 nếu quan sát thuộc loại thứ hai.

Để minh họa các biến giả, hãy xem xét mô hình dự đoán giá trị thẩm định trung bình của bất động sản dựa trên mẫu gồm 15 ngôi nhà. Như các biến giải thích, chúng tôi chọn diện tích sống của ngôi nhà (nghìn feet vuông) và sự hiện diện của lò sưởi (Hình 11). Biển giá X 2(sự hiện diện của lò sưởi) được định nghĩa như sau: X 2= 0 nếu không có lò sưởi trong nhà, X 2= 1 nếu ngôi nhà có lò sưởi.

Cơm. 11. Giá trị ước tính được dự đoán bởi không gian sống và sự hiện diện của lò sưởi

Chúng ta hãy giả định rằng độ dốc của giá trị ước tính, tùy thuộc vào khu vực sống, là như nhau đối với những ngôi nhà có và không có lò sưởi. Sau đó, mô hình hồi quy bội sẽ giống như sau:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

ở đâu Y tôi- giá trị được đánh giá tôi-nhà thứ, đo bằng nghìn đô la, β 0 - sự thay đổi phản ứng, x1tôi,- không gian sống tôi-go house, đo bằng nghìn mét vuông. đôi chân, β 1 - độ dốc của giá trị ước tính, tùy thuộc vào khu vực sinh sống của ngôi nhà với giá trị không đổi của biến giả, x1tôi, là một biến giả cho biết sự hiện diện hay vắng mặt của lò sưởi, β 1 - độ dốc của giá trị ước tính, tùy thuộc vào khu vực sinh sống của ngôi nhà với một giá trị không đổi của biến giả β 2 - ảnh hưởng của việc tăng giá trị ước tính của ngôi nhà, tùy thuộc vào sự hiện diện của lò sưởi khi giá trị hiện có khu vực sống, ε tôi- một lỗi ngẫu nhiên trong giá trị ước tính tôi ngôi nhà thứ. Kết quả tính toán mô hình hồi quy được trình bày trong hình. 12.

Cơm. 12. Kết quả tính toán mô hình hồi quy giá trị ước tính của nhà ở; thu được với Gói phân tích trong Excel; một bảng tương tự như Hình 1 đã được sử dụng để tính toán. 11, với thay đổi duy nhất: "Có" được thay thế bằng số 0 và "Không" bằng số không

Trong mô hình này, các hệ số hồi quy được hiểu như sau:

  1. Nếu biến giả không đổi, không gian sống sẽ tăng trên 1.000 sq. feet dẫn đến mức tăng $ 16,2 nghìn trong giá trị thẩm định trung bình được dự đoán.
  2. Nếu không gian sống không đổi, việc có một lò sưởi làm tăng giá trị trung bình của ngôi nhà thêm $ 3,900.

Hãy chú ý (Hình 12), t-thống kê tương ứng với khu vực sinh sống là 6,29, và R- giá trị gần như bằng không. Trong cùng thời gian t- thống kê tương ứng với biến giả là 3,1 và P-giá trị - 0,009. Như vậy, mỗi biến trong số hai biến này đều đóng góp đáng kể vào mô hình nếu mức ý nghĩa là 0,01. Ngoài ra, hệ số tương quan hỗn hợp nhiều có nghĩa là 81,1% sự thay đổi trong giá trị được thẩm định là do sự thay đổi của không gian sống của ngôi nhà và sự hiện diện của lò sưởi.

Hiệu ứng tương tác. Trong tất cả các mô hình hồi quy được thảo luận ở trên, ảnh hưởng của phản ứng lên biến giải thích được coi là độc lập về mặt thống kê với ảnh hưởng của phản ứng lên các biến giải thích khác. Nếu điều kiện này không được đáp ứng, có sự tương tác giữa các biến phụ thuộc. Ví dụ, có khả năng là quảng cáo có tác động lớn đến việc bán các sản phẩm giá rẻ. Tuy nhiên, nếu giá của một sản phẩm quá cao, thì việc tăng chi tiêu cho quảng cáo cũng không thể làm tăng đáng kể doanh số bán hàng. Trong trường hợp này, có sự tương tác giữa giá của sản phẩm và chi phí quảng cáo. Nói cách khác, người ta không thể đưa ra những nhận định chung chung về sự phụ thuộc của doanh số vào chi phí quảng cáo. Ảnh hưởng của chi phí quảng cáo đến doanh số bán hàng phụ thuộc vào giá cả. Ảnh hưởng này được tính đến trong mô hình hồi quy bội số bằng cách sử dụng hiệu ứng tương tác. Để minh họa cho khái niệm này, chúng ta hãy quay trở lại vấn đề chi phí của những ngôi nhà.

Trong mô hình hồi quy mà chúng tôi đã phát triển, người ta giả định rằng ảnh hưởng của kích thước ngôi nhà đến giá trị của nó không phụ thuộc vào việc ngôi nhà có lò sưởi hay không. Nói cách khác, người ta tin rằng độ dốc của giá trị ước tính, tùy thuộc vào khu vực sinh sống của ngôi nhà, là như nhau đối với những ngôi nhà có và không có lò sưởi. Nếu những mái dốc này khác nhau, có một sự tương tác giữa kích thước của ngôi nhà và sự hiện diện của lò sưởi.

Kiểm định giả thuyết về độ dốc bằng nhau đi đến ước tính đóng góp của tích của biến giải thích đối với mô hình hồi quy x1 và một biến giả X 2. Nếu đóng góp này có ý nghĩa thống kê thì không thể áp dụng mô hình hồi quy ban đầu. Kết quả của một phân tích hồi quy liên quan đến các biến X 1, X 2X 3 \ u003d X 1 * X 2được hiển thị trong hình. mười ba.

Cơm. 13. Kết quả thu được với Gói phân tích Excel cho mô hình hồi quy có tính đến không gian sống, sự hiện diện của lò sưởi và sự tương tác của chúng

Để kiểm tra giả thuyết rỗng H 0: β 3 = 0 và giả thuyết thay thế H 1: β 3 ≠ 0, sử dụng các kết quả được chỉ ra trong Hình. 13, lưu ý rằng t-thống kê tương ứng với ảnh hưởng của sự tương tác của các biến bằng 1,48. Trong chừng mực R-giá trị là 0,166> 0,05, giả thuyết vô hiệu không bị bác bỏ. Do đó, sự tương tác của các biến không có ảnh hưởng đáng kể đến mô hình hồi quy, mô hình có tính đến không gian sống và sự hiện diện của lò sưởi.

Tóm lược. Ghi chú này cho thấy cách một người quản lý tiếp thị có thể sử dụng nhiều phân tích tuyến tính để dự đoán khối lượng bán hàng dựa trên giá cả và chi tiêu quảng cáo. Nhiều mô hình hồi quy bội khác nhau được xem xét, bao gồm mô hình bậc hai, mô hình có biến giả và mô hình có tác động tương tác (Hình 14).

Cơm. mười bốn. Sơ đồ cấu trúc ghi chú

Tài liệu từ cuốn sách Levin và cộng sự. Thống kê cho các nhà quản lý được sử dụng. - M.: Williams, 2004. - tr. 873–936

Giả sử một nhà phát triển đang định giá một nhóm các tòa nhà văn phòng nhỏ trong một khu kinh doanh truyền thống.

Một nhà phát triển có thể sử dụng phân tích hồi quy nhiều lần để ước tính giá của một tòa nhà văn phòng trong một khu vực nhất định dựa trên các biến sau.

y là giá ước tính của một tòa nhà văn phòng;

x 1 - tổng diện tích tính bằng mét vuông;

x 2 - số văn phòng;

x 3 - số lượng đầu vào (0,5 đầu vào có nghĩa là đầu vào chỉ để gửi thư từ);

x 4 - thời gian hoạt động của tòa nhà tính theo năm.

Ví dụ này giả định rằng có mối quan hệ tuyến tính giữa mỗi biến độc lập (x 1, x 2, x 3 và x 4) và biến phụ thuộc (y), tức là giá của một tòa nhà văn phòng trong một khu vực nhất định. Dữ liệu ban đầu được hiển thị trong hình.

Cài đặt để giải quyết nhiệm vụ được hiển thị trong hình cửa sổ " hồi quy". Kết quả tính toán được đặt trên một trang riêng biệt trong ba bảng

Kết quả là, chúng tôi nhận được những điều sau mô hình toán học:

y = 52318 + 27,64 * x1 + 12530 * x2 + 2553 * x3 - 234,24 * x4.

Chủ đầu tư hiện có thể xác định giá trị thẩm định của một tòa nhà văn phòng trong cùng khu vực. Nếu tòa nhà này có diện tích là 2500 mét vuông, ba văn phòng, hai lối vào và thời gian hoạt động là 25 năm, bạn có thể ước tính chi phí của nó bằng công thức sau:

y \ u003d 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 \ u003d 158 261 c.u.

Trong phân tích hồi quy, kết quả quan trọng nhất là:

  • hệ số cho các biến và giao điểm Y, là các tham số mong muốn của mô hình;
  • nhiều R đặc trưng cho độ chính xác của mô hình đối với dữ liệu đầu vào có sẵn;
  • Kiểm tra Fisher F(trong ví dụ được xem xét, nó vượt quá đáng kể giá trị tới hạn bằng 4,06);
  • thống kê t- các giá trị đặc trưng cho mức độ ý nghĩa của các hệ số riêng lẻ của mô hình.

Cần đặc biệt chú ý đến thống kê t. Thông thường, khi xây dựng một mô hình hồi quy, người ta không biết liệu yếu tố này hay yếu tố x có ảnh hưởng đến y hay không. Việc đưa vào mô hình những yếu tố không ảnh hưởng đến giá trị đầu ra làm suy giảm chất lượng của mô hình. Tính toán thống kê t giúp phát hiện các yếu tố như vậy. Một ước lượng gần đúng có thể được thực hiện như sau: nếu với n >> k, giá trị tuyệt đối của thống kê t lớn hơn đáng kể ba, thì hệ số tương ứng sẽ được coi là có ý nghĩa và nhân tố phải được đưa vào mô hình, nếu không thì bị loại trừ khỏi ngươi mâu. Do đó, có thể đề xuất một công nghệ xây dựng mô hình hồi quy, bao gồm hai giai đoạn:

1) xử lý gói " hồi quy"tất cả dữ liệu có sẵn, phân tích các giá trị thống kê t;

2) loại bỏ khỏi bảng các cột dữ liệu ban đầu với các hệ số mà hệ số không đáng kể và xử lý với gói " hồi quy"bảng mới.

Trong các ghi chú trước đây, trọng tâm thường tập trung vào một biến số duy nhất, chẳng hạn như lợi tức quỹ tương hỗ, thời gian tải trang web hoặc mức tiêu thụ nước ngọt. Trong phần này và các ghi chú sau, chúng ta sẽ xem xét các phương pháp dự đoán giá trị của một biến số phụ thuộc vào các giá trị của một hoặc nhiều biến số khác.

Tài liệu sẽ được minh họa bằng một ví dụ thông qua. Dự báo doanh số bán hàng tại một cửa hàng quần áo. Chuỗi cửa hàng quần áo giảm giá của Sunflowers đã không ngừng mở rộng trong suốt 25 năm. Tuy nhiên, công ty hiện không có cách tiếp cận có hệ thống để lựa chọn các cửa hàng mới. Địa điểm mà công ty dự định mở một cửa hàng mới được xác định dựa trên những cân nhắc chủ quan. Tiêu chí lựa chọn là điều kiện thuê thuận lợi hoặc ý tưởng của người quản lý về vị trí lý tưởng của cửa hàng. Hãy tưởng tượng rằng bạn là người đứng đầu Phòng Kế hoạch và Dự án Đặc biệt. Bạn đã được chỉ định để phát triển kế hoạch chiến lược mở cửa hàng mới. Kế hoạch này cần có dự báo về doanh thu hàng năm ở các cửa hàng mới mở. Bạn có nghĩ như thế khu vực giao dịch có liên quan trực tiếp đến số lượng doanh thu và bạn muốn tính đến thực tế này trong quá trình ra quyết định. Làm thế nào để phát triển mô hình thống kêđể dự đoán doanh số hàng năm dựa trên quy mô cửa hàng mới?

Thông thường, phân tích hồi quy được sử dụng để dự đoán các giá trị của một biến. Mục tiêu của nó là phát triển một mô hình thống kê dự đoán các giá trị của biến phụ thuộc, hoặc phản ứng, từ các giá trị của ít nhất một biến độc lập hoặc giải thích. Trong lưu ý này, chúng tôi sẽ xem xét một hồi quy tuyến tính đơn giản - phương pháp thống kê, cho phép dự đoán các giá trị của biến phụ thuộc Y bởi các giá trị của biến độc lập X. Các ghi chú sau đây sẽ mô tả một mô hình hồi quy bội được thiết kế để dự đoán các giá trị của biến độc lập Y bởi các giá trị của một số biến phụ thuộc ( X 1, X 2,…, X k).

Tải xuống ghi chú ở định dạng hoặc, ví dụ ở định dạng

Các loại mô hình hồi quy

ở đâu ρ 1 là hệ số tự tương quan; nếu ρ 1 = 0 (không có tự tương quan), D≈ 2; nếu ρ 1 ≈ 1 (tự tương quan dương), D≈ 0; nếu ρ 1 = -1 (tự tương quan âm), D ≈ 4.

Trên thực tế, việc áp dụng tiêu chí Durbin-Watson dựa trên việc so sánh giá trị D với các giá trị lý thuyết quan trọng dLd U cho một số lượng quan sát nhất định N, số lượng độc lập biến mô hình k(đối với hồi quy tuyến tính đơn giản k= 1) và mức ý nghĩa α. Nếu một D< d L , giả thuyết độc lập sai lệch ngẫu nhiên bị từ chối (do đó hiện tại tự tương quan dương); nếu D> dU, giả thuyết không bị bác bỏ (nghĩa là không có hiện tượng tự tương quan); nếu dL< D < d U không có đủ lý do để đưa ra quyết định. Khi giá trị được tính toán D vượt quá 2, sau đó dLd U nó không phải là hệ số tự nó đang được so sánh D và biểu thức (4 - D).

Để tính toán thống kê Durbin-Watson trong Excel, chúng ta chuyển sang bảng dưới cùng trong Hình. mười bốn Rút tiền số dư. Tử số trong biểu thức (10) được tính bằng cách sử dụng hàm = SUMMQDIFF (array1, array2) và mẫu số = SUMMQ (array) (Hình 16).

Cơm. 16. Công thức tính toán thống kê Durbin-Watson

Trong ví dụ của chúng tôi D= 0,883. Câu hỏi chính là: giá trị nào của thống kê Durbin-Watson nên được coi là đủ nhỏ để kết luận rằng có tự tương quan dương? Cần phải tương quan giá trị của D với các giá trị tới hạn ( dLd U) tùy thuộc vào số lượng quan sát N và mức ý nghĩa α (Hình 17).

Cơm. 17. Các giá trị quan trọng của thống kê Durbin-Watson (phân đoạn bảng)

Do đó, trong bài toán về khối lượng bán hàng trong một cửa hàng giao hàng đến nhà của bạn, có một biến số độc lập ( k= 1), 15 quan sát ( N= 15) và mức ý nghĩa α = 0,05. Vì thế, dL= 1,08 và dU= 1,36. Trong chừng mực D = 0,883 < dL= 1,08, có tự tương quan dương giữa các phần dư, không thể áp dụng phương pháp bình phương nhỏ nhất.

Kiểm định các giả thuyết về Hệ số tương quan và Độ dốc

Hồi quy trên chỉ được áp dụng để dự báo. Để xác định hệ số hồi quy và dự đoán giá trị của một biến Y tại giá trị cho trước Biến đổi X phương pháp bình phương nhỏ nhất đã được sử dụng. Ngoài ra, chúng tôi đã xem xét sai số chuẩn của ước lượng và hệ số tương quan hỗn hợp. Nếu phân tích phần dư xác nhận rằng các điều kiện áp dụng của phương pháp bình phương nhỏ nhất không bị vi phạm và mô hình hồi quy tuyến tính đơn giản là đầy đủ, dựa trên dữ liệu mẫu, thì có thể lập luận rằng có mối quan hệ tuyến tính giữa các biến trong tổng thể.

Ứng dụngt -tiêu chuẩn về độ dốc. Bằng cách kiểm tra xem độ dốc tổng thể β 1 có bằng 0 hay không, người ta có thể xác định liệu có mối quan hệ có ý nghĩa thống kê giữa các biến hay không XY. Nếu giả thuyết này bị bác bỏ, có thể lập luận rằng giữa các biến XY có mối quan hệ tuyến tính. Các giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: β 1 = 0 (không có quan hệ tuyến tính), H1: β 1 ≠ 0 (có quan hệ tuyến tính). A-priory t- thống kê bằng hiệu số giữa độ dốc mẫu và độ dốc tổng thể giả định, chia cho sai số tiêu chuẩn của ước tính độ dốc:

(11) t = (b 1 β 1 ) / Sb 1

ở đâu b 1 là độ dốc của hồi quy trực tiếp dựa trên dữ liệu mẫu, β1 là độ dốc giả định của tổng thể chung trực tiếp, và kiểm tra thống kê t Nó có t- phân phối với n - 2 bậc tự do.

Hãy kiểm tra xem có mối quan hệ có ý nghĩa thống kê giữa quy mô cửa hàng và doanh thu hàng năm ở mức α = 0,05 hay không. t-criteria được hiển thị cùng với các thông số khác khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả đầy đủ của Gói phân tích được trình bày trong Hình. 4, một đoạn liên quan đến thống kê t - trong hình. mười tám.

Cơm. 18. Kết quả ứng dụng t

Vì số lượng cửa hàng N= 14 (xem Hình 3), giá trị tới hạn t- Số liệu thống kê ở mức ý nghĩa α = 0,05 có thể được tìm thấy bằng công thức: t L= STUDENT.INV (0,025; 12) = -2,1788 trong đó 0,025 là một nửa mức ý nghĩa và 12 = N – 2; t U\ u003d STUDENT.INV (0,975, 12) \ u003d +2,1788.

Trong chừng mực t- thống kê = 10,64> t U= 2,1788 (Hình 19), giả thuyết không H 0 bị từ chối. Mặt khác, R-giá trị cho X\ u003d 10.6411, được tính theo công thức \ u003d 1-STUDENT.DIST (D3, 12, TRUE), xấp xỉ bằng 0, vì vậy giả thuyết H 0 lại bị từ chối. Thực tế là R-giá trị gần như bằng 0, có nghĩa là nếu không có mối quan hệ tuyến tính thực sự giữa quy mô cửa hàng và doanh số hàng năm, thì hầu như không thể phát hiện ra nó bằng cách sử dụng hồi quy tuyến tính. Do đó, có một mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số cửa hàng trung bình hàng năm và quy mô cửa hàng.

Cơm. 19. Kiểm định giả thuyết về độ dốc của tổng thể chung với mức ý nghĩa 0,05 và 12 bậc tự do

Ứng dụngF -tiêu chuẩn về độ dốc. Một cách tiếp cận thay thế để kiểm tra các giả thuyết về độ dốc của một hồi quy tuyến tính đơn giản là sử dụng F-tiêu chuẩn. Nhớ lại điều đó F-criterion được sử dụng để kiểm tra mối quan hệ giữa hai phương sai (xem chi tiết). Khi kiểm tra giả thuyết độ dốc bằng thước đo lỗi ngẫu nhiên là phương sai sai số (tổng sai số bình phương chia cho số bậc tự do), vì vậy F-test sử dụng tỷ lệ của phương sai được giải thích bởi hồi quy (tức là các giá trị SSR chia cho số biến độc lập k), đối với phương sai lỗi ( MSE = S YX 2 ).

A-priory F-thống kê bằng với độ lệch bình phương trung bình do hồi quy (MSR) chia cho phương sai sai (MSE): F = MSR/ MSE, ở đâu MSR =SSR / k, MSE =SSE/(N- k - 1), k là số lượng biến độc lập trong mô hình hồi quy. Thống kê thử nghiệm F Nó có F- phân phối với kN- k - 1 bậc tự do.

Với mức ý nghĩa cho trước α quy tắc quyết định công thức như sau: nếu F> FU, giả thuyết vô hiệu bị bác bỏ; nếu không, nó không bị từ chối. Các kết quả, được trình bày dưới dạng một bảng tóm tắt của việc phân tích phương sai, được trình bày trong hình. 20.

Cơm. 20. Bảng phân tích phương sai kiểm định giả thuyết về ý nghĩa thống kê của hệ số hồi quy

Tương tự t-tiêu chuẩn F-criteria được hiển thị trong bảng khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả đầy đủ của công việc Gói phân tíchđược hiển thị trong hình. 4, đoạn liên quan đến F- thống kê - trong hình. 21.

Cơm. 21. Kết quả ứng dụng F- Các tiêu chí thu được bằng cách sử dụng Excel Analysis ToolPack

Thống kê F là 113,23 và R-giá trị gần bằng 0 (ô Ý nghĩaF). Nếu mức ý nghĩa α là 0,05, hãy xác định giá trị tới hạn F-phân phối với một và 12 bậc tự do có thể nhận được từ công thức F U\ u003d F. OBR (1-0,05; 1; 12) \ u003d 4,7472 (Hình 22). Trong chừng mực F = 113,23 > F U= 4,7472 và R-giá trị gần bằng 0< 0,05, нулевая гипотеза H 0 lệch, tức là Quy mô của một cửa hàng liên quan chặt chẽ đến doanh số bán hàng hàng năm của nó.

Cơm. 22. Kiểm định giả thuyết về độ dốc của tổng thể chung với mức ý nghĩa 0,05, với một và 12 bậc tự do

Khoảng tin cậy chứa hệ số góc β 1.Để kiểm tra giả thuyết về sự tồn tại của mối quan hệ tuyến tính giữa các biến, bạn có thể xây dựng khoảng tin cậy chứa hệ số góc β 1 và đảm bảo rằng giá trị giả thuyết β 1 = 0 thuộc khoảng này. Tâm của khoảng tin cậy chứa độ dốc β 1 là độ dốc mẫu b 1 và ranh giới của nó là số lượng b 1 ±t n –2 Sb 1

Như được hiển thị trong hình. mười tám, b 1 = +1,670, N = 14, Sb 1 = 0,157. t 12 \ u003d STUDENT.OBR (0,975, 12) \ u003d 2,1788. Vì thế, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 hoặc + 1,328 ≤ β 1 ≤ +2,012. Do đó, độ dốc của dân số với xác suất 0,95 nằm trong khoảng từ +1.328 đến +2.012 (tức là từ 1.328.000 đến 2.012.000 đô la). Bởi vì những giá trị này lớn hơn 0, có một mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số hàng năm và diện tích cửa hàng. Nếu khoảng tin cậy chứa 0, sẽ không có mối quan hệ giữa các biến. Ngoài ra, khoảng tin cậy có nghĩa là cứ 1.000 sq. chân dẫn đến việc tăng doanh số bán hàng trung bình từ $ 1,328,000 lên $ 2,012,000.

Cách sử dụngt - tiêu chuẩn cho hệ số tương quan. hệ số tương quan đã được giới thiệu r, là thước đo mối quan hệ giữa hai biến số. Nó có thể được sử dụng để xác định liệu có mối quan hệ có ý nghĩa thống kê giữa hai biến hay không. Chúng ta hãy biểu thị hệ số tương quan giữa các quần thể của cả hai biến bằng ký hiệu ρ. Giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: ρ = 0 (không tương quan), H 1: ρ ≠ 0 (có mối tương quan). Kiểm tra sự tồn tại của mối tương quan:

ở đâu r = + , nếu b 1 > 0, r = – , nếu b 1 < 0. Тестовая статистика t Nó có t- phân phối với n - 2 bậc tự do.

Trong bài toán của chuỗi cửa hàng Hoa hướng dương r2= 0,904 và b 1- +1.670 (xem Hình 4). Trong chừng mực b 1> 0, hệ số tương quan giữa doanh số hàng năm và quy mô cửa hàng là r= + √0,904 = +0,951. Hãy kiểm tra giả thuyết rỗng rằng không có mối tương quan giữa các biến này bằng cách sử dụng t- số liệu thống kê:

Với mức ý nghĩa α = 0,05, giả thuyết vô hiệu nên bị bác bỏ vì t= 10,64> 2,1788. Do đó, có thể lập luận rằng có một mối quan hệ có ý nghĩa thống kê giữa doanh số hàng năm và quy mô cửa hàng.

Khi thảo luận về các suy luận về độ dốc dân số, khoảng tin cậy và tiêu chí để kiểm tra giả thuyết là những công cụ có thể thay thế cho nhau. Tuy nhiên, việc tính toán khoảng tin cậy có chứa hệ số tương quan hóa ra khó hơn, vì dạng phân phối lấy mẫu của thống kê r phụ thuộc vào hệ số tương quan thực.

Dự đoán và Dự đoán Kỳ vọng giá trị cá nhân

Phần này thảo luận về các phương pháp ước tính phản hồi mong đợi Y và dự đoán các giá trị riêng lẻ Y cho các giá trị nhất định của biến X.

Xây dựng khoảng tin cậy. Trong ví dụ 2 (xem phần trên Phương pháp bình phương tối thiểu) phương trình hồi quy giúp nó có thể dự đoán giá trị của biến Y X. Trong bài toán chọn địa điểm cho cửa hàng bán lẻ, doanh thu trung bình hàng năm ở một cửa hàng có diện tích 4000 sq. feet tương đương với 7,644 triệu đô la. Tuy nhiên, ước tính này về kỳ vọng toán học của dân số chung là một điểm. để ước tính kỳ vọng toán học của dân số chung, khái niệm khoảng tin cậy đã được đề xuất. Tương tự, người ta có thể giới thiệu khái niệm khoảng tin cậy cho kỳ vọng toán học của phản hồi tại đặt giá trị Biến đổi X:

ở đâu , = b 0 + b 1 X tôi- biến giá trị dự đoán Y tại X = X tôi, S YX là lỗi bình phương trung bình, N là kích thước mẫu, Xtôi- giá trị đã cho của biến X, µ Y|X = Xtôi- kỳ vọng toán học của một biến Y tại X = Tôi, SSX =

Phân tích công thức (13) cho thấy rằng độ rộng của khoảng tin cậy phụ thuộc vào một số yếu tố. Ở một mức ý nghĩa nhất định, sự gia tăng biên độ dao động xung quanh đường hồi quy, được đo bằng sai số bình phương trung bình, dẫn đến sự gia tăng độ rộng của khoảng. Mặt khác, như mong đợi, sự gia tăng kích thước mẫu đi kèm với việc thu hẹp khoảng thời gian. Ngoài ra, độ rộng của khoảng thay đổi tùy thuộc vào các giá trị Xtôi. Nếu giá trị của biến Y dự đoán cho số lượng X, gần với giá trị trung bình , khoảng tin cậy hóa ra hẹp hơn so với khi dự đoán phản hồi cho các giá trị xa giá trị trung bình.

Giả sử khi chọn vị trí cho một cửa hàng, chúng tôi muốn xây dựng khoảng tin cậy 95% cho doanh thu trung bình hàng năm ở tất cả các cửa hàng có diện tích 4000 mét vuông. đôi chân:

Do đó, doanh số bán hàng trung bình hàng năm tại tất cả các cửa hàng có diện tích 4.000 mét vuông. feet, với xác suất 95% nằm trong khoảng từ 6,971 đến 8,317 triệu đô la.

Tính khoảng tin cậy cho giá trị dự đoán. Ngoài khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị nhất định của biến X, thường cần biết khoảng tin cậy cho giá trị dự đoán. Mặc dù công thức tính khoảng tin cậy như vậy rất giống với công thức (13), nhưng khoảng này chứa giá trị dự đoán chứ không phải ước lượng của tham số. Khoảng thời gian cho phản hồi dự đoán YX = Xi cho một giá trị cụ thể của biến Xtôiđược xác định theo công thức:

Giả sử rằng khi chọn vị trí cho một cửa hàng bán lẻ, chúng tôi muốn xây dựng khoảng tin cậy 95% cho khối lượng bán hàng dự đoán hàng năm trong một cửa hàng có diện tích 4000 mét vuông. đôi chân:

Do đó, khối lượng bán hàng năm dự đoán cho một 4.000 mét vuông. feet, với xác suất 95% nằm trong khoảng từ 5,433 đến 9,854 triệu đô la. Như bạn có thể thấy, khoảng tin cậy cho giá trị phản hồi dự đoán rộng hơn nhiều so với khoảng tin cậy cho kỳ vọng toán học của nó. Điều này là do sự thay đổi trong dự đoán các giá trị riêng lẻ lớn hơn nhiều so với ước tính giá trị mong đợi.

Cạm bẫy và các vấn đề đạo đức liên quan đến việc sử dụng hồi quy

Những khó khăn liên quan đến phân tích hồi quy:

  • Bỏ qua các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
  • Một ước lượng sai về các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
  • Lựa chọn sai các phương pháp thay thế vi phạm các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
  • Ứng dụng phân tích hồi quy khi chưa có kiến ​​thức chuyên sâu về đối tượng nghiên cứu.
  • Suy rộng hồi quy vượt ra ngoài phạm vi của biến giải thích.
  • Nhầm lẫn giữa các mối quan hệ thống kê và nhân quả.

Sự lan rộng của các bảng tính và phần mềmđể tính toán thống kê đã loại bỏ các vấn đề tính toán ngăn cản việc sử dụng phân tích hồi quy. Tuy nhiên, điều này dẫn đến thực tế là phân tích hồi quy bắt đầu được sử dụng bởi những người dùng không có đủ trình độ và kiến ​​thức. Làm sao người dùng biết về các phương pháp thay thế nếu nhiều người trong số họ không biết gì về điều kiện áp dụng của phương pháp bình phương nhỏ nhất và không biết cách kiểm tra việc thực hiện của chúng?

Nhà nghiên cứu không nên bị cuốn theo những con số mài giũa - tính toán sự dịch chuyển, độ dốc và hệ số tương quan hỗn hợp. Anh ấy cần kiến ​​thức sâu hơn. Hãy minh họa điều này ví dụ cổ điển lấy từ sách giáo khoa. Anscombe đã chỉ ra rằng tất cả bốn tập dữ liệu được hiển thị trong Hình. 23 có các tham số hồi quy giống nhau (Hình 24).

Cơm. 23. Bốn tập dữ liệu nhân tạo

Cơm. 24. Phân tích hồi quy bốn tập dữ liệu nhân tạo; thực hiện với Gói phân tích(bấm vào ảnh để phóng to ảnh)

Vì vậy, theo quan điểm của phân tích hồi quy, tất cả các tập dữ liệu này hoàn toàn giống hệt nhau. Nếu phân tích xong về vấn đề này, chúng tôi sẽ mất rất nhiều thông tin hữu ích. Điều này được chứng minh bằng các đồ thị phân tán (Hình 25) và các đồ thị còn lại (Hình 26) được xây dựng cho các tập dữ liệu này.

Cơm. 25. Biểu đồ phân tán cho bốn tập dữ liệu

Đồ thị phân tán và đồ thị còn lại cho thấy rằng những dữ liệu này khác nhau. Tập hợp duy nhất được phân phối dọc theo một đường thẳng là tập A. Phần dư được tính từ tập A không có mẫu. Điều tương tự cũng không thể xảy ra đối với các tập hợp B, C và D. Biểu đồ phân tán được vẽ cho tập hợp B cho thấy một mẫu bậc hai rõ rệt. Kết luận này được khẳng định bằng biểu đồ phần dư, có dạng hình parabol. Biểu đồ phân tán và biểu đồ còn lại cho thấy rằng tập dữ liệu B chứa một ngoại lệ. Trong tình huống này, cần phải loại trừ giá trị ngoại lai khỏi tập dữ liệu và lặp lại phân tích. Kỹ thuật để phát hiện và loại bỏ các ngoại lệ khỏi các quan sát được gọi là phân tích ảnh hưởng. Sau khi loại bỏ yếu tố ngoại lệ, kết quả đánh giá lại mô hình có thể hoàn toàn khác. Biểu đồ phân tán được xây dựng bằng cách sử dụng dữ liệu từ tập hợp D minh họa tình huống bất thường, trong đó mô hình thực nghiệm phụ thuộc đáng kể vào phản ứng của từng cá nhân ( X 8 = 19, Y 8 = 12,5). Các mô hình hồi quy như vậy cần phải được tính toán đặc biệt cẩn thận. Vì vậy, các đồ thị phân tán và phần dư là một công cụ cần thiết để phân tích hồi quy và phải là một phần không thể thiếu của nó. Nếu không có chúng, phân tích hồi quy không đáng tin cậy.

Cơm. 26. Lô số dư cho bốn tập dữ liệu

Cách tránh những cạm bẫy trong phân tích hồi quy:

  • Phân tích mối quan hệ có thể có giữa các biến XY luôn bắt đầu bằng biểu đồ phân tán.
  • Trước khi giải thích kết quả của một phân tích hồi quy, hãy kiểm tra các điều kiện về khả năng áp dụng của nó.
  • Vẽ đồ thị phần dư so với biến độc lập. Điều này sẽ cho phép xác định cách mô hình thực nghiệm tương ứng với kết quả quan sát và phát hiện sự vi phạm tính hằng số của phương sai.
  • Sử dụng biểu đồ, biểu đồ thân và lá, biểu đồ hộp và biểu đồ phân phối chuẩn để kiểm tra giả định về sai số có phân phối chuẩn.
  • Nếu các điều kiện áp dụng của phương pháp bình phương nhỏ nhất không được đáp ứng, hãy sử dụng các phương pháp thay thế (ví dụ: mô hình hồi quy bậc hai hoặc bội số).
  • Nếu các điều kiện áp dụng của phương pháp bình phương nhỏ nhất được đáp ứng, cần phải kiểm tra giả thuyết về ý nghĩa thống kê của các hệ số hồi quy và xây dựng khoảng tin cậy chứa kỳ vọng toán học và giá trị phản hồi dự đoán.
  • Tránh dự đoán các giá trị của biến phụ thuộc nằm ngoài phạm vi của biến độc lập.
  • Hãy ghi nhớ rằng phụ thuộc thống kê không phải lúc nào cũng có quan hệ nhân quả. Hãy nhớ rằng mối tương quan giữa các biến không có nghĩa là có mối quan hệ nhân quả giữa chúng.

Tóm lược. Như được trình bày trong sơ đồ khối (Hình 27), ghi chú mô tả một mô hình hồi quy tuyến tính đơn giản, các điều kiện cho khả năng áp dụng của nó và các cách kiểm tra các điều kiện này. Được xem xét t- tiêu chuẩn để kiểm tra ý nghĩa thống kê của độ dốc của hồi quy. Để dự đoán các giá trị của biến phụ thuộc, chúng tôi đã sử dụng mô hình hồi quy. Một ví dụ được xem xét liên quan đến việc lựa chọn địa điểm cho cửa hàng bán lẻ, trong đó nghiên cứu sự phụ thuộc của doanh số bán hàng năm vào diện tích cửa hàng. Thông tin thu được cho phép bạn chọn chính xác hơn vị trí cho cửa hàng và dự đoán doanh thu hàng năm của cửa hàng. Trong phần ghi chú sau đây, sẽ tiếp tục thảo luận về phân tích hồi quy, cũng như các mô hình hồi quy nhiều cấp.

Cơm. 27. Sơ đồ khối của một nốt nhạc

Tài liệu từ cuốn sách Levin và cộng sự. Thống kê cho các nhà quản lý được sử dụng. - M.: Williams, 2004. - tr. 792–872

Nếu biến phụ thuộc là phân loại, thì nên áp dụng hồi quy logistic.

Mục đích của hồi quy bội là phân tích mối quan hệ giữa một biến phụ thuộc và một số biến độc lập.

Ví dụ: Có dữ liệu về chi phí của một chỗ ngồi (khi mua 50 chỗ ngồi) cho các hệ thống PDM khác nhau. Yêu cầu: để đánh giá mối quan hệ giữa giá của nơi làm việc trong hệ thống PDM và số lượng các đặc tính được thực hiện trong đó, được thể hiện trong Bảng 2.

Bảng 2 - Đặc điểm của hệ thống PDM

Số mặt hàng Hệ thống PDM Giá Quản lý cấu hình sản phẩm Mô hình sản phẩm Làm việc theo nhóm Quản lý thay đổi sản phẩm Luồng tài liệu Kho lưu trữ Tìm kiếm tài liệu Lập kế hoạch dự án Quản lý sản xuất sản phẩm
iMAN Đúng Đúng
PartY Plus Đúng Đúng
Bộ PDM STEP Đúng Đúng
Tìm kiếm Đúng Đúng
Windchill Đúng Đúng
Quản lý la bàn Đúng Đúng
Tài liệu T-Flex Đúng Đúng
TechnoPro Không Không

Giá trị số của các đặc tính (ngoại trừ "Chi phí", "Mẫu sản phẩm" và "Làm việc theo nhóm") có nghĩa là số lượng các yêu cầu được thực hiện của mỗi đặc tính.

Hãy tạo và điền vào một bảng tính với dữ liệu ban đầu (Hình 27).

Giá trị "1" của các biến "Mod. ed. " và “Thu thập. r-ta. ” tương ứng với giá trị "Có" của dữ liệu nguồn và giá trị "0" với giá trị "Không" của dữ liệu nguồn.

Hãy xây dựng một hồi quy giữa biến phụ thuộc "Chi phí" và các biến độc lập "Ví dụ: conf., mod. ed., sưu tầm. r-ta ”,“ Ví dụ: rev. "," Doc. "," Archives "," Search "," Plan-e "," Ex. thực hiện.

Để bắt đầu phân tích thống kê dữ liệu ban đầu, hãy gọi mô-đun "Hồi quy nhiều" (Hình 22).

Trong hộp thoại xuất hiện (Hình 23), chỉ định các biến mà phân tích thống kê sẽ được thực hiện.

Hình 27 - Dữ liệu ban đầu

Để thực hiện việc này, hãy nhấn nút Variables và trong hộp thoại xuất hiện (Hình 28), trong phần tương ứng với các biến phụ thuộc (Dependent var.), Hãy chọn "1-Cost", và trong phần tương ứng với các biến độc lập (Danh sách biến độc lập ) chọn tất cả các biến khác. Việc lựa chọn một số biến từ danh sách được thực hiện bằng cách sử dụng phím "Ctrl" hoặc "Shift" hoặc bằng cách chỉ định số (phạm vi số) của các biến trong trường tương ứng.



Hình 28 - Hộp thoại để thiết lập các biến để phân tích thống kê

Sau khi các biến được chọn, hãy nhấp vào nút "OK" trong hộp thoại để thiết lập các tham số của mô-đun "Multiple Regression". Trong cửa sổ xuất hiện với dòng chữ "No of indep. vars. > = (N-1); không thể đảo ngược corr. ma trận. " (Hình 29) nhấn nút "OK".

Thông báo này xuất hiện khi hệ thống không thể xây dựng một hồi quy cho tất cả các biến độc lập đã khai báo, bởi vì số biến lớn hơn hoặc bằng số lần xuất hiện trừ đi 1.

Trong cửa sổ xuất hiện (Hình 30), trên tab “Nâng cao”, bạn có thể thay đổi phương pháp xây dựng phương trình hồi quy.

Hình 29 - Thông báo lỗi

Để thực hiện việc này, trong trường "Method" (phương pháp), hãy chọn "Forward stepwise" (từng bước với bao gồm).

Hình 30 - Cửa sổ chọn phương pháp và thiết lập các tham số để xây dựng phương trình hồi quy

Phương pháp hồi quy từng bước bao gồm thực tế là tại mỗi bước, một số biến độc lập được đưa vào mô hình. Do đó, một tập hợp các biến "quan trọng" nhất được chọn ra. Điều này làm giảm số lượng các biến mô tả sự phụ thuộc.

Phân tích từng bước với một ngoại lệ ("Ngược từng bước"). Trong trường hợp này, tất cả các biến sẽ được đưa vào mô hình trước, và sau đó ở mỗi bước, các biến đóng góp ít vào các dự đoán sẽ bị loại bỏ. Sau đó, kết quả của một phân tích thành công, chỉ những biến "quan trọng" trong mô hình có thể được lưu trữ, tức là những biến có đóng góp vào việc phân biệt lớn hơn những biến khác.

Phân tích từng bước với bao gồm ("Tiến lên từng bước"). Khi sử dụng phương pháp này, các biến độc lập tuần tự được đưa vào phương trình hồi quy cho đến khi phương trình mô tả thỏa đáng dữ liệu ban đầu. Việc bao gồm các biến được xác định bằng cách sử dụng tiêu chí F. Ở mỗi bước, tất cả các biến được xem qua và tìm thấy biến đóng góp lớn nhất vào sự khác biệt giữa các tập hợp. Biến này phải được đưa vào mô hình cho bước này và chuyển sang bước tiếp theo.

Trong trường "Intercept" (thuật ngữ hồi quy tự do), bạn có thể chọn đưa nó vào phương trình ("Bao gồm trong mô hình") hoặc bỏ qua nó và coi nó bằng 0 ("Đặt thành 0").

Tham số "Tolerance" là dung sai của các biến. Được xác định bằng 1 trừ đi bình phương của hệ số đa tương quan biến này với tất cả các biến độc lập khác trong phương trình hồi quy. Do đó, dung sai của một biến càng nhỏ, thì biến đó càng có nhiều đóng góp vào phương trình hồi quy. Nếu dung sai của bất kỳ biến nào trong phương trình hồi quy bằng hoặc gần bằng 0, thì phương trình hồi quy không thể được đánh giá. Do đó, nên đặt tham số dung sai là 0,05 hoặc 0,1.

Tham số “hồi quy Ridge; lambda: "được sử dụng khi các biến độc lập có tương quan với nhau cao và các ước lượng mạnh mẽ cho các hệ số của phương trình hồi quy không thể thu được thông qua bình phương nhỏ nhất. Hằng số được chỉ định (lambda) sẽ được thêm vào đường chéo của ma trận tương quan, sau đó sẽ được chuẩn hóa lại (sao cho tất cả các phần tử đường chéo đều bằng 1,0). Nói cách khác, tham số này làm giảm các hệ số tương quan một cách giả tạo để có thể tính toán các ước tính mạnh mẽ hơn (nhưng chệch hướng) của các tham số hồi quy. Trong trường hợp của chúng tôi, tham số này không được sử dụng.

Tùy chọn "Xử lý / in hàng loạt" được sử dụng khi cần chuẩn bị ngay lập tức một số bảng cho báo cáo, phản ánh kết quả và quá trình phân tích hồi quy. Tùy chọn này rất hữu ích khi bạn muốn in hoặc phân tích kết quả của phân tích hồi quy từng bước ở mỗi bước.

Trên tab “Stepwise” (Hình 31), bạn có thể đặt các tham số của điều kiện bao gồm (“F để nhập”) hoặc loại trừ (“F để loại bỏ”) cho các biến khi xây dựng phương trình hồi quy, cũng như số lượng các bước để xây dựng phương trình (“Số bước”).

Hình 31 - Tab “Stepwise” của cửa sổ để chọn một phương pháp và thiết lập các tham số để xây dựng một phương trình hồi quy

F là giá trị của tiêu chí F.

Nếu, trong quá trình phân tích từng bước có bao gồm, cần tất cả hoặc hầu hết tất cả các biến nhập vào phương trình hồi quy, thì cần phải đặt giá trị “F để nhập” ở mức nhỏ nhất (0,0001) và đặt giá trị “F để loại bỏ” giá trị ở mức tối thiểu là tốt.

Nếu trong quá trình phân tích từng bước với một ngoại lệ, cần phải loại bỏ tất cả các biến (từng biến một) khỏi phương trình hồi quy, thì cần phải đặt giá trị của "F to enter" rất lớn, ví dụ 999, và đặt giá trị giá trị của "F để loại bỏ" gần với "F để nhập".

Cần nhớ rằng giá trị của tham số "F to remove" phải luôn nhỏ hơn "F to enter".

Tùy chọn "Hiển thị kết quả" có hai tùy chọn:

2) Ở mỗi bước - hiển thị kết quả phân tích ở mỗi bước.

Sau khi nhấp vào nút "OK" trong cửa sổ lựa chọn phương pháp phân tích hồi quy, một cửa sổ kết quả phân tích sẽ xuất hiện (Hình 32).

Hình 32 - Cửa sổ kết quả phân tích

Hình 33 - Tóm tắt kết quả phân tích hồi quy

Theo kết quả phân tích, hệ số xác định. Điều này có nghĩa là hồi quy đã xây dựng giải thích 99,987% sự lan truyền của các giá trị so với giá trị trung bình, tức là giải thích gần như tất cả sự thay đổi của các biến.

Tầm quan trọng lớn và mức ý nghĩa của nó cho thấy rằng hồi quy đã xây dựng có ý nghĩa rất lớn.

Để xem kết quả hồi quy tóm tắt, hãy nhấp vào nút "Tóm tắt: Kết quả hồi quy". Màn hình sẽ hiển thị bảng tính với kết quả phân tích (Hình 33).

Cột thứ ba ("B") hiển thị các ước tính về các tham số chưa biết của mô hình, tức là hệ số của phương trình hồi quy.

Do đó, hồi quy bắt buộc trông giống như:

Phương trình hồi quy được xây dựng định tính có thể được hiểu như sau:

1) Chi phí của hệ thống PDM tăng lên khi số lượng các chức năng được triển khai để quản lý thay đổi, quy trình làm việc và lập kế hoạch tăng lên, cũng như nếu chức năng hỗ trợ mô hình sản phẩm được đưa vào hệ thống;

2) Chi phí của hệ thống PDM giảm khi tăng các chức năng quản lý cấu hình được triển khai và với sự gia tăng khả năng tìm kiếm.

Nhiệm vụ của hồi quy tuyến tính bội là xây dựng mô hình tuyến tính về mối quan hệ giữa tập hợp các yếu tố dự báo liên tục và một biến phụ thuộc liên tục. Phương trình hồi quy sau thường được sử dụng:

Đây một tôi- hệ số hồi quy, b 0- thành viên miễn phí (nếu được sử dụng), e- một phần tử chứa một lỗi - các giả thiết khác nhau được đưa ra về nó, tuy nhiên, các giả thiết này thường bị giảm xuống tính bình thường của phân phối với mat véc tơ bằng không. kỳ vọng và ma trận tương quan.

Như là mô hình tuyến tính nhiều nhiệm vụ được mô tả tốt trong các Các môn học ví dụ: kinh tế, công nghiệp, y học. Điều này là do một số nhiệm vụ có tính chất tuyến tính.

Hãy lấy một ví dụ đơn giản. Hãy để nó được yêu cầu để dự đoán chi phí đặt một con đường theo các thông số đã biết của nó. Đồng thời, chúng tôi có dữ liệu về các con đường đã được rải, cho biết chiều dài, độ sâu của việc rải, lượng vật liệu làm việc, số lượng công nhân, v.v.

Rõ ràng rằng chi phí của con đường cuối cùng sẽ trở thành bằng tổng các giá trị của tất cả các yếu tố này một cách riêng biệt. Sẽ cần một lượng nhất định, ví dụ, đá dăm, với giá đã biết cho mỗi tấn, một lượng nhựa đường nhất định, cũng với giá đã biết.

Có thể lâm nghiệp sẽ phải đốn hạ để đẻ, điều này cũng dẫn đến chi phí phát sinh thêm. Tất cả những điều này cùng nhau sẽ tạo ra chi phí tạo ra con đường.

Trong trường hợp này, mô hình sẽ bao gồm một thành viên tự do, chẳng hạn, người này sẽ chịu trách nhiệm về chi phí tổ chức (các chi phí này gần như giống nhau đối với tất cả các công việc xây dựng và lắp đặt mức độ nhất định) hoặc thuế.

Lỗi sẽ bao gồm các yếu tố mà chúng tôi đã không tính đến khi xây dựng mô hình (ví dụ: thời tiết trong quá trình xây dựng - hoàn toàn không thể tính đến được).

Ví dụ: Phân tích nhiều hồi quy

Đối với ví dụ này, một số mối tương quan có thể có của tỷ lệ nghèo và sức mạnh dự đoán tỷ lệ gia đình dưới mức nghèo sẽ được phân tích. Do đó, chúng tôi sẽ coi biến đặc trưng cho tỷ lệ gia đình dưới mức nghèo là biến phụ thuộc và các biến còn lại là biến dự báo liên tục.

Hệ số hồi quy

Để tìm ra biến giải thích nào đóng góp nhiều hơn vào việc dự đoán nghèo đói, chúng tôi kiểm tra các hệ số chuẩn hóa (hoặc Beta) của hồi quy.

Cơm. 1. Ước lượng các tham số của hệ số hồi quy.

Hệ số Beta là hệ số mà bạn sẽ nhận được nếu bạn điều chỉnh tất cả các biến thành giá trị trung bình bằng 0 và độ lệch chuẩn là 1. Do đó, độ lớn của các hệ số Beta này cho phép bạn so sánh mức độ đóng góp tương đối của mỗi biến độc lập với biến phụ thuộc . Như bảng trên có thể thấy, dân số thay đổi kể từ năm 1960 (POP_CHING), phần trăm dân số sống trong làng (PT_RURAL) và số người làm việc trong nông nghiệp(N_Empld) là những yếu tố dự báo quan trọng nhất về tỷ lệ nghèo đói, như chỉ chúng là có ý nghĩa thống kê (khoảng tin cậy 95% của chúng không bao gồm 0). Hệ số hồi quy của sự thay đổi dân số kể từ năm 1960 (Pop_Chng) là âm, vì vậy gia tăng dân số càng nhỏ thì nhiều gia đình hơn những người sống dưới mức nghèo ở quận tương ứng. Hệ số hồi quy cho dân số (%) sống trong làng (Pt_Rural) là dương, tức là phần trăm càng lớn dân làng, chủ đề cấp độ cao hơn nghèo nàn.

Ý nghĩa của các hiệu ứng dự báo

Hãy xem Bảng với các tiêu thức ý nghĩa.

Cơm. 2. Kết quả đồng thời cho mỗi biến đã cho.

Như bảng này cho thấy, chỉ có tác động của 2 biến là có ý nghĩa thống kê: sự thay đổi dân số từ năm 1960 (Pop_Chng) và tỷ lệ dân số sống trong làng (Pt_Rural), p< .05.

Phân tích dư lượng. Sau khi phù hợp với một phương trình hồi quy, hầu như luôn luôn cần thiết phải kiểm tra các giá trị và phần dư dự đoán. Ví dụ, các giá trị ngoại lệ lớn có thể làm sai lệch kết quả và dẫn đến kết luận sai lầm.

Biểu đồ đường phát thải

Thông thường cần phải kiểm tra lượng dư ban đầu hoặc lượng dư đã tiêu chuẩn hóa đối với các giá trị ngoại lai lớn.

Cơm. 3. Số lần quan sát và số dư.

Tỉ lệ trục đứng của biểu đồ này được vẽ theo sigma, tức là độ lệch chuẩn thức ăn thừa. Nếu một hoặc nhiều quan sát không nằm trong khoảng ± 3 lần sigma thì có thể loại trừ những quan sát đó (điều này có thể dễ dàng thực hiện thông qua các điều kiện lựa chọn quan sát) và chạy lại phân tích để đảm bảo rằng kết quả không bị thay đổi bởi những quan sát này. những ngoại lệ.

Khoảng cách Mahalanobis

Hầu hết các sách giáo khoa thống kê dành nhiều thời gian cho các giá trị ngoại lai và phần dư trên biến phụ thuộc. Tuy nhiên, vai trò của các yếu tố ngoại lai trong các yếu tố dự đoán thường vẫn chưa được xác định. Ở phía bên của biến dự báo, có một danh sách các biến tham gia với các trọng số khác nhau (hệ số hồi quy) trong việc dự đoán biến phụ thuộc. Bạn có thể coi các biến độc lập như một không gian đa chiều, trong đó mọi quan sát đều có thể được thực hiện. Ví dụ: nếu bạn có hai biến độc lập với tỷ lệ cược ngang nhau hồi quy, có thể xây dựng biểu đồ phân tán của hai biến này và đặt mỗi quan sát trên biểu đồ này. Sau đó, người ta có thể đánh dấu giá trị trung bình trên biểu đồ này và tính toán khoảng cách từ mỗi lần quan sát đến giá trị trung bình này (cái gọi là trọng tâm) trong không gian hai chiều. Đây là ý tưởng chính đằng sau việc tính toán khoảng cách Mahalanobis. Bây giờ hãy nhìn vào biểu đồ của biến số thay đổi dân số kể từ năm 1960.

Cơm. 4. Biểu đồ phân bố khoảng cách Mahalanobis.

Từ biểu đồ cho thấy có một ngoại lệ ở khoảng cách Mahalanobis.

Cơm. 5. Giá trị quan sát, dự đoán và giá trị còn lại.

Hãy để ý xem Quận Shelby (ở hàng đầu tiên) nổi bật như thế nào so với các quận còn lại. Nếu bạn nhìn vào dữ liệu ban đầu, bạn sẽ thấy rằng trên thực tế, Quận Shelby có nhiều nhất con số lớn những người làm việc trong nông nghiệp (biến N_Empld). Sẽ khôn ngoan hơn nếu biểu thị nó dưới dạng phần trăm thay vì số tuyệt đối, trong trường hợp đó, khoảng cách Mahalanobis của Shelby County có lẽ sẽ không lớn so với các quận khác. Rõ ràng, Shelby County là một ngoại lệ.

Tàn dư đã loại bỏ

Một số liệu thống kê rất quan trọng khác cho phép người ta đánh giá mức độ nghiêm trọng của vấn đề ngoại lệ là phần dư bị loại bỏ. Đây là các phần dư được tiêu chuẩn hóa cho các trường hợp tương ứng, thu được bằng cách loại bỏ trường hợp đó khỏi phân tích. Hãy nhớ rằng quy trình hồi quy bội điều chỉnh bề mặt hồi quy để hiển thị mối quan hệ giữa biến phụ thuộc và yếu tố dự đoán. Nếu một quan sát là ngoại lệ (như Shelby County), thì sẽ có xu hướng "kéo" bề mặt hồi quy về phía ngoại lệ đó. Kết quả là, nếu quan sát tương ứng bị loại bỏ, sẽ thu được một bề mặt khác (và hệ số Beta). Do đó, nếu phần dư đã loại bỏ rất khác với phần dư chuẩn hóa, thì bạn sẽ có lý do để cho rằng Phân tích hồi quy bị bóp méo nghiêm trọng bởi quan sát có liên quan. Trong ví dụ này, phần dư bị loại bỏ cho Shelby County cho thấy rằng đây là một phần ngoại lai làm sai lệch nghiêm trọng việc phân tích. Biểu đồ phân tán cho thấy rõ phần ngoại vi.

Cơm. 6. Biến Thặng dư ban đầu và Thặng dư thay thế cho biết tỷ lệ phần trăm các gia đình sống dưới mức nghèo khổ.

Hầu hết chúng đều có cách diễn giải ít nhiều rõ ràng, tuy nhiên, hãy chuyển sang đồ thị xác suất thông thường.

Như đã đề cập, hồi quy bội giả định rằng có mối quan hệ tuyến tính giữa các biến trong phương trình và phân phối chuẩn của phần dư. Nếu những giả định này bị vi phạm, thì kết luận có thể không chính xác. Đồ thị xác suất thông thường của phần dư sẽ cho bạn biết liệu có vi phạm nghiêm trọng những giả định này hay không.

Cơm. 7. Đồ thị xác suất thông thường; thức ăn thừa ban đầu.

Biểu đồ này được xây dựng theo cách sau. Đầu tiên, các phần dư tiêu chuẩn hóa được xếp theo thứ tự. Từ các xếp hạng này, bạn có thể tính giá trị z (tức là giá trị tiêu chuẩn phân phối chuẩn) dựa trên giả định rằng dữ liệu tuân theo phân phối chuẩn. Các giá trị z này được vẽ dọc theo trục y trên biểu đồ.

Nếu phần dư quan sát được (được vẽ dọc theo trục x) được phân phối bình thường, thì tất cả các giá trị sẽ nằm trên một đường thẳng trên biểu đồ. Trên đồ thị của chúng ta, tất cả các điểm đều rất gần với đường cong. Nếu phần dư không được phân phối bình thường, thì chúng sẽ lệch khỏi đường này. Các ngoại lệ cũng trở nên đáng chú ý trong biểu đồ này.

Nếu mất sự thống nhất và dữ liệu dường như tạo thành một đường cong rõ ràng (ví dụ: hình chữ S) về đường thẳng, thì biến phụ thuộc có thể được chuyển đổi theo một cách nào đó (ví dụ: phép biến đổi logaritđể "giảm bớt" phần đuôi của bản phân phối, v.v.). Một cuộc thảo luận về phương pháp này nằm ngoài phạm vi của ví dụ này (Neter, Wasserman và Kutner, 1985, trang 134-141, một cuộc thảo luận về các phép biến đổi loại bỏ tính không chuẩn và không tuyến tính của dữ liệu được trình bày). Tuy nhiên, các nhà nghiên cứu thường chỉ tiến hành phân tích một cách trực tiếp mà không kiểm tra các giả định liên quan, dẫn đến kết luận sai lầm.