Tiểu sử Đặc trưng Phân tích

Dự báo bằng phương trình hồi quy tuyến tính. Dự đoán mô hình hồi quy nhiều

Hồi quy tuyến tính là loại phân tích hồi quy được sử dụng phổ biến nhất. Sau đây là ba nhiệm vụ chính được giải quyết trong nghiên cứu tiếp thị sử dụng tuyến tính Phân tích hồi quy.

1. Xác định thông số sản phẩm cụ thể nào ảnh hưởng đến Ấn tượng chung người tiêu dùng từ sản phẩm này. Xác lập phương hướng và sức mạnh của ảnh hưởng này. Tính toán giá trị của tham số kết quả sẽ là gì đối với các giá trị nhất định của các tham số cụ thể. Ví dụ, cần phải xác định độ tuổi của người trả lời và thu nhập trung bình hàng tháng của anh ta ảnh hưởng như thế nào đến tần suất mua các thanh sữa đông tráng men.

2. Xác định những đặc điểm cụ thể nào của sản phẩm ảnh hưởng đến ấn tượng chung của người tiêu dùng về sản phẩm này (xây dựng kế hoạch lựa chọn sản phẩm của người tiêu dùng). Thiết lập mối quan hệ giữa các thông số cụ thể khác nhau về sức mạnh và hướng ảnh hưởng đến ấn tượng tổng thể. Ví dụ, có những đánh giá của người được hỏi về hai đặc điểm của đồ nội thất của nhà sản xuất X - giá cả và chất lượng - cũng như Tổng điểmđồ nội thất từ ​​nhà sản xuất này. Cần phải xác định thông số nào trong số hai thông số là quan trọng nhất đối với người mua khi lựa chọn nhà sản xuất đồ nội thất và theo tỷ lệ cụ thể nào thì ý nghĩa đối với người mua của hai yếu tố này (thông số Giá có ý nghĩa gấp x lần đối với người mua khi lựa chọn đồ nội thất hơn tham số Chất lượng).

3. Dự đoán bằng đồ thị về hành vi của một biến tùy thuộc vào sự thay đổi của biến khác (chỉ được sử dụng cho hai biến). Theo quy định, mục đích của việc tiến hành phân tích hồi quy trong trường hợp này không phải là quá trình tính toán phương trình, mà là việc xây dựng một xu hướng (nghĩa là, một đường cong xấp xỉ thể hiện bằng đồ thị mối quan hệ giữa các biến). Theo phương trình kết quả, có thể dự đoán giá trị của một biến sẽ là bao nhiêu khi thay đổi (tăng hoặc giảm) một biến khác. Ví dụ, cần phải thiết lập bản chất của mối quan hệ giữa tỷ lệ người được hỏi biết đến các nhãn hiệu sữa đông tráng men khác nhau và tỷ lệ người được hỏi mua các nhãn hiệu này. Cũng cần phải tính toán xem tỷ lệ người mua thương hiệu phô mai x sẽ tăng lên bao nhiêu khi nhận thức của người tiêu dùng tăng 10% (do kết quả của một chiến dịch quảng cáo).

Tùy thuộc vào loại vấn đề đang được giải quyết, loại phân tích hồi quy tuyến tính được chọn. Trong hầu hết các trường hợp (1 và 2), hồi quy tuyến tính bội được sử dụng để kiểm tra ảnh hưởng của một số biến độc lập lên một biến phụ thuộc. Trong trường hợp 3, chỉ áp dụng hồi quy tuyến tính đơn giản, trong đó chỉ có một biến độc lập và một biến phụ thuộc tham gia. Điều này là do kết quả chính của phân tích trong trường hợp 3 là đường xu hướng, chỉ có thể được giải thích một cách logic trong không gian hai chiều. TẠI trường hợp chung kết quả của phân tích hồi quy là xây dựng một phương trình hồi quy có dạng: y = a + b, x, + b2x2 + ... + bn xn, cho phép bạn tính giá trị của biến phụ thuộc cho các giá trị khác nhau Của các biến độc lập.

Trong bảng. 4.6 trình bày các đặc điểm chính của các biến liên quan đến phân tích.

Bảng 4.6. Đặc điểm chính của các biến liên quan đến phân tích hồi quy tuyến tính

Do thực tế là cả nhiều và hồi quy đơn giảnđược xây dựng trong SPSS theo cùng một cách, hãy xem xét trường hợp chung của nhiều hồi quy tuyến tính như thể hiện đầy đủ nhất bản chất của phương pháp thống kê được mô tả. Hãy xem cách vẽ đường xu hướng cho mục đích dự báo thống kê.

Dữ liệu ban đầu:

Trong một cuộc khảo sát, những người trả lời bay ở một trong ba hạng ghế (hạng Nhất, hạng Thương gia hoặc hạng Phổ thông) được yêu cầu đánh giá trên thang điểm năm - từ 1 (rất kém) đến 5 (xuất sắc) - các đặc điểm sau của dịch vụ trên máy bay máy bay của hãng hàng không X: tiện nghi khoang hành khách, tiếp viên, suất ăn trên chuyến bay, giá vé, rượu, bộ dụng cụ, chương trình âm thanh, chương trình video và báo chí. Những người được hỏi cũng được yêu cầu đưa ra đánh giá tổng thể (cuối cùng) về dịch vụ trên máy bay của một hãng hàng không nhất định.

Mỗi hạng chuyến bay yêu cầu:

1) Xác định các thông số dịch vụ trên tàu quan trọng nhất đối với người trả lời.

2) Thiết lập tác động của xếp hạng dịch vụ tư nhân trên máy bay đối với trải nghiệm tổng thể của hành khách trên chuyến bay.

Mở hộp thoại Hồi quy tuyến tính bằng cách sử dụng trình đơn Phân tích tuyến tính hồi quy. Từ danh sách bên trái, chọn biến phụ thuộc để phân tích. Đây sẽ là đánh giá tổng thể của dịch vụ trên tàu. Đặt nó trong khu vực Phụ thuộc. Tiếp theo, trong danh sách bên trái, hãy chọn các biến độc lập để phân tích: các tham số dịch vụ tư nhân trên tàu - và đặt chúng vào (các) vùng Độc lập.

Có một số phương pháp để tiến hành phân tích hồi quy: nhập, từng bước, tiến và lùi. Nếu không đi sâu vào các yếu tố thống kê, chúng tôi sẽ tiến hành phân tích hồi quy bằng cách sử dụng phương pháp từng bước lạc hậu như là phổ quát nhất và có liên quan cho tất cả các ví dụ nghiên cứu tiếp thị.

Vì nhiệm vụ phân tích có yêu cầu tiến hành phân tích hồi quy trong ngữ cảnh của ba lớp bay, hãy chọn biến biểu thị lớp (q5) trong danh sách bên trái và di chuyển nó đến vùng Biến lựa chọn. Sau đó nhấp vào nút Quy tắc để đặt giá trị cụ thể cho biến này cho phân tích hồi quy. Cần lưu ý rằng trong một lần lặp, chỉ có thể xây dựng một hồi quy trong bối cảnh của một hạng chuyến bay. Trong tương lai, tất cả các bước phải được lặp lại trước tiên theo số lớp (3), mỗi lần chọn lớp tiếp theo.

Nếu không cần thực hiện phân tích hồi quy trong bất kỳ phần nào, hãy để trống trường Biến lựa chọn.

Vì vậy, hộp thoại Đặt Quy tắc mở ra trên màn hình, trong đó bạn phải chỉ định hạng chuyến bay mà bạn muốn xây dựng mô hình hồi quy. Chọn hạng phổ thông được mã hóa là 3 (Hình 4.26).

Trong nhiều hơn nữa ca khó, khi được yêu cầu xây dựng mô hình hồi quy trong ngữ cảnh có ba biến trở lên, bạn nên sử dụng lựa chọn dữ liệu có điều kiện (xem phần 1.5.1). Ví dụ, nếu ngoài hạng bay, còn có nhu cầu xây dựng riêng một mô hình hồi quy cho người trả lời (nam và nữ), thì cần phải lựa chọn có điều kiện bảng câu hỏi từ người trả lời là nam trước khi mở hộp thoại Hồi quy tuyến tính. Hơn nữa, phân tích hồi quy được thực hiện theo sơ đồ đã mô tả. Để xây dựng hồi quy cho phụ nữ, bạn nên lặp lại tất cả các bước từ đầu: đầu tiên, chỉ chọn bảng câu hỏi của những người trả lời là nữ và sau đó xây dựng mô hình hồi quy cho họ.

Nhấp vào nút Tiếp tục trong hộp thoại Đặt Quy tắc sẽ đưa bạn trở lại hộp thoại Hồi quy tuyến tính chính. Bước cuối cùng trước khi bắt đầu quy trình xây dựng mô hình hồi quy là chọn mục Chẩn đoán cộng gộp trong hộp thoại xuất hiện khi bạn nhấp vào nút Thống kê (Hình 4.27). Việc thiết lập một yêu cầu để chẩn đoán sự hiện diện của tính cộng tuyến giữa các biến độc lập tránh ảnh hưởng của đa cộng tuyến, trong đó một số biến độc lập có thể có mối tương quan chặt chẽ đến mức trong mô hình hồi quy, về nguyên tắc, chúng có nghĩa là giống nhau (điều này là không thể chấp nhận được) .


Chúng ta hãy xem xét các yếu tố chính của báo cáo xây dựng mô hình hồi quy (cửa sổ SPSS Viewer), chứa dữ liệu quan trọng nhất đối với nhà nghiên cứu. Cần lưu ý rằng tất cả các bảng được trình bày trong báo cáo Đầu ra chứa một số khối tương ứng với số bước SPSS khi xây dựng mô hình. Tại mỗi bước, với phương pháp lùi được sử dụng, từ danh sách đầy đủ các biến độc lập được đưa vào mô hình ban đầu, sử dụng hệ số tương quan từng phần nhỏ nhất, các biến tuần tự bị loại trừ - cho đến khi hệ số hồi quy tương ứng không có ý nghĩa (Sig> 0,05). Trong ví dụ của chúng tôi, các bảng bao gồm ba khối (hồi quy được xây dựng theo ba bước). Khi giải thích kết quả của phân tích hồi quy, người ta chỉ nên chú ý đến khối cuối cùng (trong trường hợp của chúng tôi là 3).

Điều đầu tiên cần xem là bảng ANOVA (Hình 4.29). Trong bước thứ ba, ý ​​nghĩa thống kê (cột Sig) phải nhỏ hơn hoặc bằng 0,05.

Tiếp theo, hãy xem xét bảng Tóm tắt Mô hình, bảng này chứa thông tin quan trọng về mô hình đã xây dựng (Hình 4.30). Hệ số xác định R là một đặc trưng của độ mạnh của tổng kết nối tuyến tính giữa các biến trong mô hình hồi quy. Nó cho thấy các biến độc lập được chọn có khả năng xác định hành vi của biến phụ thuộc tốt như thế nào. Hệ số xác định càng cao (nằm trong khoảng từ 0 đến 1), thì các biến độc lập được chọn có khả năng xác định hành vi của biến phụ thuộc càng tốt. Yêu cầu đối với hệ số R cũng giống như đối với hệ số tương quan (xem Bảng 4.4): trong trường hợp chung, nó phải vượt ít nhất 0,5. Trong ví dụ của chúng tôi, R = 0,66, là một giá trị có thể chấp nhận được.



Cũng thế đặc điểm quan trọng mô hình hồi quy là hệ số R2, cho biết tỷ trọng của tổng biến phụ thuộc được mô tả bằng tập hợp các biến độc lập đã chọn. Giá trị của R2 thay đổi từ 0 đến 1. Theo quy luật, chỉ số này phải vượt quá 0,5 (giá trị này càng cao thì chỉ báo được xây dựng càng nhiều mô hình hồi quy). Trong ví dụ của chúng tôi, R2 = ■ 0,43 - điều này có nghĩa là mô hình hồi quy chỉ mô tả 43% các trường hợp (phương sai trong ước tính chuyến bay cuối cùng). Do đó, khi giải thích các kết quả của phân tích hồi quy, người ta phải liên tục ghi nhớ một hạn chế đáng kể: mô hình đã xây dựng chỉ có giá trị đối với 43% trường hợp.

Chỉ số thực tế có ý nghĩa thứ ba xác định chất lượng của mô hình hồi quy là giá trị của sai số chuẩn của các phép tính (cột Std. Sai số của Ước lượng). Chỉ báo này thay đổi từ 0 đến 1. Nó càng nhỏ thì mô hình càng đáng tin cậy (nói chung, chỉ báo này phải nhỏ hơn 0,5). Trong ví dụ của chúng tôi, sai số là 0,42, đây là một kết quả được đánh giá quá cao nhưng nhìn chung có thể chấp nhận được.

Dựa trên bảng AN OVA và bảng Tóm tắt mô hình, người ta có thể đánh giá tính phù hợp thực tế của mô hình hồi quy đã xây dựng. Xét rằng AN OVA có ý nghĩa rất cao (nhỏ hơn 0,001), hệ số xác định vượt quá 0,6 và sai số tiêu chuẩn của phép tính nhỏ hơn 0,5, chúng ta có thể kết luận rằng, có tính đến giới hạn, mô hình mô tả 43% tổng phương sai, nghĩa là, mô hình hồi quy đã xây dựng có ý nghĩa thống kê và có thể chấp nhận được trên thực tế.


Sau khi chúng tôi đã nêu một mức chất lượng có thể chấp nhận được của mô hình hồi quy, chúng tôi có thể bắt đầu giải thích kết quả của nó. Các kết quả thực tế chính của hồi quy được chứa trong bảng Hệ số (Hình 4.31). Bên dưới bảng, bạn có thể xem biến nào là biến phụ thuộc (điểm dịch vụ tổng thể trên máy bay) và mô hình hồi quy đã được xây dựng cho hạng chuyến bay nào (hạng phổ thông). Trong bảng Hệ số, bốn chỉ số thực tế có ý nghĩa: VIF, Beta, B và Std. lỗi. Chúng ta hãy xem xét tuần tự cách chúng nên được giải thích.

Trước hết, cần loại trừ khả năng xảy ra tình trạng đa cộng tuyến (xem ở trên), trong đó một số biến có thể biểu thị gần như giống nhau. Để làm điều này, bạn cần phải nhìn vào giá trị VIF bên cạnh mỗi biến độc lập. Nếu giá trị của chỉ tiêu này nhỏ hơn 10, thì ảnh hưởng của đa cộng tuyến không được quan sát và mô hình hồi quy có thể chấp nhận được để giải thích thêm. Điểm càng cao, các biến càng có liên quan. Nếu bất kỳ biến nào vượt quá 10 VIF, thì hồi quy phải được tính toán lại mà không có biến độc lập đó. TẠI ví dụ này giá trị của R2 sẽ tự động giảm và giá trị của số hạng tự do (hằng số) sẽ tăng lên, tuy nhiên, mặc dù vậy, mô hình hồi quy mới sẽ được chấp nhận trên thực tế hơn mô hình đầu tiên.

Cột đầu tiên của bảng Hệ số chứa các biến độc lập tạo nên phương trình hồi quy (thỏa mãn yêu cầu về ý nghĩa thống kê). Trong trường hợp của chúng tôi, mô hình hồi quy bao gồm tất cả các đặc điểm cụ thể của dịch vụ trên máy bay, ngoại trừ các chương trình âm thanh. Các biến bị loại trừ có trong bảng Các biến bị loại trừ (không hiển thị ở đây). Do đó, chúng ta có thể rút ra kết luận đầu tiên rằng trải nghiệm tổng thể của hành khách trên chuyến bay bị ảnh hưởng bởi bảy thông số: sự thoải mái trong cabin, công việc của tiếp viên, đồ ăn trong chuyến bay, đồ uống có cồn, bộ dụng cụ tiện nghi, chương trình video và báo chí.

Sau khi chúng tôi đã xác định thành phần của các thông số hình thành ấn tượng cuối cùng của chuyến bay, chúng tôi có thể xác định hướng và mức độ ảnh hưởng của từng thông số cụ thể lên nó. Điều này cho phép bạn tạo một cột Beta có chứa các hệ số hồi quy được chuẩn hóa. Các hệ số này cũng giúp bạn có thể so sánh mức độ ảnh hưởng của các tham số giữa chúng với nhau. Dấu (+ hoặc -) ở phía trước -coe factor thể hiện hướng của mối quan hệ giữa các biến độc lập và phụ thuộc. -Coefficients dương chỉ ra rằng sự gia tăng giá trị của tham số cụ thể này sẽ làm tăng biến phụ thuộc (trong trường hợp của chúng tôi, tất cả các biến độc lập hoạt động theo cách tương tự). Hệ số âm có nghĩa là khi thông số cụ thể này tăng lên, điểm tổng thể sẽ giảm. Theo quy luật, khi xác định mối quan hệ giữa các ước lượng tham số, điều này chỉ ra một lỗi và có nghĩa là mẫu quá nhỏ.

Ví dụ, nếu - hệ số của thông số hiệu suất của tiếp viên hàng không đứng trước dấu -, thì nó phải được hiểu như sau: tiếp viên làm việc càng tồi thì trải nghiệm tổng thể của hành khách trên chuyến bay càng trở nên tốt hơn. Cách giải thích như vậy là vô nghĩa và không phản ánh tình trạng thực của sự việc, tức là sai. Trong trường hợp này, tốt hơn nên tính toán lại hồi quy mà không có tham số này; thì tỷ lệ biến thiên trong điểm số cuối cùng được mô tả bởi tham số bị loại trừ sẽ được quy cho hằng số (làm tăng nó). Theo đó, phần trăm của tổng phương sai được mô tả bởi mô hình hồi quy (giá trị R2) cũng sẽ giảm xuống. Tuy nhiên, điều này sẽ khôi phục lại sự liên quan về ngữ nghĩa.

Chúng tôi nhấn mạnh một lần nữa rằng nhận xét được đưa ra có giá trị đối với trường hợp của chúng tôi (ước lượng tham số). Hệ số phủ định - có thể đúng và phản ánh thực tế ngữ nghĩa trong các trường hợp khác. Ví dụ, khi thu nhập của những người được hỏi giảm dẫn đến việc tăng tần suất mua hàng hóa giá rẻ. Trong bảng, bạn có thể thấy rằng hai thông số ảnh hưởng đến ấn tượng chung của hành khách trên chuyến bay ở mức độ lớn nhất: công việc của tiếp viên hàng không và sự thoải mái của cabin (- hệ số 0,21 mỗi thông số). Ngược lại, việc hình thành đánh giá cuối cùng về dịch vụ trên tàu xảy ra ở mức độ ít nhất do ấn tượng của dịch vụ với đồ uống có cồn (0,08). Đồng thời, hai tham số đầu tiên có gần gấp ba lần ảnh hưởng mạnh mẽ trên đánh giá cuối cùng của chuyến bay hơn

Rượu. Dựa trên tiêu chuẩn hóa (hệ số 3 hồi quy), có thể xây dựng đánh giá mức độ ảnh hưởng của các thông số dịch vụ tư nhân trên máy bay đối với ấn tượng chung của hành khách đi máy bay từ chuyến bay, chia chúng thành ba nhóm theo mức độ ảnh hưởng:

■ các thông số quan trọng nhất;

■ các tham số có ý nghĩa trung bình;

■ các thông số có tầm quan trọng thấp đối với người trả lời (Hình 4.32).

Cột ngoài cùng bên phải chứa - hệ số nhân với 100 - để thuận tiện cho việc so sánh các tham số với nhau.



Xếp hạng này cũng có thể được hiểu là xếp hạng có ý nghĩa đối với những người trả lời về các thông số dịch vụ trên tàu khác nhau (trong trường hợp chung là sơ đồ lựa chọn). Vâng, hầu hết các yếu tố quan trọng là hai đầu tiên (1-2); ba tham số sau (3-5) có ý nghĩa trung bình đối với hành khách; hai yếu tố cuối cùng (6-7) có tầm quan trọng tương đối ít.

Phân tích hồi quy cho phép bạn xác định động cơ thực sự, sâu sắc của người trả lời trong việc hình thành ấn tượng chung về sản phẩm. Như thực tế cho thấy, mức độ xấp xỉ này không thể đạt được bằng các phương pháp thông thường - ví dụ: chỉ cần hỏi người trả lời: Yếu tố nào sau đây có tác động lớn nhất đến trải nghiệm bay chung của bạn khi bay với hãng hàng không của chúng tôi? Ngoài ra, phân tích hồi quy giúp có thể đánh giá chính xác mức độ quan trọng của một tham số đối với người trả lời so với tham số khác và trên cơ sở này phân loại các tham số là quan trọng, có ý nghĩa trung bình và có ý nghĩa nhỏ.

Cột B của bảng Hệ số chứa các hệ số hồi quy (không chuẩn hóa). Chúng phục vụ cho việc hình thành chính phương trình hồi quy, theo đó có thể tính giá trị của biến phụ thuộc tại những nghĩa khác nhau sống độc lập.

Chuỗi đặc biệt Hằng số chứa Thông tin quan trọng về mô hình hồi quy thu được: giá trị của biến phụ thuộc tại giá trị không biến độc lập. Giá trị của hằng số càng cao thì danh sách các biến độc lập được lựa chọn càng xấu, phù hợp để mô tả hành vi của biến phụ thuộc. Trong trường hợp chung, người ta tin rằng hằng số không được là hệ số lớn nhất trong phương trình hồi quy (hệ số của ít nhất một biến phải lớn hơn hằng số). Tuy nhiên, trong thực tế nghiên cứu marketing, số hạng tự do thường lớn hơn tất cả các hệ số cộng lại. Điều này chủ yếu là do kích thước mẫu tương đối nhỏ mà các nhà tiếp thị phải làm việc, cũng như việc điền vào bảng câu hỏi không chính xác (một số người trả lời có thể không đánh giá bất kỳ thông số nào). Trong trường hợp của chúng ta, giá trị của hằng số nhỏ hơn 1, đó là một kết quả rất tốt.

Vì vậy, kết quả của việc xây dựng một mô hình hồi quy, chúng ta có thể hình thành phương trình hồi quy sau:

SB \ u003d 0,78 + 0,20K + 0,20B + 0,08PP + 0,07C + 0D0N + 0,08V + 0D2P, trong đó

■ SB - đánh giá chung về dịch vụ trên tàu;

■ K - tiện nghi trong cabin;

■ B - công việc của tiếp viên hàng không;

■ PP - bữa ăn trong chuyến bay;

■ C - đồ uống có cồn;

■ H - bộ dụng cụ đường bộ;

■ B - chương trình video;

■ P - nhấn.

Chỉ số cuối cùng nên chú ý khi diễn giải kết quả phân tích hồi quy là sai số chuẩn được tính cho từng hệ số trong phương trình hồi quy (cột Std. Error). Ở mức 95% mức độ tự tin mỗi hệ số có thể lệch khỏi B ± 2 x Std. lỗi. Điều này có nghĩa là, ví dụ, hệ số cho thông số tiện nghi trong cabin (bằng 0,202) trong 95% trường hợp có thể lệch khỏi giá trị cho trước x ± 2 x 0.016 hoặc ± 0.032. Giá trị nhỏ nhất của hệ số sẽ là 0,202 - 0,032 = 0,17; và tối đa là 0,202 + 0,032 = 0,234. Do đó, trong 95% trường hợp, hệ số cho thông số “sự thoải mái trong cabin” thay đổi từ 0,17 đến 0,234 (với giá trị trung bình là 0,202). Tại thời điểm này, việc giải thích các kết quả của phân tích hồi quy có thể được coi là hoàn thành. Trong trường hợp của chúng tôi, bạn nên lặp lại tất cả các bước một lần nữa: đầu tiên đối với hạng thương gia, sau đó đối với hạng phổ thông.

Bây giờ chúng ta hãy xem xét một trường hợp khác mà chúng ta cần biểu diễn mối quan hệ giữa hai biến (một phụ thuộc và một biến độc lập) bằng cách sử dụng phân tích hồi quy bằng đồ thị. Ví dụ: nếu chúng ta lấy xếp hạng cuối cùng của một chuyến bay của hãng hàng không X vào năm 2001 làm biến phụ thuộc S và con số tương tự vào năm 2000 với biến độc lập Vì vậy, thì để xây dựng một phương trình xu hướng (hoặc phương trình hồi quy), chúng ta sẽ cần để xác định các tham số của mối quan hệ S, = a + b x Vậy. Đã xây dựng phương trình đã cho, cũng có thể xây dựng một đường hồi quy và khi biết ước tính cuối cùng ban đầu của chuyến bay, dự đoán giá trị của tham số này cho năm tiếp theo.

Hoạt động này nên bắt đầu bằng việc xây dựng một phương trình hồi quy. Để thực hiện việc này, hãy lặp lại tất cả các bước trên cho hai biến: Ước tính cuối cùng phụ thuộc 2001 và Ước tính cuối cùng độc lập 2000. Bạn sẽ nhận được các hệ số mà sau này bạn có thể xây dựng đường xu hướng (cả trong SPSS và bằng bất kỳ phương tiện nào khác). Trong trường hợp của chúng ta, phương trình hồi quy thu được là: S (= 0,18 + 0,81 x Vậy. Bây giờ hãy xây dựng phương trình đường xu hướng trong SPSS.


Hộp thoại Hồi quy tuyến tính có một công cụ vẽ đồ thị tích hợp sẵn - nút Plots. Tuy nhiên, rất tiếc, công cụ này không cho phép vẽ hai biến trên một biểu đồ: S và So - Để xây dựng xu hướng, bạn cần sử dụng menu Graphs Scatter. Hộp thoại Scatterplot sẽ xuất hiện trên màn hình (Hình 4.32), dùng để chọn loại biểu đồ. Chọn chế độ xem Đơn giản. Số lượng biến độc lập tối đa có thể được hiển thị bằng đồ thị là 2. Do đó, nếu cần phải vẽ biểu đồ sự phụ thuộc của một biến (phụ thuộc) vào hai biến độc lập (ví dụ: nếu chúng ta có dữ liệu không phải cho hai, nhưng cho ba năm), trong cửa sổ Scatterplot phải là 3-D. Phương pháp xây dựng biểu đồ phân tán ba chiều không khác biệt đáng kể so với phương pháp được mô tả để xây dựng biểu đồ hai chiều.

Sau khi nhấp vào nút Xác định, một hộp thoại mới sẽ xuất hiện trên màn hình, được hiển thị trong Hình. 4,34. Đặt biến phụ thuộc (Ước tính cuối cùng năm 2001) vào hộp Trục Y và biến độc lập (Ước tính cuối cùng năm 2000) vào hộp Trục X. Nhấp vào nút 0 K để vẽ biểu đồ phân tán.

Để xây dựng đường xu hướng, hãy nhấp đúp vào biểu đồ kết quả; cửa sổ SPSS Chart Editor sẽ mở ra. Trong cửa sổ này, hãy chọn mục menu Tùy chọn Biểu đồ; sau đó đến mục Tổng trong khu vực Đường vừa vặn; nhấp vào nút Tùy chọn phù hợp. Hộp thoại Fit Line sẽ mở ra, chọn loại đường vừa vặn (trong trường hợp của chúng tôi là hồi quy tuyến tính) và mục Display R-square trong chú giải. Sau khi đóng cửa sổ Trình chỉnh sửa biểu đồ SPSS, một xu hướng tuyến tính sẽ xuất hiện trong cửa sổ Trình xem SPSS, ước tính các quan sát của chúng tôi bằng phương pháp bình phương nhỏ nhất. Ngoài ra, biểu đồ sẽ phản ánh giá trị của R2, như đã đề cập ở trên, cho biết tỷ lệ của biến thể tích lũy được mô tả bởi mô hình này (Hình 4.35). Trong ví dụ của chúng tôi, nó là 53%.

Hệ số này được giới thiệu trong nghiên cứu marketing để thuận tiện cho việc so sánh mức độ hấp dẫn của các sản phẩm / nhãn hiệu được phân tích đối với người trả lời. Bảng câu hỏi nên có các câu hỏi như Xếp hạng các thông số được trình bày của sản phẩm / thương hiệu X, trong đó người trả lời được yêu cầu đánh giá các đặc điểm cụ thể của sản phẩm hoặc thương hiệu X, chẳng hạn như thang điểm năm (từ 1 - rất kém đến 5 - xuất sắc) . Ở cuối danh sách các thông số cá nhân được đánh giá, người trả lời phải đưa ra đánh giá cuối cùng về sản phẩm / thương hiệu X. Khi phân tích các câu trả lời nhận được trong cuộc khảo sát, dựa trên đánh giá của người trả lời, những điều sau được hình thành:

2 lúc cấp độ caođiểm (điểm trung bình có trọng số ≥ 4,5)

1 ở mức đánh giá trung bình (điểm trung bình có trọng số ≥4,0 và< 4,5)

1 cho điểm thấp (điểm trung bình có trọng số ≥3,0 và< 4,0)

2 với đánh giá không đạt yêu cầu (bình quân gia quyền< 3,0)

Hệ số CA được tính toán cho mỗi sản phẩm / thương hiệu cạnh tranh cho thấy vị trí tương đối của họ trong cấu trúc sở thích của người tiêu dùng. Chỉ tiêu tích hợp này có tính đến mức độ đánh giá đối với từng tham số, được điều chỉnh cho phù hợp với ý nghĩa của chúng. Đồng thời, nó có thể thay đổi từ -1 (vị trí tương đối tồi tệ nhất trong số tất cả các sản phẩm / thương hiệu được xem xét) thành 1 ( vị trí tốt nhất); 0 có nghĩa là sản phẩm / thương hiệu này không có gì nổi bật trong mắt người được hỏi.

Chúng tôi kết thúc việc xem xét phân tích liên kết. Nhóm phương pháp thống kê này hiện đang được sử dụng rộng rãi ở các công ty trong nước (đặc biệt là đối với phân phối chéo). Đồng thời, chúng tôi muốn nhấn mạnh rằng các phương pháp kết hợp không chỉ giới hạn ở các phân phối chéo. Để thực hiện phân tích chuyên sâu, phạm vi các kỹ thuật được áp dụng cần được mở rộng bằng các phương pháp được mô tả trong chương này.


Trong các tính toán dự đoán, phương trình hồi quy xác định giá trị như dự báo điểm tại , tức là bằng cách thay thế vào phương trình hồi quy Giá trị tương ứng X. Tuy nhiên, dự báo điểm rõ ràng là không thực tế. Do đó, nó được bổ sung bằng cách tính sai số tiêu chuẩn, tức là, và theo đó, ước tính khoảng thời gian của giá trị dự báo (y *)

Để hiểu cách xây dựng công thức xác định giá trị của sai số bình phương trung bình, Hãy chuyển sang phương trình hồi quy cặp tuyến tính:

Theo một cách đã biết, chúng tôi tìm phương sai của mô hình hồi quy tuyến tính theo cặp:

(3.29)

Tính đến các biểu thức (3,24) và (3,25), trước tiên chúng ta viết ra:

Sau các phép biến đổi đơn giản, cuối cùng chúng ta nhận được:

(3.30)

Từ đây chúng ta chuyển sang sai số bình phương trung bình của mô hình hồi quy tuyến tính được ghép nối:

Công thức được xem xét là sai số trung bình căn bậc hai của giá trị trung bình dự đoán y tại đặt giá trị đặc trưng cho sai số vị trí của đường hồi quy. Giá trị lỗi tiêu chuẩn , như có thể thấy từ công thức, đạt mức tối thiểu ở , và tăng lên khi nó di chuyển khỏi trong bât ki chỉ dân nao. Nói cách khác, sự khác biệt giữa x, lỗi càng lớn với giá trị trung bình được dự đoán yđặt giá trị . Bạn có thể mong đợi kết quả dự báo tốt nhất nếu yếu tố dấu hiệu X nằm ở trung tâm của khu vực quan sát X và người ta không thể mong đợi kết quả dự đoán tốt khi loại bỏ từ . Nếu giá trị nằm ngoài các giá trị quan sát được X,được sử dụng để xây dựng hồi quy tuyến tính, sau đó kết quả dự báo xấu đi tùy thuộc vào lệch khỏi vùng giá trị quan sát của yếu tố x.

Đối với ví dụ của chúng tôi, nó sẽ là:

Đối với giá trị dự đoán, khoảng tin cậy 95% cho một được xác định bởi biểu thức

Với xác suất 95% thì 26,04.

Tại, giá trị dự báo y sẽ là:

đó là một dự báo điểm.

Dự báo của đường hồi quy trong khoảng thời gian sẽ là:

Tuy nhiên, các giá trị thực tế tại thay đổi xung quanh giá trị trung bình. Giá trị cá nhân tại có thể đi chệch khỏi theo số lượng lỗi ngẫu nhiên, phương sai được ước tính là sự phân tán còn lại một mức độ tự do . Do đó, giá trị cá nhân được dự đoán y phải bao gồm không chỉ lỗi tiêu chuẩn, mà còn cả lỗi ngẫu nhiên S.

Sai số trung bình của giá trị riêng lẻ được dự đoán y sẽ là:

Theo ví dụ đã cho, chúng tôi nhận được:

Khoảng tin cậy để dự đoán các giá trị riêng lẻ y với xác suất 0,95 sẽ là:, hoặc 141,57, điều này có nghĩa là.

Khoảng thời gian khá rộng, chủ yếu là do khối lượng quan sát nhỏ.

Khi dự báo dựa trên phương trình hồi quy, cần nhớ rằng độ lớn của dự báo không chỉ phụ thuộc vào sai số chuẩn của giá trị riêng lẻ y, mà còn về độ chính xác của việc dự báo giá trị của yếu tố X. Giá trị của nó có thể được thiết lập trên cơ sở phân tích các mô hình khác dựa trên một tình huống cụ thể, cũng như phân tích động thái của yếu tố này.

Công thức được xem xét cho sai số trung bình của giá trị riêng lẻ của đối tượng địa lý y cũng có thể được sử dụng để đánh giá ý nghĩa của sự khác biệt trong giá trị dự đoán dựa trên mô hình hồi quy và giả thuyết đưa ra về sự phát triển của các sự kiện.

Giả sử trong ví dụ của chúng ta với hàm chi phí, giả định rằng trong năm tới, do nền kinh tế ổn định với sản lượng là 8 nghìn đơn vị. chi phí sản xuất sẽ không vượt quá 250 triệu rúp. Điều này thực sự có nghĩa là một sự thay đổi trong mô hình được tìm thấy hay giá trị chi phí này có tương ứng với mô hình hồi quy không?

Để trả lời câu hỏi này, chúng tôi tìm một dự báo điểm cho X= 8, tức là

Giá trị chi phí ước tính, dựa trên tình hình kinh tế, là 250,0. Để đánh giá tầm quan trọng của sự khác biệt giữa các giá trị này, chúng tôi xác định sai số trung bình của giá trị riêng lẻ được dự đoán:

Hãy so sánh nó với giá trị của mức giảm chi phí sản xuất dự kiến, tức là:

Vì chỉ đánh giá mức độ quan trọng của việc giảm chi phí, nên phép thử t của Sinh viên một phía được sử dụng. Với sai số 5% với năm bậc tự do. Do đó, mức giảm chi phí ước tính là khác biệt đáng kể so với dự đoán của mô hình ở độ tin cậy 95%. Tuy nhiên, nếu xác suất tăng lên 99%, với sai số 1%, giá trị thực tế của tiêu chí thấp hơn giá trị bảng là 3.365 và sự khác biệt được coi là chi phí không có ý nghĩa thống kê.

Dự báo theo phương trình hồi quy là sự thay thế vào phương trình hồi quy của giá trị tương ứng X . Một dự báo như vậy triệu tập chỉ. Nó không chính xác, do đó nó được bổ sung bằng cách tính sai số tiêu chuẩn ; hóa ra ước tính khoảng thời gian giá trị dự báo:

Hãy biến đổi phương trình hồi quy:

lỗi phụ thuộc vào lỗi và lỗi hệ số hồi quy b , I E. .

Nó được biết từ lý thuyết lấy mẫu rằng.

Chúng tôi sử dụng phương sai dư trên một bậc tự do S 2 làm ước lượng s 2, chúng tôi nhận được:.

Lỗi hệ số hồi quy từ công thức (15):

Do đó, tại x = x k chúng tôi nhận được:

(31)

Như có thể thấy từ công thức, giá trị đạt cực tiểu tại và tăng theo khoảng cách từ bất kỳ hướng nào.

Đối với ví dụ của chúng tôi, giá trị này sẽ là:

Tại , Tại x k = 4

Đối với giá trị dự đoán 95% khoảng tin cậyđược cho x kđược xác định bởi biểu thức:

những thứ kia. tại x k= 4 ± 2,57-3,34 hoặc ± 8,58. Tại x k= 4 giá trị dự đoán sẽ là

tại p\ u003d -5,79 + 36,84 4 \ u003d 141,57 - đây là dự báo điểm.

Dự đoán của đường hồi quy nằm trong khoảng: 132,99 150,15.

Chúng tôi đã xem xét các khoảng tin cậy cho giá trị trung bình tạiđược cho X. Tuy nhiên, các giá trị thực tế tại thay đổi xung quanh mức trung bình , chúng có thể sai lệch theo số lượng lỗi ngẫu nhiên e , phương sai được ước tính là phương sai dư trên một bậc tự do S2. Do đó, sai số dự báo ý nghĩa riêng biệt tại không chỉ bao gồm lỗi tiêu chuẩn mà còn cả lỗi ngẫu nhiên S . Do đó, sai số dự đoán trung bình của một giá trị riêng lẻ y sẽ là:

(33)

Ví dụ:

Khoảng tin cậy dự báo giá trị cá nhân tại tại x k\ u003d 4 với độ trung thực là 0,95 sẽ là:. 141,57 ± 2,57 8,01 hoặc 120,98 ≤ y r ≤ 162,16.

Cho ví dụ với hàm chi phí giả sử rằng trong năm tới, do nền kinh tế ổn định nên chi phí sản xuất 8 nghìn chiếc. sản phẩm sẽ không vượt quá 250 triệu rúp. Điều này có làm thay đổi mô hình được tìm thấy hay chi phí có phù hợp với mô hình hồi quy không?

Dự báo điểm: = -5,79 + 36,84 8 = 288,93. Giá trị ước tính là 250. Lỗi trung bình giá trị dự đoán riêng lẻ:

So sánh nó với mức giảm chi phí sản xuất dự kiến, tức là 250-288,93 = -38,93:

Vì chỉ đánh giá tầm quan trọng của việc giảm chi phí nên phương pháp một chiều được sử dụng. t ~ Tiêu chí của học sinh. Với sai số 5% với n-2 = 5 bảng t= 2,015, do đó, mức giảm chi phí ước tính khác đáng kể so với giá trị dự đoán ở độ tin cậy 95%. Tuy nhiên, nếu chúng ta tăng xác suất lên 99%, với sai số 1%, thì giá trị thực t- tiêu chuẩn thấp hơn bảng 3.365 và sự khác biệt về chi phí không có ý nghĩa thống kê, tức là chi phí phù hợp với mô hình hồi quy được đề xuất.

Hồi quy phi tuyến tính

Cho đến nay chúng tôi chỉ xem xét tuyến tính mô hình hồi quy tại từ X (3). Đồng thời, nhiều mắt xích quan trọng trong nền kinh tế được phi tuyến tính. Ví dụ về các mô hình hồi quy như vậy là hàm sản xuất (sự phụ thuộc giữa khối lượng đầu ra và các yếu tố chính của sản xuất - lao động, vốn, v.v.) và hàm cầu (một mặt là sự phụ thuộc giữa nhu cầu đối với bất kỳ loại hàng hóa hoặc dịch vụ nào, và thu nhập và giá cả cho hàng hóa này và hàng hóa khác - mặt khác).

Khi phân tích các phụ thuộc hồi quy phi tuyến, hầu hết các vấn đề quan trọngứng dụng của bình phương nhỏ nhất cổ điển là một cách để tuyến tính hóa chúng. Trong trường hợp tuyến tính hóa của một sự phụ thuộc phi tuyến, chúng ta thu được một phương trình hồi quy tuyến tính loại (3), các tham số của chúng được ước tính bằng bình phương nhỏ nhất thông thường, sau đó quan hệ phi tuyến ban đầu có thể được viết.

Một chút khác biệt theo nghĩa này là mô hình đa thức có mức độ tùy ý:

mà bình phương nhỏ nhất thông thường có thể được áp dụng mà không cần tuyến tính hóa trước.

Hãy coi quy trình này như được áp dụng cho một parabol ở mức độ thứ hai:

(35)

Sự phụ thuộc như vậy là phù hợp nếu, đối với một phạm vi giá trị nhân tố nhất định, sự phụ thuộc ngày càng tăng chuyển thành giảm hoặc ngược lại. Trong trường hợp này, có thể xác định giá trị của hệ số tại đó giá trị lớn nhất hoặc giá trị tối thiểu dấu hiệu hiệu quả. Nếu dữ liệu ban đầu không phát hiện ra sự thay đổi trong hướng kết nối, các tham số của parabol trở nên khó giải thích và tốt hơn là nên thay thế dạng kết nối bằng các mô hình phi tuyến tính khác.

Việc sử dụng bình phương nhỏ nhất để ước lượng các tham số của parabol bậc hai được giảm xuống để phân biệt tổng bình phương của phần dư hồi quy cho mỗi tham số ước lượng và cân bằng các biểu thức kết quả bằng không. Hóa ra hệ thống phương trình bình thường, số lượng trong số đó bằng số lượng các tham số ước tính, tức là số ba:

(36)

Hệ thống này có thể được giải quyết theo bất kỳ cách nào, cụ thể là bằng phương pháp xác định.

Giá trị cực trị của hàm số quan sát được tại giá trị của hệ số bằng:

Nếu một b> 0, s<0, có mức tối đa, tức là sự phụ thuộc đầu tiên tăng lên và sau đó giảm xuống. Loại phụ thuộc này được quan sát thấy trong kinh tế lao động khi nghiên cứu tiền công lao động chân tay, khi tuổi tác là một yếu tố. Tại b<0, с>0 parabol có mức tối thiểu, thường biểu hiện trong chi phí sản xuất đơn vị tùy thuộc vào khối lượng sản phẩm đầu ra.

Trong các phụ thuộc phi tuyến không phải là đa thức cổ điển, nhất thiết phải thực hiện tuyến tính hóa sơ bộ, bao gồm việc chuyển đổi các biến hoặc tham số mô hình, hoặc kết hợp các phép biến đổi này. Hãy xem xét một số lớp phụ thuộc như vậy.

Các phụ thuộc của kiểu hypebol có dạng:

(37)

Một ví dụ về sự phụ thuộc như vậy là đường cong Phillips, biểu thị mối quan hệ nghịch đảo giữa phần trăm tăng lương và tỷ lệ thất nghiệp. Trong trường hợp này, giá trị tham số b sẽ lớn hơn 0. Một ví dụ khác về sự phụ thuộc (37) là đường cong Engel, hình thành mô hình sau: với sự gia tăng thu nhập, tỷ trọng thu nhập chi cho thực phẩm giảm, và tỷ trọng thu nhập chi cho các mặt hàng phi thực phẩm sẽ tăng lên. Trong trường hợp này b<0 , và đặc điểm kết quả trong (37) cho thấy tỷ lệ chi tiêu cho các sản phẩm phi thực phẩm.

Sự tuyến tính hóa của phương trình (37) được giảm xuống để thay thế hệ số z = 1 / x và phương trình hồi quy có dạng (3), trong đó thay vì thừa số X sử dụng yếu tố z:

Cùng phương trình đường thẳngđường cong bán logarit giảm:

(39)

có thể được sử dụng để mô tả các đường cong Engel. Đây 1p (x) được thay thế bởi z , và phương trình (38) thu được.

Một loại chỉ số kinh tế khá rộng được đặc trưng bởi tốc độ tăng trưởng tương đối gần như không đổi theo thời gian. Điều này tương ứng với các phụ thuộc của loại mũ (lũy thừa), được viết là:

hoặc ở dạng

Có thể có sự phụ thuộc sau:

Trong các hồi quy kiểu (40) - (42), phương pháp tuyến tính hóa tương tự cũng được sử dụng - logarit. Phương trình (40) được rút gọn thành:

(43)

Thay thế biến Y= trong y giảm nó thành một dạng tuyến tính:

(44)

ở đâu . Nếu một E thỏa mãn điều kiện Gauss-Markov, các tham số của phương trình (40) được ước lượng bằng bình phương nhỏ nhất từ ​​phương trình (44). Phương trình (41) được rút gọn thành:

chỉ khác với (43) ở dạng số hạng tự do và phương trình tuyến tính trông giống như sau:

Y = A + bx + E(46)

ở đâu A = ln một. Tùy chọn NHƯNGb thu được bởi các bình phương nhỏ nhất thông thường, sau đó là tham số một trong sự phụ thuộc (41) thu được dưới dạng một antilogarit NHƯNG. Khi lấy logarit (42), chúng ta thu được một phụ thuộc tuyến tính:

Y = A + Bx + E(47)

ở đâu B= ln b, và phần còn lại của ký hiệu tương tự như trên. Ở đây, LSM cũng được áp dụng cho dữ liệu được chuyển đổi và tham số b đối với (42) nhận được dưới dạng antilogarit của hệ số TẠI.

Rộng phổ thông trong thực tiễn nghiên cứu kinh tế xã hội, sự phụ thuộc quyền lực. Chúng được sử dụng để xây dựng và phân tích các chức năng sản xuất. Trong chức năng xem:

đặc biệt có giá trị là thông số b bằng hệ số co giãn của thuộc tính kết quả theo hệ số X . Biến đổi (48) bằng cách lấy logarit, chúng ta thu được hồi quy tuyến tính:

Y = A + bX + E (49)

ở đâu Y = ln y,A = ln a, X = ln x, E = ln ε .

Một dạng phi tuyến tính khác, được rút gọn thành dạng tuyến tính, là mối quan hệ nghịch đảo:

(50)

Tiến hành thay thế =1 / y, chúng tôi nhận được:

(51)

Cuối cùng, sự phụ thuộc của loại hậu cần cần được lưu ý:

(52)

Đồ thị của hàm (52) được gọi là "đường cong bão hòa", có hai điểm không triệu chứng nằm ngang y = 0y = 1 / a và điểm uốn x = ln (b / a), y = 1 / (2a), cũng như giao điểm với trục y y = 1 / (a ​​+ b):

Phương trình (52) được rút gọn thành dạng tuyến tính bằng sự thay đổi của các biến u = 1 / y, z = e - x.

Bất kỳ phương trình nào của hồi quy phi tuyến tính, cũng như sự phụ thuộc tuyến tính, được bổ sung bởi một chỉ báo tương quan, trong trường hợp này được gọi là chỉ số tương quan:

(53)

Đây là tổng phương sai có hiệu lực ký tên tại , phương sai dư, được xác định bằng phương trình hồi quy phi tuyến tính. Cần lưu ý rằng sự khác biệt về số tiền tương ứng và không được tính trong giá trị quy đổi mà là giá trị ban đầu của thuộc tính hiệu dụng. Nói cách khác, khi tính các tổng này, người ta không nên sử dụng các phụ thuộc đã được biến đổi (tuyến tính hóa), mà sử dụng các phương trình hồi quy phi tuyến tính ban đầu. Theo cách khác, (53) có thể được viết như sau:

(54)

Giá trị R nằm trong khoảng 0 ≤ R≤ 1, và càng gần với sự thống nhất, kết nối chặt chẽ hơnđược coi là các tính năng, thì phương trình hồi quy tìm được càng đáng tin cậy. Trong trường hợp này, chỉ số tương quan trùng với hệ số tương quan tuyến tính trong trường hợp không thực hiện chuyển đổi các biến để tuyến tính hóa phương trình hồi quy với các giá trị của thuộc tính kết quả. Đây là trường hợp với hồi quy bán logarit và đa thức, cũng như với hyperbol cạnh đều (37). Sau khi xác định hệ số tương quan tuyến tính cho các phương trình tuyến tính hóa, ví dụ: trên gói Excel sử dụng hàm LINEST, bạn cũng có thể sử dụng nó cho mối quan hệ phi tuyến tính.

Tình huống khác nhau trong trường hợp khi chuyển đổi cũng được thực hiện với giá trị tại , ví dụ: lấy nghịch đảo của một giá trị hoặc lấy lôgarit. Sau đó, giá trị R,được tính toán bởi cùng một hàm LINEST sẽ tham chiếu đến phương trình hồi quy tuyến tính hóa chứ không phải phương trình phi tuyến tính ban đầu và các giá trị của sự khác biệt dưới các tổng trong (54) sẽ tham chiếu đến các giá trị đã biến đổi chứ không phải giá trị ban đầu , mà không phải là điều tương tự. Đồng thời, như đã đề cập ở trên, để tính toán R Biểu thức (54) được tính toán từ phương trình phi tuyến ban đầu nên được sử dụng.

Vì chỉ số tương quan được tính bằng tỷ lệ giữa giai thừa và tổng độ lệch chuẩn, nên R2 có ý nghĩa tương tự như hệ số xác định. Trong các nghiên cứu đặc biệt, giá trị R2đối với các kết nối phi tuyến tính được gọi là chỉ số xác định.

Việc đánh giá mức độ ý nghĩa của chỉ số tương quan được thực hiện giống như đánh giá mức độ tin cậy của hệ số tương quan.

Chỉ số xác định được sử dụng để kiểm tra mức độ quan trọng của phương trình hồi quy phi tuyến tính nói chung bằng cách F- Tiêu chí của Fisher:

(55)

ở đâu N -số lượng quan sát, m -số tham số cho các biến X . Trong tất cả các trường hợp được chúng tôi xem xét, ngoại trừ hồi quy đa thức, m= 1, cho đa thức (34) m = k, I E. bậc của đa thức. Giá trị t đặc trưng cho số bậc tự do đối với độ lệch chuẩn giai thừa, và (p-t-1) - số bậc tự do đối với phần dư RMS.

Chỉ số xác định R2 có thể được so sánh với hệ số xác định r2 để biện minh cho khả năng sử dụng một hàm tuyến tính. Độ cong của đường hồi quy càng nhiều thì sự khác biệt giữa R2 r2 . Sự gần nhau của các chỉ số này có nghĩa là dạng của phương trình hồi quy không được phức tạp và có thể sử dụng một hàm tuyến tính. Trong thực tế, nếu giá trị (R2-r2) không vượt quá 0,1, sau đó phụ thuộc tuyến tínhđược coi là chính đáng. Mặt khác, đánh giá được thực hiện về tầm quan trọng của sự khác biệt trong các chỉ số xác định, được tính toán từ cùng một dữ liệu, thông qua t-Tiêu chí của học sinh:

Ở đây ở mẫu số là sai số của sự khác biệt (R 2 -r 2),được xác định theo công thức:

Nếu một t> bảng t (α; n-m-1), thì sự khác biệt giữa các chỉ số tương quan là đáng kể và việc thay thế hồi quy phi tuyến tính bằng hồi quy tuyến tính là không phù hợp.

Kết luận, chúng tôi trình bày các công thức tính hệ số co giãn cho các phương trình hồi quy phổ biến nhất.

Trong các ghi chú trước đây, trọng tâm thường tập trung vào một biến số duy nhất, chẳng hạn như lợi tức quỹ tương hỗ, thời gian tải trang web hoặc mức tiêu thụ nước ngọt. Trong phần này và các ghi chú sau, chúng ta sẽ xem xét các phương pháp dự đoán giá trị của một biến số phụ thuộc vào các giá trị của một hoặc nhiều biến số khác.

Tài liệu sẽ được minh họa bằng một ví dụ thông qua. Dự báo doanh số bán hàng tại một cửa hàng quần áo. Chuỗi cửa hàng quần áo giảm giá của Sunflowers đã không ngừng mở rộng trong suốt 25 năm. Tuy nhiên, công ty hiện không có cách tiếp cận có hệ thống để lựa chọn các cửa hàng mới. Địa điểm mà công ty dự định mở một cửa hàng mới được xác định dựa trên những cân nhắc chủ quan. Tiêu chí lựa chọn là điều kiện thuê thuận lợi hoặc ý tưởng của người quản lý về vị trí lý tưởng của cửa hàng. Hãy tưởng tượng rằng bạn là người đứng đầu Phòng Kế hoạch và Dự án Đặc biệt. Bạn đã được giao nhiệm vụ phát triển một kế hoạch chiến lược để mở các cửa hàng mới. Kế hoạch này cần có dự báo về doanh thu hàng năm ở các cửa hàng mới mở. Bạn tin rằng không gian bán hàng có liên quan trực tiếp đến doanh thu và muốn đưa thực tế đó vào quá trình ra quyết định của mình. Làm thế nào để bạn phát triển một mô hình thống kê dự đoán doanh số hàng năm dựa trên quy mô cửa hàng mới?

Thông thường, phân tích hồi quy được sử dụng để dự đoán các giá trị của một biến. Mục tiêu của nó là phát triển một mô hình thống kê dự đoán các giá trị của biến phụ thuộc, hoặc phản ứng, từ các giá trị của ít nhất một biến độc lập hoặc giải thích. Trong ghi chú này, chúng tôi sẽ xem xét một hồi quy tuyến tính đơn giản - một phương pháp thống kê cho phép bạn dự đoán các giá trị của biến phụ thuộc Y bởi các giá trị của biến độc lập X. Các ghi chú sau đây sẽ mô tả mô hình hồi quy nhiều lần, được thiết kế để dự đoán các giá trị của biến độc lập Y bởi các giá trị của một số biến phụ thuộc ( X 1, X 2,…, X k).

Tải xuống ghi chú ở định dạng hoặc, ví dụ ở định dạng

Các loại mô hình hồi quy

ở đâu ρ 1 là hệ số tự tương quan; nếu ρ 1 = 0 (không có tự tương quan), D≈ 2; nếu ρ 1 ≈ 1 (tự tương quan dương), D≈ 0; nếu ρ 1 = -1 (tự tương quan âm), D ≈ 4.

Trên thực tế, việc áp dụng tiêu chí Durbin-Watson dựa trên việc so sánh giá trị D với các giá trị lý thuyết quan trọng dLd U cho một số lượng quan sát nhất định N, số lượng biến độc lập của mô hình k(đối với hồi quy tuyến tính đơn giản k= 1) và mức ý nghĩa α. Nếu một D< d L , giả thuyết về sự độc lập của các sai lệch ngẫu nhiên bị bác bỏ (do đó, có tự tương quan tích cực); nếu D> d U, giả thuyết không bị bác bỏ (nghĩa là không có hiện tượng tự tương quan); nếu dL< D < d U không có đủ lý do để đưa ra quyết định. Khi giá trị được tính toán D vượt quá 2, sau đó dLd U nó không phải là hệ số tự nó đang được so sánh D và biểu thức (4 - D).

Để tính toán thống kê Durbin-Watson trong Excel, chúng ta chuyển sang bảng dưới cùng trong Hình. mười bốn Rút tiền số dư. Tử số trong biểu thức (10) được tính bằng cách sử dụng hàm = SUMMQDIFF (array1, array2) và mẫu số = SUMMQ (array) (Hình 16).

Cơm. 16. Công thức tính toán thống kê Durbin-Watson

Trong ví dụ của chúng tôi D= 0,883. Câu hỏi chính là: giá trị nào của thống kê Durbin-Watson nên được coi là đủ nhỏ để kết luận rằng có tự tương quan dương? Cần phải tương quan giá trị của D với các giá trị tới hạn ( dLd U) tùy thuộc vào số lượng quan sát N và mức ý nghĩa α (Hình 17).

Cơm. 17. Các giá trị quan trọng của thống kê Durbin-Watson (phân đoạn bảng)

Do đó, trong bài toán về khối lượng bán hàng trong một cửa hàng giao hàng đến nhà của bạn, có một biến số độc lập ( k= 1), 15 quan sát ( N= 15) và mức ý nghĩa α = 0,05. Vì thế, dL= 1,08 và dU= 1,36. Trong chừng mực D = 0,883 < dL= 1,08, có tự tương quan dương giữa các phần dư, không thể áp dụng phương pháp bình phương nhỏ nhất.

Kiểm định các giả thuyết về Hệ số tương quan và Độ dốc

Hồi quy trên chỉ được áp dụng để dự báo. Để xác định hệ số hồi quy và dự đoán giá trị của một biến Y tại giá trị cho trước Biến đổi X phương pháp bình phương nhỏ nhất đã được sử dụng. Ngoài ra, chúng tôi đã xem xét sai số chuẩn của ước lượng và hệ số tương quan hỗn hợp. Nếu việc phân tích các phần dư xác nhận rằng các điều kiện áp dụng của phương pháp bình phương nhỏ nhất không bị vi phạm và mô hình hồi quy tuyến tính đơn giản là phù hợp, dựa trên dữ liệu mẫu, thì có thể lập luận rằng giữa các biến trong dân số có mối quan hệ tuyến tính.

Ứng dụngt -tiêu chuẩn về độ dốc. Bằng cách kiểm tra xem độ dốc tổng thể β 1 có bằng 0 hay không, người ta có thể xác định liệu có mối quan hệ có ý nghĩa thống kê giữa các biến hay không XY. Nếu giả thuyết này bị bác bỏ, có thể lập luận rằng giữa các biến XY có mối quan hệ tuyến tính. Các giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: β 1 = 0 (không có quan hệ tuyến tính), H1: β 1 ≠ 0 (có quan hệ tuyến tính). A-priory t- thống kê bằng hiệu số giữa độ dốc mẫu và độ dốc tổng thể giả định, chia cho sai số tiêu chuẩn của ước tính độ dốc:

(11) t = (b 1 β 1 ) / Sb 1

ở đâu b 1 là độ dốc của hồi quy trực tiếp dựa trên dữ liệu mẫu, β1 là độ dốc giả định của tổng thể chung trực tiếp, và kiểm tra thống kê t Nó có t- phân phối với n - 2 bậc tự do.

Hãy kiểm tra xem có mối quan hệ có ý nghĩa thống kê giữa quy mô cửa hàng và doanh thu hàng năm ở mức α = 0,05 hay không. t-criteria được hiển thị cùng với các thông số khác khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả đầy đủ của Gói phân tích được trình bày trong Hình. 4, một đoạn liên quan đến thống kê t - trong hình. mười tám.

Cơm. 18. Kết quả ứng dụng t

Vì số lượng cửa hàng N= 14 (xem Hình 3), giá trị tới hạn t- Số liệu thống kê ở mức ý nghĩa α = 0,05 có thể được tìm thấy bằng công thức: t L= STUDENT.INV (0,025; 12) = -2,1788 trong đó 0,025 là một nửa mức ý nghĩa và 12 = N – 2; t U\ u003d STUDENT.INV (0,975, 12) \ u003d +2,1788.

Trong chừng mực t- thống kê = 10,64> t U= 2,1788 (Hình 19), giả thuyết không H 0 bị từ chối. Mặt khác, R-giá trị cho X\ u003d 10.6411, được tính bằng công thức \ u003d 1-STUDENT.DIST (D3, 12, TRUE), xấp xỉ bằng 0, vì vậy giả thuyết H 0 lại bị từ chối. Thực tế là R-giá trị gần như bằng 0, có nghĩa là nếu không có mối quan hệ tuyến tính thực sự giữa quy mô cửa hàng và doanh số hàng năm, thì hầu như không thể phát hiện ra nó bằng cách sử dụng hồi quy tuyến tính. Do đó, có một mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số cửa hàng trung bình hàng năm và quy mô cửa hàng.

Cơm. 19. Kiểm định giả thuyết về độ dốc của tổng thể chung với mức ý nghĩa 0,05 và 12 bậc tự do

Ứng dụngF -tiêu chuẩn về độ dốc. Một cách tiếp cận thay thế để kiểm tra các giả thuyết về độ dốc của một hồi quy tuyến tính đơn giản là sử dụng F-tiêu chuẩn. Nhớ lại điều đó F-criterion được sử dụng để kiểm tra mối quan hệ giữa hai phương sai (xem chi tiết). Khi kiểm tra giả thuyết độ dốc bằng thước đo lỗi ngẫu nhiên là phương sai sai số (tổng sai số bình phương chia cho số bậc tự do), vì vậy F-test sử dụng tỷ lệ của phương sai được giải thích bởi hồi quy (tức là các giá trị SSR chia cho số biến độc lập k), đối với phương sai lỗi ( MSE = SYX 2 ).

A-priory F-thống kê bằng với độ lệch bình phương trung bình do hồi quy (MSR) chia cho phương sai sai (MSE): F = MSR/ MSE, ở đâu MSR =SSR / k, MSE =SSE/(N- k - 1), k là số lượng biến độc lập trong mô hình hồi quy. Thống kê thử nghiệm F Nó có F- phân phối với kN- k - 1 bậc tự do.

Với mức ý nghĩa cho trước α quy tắc quyết định công thức như sau: nếu F> FU, giả thuyết vô hiệu bị bác bỏ; nếu không, nó không bị từ chối. Các kết quả, được trình bày dưới dạng một bảng tóm tắt của việc phân tích phương sai, được trình bày trong hình. 20.

Cơm. 20. Bảng ANOVA để kiểm tra giả thuyết về ý nghĩa thống kê hệ số hồi quy

Tương tự t-tiêu chuẩn F-criteria được hiển thị trong bảng khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả đầy đủ của công việc Gói phân tíchđược hiển thị trong hình. 4, đoạn liên quan đến F- thống kê - trong hình. 21.

Cơm. 21. Kết quả ứng dụng F- Các tiêu chí thu được bằng cách sử dụng Excel Analysis ToolPack

Thống kê F là 113,23 và R-giá trị gần bằng 0 (ô Ý nghĩaF). Nếu mức ý nghĩa α là 0,05, hãy xác định giá trị tới hạn F-phân phối với một và 12 bậc tự do có thể nhận được từ công thức F U\ u003d F. OBR (1-0,05; 1; 12) \ u003d 4,7472 (Hình 22). Trong chừng mực F = 113,23 > F U= 4,7472 và R-giá trị gần bằng 0< 0,05, нулевая гипотеза H 0 lệch, tức là Quy mô của một cửa hàng có liên quan chặt chẽ đến doanh số bán hàng hàng năm của nó.

Cơm. 22. Kiểm định giả thuyết về độ dốc của tổng thể chung với mức ý nghĩa 0,05, với một và 12 bậc tự do

Khoảng tin cậy chứa hệ số góc β 1.Để kiểm tra giả thuyết về sự tồn tại của mối quan hệ tuyến tính giữa các biến, bạn có thể xây dựng khoảng tin cậy chứa hệ số góc β 1 và đảm bảo rằng giá trị giả thuyết β 1 = 0 thuộc khoảng này. Tâm của khoảng tin cậy chứa độ dốc β 1 là độ dốc mẫu b 1 và ranh giới của nó là số lượng b 1 ±t n –2 Sb 1

Như được hiển thị trong hình. mười tám, b 1 = +1,670, N = 14, Sb 1 = 0,157. t 12 \ u003d STUDENT.OBR (0,975, 12) \ u003d 2,1788. Vì thế, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 hoặc + 1,328 ≤ β 1 ≤ +2,012. Do đó, độ dốc của dân số với xác suất 0,95 nằm trong khoảng từ +1.328 đến +2.012 (tức là từ 1.328.000 đến 2.012.000 đô la). Bởi vì những giá trị này lớn hơn 0, có một mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số hàng năm và diện tích cửa hàng. Nếu khoảng tin cậy bằng 0, sẽ không có mối quan hệ nào giữa các biến. Ngoài ra, khoảng tin cậy có nghĩa là cứ 1.000 sq. chân dẫn đến việc tăng doanh số bán hàng trung bình từ $ 1,328,000 lên $ 2,012,000.

Cách sử dụngt - tiêu chuẩn cho hệ số tương quan. hệ số tương quan đã được giới thiệu r, là thước đo mối quan hệ giữa hai biến số. Nó có thể được sử dụng để xác định liệu có mối quan hệ có ý nghĩa thống kê giữa hai biến hay không. Chúng ta hãy biểu thị hệ số tương quan giữa các quần thể của cả hai biến bằng ký hiệu ρ. Giả thuyết rỗng và giả thuyết thay thế được xây dựng như sau: H 0: ρ = 0 (không tương quan), H 1: ρ ≠ 0 (có mối tương quan). Kiểm tra sự tồn tại của mối tương quan:

ở đâu r = + , nếu b 1 > 0, r = – , nếu b 1 < 0. Тестовая статистика t Nó có t- phân phối với n - 2 bậc tự do.

Trong bài toán của chuỗi cửa hàng Hoa hướng dương r2= 0,904 và b 1- +1.670 (xem Hình 4). Trong chừng mực b 1> 0, hệ số tương quan giữa doanh số hàng năm và quy mô cửa hàng là r= + √0,904 = +0,951. Hãy kiểm tra giả thuyết vô hiệu nói rằng không có mối tương quan giữa các biến này, sử dụng t- số liệu thống kê:

Với mức ý nghĩa α = 0,05, giả thuyết vô hiệu nên bị bác bỏ vì t= 10,64> 2,1788. Do đó, có thể lập luận rằng có một mối quan hệ có ý nghĩa thống kê giữa doanh số hàng năm và quy mô cửa hàng.

Khi thảo luận về các suy luận về độ dốc dân số, khoảng tin cậy và tiêu chí để kiểm tra giả thuyết là những công cụ có thể thay thế cho nhau. Tuy nhiên, việc tính toán khoảng tin cậy có chứa hệ số tương quan hóa ra khó hơn, vì dạng phân phối lấy mẫu của thống kê r phụ thuộc vào hệ số tương quan thực.

Ước tính kỳ vọng toán học và dự đoán các giá trị riêng lẻ

Phần này thảo luận về các phương pháp ước tính phản hồi mong đợi Y và dự đoán các giá trị riêng lẻ Y cho các giá trị nhất định của biến X.

Xây dựng khoảng tin cậy. Trong ví dụ 2 (xem phần trên Phương pháp bình phương tối thiểu) phương trình hồi quy giúp nó có thể dự đoán giá trị của biến Y X. Trong bài toán chọn địa điểm cho cửa hàng bán lẻ, doanh thu trung bình hàng năm ở một cửa hàng có diện tích 4000 sq. feet tương đương với 7,644 triệu đô la. Tuy nhiên, ước tính này về kỳ vọng toán học của dân số chung là một điểm. để ước tính kỳ vọng toán học của dân số chung, khái niệm khoảng tin cậy đã được đề xuất. Tương tự, người ta có thể giới thiệu khái niệm khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị nhất định của một biến X:

ở đâu , = b 0 + b 1 X tôi- biến giá trị dự đoán Y tại X = X tôi, S YX là lỗi bình phương trung bình, N là kích thước mẫu, Xtôi- giá trị đã cho của biến X, µ Y|X = Xtôigia trị được ki vọng Biến đổi Y tại X = Tôi, SSX =

Phân tích công thức (13) cho thấy rằng độ rộng của khoảng tin cậy phụ thuộc vào một số yếu tố. Ở một mức ý nghĩa nhất định, sự gia tăng biên độ dao động xung quanh đường hồi quy, được đo bằng sai số bình phương trung bình, dẫn đến sự gia tăng độ rộng của khoảng. Mặt khác, như mong đợi, sự gia tăng kích thước mẫu đi kèm với việc thu hẹp khoảng thời gian. Ngoài ra, độ rộng của khoảng thay đổi tùy thuộc vào các giá trị Xtôi. Nếu giá trị của biến Y dự đoán cho số lượng X, gần với giá trị trung bình , khoảng tin cậy hóa ra hẹp hơn so với khi dự đoán phản hồi cho các giá trị xa giá trị trung bình.

Giả sử khi chọn vị trí cho một cửa hàng, chúng tôi muốn xây dựng khoảng tin cậy 95% cho doanh thu trung bình hàng năm ở tất cả các cửa hàng có diện tích 4000 mét vuông. đôi chân:

Do đó, doanh số bán hàng trung bình hàng năm tại tất cả các cửa hàng có diện tích 4.000 mét vuông. feet, với xác suất 95% nằm trong khoảng từ 6,971 đến 8,317 triệu đô la.

Tính khoảng tin cậy cho giá trị dự đoán. Ngoài khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị nhất định của biến X, thường cần biết khoảng tin cậy cho giá trị dự đoán. Mặc dù công thức tính khoảng tin cậy như vậy rất giống với công thức (13), nhưng khoảng này chứa một giá trị dự đoán chứ không phải ước tính của tham số. Khoảng thời gian cho phản hồi dự đoán YX = Xi cho một giá trị cụ thể của biến Xtôiđược xác định theo công thức:

Giả sử rằng khi chọn vị trí cho một cửa hàng bán lẻ, chúng tôi muốn xây dựng khoảng tin cậy 95% cho khối lượng bán hàng dự đoán hàng năm trong một cửa hàng có diện tích 4000 mét vuông. đôi chân:

Do đó, khối lượng bán hàng năm dự đoán cho một 4.000 mét vuông. feet, với xác suất 95% nằm trong khoảng từ 5,433 đến 9,854 triệu đô la. Như bạn có thể thấy, khoảng tin cậy cho giá trị phản hồi dự đoán rộng hơn nhiều so với khoảng tin cậy cho kỳ vọng toán học của nó. Điều này là do sự thay đổi trong dự đoán các giá trị riêng lẻ lớn hơn nhiều so với ước tính giá trị mong đợi.

Cạm bẫy và Vấn đề đạo đức liên quan đến việc áp dụng hồi quy

Những khó khăn liên quan đến phân tích hồi quy:

  • Bỏ qua các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
  • Một ước lượng sai về các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
  • Lựa chọn sai các phương pháp thay thế vi phạm các điều kiện áp dụng của phương pháp bình phương nhỏ nhất.
  • Ứng dụng phân tích hồi quy khi chưa có kiến ​​thức chuyên sâu về đối tượng nghiên cứu.
  • Suy rộng hồi quy vượt ra ngoài phạm vi của biến giải thích.
  • Nhầm lẫn giữa các mối quan hệ thống kê và nhân quả.

Sử dụng rộng rãi bảng tínhphần mềmđể tính toán thống kê đã loại bỏ các vấn đề tính toán ngăn cản việc sử dụng phân tích hồi quy. Tuy nhiên, điều này dẫn đến thực tế là phân tích hồi quy bắt đầu được sử dụng bởi những người dùng không có đủ trình độ và kiến ​​thức. Làm sao người dùng biết về các phương pháp thay thế nếu nhiều người trong số họ không biết gì về điều kiện áp dụng của phương pháp bình phương nhỏ nhất và không biết cách kiểm tra việc thực hiện của chúng?

Nhà nghiên cứu không nên bị cuốn theo những con số mài giũa - tính toán sự dịch chuyển, độ dốc và hệ số tương quan hỗn hợp. Anh ấy cần kiến ​​thức sâu hơn. Hãy minh họa điều này ví dụ cổ điển lấy từ sách giáo khoa. Anscombe đã chỉ ra rằng tất cả bốn tập dữ liệu được hiển thị trong Hình. 23 có các tham số hồi quy giống nhau (Hình 24).

Cơm. 23. Bốn tập dữ liệu nhân tạo

Cơm. 24. Phân tích hồi quy bốn tập dữ liệu nhân tạo; thực hiện với Gói phân tích(bấm vào ảnh để phóng to ảnh)

Vì vậy, theo quan điểm của phân tích hồi quy, tất cả các tập dữ liệu này hoàn toàn giống hệt nhau. Nếu phân tích xong về vấn đề này, chúng tôi sẽ mất rất nhiều thông tin hữu ích. Điều này được chứng minh bằng các đồ thị phân tán (Hình 25) và các đồ thị còn lại (Hình 26) được xây dựng cho các tập dữ liệu này.

Cơm. 25. Biểu đồ phân tán cho bốn tập dữ liệu

Đồ thị phân tán và đồ thị còn lại cho thấy rằng những dữ liệu này khác nhau. Tập hợp duy nhất được phân phối dọc theo một đường thẳng là tập A. Đồ thị của các phần dư được tính từ tập A không có mẫu nào. Điều tương tự cũng không thể xảy ra đối với các tập hợp B, C và D. Biểu đồ phân tán được vẽ cho tập hợp B cho thấy một mẫu bậc hai rõ rệt. Kết luận này được khẳng định bằng biểu đồ phần dư, có dạng hình parabol. Biểu đồ phân tán và biểu đồ còn lại cho thấy rằng tập dữ liệu B chứa một ngoại lệ. Trong tình huống này, cần phải loại trừ giá trị ngoại lai khỏi tập dữ liệu và lặp lại phân tích. Kỹ thuật để phát hiện và loại bỏ các ngoại lệ khỏi các quan sát được gọi là phân tích ảnh hưởng. Sau khi loại bỏ yếu tố ngoại lệ, kết quả đánh giá lại mô hình có thể hoàn toàn khác. Biểu đồ phân tán được xây dựng bằng cách sử dụng dữ liệu từ tập hợp D minh họa tình huống bất thường, trong đó mô hình thực nghiệm phụ thuộc đáng kể vào phản ứng của từng cá nhân ( X 8 = 19, Y 8 = 12,5). Các mô hình hồi quy như vậy cần phải được tính toán đặc biệt cẩn thận. Vì vậy, các đồ thị phân tán và phần dư là một công cụ cần thiết để phân tích hồi quy và phải là một phần không thể thiếu của nó. Nếu không có chúng, phân tích hồi quy không đáng tin cậy.

Cơm. 26. Lô số dư cho bốn tập dữ liệu

Cách tránh những cạm bẫy trong phân tích hồi quy:

  • Phân tích mối quan hệ có thể có giữa các biến XY luôn bắt đầu bằng biểu đồ phân tán.
  • Trước khi giải thích kết quả của một phân tích hồi quy, hãy kiểm tra các điều kiện về khả năng áp dụng của nó.
  • Vẽ đồ thị phần dư so với biến độc lập. Điều này sẽ cho phép xác định cách mô hình thực nghiệm tương ứng với kết quả quan sát và phát hiện sự vi phạm tính hằng số của phương sai.
  • Để kiểm tra giả định về phân phối bình thường lỗi, sử dụng biểu đồ, biểu đồ thân và lá, biểu đồ hộp và biểu đồ phân phối chuẩn.
  • Nếu các điều kiện áp dụng của phương pháp bình phương nhỏ nhất không được đáp ứng, hãy sử dụng các phương pháp thay thế (ví dụ: mô hình hồi quy bậc hai hoặc bội số).
  • Nếu các điều kiện áp dụng của phương pháp bình phương nhỏ nhất được đáp ứng, cần phải kiểm tra giả thuyết về ý nghĩa thống kê của các hệ số hồi quy và xây dựng khoảng tin cậy chứa kỳ vọng toán học và giá trị phản hồi dự đoán.
  • Tránh dự đoán các giá trị của biến phụ thuộc nằm ngoài phạm vi của biến độc lập.
  • Hãy ghi nhớ rằng phụ thuộc thống kê không phải lúc nào cũng có quan hệ nhân quả. Hãy nhớ rằng mối tương quan giữa các biến không có nghĩa là có mối quan hệ nhân quả giữa chúng.

Tóm lược. Như được trình bày trong sơ đồ khối (Hình 27), ghi chú mô tả một mô hình hồi quy tuyến tính đơn giản, các điều kiện cho khả năng áp dụng của nó và các cách kiểm tra các điều kiện này. Được xem xét t- tiêu chuẩn để kiểm tra ý nghĩa thống kê của độ dốc của hồi quy. Một mô hình hồi quy đã được sử dụng để dự đoán các giá trị của biến phụ thuộc. Một ví dụ được xem xét liên quan đến việc lựa chọn địa điểm cho cửa hàng bán lẻ, trong đó nghiên cứu sự phụ thuộc của doanh số bán hàng năm vào diện tích cửa hàng. Thông tin thu được cho phép bạn chọn chính xác hơn vị trí cho cửa hàng và dự đoán doanh thu hàng năm của cửa hàng. Trong phần ghi chú sau đây, sẽ tiếp tục thảo luận về phân tích hồi quy, cũng như các mô hình hồi quy nhiều cấp.

Cơm. 27. Sơ đồ cấu trúc ghi chú

Tài liệu từ cuốn sách Levin và cộng sự. Thống kê cho các nhà quản lý được sử dụng. - M.: Williams, 2004. - tr. 792–872

Nếu biến phụ thuộc là phân loại, thì nên áp dụng hồi quy logistic.

Dự báo điểm là để có được một giá trị dự đoán chuẩn rồi, được xác định bằng cách thay thế giá trị (dự báo) tương ứng vào phương trình hồi quy xp:

yp = a + b * xp

Dự báo khoảng thời gian là xây dựng khoảng tin cậy của dự báo, tức là ranh giới dưới và trên upmin, upmax khoảng thời gian chứa giá trị chính xác cho giá trị dự đoán y P (ypmin< yp < ypmin ) với một xác suất cho trước.

Khi xây dựng khoảng tin cậy của dự báo, chúng tôi sử dụng lỗi tiêu chuẩn của dự báo :

Ở đâu

đang xây dựng khoảng tin cậy dự báo:

Phân tích hồi quy đa biến

(trang trình bày 1) Hồi quy bội được sử dụng trong các trường hợp không thể tách ra một yếu tố chi phối từ nhiều yếu tố ảnh hưởng đến tính trạng kết quả và cần phải tính đến ảnh hưởng của một số yếu tố. Ví dụ, khối lượng đầu ra được xác định bởi giá trị vốn cố định và vốn lưu động, số lượng nhân sự, trình độ quản lý, v.v., mức độ nhu cầu không chỉ phụ thuộc vào giá cả mà còn phụ thuộc vào nguồn vốn có sẵn cho dân số.

Mục đích chính của hồi quy bội là xây dựng một mô hình với một số yếu tố và đồng thời xác định mức độ ảnh hưởng của từng yếu tố riêng biệt, cũng như ảnh hưởng tổng hợp của chúng đến chỉ tiêu đang nghiên cứu.

Do đó, hồi quy bội là một phương trình quan hệ với một số biến độc lập:

(trang trình bày 2)Xây dựng một phương trình hồi quy nhiều

1. Phát biểu vấn đề

Được biết N các quan sát (Bảng 3.1) về sự thay đổi chung P+1 tham số y và xj và (( yi, xj, i); j=1, 2, ..., P; tôi=1, 2, ..., N) cần phải xác định sự phụ thuộc của phân tích ŷ = f (x1,x2,...,xp) mô tả tốt nhất dữ liệu quan sát.

Bảng 3.1

Dữ liệu quan sát

x11

x12

x1N

x2 N

Mỗi hàng của bảng biểu thị kết quả của một lần quan sát. Các quan sát khác nhau về cách thực hiện của chúng.

Câu hỏi về sự phụ thuộc nào nên được coi là tốt nhất được quyết định trên cơ sở một số tiêu chí. Như một tiêu chí như vậy, mức tối thiểu của tổng các độ lệch bình phương của các giá trị được tính toán của chỉ tiêu hiệu quả thường được sử dụng. ŷi từ các giá trị quan sát yi:

2. Đặc điểm kỹ thuật của mô hình

(trang trình bày 3)Đặc điểm kỹ thuật của mô hình bao gồm giải pháp của hai nhiệm vụ:

- lựa chọn các yếu tố được đưa vào mô hình;

- lựa chọn dạng của phương trình hồi quy.

2.1. Lựa chọn các yếu tố trong việc xây dựng hồi quy bội

Việc đưa một hoặc một tập hợp các yếu tố khác vào phương trình hồi quy bội chủ yếu gắn với ý tưởng của nhà nghiên cứu về bản chất của mối quan hệ giữa chỉ tiêu được mô hình hóa và các hiện tượng kinh tế khác.

Các yếu tố bao gồm trong mô hình như sau: yêu cầu:

1. Các yếu tố phải định lượng được. Việc đưa một nhân tố vào mô hình sẽ dẫn đến sự gia tăng đáng kể tỷ trọng của phần được giải thích trong tổng biến động của biến phụ thuộc. Vì giá trị này được đặc trưng hệ số xác định, việc đưa một hệ số mới vào mô hình sẽ dẫn đến một sự thay đổi đáng chú ý trong hệ số. Nếu điều này không xảy ra, thì yếu tố được đưa vào phân tích không cải thiện mô hình và là dư thừa.

Ví dụ, nếu đối với một hồi quy bao gồm 5 yếu tố, hệ số xác định là 0,85 và việc bao gồm yếu tố thứ sáu cho hệ số xác định là 0,86, thì việc bổ sung hệ số này vào mô hình là không nên.

Nếu cần đưa vào mô hình một nhân tố định tính mà không có ước lượng định lượng, thì cần phải đưa ra một định lượng chắc chắn. Trong trường hợp này, mô hình bao gồm "biển giá, có một số hữu hạn các giá trị số chính thức tương ứng với bậc của yếu tố định tính (điểm số, thứ hạng).

Ví dụ: nếu bạn cần tính đến tác động của trình độ học vấn (lên số tiền lương), thì bạn có thể đưa một biến vào phương trình hồi quy nhận các giá trị: 0 - với giáo dục tiểu học, 1 - ở mức trung bình, 2 - ở mức cao nhất.

Mặc dù thực tế là, về mặt lý thuyết, mô hình hồi quy cho phép bạn tính đến bất kỳ số lượng yếu tố nào, trong thực tế, điều này là không cần thiết, bởi vì. sự gia tăng không chính đáng của chúng dẫn đến khó khăn trong việc giải thích mô hình và làm giảm độ tin cậy của kết quả.

2. Các yếu tố không được tương quan chéo và, hơn nữa, là kết nối chức năng chính xác. Sự hiện diện của mức độ tương quan cao giữa các yếu tố có thể dẫn đến sự không ổn định và không đáng tin cậy của các ước tính của hệ số hồi quy, cũng như không thể tách biệt ảnh hưởng của các yếu tố đến chỉ tiêu hoạt động. Kết quả là, các tham số hồi quy hóa ra không thể diễn giải được.

Ví dụ. Xem xét hồi quy của chi phí sản xuất đơn vị ( tại) từ tiền lương của nhân viên ( X) và năng suất lao động mỗi giờ ( z).

Hệ số hồi quy cho biến z cho thấy với tốc độ tăng năng suất lao động thêm 1 đơn vị giờ thì chi phí sản xuất đơn vị giảm trung bình 10 rúp. với mức lương không đổi.

Và thông số tại X không thể hiểu là chi phí sản xuất đơn vị giảm do tiền lương tăng. Giá trị âm của hệ số hồi quy trong trường hợp này là do mối tương quan cao giữa Xz (0,95).

(trang trình bày 4) Giả định rằng hai biến rõ ràng thẳng hàng , I E. có liên quan tuyến tính với nhau nếu hệ số tương quan (tương quan giữa hai biến giải thích) ≥ 0,7. Nếu các yếu tố rõ ràng thẳng hàng, thì chúng trùng lặp với nhau và bạn nên loại trừ một trong số chúng khỏi phương trình. Trong trường hợp này, ưu tiên không được ưu tiên cho yếu tố có liên quan chặt chẽ hơn với kết quả, mà ưu tiên cho yếu tố có mối quan hệ đủ chặt chẽ với kết quả, có ít mối liên hệ chặt chẽ nhất với các yếu tố khác.

Yêu cầu này cho thấy tính đặc thù của hồi quy bội là một phương pháp nghiên cứu tác động phức tạp của các yếu tố trong điều kiện chúng độc lập với nhau.

Cùng với tính thẳng hàng theo cặp, có thể có mối quan hệ tuyến tính giữa nhiều hơn hai biến - đa cộng tuyến , I E. sự ảnh hưởng tổng hợp của các yếu tố với nhau.

Sự hiện diện của đa cộng tuyến yếu tố có thể có nghĩa là một số yếu tố sẽ luôn hoạt động đồng thời. Kết quả là, sự thay đổi trong dữ liệu ban đầu sẽ không còn độc lập hoàn toàn, điều này sẽ không cho phép đánh giá tác động của từng yếu tố một cách riêng biệt. Tính đa cộng tuyến của các yếu tố càng mạnh thì ước tính phân phối của tổng biến thể được giải thích qua các yếu tố riêng lẻ càng kém bằng phương pháp bình phương nhỏ nhất.

(trang trình bày 5) Việc đưa các yếu tố đa cộng tuyến vào mô hình là không mong muốn vì những lý do sau. lý do:

    rất khó để diễn giải các tham số của hồi quy bội; các tham số hồi quy tuyến tính mất ý nghĩa kinh tế;

    các ước lượng tham số không đáng tin cậy, có sai số tiêu chuẩn lớn và thay đổi theo số lượng quan sát (không chỉ về độ lớn mà còn về dấu hiệu), điều này làm cho mô hình không phù hợp để phân tích và dự báo.

(trang trình bày 6)Để đánh giá đa cộng tuyến, chúng tôi sử dụng định thức của ma trận các hệ số tương quan giữa các cặp :

(!) Nếu các yếu tố không tương quan với nhau, thì ma trận của các hệ số tương quan là đơn vị, vì trong trường hợp này tất cả các phần tử nằm ngoài đường chéo đều bằng 0. Ví dụ, đối với phương trình ba biến, ma trận của các hệ số tương quan sẽ có định thức bằng 1, vì

.

(trang trình bày 7)

(!) Nếu có một mối quan hệ tuyến tính hoàn chỉnh giữa các yếu tố và tất cả các hệ số tương quan đều bằng 1, thì định thức của ma trận đó là 0 (Nếu hai hàng của ma trận giống nhau thì định thức của nó bằng 0).

Càng gần 0 yếu tố quyết định của ma trận các hệ số tương quan, đa cộng tuyến càng mạnh và kết quả của hồi quy bội càng không đáng tin cậy.

Càng gần 1 yếu tố quyết định của ma trận các hệ số tương quan, đa cộng tuyến của các nhân tố càng ít.

(trang trình bày 8)Cách khắc phục đa cộng tuyến của các nhân tố :

1) loại trừ khỏi mô hình của một hoặc nhiều yếu tố;

2) chuyển đổi sang phương trình hồi quy kết hợp, tức là phương trình phản ánh không chỉ ảnh hưởng của các yếu tố, mà còn cả sự tương tác của chúng. Ví dụ, nếu
, thì chúng ta có thể xây dựng phương trình kết hợp sau:;

3) chuyển sang phương trình dạng rút gọn (hệ số được xét biểu thị từ phương trình khác được thay vào phương trình hồi quy).

(trang trình bày 9)2.2. Chọn dạng của phương trình hồi quy

Có những điều sau đây các loại phương trình hồi quy bội:

    tuyến tính,

    phi tuyến tính, có thể rút gọn thành tuyến tính,

    phi tuyến tính, không thể rút gọn thành tuyến tính (về bản chất là phi tuyến tính).

Trong hai trường hợp đầu tiên, các phương pháp phân tích hồi quy tuyến tính cổ điển được sử dụng để ước lượng các tham số của mô hình. Trong trường hợp bản chất là các phương trình phi tuyến, các phương pháp tối ưu hóa phi tuyến được sử dụng để ước tính các tham số.

Yêu cầu chính đối với các phương trình hồi quy là có sự giải thích kinh tế rõ ràng về mô hình và các tham số của nó. Dựa trên những cân nhắc này, phụ thuộc tuyến tính và công suất thường được sử dụng nhất.

Hồi quy bội tuyến tính có dạng:

Tùy chọn bi với các yếu tố xi triệu tập hệ số của hồi quy "thuần túy" . Chúng cho biết trung bình thuộc tính hiệu quả sẽ thay đổi bao nhiêu đơn vị do sự thay đổi của nhân tố tương ứng với giá trị không thay đổi của các nhân tố khác được cố định ở mức trung bình.

(trang trình bày 10) Ví dụ, sự phụ thuộc của cầu đối với một sản phẩm (Qd) vào giá (P) và thu nhập (I) được đặc trưng bởi phương trình sau:

Qd \ u003d 2,5 - 0,12P + 0,23 I.

Các hệ số của phương trình này chỉ ra rằng khi giá mỗi đơn vị tăng lên, cầu sẽ giảm trung bình 0,12 đơn vị, và khi thu nhập trên mỗi đơn vị tăng lên, cầu sẽ tăng trung bình 0,23 đơn vị.

Tham số một có thể không phải lúc nào cũng được giải thích một cách có ý nghĩa.

Hồi quy bội lũy thừa có dạng:

Tùy chọn bj(mức độ của các yếu tố xi) là các hệ số co giãn. Chúng cho biết trung bình thuộc tính hiệu quả sẽ thay đổi bao nhiêu% do sự thay đổi của yếu tố tương ứng 1% với giá trị của các yếu tố khác không thay đổi.

Loại phương trình hồi quy này đã nhận được ứng dụng rộng rãi nhất trong các hàm sản xuất, cũng như trong nghiên cứu nhu cầu và tiêu dùng.

Ví dụ, sự phụ thuộc của sản lượng Y vào chi phí vốn K và lao động L:
nói rằng chi phí sử dụng vốn K tăng 1% với chi phí lao động không đổi làm cho sản lượng Y tăng thêm 0,23%. Chi phí lao động L tăng 1% với chi phí vốn không đổi K làm cho sản lượng Y tăng 0,81%.

Các hàm có thể phân tích tuyến tính khác cũng có thể dùng để xây dựng một phương trình hồi quy bội:


Hàm càng phức tạp thì các tham số của nó càng ít có thể diễn giải được. Ngoài ra, cần ghi nhớ mối quan hệ giữa số lượng quan sát và số lượng các yếu tố trong mô hình. Vì vậy, để phân tích mô hình ba nhân tố, cần thực hiện ít nhất 21 quan sát.

(trang trình bày 11)3. Ước tính các thông số mô hình

Các tham số của phương trình hồi quy bội được ước tính, như trong hồi quy theo cặp, bình phương nhỏ nhất, theo đó người ta nên chọn các giá trị tham số như vậy mộtbi, tại đó tổng độ lệch bình phương của các giá trị thực tế của đối tượng địa lý hiệu quả yi từ các giá trị lý thuyết ŷ là tối thiểu, tức là:

Nếu sau đó S là một hàm của các tham số không xác định một, bi:

Để tìm giá trị nhỏ nhất của một hàm, bạn cần tìm các đạo hàm riêng đối với từng tham số và cân bằng chúng với 0:

Từ đây ta được hệ phương trình:

(trang trình bày 12) Giải pháp của nó có thể được thực hiện bằng phương pháp xác định:

,

ở đâu - yếu tố quyết định hệ thống;

một, ∆ b1, ∆ bp- các yếu tố quyết định một phần ( j).

- yếu tố quyết định hệ thống,

j- định thức riêng nhận được từ định thức chính bằng cách thay thế cột thứ j bằng cột gồm các phần tử tự do .

Khi sử dụng phương pháp này, các trường hợp sau có thể xảy ra:

1) nếu yếu tố quyết định chính của hệ thống Δ bằng 0 và tất cả các định thức Δj cũng bằng 0, sau đó hệ thống này có vô số nghiệm;

2) nếu yếu tố quyết định chính của hệ thống Δ bằng 0 và ít nhất một trong các yếu tố quyết định Δj cũng bằng 0 thì hệ có nghiệm không.

(trang trình bày 13) Ngoài bình phương nhỏ nhất cổ điển, để xác định các tham số chưa biết của mô hình tuyến tính của hồi quy bội, phương pháp ước lượng các tham số thông qua β -coefficients là các hệ số hồi quy chuẩn hóa.

Xây dựng nhiều mô hình hồi quy trên thang điểm chuẩn hóa hoặc chuẩn hóa có nghĩa là tất cả các biến có trong mô hình hồi quy đều được chuẩn hóa bằng cách sử dụng các công thức đặc biệt.

Tại sự liên kết hồi quy trên thang điểm chuẩn hóa:

ở đâu
,
- các biến tiêu chuẩn hóa;

- hệ số hồi quy tiêu chuẩn hóa.

Những thứ kia. thông qua quá trình chuẩn hóa, điểm tham chiếu cho mỗi biến chuẩn hóa được đặt thành giá trị trung bình của nó theo khung lấy mẫu. Trong trường hợp này, độ lệch chuẩn của nó được lấy làm đơn vị đo lường của biến chuẩn σ .

β - hệ số hiển thị, trung bình kết quả sẽ thay đổi bao nhiêu sigmas (độ lệch chuẩn) do sự thay đổi của yếu tố tương ứng xi trên sigma với mức trung bình của các yếu tố khác không thay đổi.

Hệ số hồi quy chuẩn hóa βi có thể so sánh với nhau, do đó có thể xếp hạng các yếu tố theo mức độ ảnh hưởng của chúng đến kết quả. Tác động tương đối lớn hơn đến sự thay đổi của biến kết quả y kết xuất hệ số, tương ứng với giá trị mô đun lớn hơn của hệ số βi. Trong đólợi thế chính của hệ số hồi quy chuẩn hóa , ngược lại với các hệ số của hồi quy "thuần túy", không thể so sánh với nhau.

(trang trình bày 14) Mối quan hệ giữa các hệ số hồi quy "thuần túy" bi với các hệ số βiđược mô tả bằng tỷ lệ:

, hoặc

Tham số mộtđịnh nghĩa là .

Hệ số β được xác định bằng cách sử dụng LSM từ hệ thống tiếp theo phương trình bằng phương pháp định thức:

Để đánh giá các thông số phi tuyến tính phương trình hồi quy bội lần đầu tiên được chuyển đổi thành dạng tuyến tính (sử dụng một sự thay đổi của các biến) và phương pháp bình phương nhỏ nhất được sử dụng để tìm các tham số của phương trình hồi quy bội tuyến tính trong các biến được biến đổi. Khi nào về bản chất là phi tuyến tính phụ thuộc, để ước lượng các tham số, cần phải áp dụng các phương pháp tối ưu hóa phi tuyến.

(trang trình bày 1)4. Kiểm tra chất lượng của phương trình hồi quy

Ý nghĩa thực tế của phương trình hồi quy bội số được đánh giá bằng cách sử dụng chỉ báo tương quan bội số và bình phương của nó - hệ số xác định.

Điểm tương quan nhiều đặc trưng cho mức độ gần gũi của mối liên hệ của tập hợp các yếu tố được xem xét với đặc điểm đang được nghiên cứu, tức là đánh giá mức độ gần gũi của ảnh hưởng chung của các yếu tố đến kết quả.

Bất kể hình thức giao tiếp điểm tương quan nhiềuđược tính theo công thức:

Hệ số tương quan bội nhận các giá trị trong khoảng 0 ≤ R ≤ 1. Càng gần đến 1, mối quan hệ của đặc điểm hiệu quả với toàn bộ tập hợp các yếu tố đang nghiên cứu càng gần.

Với sự phụ thuộc tuyến tính của các đối tượng, công thức cho chỉ số tương quan nhiều có thể được viết như sau:

,

ở đâu - hệ số hồi quy tiêu chuẩn hóa,

- các hệ số tương quan ghép nối của kết quả với từng nhân tố.

Công thức này được gọi là hệ số tương quan đa tuyến tính, hoặc hệ số tương quan tích lũy.

Chỉ số xác định cho các hàm phi tuyến tính đối với các tham số ước tính thường được gọi là "gần như-
».
Để xác định nó bằng các hàm sử dụng phép biến đổi logarit (lũy thừa, hàm mũ), trước tiên bạn phải tìm các giá trị lý thuyết của ln y, sau đó biến đổi chúng thông qua các phản hàm số (antilogarit ln y = y) và sau đó xác định chỉ số xác định là “quasi-
"theo công thức:

.

Quasi-
»Sẽ không trùng với hệ số tương quan tích lũy, hệ số này có thể được tính cho một phương trình hồi quy bội tuyến tính theo logarit, vì trong hệ số sau nó được phân tách thành giai thừa và dư lượng không có hình vuông
, một
.

(trang trình bày 2) Sử dụng hệ số xác định bội
để đánh giá chất lượng của mô hình có nhược điểm là việc đưa một yếu tố mới vào mô hình (thậm chí là một yếu tố không đáng kể) sẽ tự động làm tăng giá trị
.
Do đó, khi Với số lượng lớn các yếu tố, tốt hơn là sử dụng cái gọi là điều chỉnh (cải tiến) hệ số xác định nhiều lần
, được xác định theo tỷ lệ:

ở đâu N là số lượng quan sát,

m là số lượng các tham số cho các biến X(giá trị của m càng lớn thì sự khác biệt giữa tập hợp nhiều phép xác định càng lớn
và sửa chữa
).

Đối với một khối lượng quan sát nhất định và những thứ khác bằng nhau, với sự gia tăng số lượng các biến độc lập (tham số), tập hợp các số nhân được điều chỉnh. quyết tâm ngày càng giảm. Giá trị của nó cũng có thể trở nên âm mối quan hệ yếu kém kết quả với các yếu tố. Với một số lượng nhỏ các quan sát, giá trị chưa được điều chỉnh của có xu hướng đánh giá quá cao tỷ lệ biến động của đặc điểm kết quả liên quan đến ảnh hưởng của các yếu tố được đưa vào mô hình hồi quy. Dân số mà hồi quy được tính càng lớn thì sự khác biệt càng ít

.

Lưu ý rằng giá trị thấp của hệ số tương quan bội số và hệ số xác định bội số có thể do những điều sau đây lý do:

- các yếu tố có ý nghĩa không được đưa vào mô hình hồi quy;

- Dạng phân tích phụ thuộc được chọn không chính xác, không phản ánh mối quan hệ thực giữa các biến đưa vào mô hình.

(trang trình bày 3)Ý nghĩa của toàn bộ phương trình hồi quy bội được đánh giá bằng cách sử dụng F - Tiêu chí của Fisher :

Giả thuyết "vô hiệu" được đưa ra H0 về sự không có ý nghĩa thống kê của phương trình hồi quy bị bác bỏ khi điều kiện F> F Crete, ở đâu F crit được xác định bởi các bảng F- Tiêu chí của Fisher về hai bậc tự do k1 = m, k2= N-m- 1 và mức ý nghĩa cho trước α.

Mức độ quan trọng của cùng một yếu tố có thể khác nhau tùy thuộc vào trình tự đưa nó vào mô hình.

(trang trình bày 4) Biện pháp để đánh giá sự bao gồm của một yếu tố trong mô hình là riêng F -tiêu chuẩn (đánh giá ý nghĩa thống kê của sự hiện diện của từng yếu tố trong phương trình):

,

ở đâu
- số nhân quyết tâm cho một mô hình hoàn chỉnh

một tập hợp các yếu tố;

- cùng một chỉ số, nhưng không bao gồm yếu tố trong mô hình x1;

n là số lần quan sát;

m là số tham số của biến x.

Nếu giá trị thực tế của F vượt quá giá trị bảng, thì việc đưa thêm vào mô hình của hệ số xi thống kê hợp lý và hệ số hồi quy ròng bi với một yếu tố xiý nghĩa thống kê.

Nếu giá trị thực tế của F nhỏ hơn giá trị dạng bảng, thì việc đưa thêm một yếu tố vào mô hình là không phù hợp, vì nó không làm tăng đáng kể tỷ lệ của biến thể kết quả được giải thích và hệ số hồi quy cho yếu tố này không có tính thống kê có ý nghĩa.

(trang trình bày 5) Kiểm định F từng phần đánh giá ý nghĩa của các hệ số hồi quy thuần. Biết độ lớn , có thể xác định t -Tiêu chí của học sinh :

hoặc

ở đâu m bi là sai số trung bình căn bậc hai của hệ số hồi quy b tôi, nó có thể được xác định bằng công thức:

.

Giá trị của sai số chuẩn, cùng với phân phối t của Student cho n-m-1 bậc tự do được sử dụng để kiểm tra ý nghĩa của hệ số hồi quy và tính khoảng tin cậy của nó.