Tiểu sử Đặc trưng Phân tích

Ví dụ hồi quy nhiều tuyến tính. Giải pháp sử dụng bảng tính Excel

Tôi có một giá sách lớn bao gồm nhiều cuốn sách được chia thành nhiều loại. Trên kệ trên cùng là những cuốn sách tôn giáo như sách Fiqh, sách Tauhid, sách Tasawuf, sách Nahwu, v.v. Chúng được xếp ngay ngắn thành nhiều hàng và một số được xếp ngay ngắn theo người viết. Ở cấp độ thứ hai là những cuốn sách chăm học của tôi như sách Ngữ pháp, sách Viết, sách TOEFL, v.v. Chúng được sắp xếp dựa trên các kích thước. Trên kệ tiếp theo là nhiều loại khoa học và sách hiểu biết; ví dụ, Triết học, Chính trị, Lịch sử, v.v. Có ba cấp độ cho những điều này. Cuối cùng, ở dưới cùng của giá sách của tôi là những cuốn từ điển, chúng là từ điển tiếng Ả Rập và từ điển tiếng Anh cũng như từ điển Indonesia. Thật vậy, có sáu tầng trong giá sách lớn của tôi và chúng được xếp thành nhiều hàng. Cấp độ đầu tiên bao gồm sách tôn giáo, cấp độ thứ hai bao gồm sách hiếu học của tôi, cấp độ có ba cấp độ bao gồm nhiều loại sách khoa học và kiến ​​thức và cấp độ cuối cùng bao gồm từ điển. Tóm lại, tôi yêu giá sách của mình.

Thứ tự cụ thể đến chung

Các kỹ năng cần thiết để viết bao gồm việc tạo các dấu đồ họa thích hợp, thông qua việc sử dụng các nguồn tài nguyên của ngôn ngữ đã chọn, cho đến dự đoán phản ứng của người đọc dự định. Khu vực kỹ năng đầu tiên liên quan đến việc có được một hệ thống chữ viết, có thể là bảng chữ cái (như các ngôn ngữ châu Âu) hoặc không có chữ cái (như trong nhiều ngôn ngữ châu Á). Khu vực kỹ năng thứ hai yêu cầu lựa chọn ngữ pháp và từ vựng thích hợp để tạo thành các câu có thể chấp nhận được và sau đó sắp xếp chúng trong các đoạn văn. Thứ ba, viết liên quan đến việc suy nghĩ về mục đích của văn bản sẽ được soạn thảo và về những ảnh hưởng có thể có của nó đối với độc giả dự định. Một khía cạnh quan trọng của tính năng cuối cùng này là sự lựa chọn của một phong cách phù hợp. Không giống như nói, viết là một quá trình nhận thức xã hội phức tạp phải được lĩnh hội qua nhiều năm đào tạo hoặc đi học. (Swales và Feak, 1994, trang 34)

Thứ tự chung đến cụ thể

"Làm việc bán thời gian với vai trò thu ngân tại Piggly Wiggly đã cho tôi cơ hội tuyệt vời để quan sát hành vi của con người. Đôi khi tôi nghĩ những người mua sắm như những con chuột bạch trong một thí nghiệm trong phòng thí nghiệm và lối đi như một mê cung được thiết kế bởi một nhà tâm lý học. Hầu hết Ý tôi là lũ chuột - khách hàng - đi theo một khuôn mẫu thông thường, đi bộ lên xuống các lối đi, kiểm tra máng trượt của tôi, và sau đó trốn thoát qua cửa thoát hiểm. . "

Có nhiều yếu tố góp phần vào sự thành công của học sinh khi học đại học. Yếu tố đầu tiên là phải có mục tiêu trong đầu trước khi thiết lập một khóa học. Mục tiêu có thể chung chung là muốn giáo dục bản thân tốt hơn cho tương lai. Mục tiêu cụ thể hơn sẽ là kiếm được chứng chỉ giảng dạy. Yếu tố thứ hai liên quan đến sự thành công của học sinh là động lực và sự cam kết của bản thân. Một sinh viên muốn thành công và hướng tới mong muốn này sẽ dễ dàng tìm thấy thành công khi còn là sinh viên đại học. Yếu tố thứ ba liên quan đến thành công của sinh viên là sử dụng các dịch vụ đại học. Hầu hết sinh viên mới bắt đầu học đại học không nhận ra tầm quan trọng của việc gặp cố vấn hoặc tham khảo ý kiến ​​từ thủ thư hoặc nhân viên hỗ trợ tài chính.

Có ba lý do tại sao Canada là một trong những tốt nhất các nước trên thế giới. Thứ nhất, Canada có dịch vụ chăm sóc sức khỏe tuyệt vời. Tất cả người dân Canada đều được tiếp cận với các dịch vụ y tế với mức giá hợp lý. Thứ hai, Canada có một tiêu chuẩn giáo dục cao. Học sinh được giảng dạy để trở thành những giáo viên được đào tạo bài bản và được khuyến khích tiếp tục học lên đại học. Cuối cùng, các thành phố của Canada được tổ chức sạch sẽ và hiệu quả. Các thành phố của Canada có nhiều công viên và nhiều không gian cho người dân sinh sống. Do đó, Canada là một nơi đáng mơ ước để sinh sống.

York bị tấn công bởi sáu người lính Đức, những người lao vào anh ta bằng lưỡi lê cố định. Anh ta vẽ một hạt lên người thứ sáu, bắn, và sau đó vào người thứ năm. Anh ấy đã làm việc theo cách của mình, và trước khi anh ấy biết điều đó, người đàn ông đầu tiên hoàn toàn là một mình anh ấy. York đã giết anh ta bằng một phát súng duy nhất.

Khi nhìn quanh khuôn viên trường, nơi hầu như không thay đổi, anh cảm thấy nhẹ nhõm về những giây phút đã trải qua với Nancy. Anh nhớ lại cách hai người họ sẽ ngồi bên ao, trò chuyện không ngừng khi cho cá ăn và cũng là cách họ đi dạo cùng nhau, lạc vào thế giới của riêng mình. Đúng, Nancy là một trong số ít những người bạn mà anh từng có. … Anh chợt đầy nỗi nhớ khi nhớ lại buổi chiều hôm đó anh đã chia tay Nancy. Anh ta sụt sịt thật lớn và đôi mắt đẫm lệ.

Ví dụ về giải quyết vấn đề trên hồi quy bội

ví dụ 1 Phương trình hồi quy, được xây dựng trên 17 quan sát, có dạng:

Sắp xếp các giá trị còn thiếu, cũng như xây dựng khoảng tin cậy cho b 2 với xác suất 0,99.

Quyết định. Các giá trị bị thiếu được xác định bằng công thức:

Do đó, phương trình hồi quy với các đặc trưng thống kê trông giống như sau:

Khoảng tin cậy cho b 2 xây dựng theo công thức tương ứng. Ở đây mức ý nghĩa là 0,01 và số bậc tự do là NP- 1 = 17 - 3 - 1 = 13, trong đó N= 17 - kích thước mẫu, P= 3 là số yếu tố trong phương trình hồi quy. Từ đây

hoặc . Khoảng tin cậy này bao hàm giá trị thực của tham số với xác suất là 0,99.

Ví dụ 2 Phương trình hồi quy trong các biến chuẩn hóa có dạng như sau:

Trong trường hợp này, các biến thể của tất cả các biến đều bằng các giá trị sau:

So sánh các yếu tố theo mức độ ảnh hưởng đến tính năng kết quả và xác định các giá trị của hệ số co giãn từng phần.

Quyết định. Các phương trình hồi quy chuẩn hóa cho phép bạn so sánh các yếu tố theo mức độ ảnh hưởng của chúng đến kết quả. Đồng thời, giá trị tuyệt đối của hệ số của biến tiêu chuẩn càng lớn thì hệ số này càng ảnh hưởng mạnh đến tính trạng kết quả. Trong phương trình đang xét, yếu tố có ảnh hưởng mạnh nhất đến kết quả là x 1, có hệ số 0,82, yếu nhất là hệ số x 3 với hệ số bằng - 0,43.

Trong mô hình hồi quy bội tuyến tính, hệ số co giãn từng phần tổng quát (trung bình) được xác định bằng một biểu thức bao gồm các giá trị trung bình của các biến và hệ số tại nhân tố tương ứng của phương trình hồi quy quy mô tự nhiên. Trong điều kiện của bài toán, các đại lượng này không được chỉ định. Do đó, chúng tôi sử dụng các biểu thức cho sự biến đổi đối với các biến số:

Tỷ lệ cược bj liên kết với các hệ số tiêu chuẩn hóa βj tỷ lệ tương ứng, mà chúng tôi thay thế vào công thức cho hệ số co giãn trung bình:

.

Trong trường hợp này, dấu của hệ số co giãn sẽ trùng với dấu βj:

Ví dụ 3 Dựa trên 32 quan sát, các dữ liệu sau thu được:

Xác định các giá trị của hệ số xác định đã điều chỉnh, hệ số đàn hồi từng phần và thông số một.

Quyết định. Giá trị của hệ số xác định đã điều chỉnh được xác định bằng một trong các công thức để tính toán nó:

Hệ số co giãn từng phần (trung bình trên toàn bộ dân số) được tính bằng các công thức thích hợp:

Vì phương trình tuyến tính của hồi quy bội được thực hiện bằng cách thay các giá trị trung bình của tất cả các biến vào nó, chúng tôi xác định tham số một:

Ví dụ 4Đối với một số biến, các thống kê sau có sẵn:

Xây dựng phương trình hồi quy theo thang đo tự nhiên và chuẩn hóa.

Quyết định. Vì hệ số tương quan theo cặp giữa các biến đã được biết ban đầu, nên bắt đầu bằng cách xây dựng một phương trình hồi quy trên một thang đo chuẩn hóa. Để làm được điều này, cần phải giải hệ phương trình thông thường tương ứng, trong trường hợp hai nhân tử có dạng:

hoặc sau khi thay thế dữ liệu ban đầu:

Chúng tôi giải quyết hệ thống này theo bất kỳ cách nào, chúng tôi nhận được: β1 = 0,3076, β2 = 0,62.

Hãy viết phương trình hồi quy theo thang điểm chuẩn hóa:

Bây giờ chúng ta hãy chuyển sang phương trình hồi quy quy mô tự nhiên, mà chúng tôi sử dụng các công thức để tính toán hệ số hồi quy thông qua hệ số beta và tính chất công bằng của phương trình hồi quy cho các biến trung bình:

Phương trình hồi quy tỷ lệ tự nhiên là:

Ví dụ 5 Khi xây dựng một hồi quy bội tuyến tính đối với 48 phép đo, hệ số xác định là 0,578. Sau khi loại bỏ các yếu tố x 3, x 7x 8 hệ số xác định giảm còn 0,495. Quyết định thay đổi thành phần của các biến ảnh hưởng ở các mức ý nghĩa 0,1, 0,05 và 0,01 có hợp lý không?

Quyết định. Giả sử - hệ số xác định của phương trình hồi quy với tập hợp nhân tố ban đầu, - hệ số xác định sau khi loại trừ ba nhân tố. Chúng tôi đưa ra các giả thuyết:

;

Giả thuyết chính cho rằng mức độ giảm không đáng kể và quyết định loại trừ một nhóm yếu tố là đúng. Giả thuyết thay thế chỉ ra tính đúng đắn của quyết định loại trừ.

Để kiểm tra giả thuyết không, chúng tôi sử dụng các thống kê sau:

,

ở đâu N = 48, P= 10 - số yếu tố ban đầu, k= 3 - số lượng các yếu tố bị loại trừ. sau đó

Hãy so sánh giá trị thu được với giá trị quan trọng F(α ; 3; 39) ở các mức 0,1; 0,05 và 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

Ở cấp α = 0,1 F obl > F cr, zero - giả thuyết bị bác bỏ, việc loại trừ nhóm yếu tố này là không hợp lý, ở mức 0,05 0,01 zero - giả thuyết không thể bị bác bỏ và việc loại trừ các yếu tố có thể được coi là hợp lý.

Ví dụ 6. Dựa trên dữ liệu hàng quý từ năm 2000 đến năm 2004, một phương trình đã thu được. Đồng thời, ESS = 110,3, RSS = 21,4 (ESS - RMSE giải thích, RSS - RMSE dư). Ba biến giả đã được thêm vào phương trình, tương ứng với ba quý đầu năm và giá trị ESS tăng lên 120,2. Có tính thời vụ trong phương trình này không?

Quyết định. Đây là nhiệm vụ để kiểm tra tính hợp lệ của việc bao gồm một nhóm các yếu tố trong phương trình hồi quy bội số. Ba biến đã được thêm vào phương trình ba nhân tố ban đầu để đại diện cho ba quý đầu năm.

Hãy để chúng tôi xác định các hệ số xác định của các phương trình. Tổng độ lệch chuẩn được định nghĩa là tổng của độ lệch chuẩn giai thừa và độ lệch chuẩn còn lại:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Chúng tôi kiểm tra các giả thuyết. Để kiểm tra giả thuyết vô hiệu, chúng tôi sử dụng thống kê

Đây N= 20 (20 quý trong 5 năm - từ 2000 đến 2004), P = 6 (toàn bộ các yếu tố trong phương trình hồi quy sau khi bao gồm các yếu tố mới), k= 3 (số thừa số được đưa vào). Như vậy:

Hãy để chúng tôi xác định các giá trị quan trọng của thống kê Fisher ở các mức ý nghĩa khác nhau:

Với mức ý nghĩa 0,1 và 0,05 F obl> F cr, không - giả thuyết bị bác bỏ để ủng hộ giả thuyết thay thế và tính thời vụ trong hồi quy là hợp lý (việc bổ sung ba nhân tố mới là hợp lý) và ở mức 0,01 F obl< F cr, và không - giả thuyết không thể bị bác bỏ; việc bổ sung các nhân tố mới không chính đáng, tính thời vụ trong hồi quy không đáng kể.

Ví dụ 7 Khi phân tích dữ liệu cho phương sai thay đổi, toàn bộ mẫu được chia thành ba mẫu con sau khi sắp xếp theo thứ tự của một trong các yếu tố. Sau đó, dựa trên kết quả của phân tích hồi quy ba chiều, người ta xác định được rằng RMSE còn lại trong mẫu con đầu tiên là 180 và ở mẫu thứ ba - 63. Sự hiện diện của phương sai thay đổi có được xác nhận không nếu khối lượng dữ liệu trong mỗi mẫu con là 20 ?

Quyết định. Tính toán các số liệu thống kê để kiểm tra giả thuyết vô phương về phương pháp co giãn bằng cách sử dụng kiểm định Goldfeld – Quandt:

.

Tìm các giá trị quan trọng của thống kê Fisher:

Do đó, với mức ý nghĩa 0,1 và 0,05 F obl> F cr và phương sai thay đổi diễn ra và ở mức 0,01 F obl< F cr, và không thể bác bỏ giả thuyết đồng biến đổi.

Ví dụ 8. Dựa trên dữ liệu hàng quý, một phương trình hồi quy bội thu được với ESS = 120,32 và RSS = 41,4. Đối với cùng một mô hình, các hồi quy được thực hiện riêng biệt dựa trên các dữ liệu sau: 1991 quý 1 - 1995 quý 1 và 1995 quý 2 - 1996 quý 4. Trong các hồi quy này, độ lệch chuẩn thặng dư lần lượt là 22,25 và 12,32. Kiểm tra giả thuyết về sự hiện diện của các thay đổi cấu trúc trong mẫu.

Quyết định. Vấn đề về sự hiện diện của các thay đổi cấu trúc trong mẫu được giải quyết bằng cách sử dụng thử nghiệm Chow.

Các giả thuyết có dạng:, ở đâu s0, s 1s2 là độ lệch chuẩn còn lại của phương trình đơn cho toàn bộ mẫu và phương trình hồi quy cho hai mẫu con của tổng mẫu, tương ứng. Giả thuyết chính phủ nhận sự hiện diện của những thay đổi cấu trúc trong mẫu. Để kiểm tra giả thuyết rỗng, thống kê được tính toán ( N = 24; P = 3):

Bởi vì F là một thống kê nhỏ hơn một, null có nghĩa là giả thuyết không thể bị bác bỏ đối với bất kỳ mức ý nghĩa nào. Ví dụ, với mức ý nghĩa 0,05.

Phân tích hồi quy là một phương pháp nghiên cứu thống kê cho phép bạn chỉ ra sự phụ thuộc của một tham số vào một hoặc nhiều biến độc lập. Trong thời kỳ tiền máy tính, việc sử dụng nó khá khó khăn, đặc biệt là khi cần một lượng lớn dữ liệu. Hôm nay, sau khi học cách xây dựng một hồi quy trong Excel, bạn có thể giải quyết các vấn đề thống kê phức tạp chỉ trong vài phút. Dưới đây là ví dụ cụ thể từ lĩnh vực kinh tế.

Các loại hồi quy

Bản thân khái niệm này đã được đưa vào toán học vào năm 1886. Hồi quy xảy ra:

  • tuyến tính;
  • đường parabol;
  • sức mạnh;
  • số mũ;
  • đường hypebol;
  • Biểu tình;
  • lôgarit.

ví dụ 1

Xem xét bài toán xác định sự phụ thuộc của số đội viên nghỉ hưu vào mức lương bình quân tại 6 doanh nghiệp công nghiệp.

Nhiệm vụ. Tại sáu doanh nghiệp, chúng tôi đã phân tích mức lương trung bình hàng tháng và số lượng nhân viên nghỉ việc do ý chí riêng. Ở dạng bảng, chúng ta có:

Số người đã rời đi

Lương

30000 rúp

35000 rúp

40000 rúp

45000 rúp

50000 rúp

55000 rúp

60000 rúp

Đối với bài toán xác định sự phụ thuộc của số lao động nghỉ hưu vào mức lương bình quân tại 6 doanh nghiệp, mô hình hồi quy có dạng phương trình Y = a 0 + a 1 x 1 +… + a k x k, trong đó x i là các biến ảnh hưởng , a i là các hệ số hồi quy, a k là số lượng các yếu tố.

Đối với nhiệm vụ này, Y là chỉ số nhân viên đã rời đi và yếu tố ảnh hưởng là tiền lương, chúng tôi ký hiệu là X.

Sử dụng các khả năng của bảng tính "Excel"

Phân tích hồi quy trong Excel phải được đặt trước bằng việc áp dụng các hàm tích hợp vào dữ liệu dạng bảng có sẵn. Tuy nhiên, cho những mục đích này, tốt hơn là sử dụng phần bổ trợ rất hữu ích "Bộ công cụ phân tích". Để kích hoạt nó, bạn cần:

  • từ tab "Tệp", chuyển đến phần "Tùy chọn";
  • trong cửa sổ mở ra, chọn dòng "Tiện ích bổ sung";
  • nhấp vào nút "Bắt đầu" nằm ở dưới cùng, bên phải của dòng "Quản lý";
  • chọn hộp bên cạnh tên "Gói phân tích" và xác nhận hành động của bạn bằng cách nhấp vào "OK".

Nếu mọi thứ được thực hiện chính xác, nút mong muốn sẽ xuất hiện ở bên phải của tab Dữ liệu, nằm phía trên trang tính Excel.

trong Excel

Bây giờ chúng ta đã có trong tay tất cả các công cụ ảo cần thiết để thực hiện các phép tính toán kinh tế, chúng ta có thể bắt đầu giải quyết vấn đề của mình. Đối với điều này:

  • nhấp vào nút "Phân tích dữ liệu";
  • trong cửa sổ mở ra, nhấp vào nút "Hồi quy";
  • trong tab xuất hiện, nhập phạm vi giá trị cho Y (số lượng nhân viên nghỉ việc) và X (lương của họ);
  • Chúng tôi xác nhận hành động của mình bằng cách nhấn nút "Ok".

Kết quả là, chương trình sẽ tự động điền vào một trang tính mới của bảng tính với dữ liệu phân tích hồi quy. Ghi chú! Excel có khả năng đặt thủ công vị trí bạn thích cho mục đích này. Ví dụ: nó có thể là cùng một trang tính có giá trị Y và X, hoặc thậm chí một cuốn sách mới, được thiết kế đặc biệt để lưu trữ những dữ liệu đó.

Phân tích kết quả hồi quy cho R-square

Trong Excel, dữ liệu thu được trong quá trình xử lý dữ liệu của ví dụ được xem xét trông giống như sau:

Trước hết, bạn nên chú ý đến giá trị của R-square. Nó là hệ số xác định. Trong ví dụ này, R-square = 0,755 (75,5%), tức là các tham số được tính toán của mô hình giải thích mối quan hệ giữa các tham số được xem xét bằng 75,5%. Giá trị của hệ số xác định càng cao thì mô hình được chọn càng áp dụng cho một nhiệm vụ cụ thể. Người ta tin rằng nó mô tả đúng tình huống thực tế với giá trị bình phương R trên 0,8. Nếu R bình phương<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Phân tích tỷ lệ

Con số 64.1428 cho thấy giá trị của Y sẽ là bao nhiêu nếu tất cả các biến xi trong mô hình chúng ta đang xem xét được đặt bằng 0. Nói cách khác, có thể lập luận rằng giá trị của tham số được phân tích cũng bị ảnh hưởng bởi các yếu tố khác mà không được mô tả trong một mô hình cụ thể.

Hệ số tiếp theo -0,16285, nằm trong ô B18, cho thấy trọng số ảnh hưởng của biến X đối với Y. Điều này có nghĩa là tiền lương trung bình hàng tháng của nhân viên trong mô hình đang được xem xét ảnh hưởng đến số người bỏ việc với trọng số -0,16285, tức là mức độ ảnh hưởng của nó hoàn toàn nhỏ. Dấu "-" cho biết hệ số có giá trị âm. Điều này là hiển nhiên, vì ai cũng biết rằng lương ở doanh nghiệp càng cao thì càng ít người bày tỏ mong muốn chấm dứt hợp đồng lao động hoặc nghỉ việc.

Nhiều hồi quy

Thuật ngữ này đề cập đến một phương trình kết nối với một số biến độc lập có dạng:

y \ u003d f (x 1 + x 2 + ... x m) + ε, trong đó y là đặc tính hiệu dụng (biến phụ thuộc) và x 1, x 2, ... x m là nhân tố (biến độc lập).

Ước tính tham số

Đối với hồi quy bội (MR), nó được thực hiện bằng phương pháp bình phương nhỏ nhất (OLS). Đối với phương trình tuyến tính dạng Y = a + b 1 x 1 +… + b m x m + ε, chúng ta xây dựng một hệ phương trình bình thường (xem bên dưới)

Để hiểu nguyên tắc của phương pháp, hãy xem xét trường hợp hai yếu tố. Sau đó, chúng tôi có một tình huống được mô tả bởi công thức

Từ đây chúng tôi nhận được:

trong đó σ là phương sai của đối tượng tương ứng được phản ánh trong chỉ số.

LSM có thể áp dụng cho phương trình MP trên thang đo có thể chuẩn hóa. Trong trường hợp này, chúng ta nhận được phương trình:

trong đó t y, t x 1,… t xm là các biến chuẩn hóa mà giá trị trung bình là 0; β i là các hệ số hồi quy chuẩn hóa và độ lệch chuẩn là 1.

Xin lưu ý rằng tất cả β i trong trường hợp này được đặt là chuẩn hóa và tập trung, vì vậy so sánh của chúng với nhau được coi là chính xác và có thể chấp nhận được. Ngoài ra, theo thói quen, người ta thường lọc ra các yếu tố, loại bỏ những yếu tố có giá trị βi nhỏ nhất.

Vấn đề sử dụng phương trình hồi quy tuyến tính

Giả sử có một bảng về biến động giá của một sản phẩm cụ thể N trong 8 tháng qua. Cần phải đưa ra quyết định về khả năng tư vấn của việc mua lô của nó ở mức giá 1850 rúp / tấn.

số tháng

tên tháng

giá của mặt hàng N

1750 rúp mỗi tấn

1755 rúp mỗi tấn

1767 rúp mỗi tấn

1760 rúp mỗi tấn

1770 rúp mỗi tấn

1790 rúp mỗi tấn

1810 rúp mỗi tấn

1840 rúp mỗi tấn

Để giải quyết vấn đề này trong bảng tính Excel, bạn cần sử dụng công cụ Phân tích dữ liệu đã biết từ ví dụ trên. Tiếp theo, chọn phần "Hồi quy" và thiết lập các thông số. Cần phải nhớ rằng trong trường "Khoảng đầu vào Y", phải nhập một dải giá trị cho biến phụ thuộc (trong trường hợp này là giá của một sản phẩm trong các tháng cụ thể trong năm) và trong "Đầu vào khoảng thời gian X "- cho biến độc lập (số tháng). Xác nhận hành động bằng cách nhấp vào "Ok". Trên một trang tính mới (nếu nó được chỉ định như vậy), chúng tôi nhận được dữ liệu cho hồi quy.

Dựa trên chúng, chúng tôi xây dựng một phương trình tuyến tính có dạng y = ax + b, trong đó các tham số a và b là các hệ số của hàng có tên của số tháng và các hệ số và hàng "Giao điểm Y" từ trang với các kết quả của phân tích hồi quy. Do đó, phương trình hồi quy tuyến tính (LE) cho vấn đề 3 được viết dưới dạng:

Giá sản phẩm N = 11,714 * số tháng + 1727,54.

hoặc trong ký hiệu đại số

y = 11,714 x + 1727,54

Phân tích kết quả

Để quyết định xem phương trình kết quả có phù hợp hay không hồi quy tuyến tính, hệ số tương quan nhiều (MCC) và hệ số xác định được sử dụng, cũng như bài kiểm tra của Fisher và bài kiểm tra của Học sinh. Trong bảng Excel với kết quả hồi quy, chúng xuất hiện dưới tên của nhiều R, R-square, F-Statistics và t-Statistics, tương ứng.

KMC R cho phép đánh giá mức độ chặt chẽ của mối quan hệ xác suất giữa các biến độc lập và phụ thuộc. Giá trị cao của nó cho thấy mối quan hệ khá chặt chẽ giữa các biến "Số lượng trong tháng" và "Giá hàng hóa N tính bằng rúp trên 1 tấn". Tuy nhiên, bản chất của mối quan hệ này vẫn chưa được biết rõ.

Bình phương của hệ số xác định R 2 (RI) là một đặc trưng số của tỷ trọng của tổng phân tán và cho biết mức phân tán của phần nào của dữ liệu thực nghiệm, tức là các giá trị của biến phụ thuộc tương ứng với phương trình hồi quy tuyến tính. Trong bài toán đang xét, giá trị này bằng 84,8%, tức là dữ liệu thống kê được mô tả với mức độ chính xác cao bằng SD thu được.

Thống kê F, còn được gọi là kiểm định của Fisher, được sử dụng để đánh giá tầm quan trọng của một mối quan hệ tuyến tính, bác bỏ hoặc xác nhận giả thuyết về sự tồn tại của nó.

(Tiêu chí của sinh viên) giúp đánh giá mức ý nghĩa của hệ số với số hạng chưa biết hoặc số hạng tự do của mối quan hệ tuyến tính. Nếu giá trị của tiêu chí t> t cr, thì giả thuyết về sự không đáng kể của số hạng tự do phương trình đường thẳng từ chối.

Trong bài toán đang được xem xét cho thành viên miễn phí, sử dụng công cụ Excel, đã thu được rằng t = 169,20903 và p = 2,89E-12, tức là chúng ta có xác suất bằng không rằng giả thuyết đúng về mức độ không đáng kể của thành viên miễn phí sẽ là từ chối. Đối với hệ số tại thời điểm chưa biết t = 5,79405, và p = 0,001158. Nói cách khác, xác suất giả thuyết đúng về sự không đáng kể của hệ số đối với ẩn số sẽ bị bác bỏ là 0,12%.

Do đó, có thể lập luận rằng phương trình hồi quy tuyến tính kết quả là đầy đủ.

Vấn đề hiệu lực của việc mua một khối cổ phiếu

Hồi quy nhiều lần trong Excel được thực hiện bằng cùng một công cụ Phân tích dữ liệu. Xem xét một vấn đề được áp dụng cụ thể.

Ban quản lý của NNN phải đưa ra quyết định về khả năng tư vấn mua 20% cổ phần của MMM SA. Chi phí của gói thầu (liên doanh) là 70 triệu đô la Mỹ. Các chuyên gia của NNN đã thu thập dữ liệu về các giao dịch tương tự. Người ta quyết định đánh giá giá trị của khối cổ phiếu theo các thông số như vậy, được biểu thị bằng hàng triệu đô la Mỹ, như:

  • các khoản phải trả (VK);
  • âm lượng doanh thu hàng năm(VO);
  • các khoản phải thu (VD);
  • nguyên giá tài sản cố định (SOF).

Ngoài ra, sử dụng thông số truy thu bảng lương của doanh nghiệp (V3 P) tính bằng hàng nghìn đô la Mỹ.

Giải pháp sử dụng bảng tính Excel

Trước hết, bạn cần tạo một bảng dữ liệu ban đầu. Nó trông như thế này:

  • gọi cửa sổ "Phân tích dữ liệu";
  • chọn phần "Hồi quy";
  • trong hộp "Khoảng đầu vào Y" nhập phạm vi giá trị của các biến phụ thuộc từ cột G;
  • nhấp vào biểu tượng có mũi tên màu đỏ ở bên phải cửa sổ "Khoảng đầu vào X" và chọn phạm vi của tất cả các giá trị từ các cột B, C, D, F trên trang tính.

Chọn "Bảng tính mới" và nhấp vào "Ok".

Nhận phân tích hồi quy cho bài toán đã cho.

Kiểm tra kết quả và kết luận

“Chúng tôi thu thập” từ dữ liệu làm tròn được trình bày ở trên trên bảng tính Excel, phương trình hồi quy:

SP \ u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Trong quen thuộc hơn dạng toán học nó có thể được viết là:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Dữ liệu cho Công ty cổ phần "MMM" được trình bày trong bảng:

Thay chúng vào phương trình hồi quy, họ nhận được con số là 64,72 triệu đô la Mỹ. Điều này có nghĩa là không nên mua cổ phiếu của CTCP MMM, vì giá trị 70 triệu đô la Mỹ của nó là khá phóng đại.

Như bạn có thể thấy, việc sử dụng bảng tính Excel và phương trình hồi quy giúp bạn có thể đưa ra quyết định sáng suốt về tính khả thi của một giao dịch rất cụ thể.

Bây giờ bạn biết hồi quy là gì. Các ví dụ trong Excel được thảo luận ở trên sẽ giúp bạn giải quyết các vấn đề thực tế từ lĩnh vực kinh tế lượng.

Câu hỏi:

4. Ước lượng các tham số của mô hình tuyến tính hồi quy bội.

5. Đánh giá chất lượng của hồi quy bội tuyến tính.

6. Phân tích và dự báo dựa trên mô hình đa nhân tố.

Hồi quy bội là một tổng quát của hồi quy theo cặp. Nó được sử dụng để mô tả mối quan hệ giữa biến giải thích (phụ thuộc) Y và các biến giải thích (độc lập) X 1, X 2,…, X k. Hồi quy bội có thể là tuyến tính hoặc phi tuyến tính, nhưng hồi quy bội tuyến tính được sử dụng rộng rãi nhất trong kinh tế học.

lý thuyết mô hình tuyến tính hồi quy bội trông giống như:

hồi quy mẫu tương ứng được ký hiệu là:

Như trong hồi quy theo cặp, số hạng ngẫu nhiên ε phải thỏa mãn các giả định cơ bản của phân tích hồi quy. Sau đó, với sự trợ giúp của LSM, các ước lượng không chệch và hiệu quả nhất của các tham số hồi quy lý thuyết sẽ thu được. Ngoài ra, các biến Х 1, Х 2,…, Х k phải không tương quan (độc lập tuyến tính) với nhau. Để viết các công thức ước tính hệ số hồi quy (2), thu được trên cơ sở LSM, chúng tôi giới thiệu ký hiệu sau:

Sau đó, chúng ta có thể viết dưới dạng vectơ-ma trận Mô hình lý thuyết:

và hồi quy có chọn lọc

OLS dẫn đến công thức sau đây để ước lượng véc tơ hệ số hồi quy mẫu:

(3)

Để ước tính nhiều hệ số hồi quy tuyến tính với hai biến độc lập , chúng ta có thể giải hệ phương trình:

(4)

Như trong hồi quy tuyến tính theo cặp, đối với hồi quy bội, sai số tiêu chuẩn của hồi quy S được tính:

(5)

và sai số chuẩn của các hệ số hồi quy:

(6)

ý nghĩa của các hệ số được kiểm tra bằng phép thử t.

có phân phối Student với số bậc tự do v = n-k-1.

Để đánh giá chất lượng của hồi quy, hệ số (chỉ số) xác định được sử dụng:

, (8)

càng gần 1, chất lượng của hồi quy càng cao.

Để kiểm tra mức độ quan trọng của hệ số xác định, tiêu chí Fisher hoặc thống kê F được sử dụng.



(9)

với v1= k, v2= n-k-1 bậc tự do.

Trong hồi quy đa biến, việc thêm các biến giải thích bổ sung làm tăng hệ số xác định. Để bù đắp cho sự gia tăng như vậy, một hệ số xác định đã điều chỉnh (hoặc chuẩn hóa) được đưa ra:

(10)

Nếu mức tăng tỷ trọng của hồi quy được giải thích bằng cách thêm một biến mới là nhỏ, thì nó có thể giảm. Vì vậy, thêm một biến mới là không phù hợp.

Ví dụ 4:

Hãy xem xét sự phụ thuộc của lợi nhuận của doanh nghiệp vào chi phí của thiết bị và máy móc mới và vào chi phí nâng cao tay nghề của người lao động. Đã thu thập dữ liệu thống kê về 6 doanh nghiệp cùng loại. Dữ liệu tính bằng triệu den. các đơn vị được cho trong bảng 1.

Bảng 1

Vẽ đồ thị hồi quy tuyến tính hai chiều và đánh giá ý nghĩa của nó. Hãy để chúng tôi giới thiệu ký hiệu:

Chúng ta hoán vị ma trận X:

Nghịch đảo của ma trận này:

Do đó, sự phụ thuộc của lợi nhuận vào chi phí của thiết bị và máy móc mới và chi phí nâng cao kỹ năng của nhân viên có thể được mô tả bằng hồi quy sau:

Sử dụng công thức (5), với k = 2, ta tính được sai số chuẩn của hồi quy S = 0,636.

Chúng tôi tính toán các sai số tiêu chuẩn của các hệ số hồi quy bằng công thức (6):

Tương tự:

Hãy kiểm tra ý nghĩa của các hệ số hồi quy a 1, a 2. tính t calc.

Ta chọn mức ý nghĩa, số bậc tự do

nghĩa là hệ số một 1 có ý nghĩa.

Hãy để chúng tôi ước tính ý nghĩa của hệ số a 2:

Hệ số một 2 tầm thường.

Hãy tính hệ số xác định theo công thức (7). Lợi nhuận của doanh nghiệp 96% phụ thuộc vào chi phí thiết bị, máy móc mới và đào tạo nâng cao 4% từ các yếu tố ngẫu nhiên và khác. Hãy kiểm tra ý nghĩa của hệ số xác định. Tính F calc:

sau đó. hệ số xác định có ý nghĩa thì phương trình hồi quy có ý nghĩa.

Có tầm quan trọng lớn trong phân tích dựa trên hồi quy đa biến là so sánh mức độ ảnh hưởng của các nhân tố đến chỉ tiêu phụ thuộc y. Hệ số hồi quy không được sử dụng cho mục đích này, do sự khác biệt về đơn vị đo lường và mức độ khác nhau biến động. Từ những thiếu sót này, hệ số co giãn tự do là:

Độ co giãn cho biết chỉ số phụ thuộc y thay đổi trung bình bao nhiêu phần trăm khi biến số thay đổi 1%, với điều kiện giá trị của các biến khác không thay đổi. Càng lớn, ảnh hưởng của biến tương ứng càng lớn. Như trong hồi quy cặp, đối với hồi quy bội, sự khác biệt được thực hiện giữa dự báo điểm và dự báo khoảng thời gian. Dự báo điểm (số) thu được bằng cách thay thế các giá trị dự đoán của các biến độc lập vào phương trình hồi quy bội. Biểu thị bởi:

(12)

vectơ giá trị dự đoán của các biến độc lập, sau đó là dự báo điểm

lỗi tiêu chuẩn dự đoán trong trường hợp hồi quy bội được xác định như sau:

(15)

Ta chọn mức ý nghĩa α theo bảng phân phối Student. Với mức ý nghĩa α và số bậc tự do ν = n-k-1, ta tìm được t cr. Khi đó giá trị thực của y p với xác suất 1- α rơi vào khoảng:


Chủ đề 5:

Chuỗi thời gian.

Câu hỏi:

4. Các khái niệm cơ bản về chuỗi thời gian.

5. Xu hướng phát triển chính là xu hướng.

6. Xây dựng mô hình phụ gia.

Chuỗi thời gianđại diện cho một tập hợp các giá trị của bất kỳ chỉ báo nào trong một số khoảnh khắc hoặc khoảng thời gian liên tiếp.

Thời điểm (hoặc khoảng thời gian) được ký hiệu là t, và giá trị của chỉ số tại thời điểm được ký hiệu là y (t) và được gọi là mức hàng .

Mỗi cấp độ của chuỗi thời gian được hình thành dưới tác động của một số lượng lớn các yếu tố có thể được chia thành 3 nhóm:

Yếu tố lâu dài, thường xuyên, có ảnh hưởng quyết định đến hiện tượng đang nghiên cứu và hình thành xu hướng chính của chuỗi - xu hướng T (t).

Các yếu tố chu kỳ ngắn hạn hình thành biến động theo mùa của chuỗi S (t).

Các yếu tố ngẫu nhiên hình thành các thay đổi ngẫu nhiên trong các mức của chuỗi ε (t).

Mô hình phụ gia chuỗi thời gian là một mô hình trong đó mỗi cấp của chuỗi được thể hiện bằng tổng của xu hướng, theo mùa và thành phần ngẫu nhiên:

Mô hình nhân là một mô hình trong đó mỗi cấp của chuỗi là sản phẩm của các thành phần được liệt kê:

Việc lựa chọn một trong các mô hình dựa trên việc phân tích cấu trúc của sự biến động theo mùa. Nếu biên độ dao động xấp xỉ không đổi, thì một mô hình cộng được xây dựng. Nếu tăng biên độ thì mô hình nhân.

Nhiệm vụ chính của phân tích kinh tế lượng là xác định từng thành phần được liệt kê.

Xu hướng phát triển chính (xu hướng)được gọi là sự thay đổi nhịp nhàng và ổn định trong các cấp độ của chuỗi theo thời gian, không bị biến động ngẫu nhiên và theo mùa.

Nhiệm vụ xác định các xu hướng phát triển chính được gọi là căn chỉnh chuỗi thời gian .

Các phương pháp căn chỉnh chuỗi thời gian bao gồm:

1) phương pháp phóng to các khoảng,

2) phương pháp trung bình động,

3) sự liên kết phân tích.

1) Khoảng thời gian mà các cấp độ của chuỗi tham chiếu được mở rộng. Sau đó, các cấp độ của chuỗi được tổng hợp trong các khoảng thời gian được mở rộng. Biến động mức độ do nguyên nhân ngẫu nhiên triệt tiêu lẫn nhau. Xu hướng chung được bộc lộ rõ ​​ràng hơn.

2) Để xác định số lượng cấp độ đầu tiên của chuỗi, giá trị trung bình. Sau đó, giá trị trung bình được tính từ cùng một số cấp độ trong chuỗi, bắt đầu từ cấp độ thứ hai, v.v. giá trị trung bình trượt dọc theo chuỗi động lực, tăng lên 1 khoảng thời gian (thời điểm). Số cấp của chuỗi mà giá trị trung bình được tính theo đó có thể là chẵn hoặc lẻ. Đối với một đường trung bình động kỳ lạ, hãy tham khảo giữa thời kỳ trượt giá. Đối với một khoảng thời gian chẵn, việc tìm giá trị trung bình không được so sánh với định nghĩa của t, nhưng một quy trình căn giữa được áp dụng, tức là tính giá trị trung bình của hai đường trung bình liên tiếp.

3) Xây dựng chức năng phân tíchđặc trưng cho sự phụ thuộc của mức độ của chuỗi vào thời gian. Các chức năng sau được sử dụng để xây dựng xu hướng:

Các tham số xu hướng được xác định bằng phương pháp bình phương nhỏ nhất. Việc lựa chọn hàm tốt nhất được thực hiện trên cơ sở hệ số R 2.

Chúng tôi sẽ xây dựng một mô hình phụ gia bằng cách sử dụng một ví dụ.

Ví dụ 7:

Có số liệu hàng quý về sản lượng điện tiêu thụ của một khu vực nhất định trong 4 năm. Dữ liệu tính bằng triệu kW trong bảng 1.

Bảng 1

Xây dựng mô hình chuỗi thời gian.

Trong ví dụ này, chúng tôi coi số quý là một biến độc lập và tiêu thụ điện hàng quý là biến phụ thuộc y (t).

Từ biểu đồ phân tán, bạn có thể thấy rằng xu hướng (trend) là tuyến tính. Bạn cũng có thể thấy sự hiện diện của các dao động theo mùa (kỳ = 4) với cùng biên độ, vì vậy chúng tôi sẽ xây dựng một mô hình cộng.

Xây dựng mô hình bao gồm các bước sau:

1. Chúng tôi sẽ căn chỉnh chuỗi ban đầu bằng cách sử dụng đường trung bình trong 4 phần tư và thực hiện căn giữa:

1.1. Hãy tính tổng các cấp độ của chuỗi tuần tự cho mỗi 4 quý với thời gian dịch chuyển là 1 điểm.

1.2. Bằng cách chia tổng kết quả cho 4, chúng tôi tìm thấy các đường trung bình động.

1.3. Chúng tôi đưa các giá trị này phù hợp với các thời điểm thực tế mà chúng tôi tìm thấy giá trị trung bình của hai đường trung bình động liên tiếp - đường trung bình động ở giữa.

2. Tính độ biến thiên theo mùa. Biến thiên theo mùa (t) = y (t) - đường trung bình động ở giữa. Hãy xây dựng bảng 2.

ban 2

Qua khối số t Tiêu thụ điện Y (t) Trung bình động 4 quý Đường trung bình động ở giữa Ước tính biến đổi theo mùa
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Dựa trên sự biến đổi theo mùa trong Bảng 3, thành phần thời vụ được tính toán.

Các chỉ số Năm Số quý năm I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Toàn bộ 1,8 -5,875 -3,825 8,125 Tổng
Trung bình 0,6 -1,958 -1,275 2,708 0,075
Thành phần theo mùa 0,581 -1,977 -1,294 2,690

4. Loại bỏ thành phần theo mùa từ các cấp ban đầu của chuỗi:

Sự kết luận:

Mô hình phụ gia giải thích 98,4% biến thể chung các mức của chuỗi thời gian gốc.

Bằng cách nhấp vào nút "Tải xuống kho lưu trữ", bạn sẽ tải xuống tệp bạn cần miễn phí.
Trước khi tải xuống tập tin đã cho hãy nhớ những bài luận hay, bài kiểm soát, bài thi học kỳ, luận văn, các bài báo và tài liệu khác chưa được xác nhận trên máy tính của bạn. Đây là công việc của bạn, nó nên tham gia vào sự phát triển của xã hội và mang lại lợi ích cho mọi người. Tìm những tác phẩm này và gửi chúng đến cơ sở tri thức.
Chúng tôi và tất cả các bạn sinh viên, học viên cao học, các nhà khoa học trẻ sử dụng nền tảng tri thức trong học tập và làm việc của mình sẽ rất biết ơn các bạn.

Để tải xuống bản lưu trữ có tài liệu, hãy nhập số có năm chữ số vào trường bên dưới và nhấp vào nút "Tải xuống bản lưu trữ"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Nhập số hiển thị ở trên:

Tài liệu tương tự

    Các nguyên tắc cơ bản về xây dựng và kiểm tra tính đầy đủ mô hình kinh tế hồi quy bội số, vấn đề về đặc điểm kỹ thuật của chúng và hậu quả của lỗi. Hỗ trợ phương pháp và thông tin của hồi quy bội. Ví dụ số nhiều mô hình hồi quy.

    hạn giấy, bổ sung 02/10/2014

    Khái niệm về mô hình hồi quy bội số. Bản chất của phương pháp bình phương nhỏ nhất, được sử dụng để xác định các tham số của phương trình hồi quy tuyến tính bội bội. Đánh giá chất lượng của sự phù hợp phương trình hồi quy vào dữ liệu. Hệ số xác định.

    hạn giấy, bổ sung 22/01/2015

    Xây dựng mô hình hồi quy tuyến tính bội số theo các tham số cho trước. Đánh giá chất lượng của mô hình bằng hệ số xác định và tương quan bội. Xác định ý nghĩa của phương trình hồi quy dựa trên kiểm định F của Fisher và kiểm định t của Student.

    kiểm tra, thêm 12/01/2013

    Xây dựng một phương trình hồi quy bội ở dạng tuyến tính với trọn bộ các yếu tố, lựa chọn các yếu tố thông tin. Kiểm tra ý nghĩa của phương trình hồi quy bằng kiểm định Fisher và ý nghĩa thống kê của các tham số hồi quy bằng kiểm định của Student.

    phòng thí nghiệm làm việc, thêm ngày 17 tháng 10 năm 2009

    Mô tả mô hình tuyến tính cổ điển của hồi quy bội. Phân tích ma trận các hệ số tương quan ghép đôi để tìm sự hiện diện của đa cộng tuyến. Đánh giá mô hình hồi quy cặp nhân tố có ý nghĩa nhất. Xây dựng đồ thị của khoảng thời gian dự báo.

    hạn giấy, bổ sung 17/01/2016

    Các yếu tố hình thành giá của căn hộ trong những ngôi nhà đang được xây dựng ở St.Petersburg. Biên soạn ma trận các hệ số tương quan cặp của các biến ban đầu. Kiểm tra các sai số của phương trình hồi quy bội đối với phương sai thay đổi. Bài kiểm tra Gelfeld-Quandt.

    thử nghiệm, thêm 14/05/2015

    Ước lượng phân phối của biến X1. Mô hình hóa mối quan hệ giữa các biến Y và X1 bằng cách sử dụng một hàm tuyến tính và phương pháp hồi quy tuyến tính bội số. So sánh chất lượng của các mô hình đã xây dựng. Lập dự báo điểm cho các giá trị đã cho.

    hạn giấy, bổ sung 24/06/2015

Xin chào các bạn độc giả thân mến.
Trong các bài viết trước, sử dụng các ví dụ thực tế, tôi đã trình bày cách giải các bài toán phân loại (bài toán tính điểm tín dụng) và các vấn đề cơ bản về phân tích thông tin văn bản (bài toán hộ chiếu). Hôm nay tôi muốn đề cập đến một lớp vấn đề khác, đó là khôi phục hồi quy. Nhiệm vụ của lớp này thường được sử dụng trong dự báo.
Đối với một ví dụ về giải quyết vấn đề dự báo, tôi đã lấy bộ dữ liệu Hiệu quả năng lượng từ kho lưu trữ UCI lớn nhất. Theo truyền thống, chúng tôi sẽ sử dụng Python với các gói phân tích gấu trúc và scikit-learning làm công cụ.

Mô tả tập dữ liệu và câu lệnh vấn đề

Một tập dữ liệu được cung cấp mô tả các thuộc tính sau của phòng:

Nó chứa các đặc điểm của căn phòng trên cơ sở đó sẽ tiến hành phân tích và - các giá trị tải \ u200b \ u200cần được dự đoán.

Phân tích dữ liệu sơ bộ

Đầu tiên, hãy tải dữ liệu của chúng tôi và xem xét nó:

Từ gấu trúc nhập read_csv, DataFrame từ sklearn.neighbors nhập KNeighborsRegressor từ sklearn.linear_model nhập LinearRegression, LogisticRegression từ sklearn.svm nhập SVR từ sklearn.ensemble nhập RandomForestRegressor từ sklearn.metrics nhập r2sp_score từ sklearn.metrics import r2sp_score train từ sklearn. /ENB2012_data.csv ","; ") dataset.head ()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Bây giờ chúng ta hãy xem liệu có thuộc tính nào có liên quan không. Điều này có thể được thực hiện bằng cách tính toán các hệ số tương quan cho tất cả các cột. Làm thế nào để làm điều này đã được mô tả trong một bài viết trước:

dataset.corr ()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1,000000e + 00 -9,919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1,283986e-17 1.764620e-17 0.622272 0.634339
X2 -9,919015e-01 1,000000e + 00 1.955016e-01 8.807195e-01 -8,581477e-01 0.000000 1.318356e-16 -3,558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1,000000e + 00 -2,923165e-01 2.809757e-01 0.000000 -7,969726e-19 0,000000e + 00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2,923165e-01 1,000000e + 00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8,581477e-01 2.809757e-01 -9.725122e-01 1,000000e + 00 0.000000 1,861418e-18 0,000000e + 00 0.889431 0.895785
X6 0,000000e + 00 0,000000e + 00 0,000000e + 00 0,000000e + 00 0,000000e + 00 1.000000 0,000000e + 00 0,000000e + 00 -0.002587 0.014290
X7 1,283986e-17 1.318356e-16 -7,969726e-19 -1.381805e-16 1,861418e-18 0.000000 1,000000e + 00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3,558613e-16 0,000000e + 00 -1.079129e-16 0,000000e + 00 0.000000 2.129642e-01 1,000000e + 00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4,556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Như bạn có thể thấy từ ma trận của chúng tôi, các cột sau đây tương quan với nhau (giá trị của hệ số tương quan lớn hơn 95%):
  • y1 -> y2
  • x1 -> x2
  • x4 -> x5
Bây giờ chúng ta hãy chọn cột nào trong số các cặp của chúng ta mà chúng ta có thể loại bỏ khỏi lựa chọn của mình. Để làm điều này, trong mỗi cặp, chúng tôi chọn các cột có tác động lớn hơn đến các giá trị được dự đoán Y1Y2 và để lại chúng, và xóa phần còn lại.
Như bạn có thể thấy, ma trận có hệ số tương quan trên y1 ,y2 giá trị hơn kết xuất X2 X5 hơn X1 và X4, vì vậy chúng tôi có thể loại bỏ các cột cuối cùng mà chúng tôi có thể.

Dataset = dataset.drop (["X1", "X4"], axis = 1) dataset.head ()
Ngoài ra, có thể thấy rằng các trường Y1 Y2 tương quan chặt chẽ với nhau. Tuy nhiên, vì chúng tôi cần dự đoán cả hai giá trị, chúng tôi để chúng “nguyên trạng”.

Lựa chọn mô hình

Tách các giá trị dự báo khỏi mẫu của chúng tôi:

Trg = dataset [["Y1", "Y2"]] trn = dataset.drop (["Y1", "Y2"], axis = 1)
Sau khi xử lý dữ liệu, bạn có thể tiến hành xây dựng mô hình. Để xây dựng mô hình, chúng tôi sẽ sử dụng các phương pháp sau:

Lý thuyết về các phương pháp này có thể được đọc trong quá trình các bài giảng của K.V. Vorontsov về máy học.
Chúng tôi sẽ đánh giá bằng cách sử dụng hệ số xác định ( Quảng trường R). Hệ số nàyđược định nghĩa như sau:

Phương sai có điều kiện của biến phụ thuộc ở đâu tại theo yếu tố X.
Hệ số nhận giá trị trên khoảng và càng gần 1 thì sự phụ thuộc càng mạnh.
Vâng, bây giờ bạn có thể đến trực tiếp xây dựng mô hình và chọn mô hình. Hãy đặt tất cả các mô hình của chúng tôi vào một danh sách để thuận tiện cho việc phân tích thêm:

Mô hình =
Vì vậy, các mô hình đã sẵn sàng, bây giờ chúng tôi sẽ chia dữ liệu ban đầu của chúng tôi thành 2 ví dụ con: kiểm tragiáo dục. Những ai đã đọc các bài viết trước của tôi đều biết rằng điều này có thể được thực hiện bằng cách sử dụng hàm train_test_split () từ gói scikit-learning:

Xtrn, Xtest, Ytrn, Ytest = train_test_split (trn, trg, test_size = 0.4)
Bây giờ, vì chúng ta cần dự đoán 2 tham số, chúng ta cần xây dựng một hồi quy cho mỗi tham số. Ngoài ra, để phân tích sâu hơn, bạn có thể ghi lại kết quả thu được tạm thời Khung dữ liệu. Bạn có thể làm như thế này:

#create cấu trúc tạm thời TestModels = DataFrame () tmp = () #cho mỗi mô hình từ danh sách cho mô hình trong các mô hình: #get tên mô hình m = str (model) tmp ["Model"] = m [: m.index ( "(")] #cho mỗi cột của tập kết quả cho i trong xrange (Ytrn.shape): #train the model model.fit (Xtrn, Ytrn [:, i]) # tính hệ số xác định tmp ["R2_Y % s "% str (i +1)] = r2_score (Ytest [:, 0], model.p Dự đoán (Xtest)) # ghi dữ liệu và DataFrame cuối cùng TestModels = TestModels.append () # tạo chỉ mục theo tên kiểu TestModels.set_index ("Mô hình", inplace = true)
Như bạn có thể thấy từ đoạn mã trên, hàm r2_score () được sử dụng để tính toán hệ số.
Vì vậy, dữ liệu để phân tích được nhận. Bây giờ chúng ta hãy xây dựng đồ thị và xem mô hình nào cho kết quả tốt nhất:

Hình, axis = plt.subplots (ncols = 2, figsize = (10,4)) TestModels.R2_Y1.plot (ax = axis, kind = "bar", title = "(! LANG: R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Phân tích kết quả và kết luận

Từ các biểu đồ trên, chúng ta có thể kết luận rằng phương pháp này đối phó với nhiệm vụ tốt hơn các phương pháp khác. Rừng ngẫu nhiên(rừng ngẫu nhiên). Hệ số xác định của nó cao hơn phần còn lại ở cả hai biến:
Để phân tích thêm, hãy đào tạo lại mô hình của chúng tôi:

Model = modelsmodel.fit (Xtrn, Ytrn)
Khi xem xét kỹ hơn, câu hỏi có thể nảy sinh tại sao lần trước lại chia mẫu phụ thuộc Ytrn thành biến (theo cột), và bây giờ chúng tôi không làm điều đó.
Thực tế là một số phương pháp, chẳng hạn như RandomForestRegressor, có thể hoạt động với một số biến dự đoán, trong khi những biến khác (ví dụ: SVR) chỉ có thể hoạt động với một biến. Vì vậy, trong phần đào tạo trước, chúng tôi đã sử dụng phân vùng theo cột để tránh sai sót trong quá trình xây dựng một số mô hình.
Tất nhiên, chọn một mô hình là tốt, nhưng cũng sẽ rất tốt nếu có thông tin về cách mỗi yếu tố sẽ ảnh hưởng đến giá trị dự đoán. Để làm điều này, mô hình có một thuộc tính feature_importances_.
Với nó, bạn có thể thấy trọng lượng của từng yếu tố trong các mô hình cuối cùng:

Model.feature_importances_
mảng ([0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

Trong trường hợp của chúng tôi, có thể thấy rằng tổng chiều cao và diện tích ảnh hưởng nhiều nhất đến tải sưởi và làm mát. Tổng đóng góp của họ vào mô hình dự đoán là khoảng 72%.
Cũng cần lưu ý rằng theo sơ đồ trên, bạn có thể thấy ảnh hưởng của từng yếu tố riêng biệt đến hệ thống sưởi và riêng biệt đối với việc làm mát, nhưng vì các yếu tố này tương quan chặt chẽ với nhau (), chúng tôi đã đưa ra kết luận chung về cả hai yếu tố chúng, đã được viết ở trên.

Sự kết luận

Trong bài viết, tôi đã cố gắng trình bày các giai đoạn chính trong Phân tích hồi quy dữ liệu với Python và các gói phân tích gấu trúcscikit-học.
Cần lưu ý rằng tập dữ liệu đã được chọn cụ thể theo cách để được chính thức hóa và chế biến chính dữ liệu đầu vào sẽ là tối thiểu. Theo tôi, bài viết sẽ hữu ích với những bạn mới bắt đầu hành trình trong lĩnh vực phân tích dữ liệu, cũng như những bạn đã có cơ sở lý thuyết vững vàng mà lựa chọn công cụ cho công việc.