Sự khác biệt giữa Tương quan và Hồi quy

Mục lục:

Anonim

Sự khác biệt chính - Tương quan so với hồi quy

Tương quan và hồi quy là hai phương pháp dùng để khảo sát mối quan hệ giữa các biến trong thống kê. Các Sự khác biệt chính giữa tương quan và hồi quy là sự tương quan đo lường mức độ mà hai biến số có liên quan với nhau, nhưng trái lại hồi quy là một phương pháp để mô tả mối quan hệ giữa hai biến. Hồi quy cũng cho phép người ta dự đoán chính xác hơn giá trị mà biến phụ thuộc sẽ nhận cho một giá trị nhất định của biến độc lập.

Tương quan là gì

Trong thống kê, chúng ta nói rằng có mối tương quan giữa hai biến nếu hai biến có liên quan với nhau. Nếu mối quan hệ giữa các biến là tuyến tính, chúng ta có thể biểu thị mức độ liên quan của chúng bằng cách sử dụng một số được gọi là Hệ số tương quan của Pearson

.

nhận giá trị từ -1 đến 1. Giá trị 0 có nghĩa là hai biến không tương quan. Giá trị âm chỉ ra rằng mối tương quan giữa các biến là âm: tức là khi một biến tăng, biến kia giảm. Tương tự, một giá trị dương cho

có nghĩa là dữ liệu có tương quan thuận (khi một biến tăng thì biến kia cũng tăng theo).

Một giá trị của

nghĩa là -1 hoặc 1 mang lại mối tương quan mạnh nhất có thể. Khi nào

các biến được cho là hoàn toàn tương quan nghịch và khi

các giá trị được cho là hoàn toàn tương quan thuận. Hình dưới đây cho thấy một số hình dạng của biểu đồ phân tán giữa hai biến và hệ số tương quan cho từng trường hợp:

Hệ số tương quan của Pearson cho các loại biểu đồ phân tán khác nhau

Hệ số tương quan của Pearson cho hai biến

được định nghĩa như sau:

Ở đây,

hiệp phương sai giữa

:

Các điều khoản

đại diện cho độ lệch chuẩn của

Điều này được định nghĩa là:

Hãy để chúng tôi xem cách tính hệ số tương quan bằng cách sử dụng một ví dụ. Chúng tôi sẽ cố gắng tính toán hệ số tương quan cho bộ 20 giá trị sau đây cho

:

-0.9557 0.5369
-1.6441 -0.1560
1.2254 1.9230
1.9062 1.9957
1.9679 2.1673
-0.3469 0.7954
-0.2328 0.5415
1.5064 1.2335
0.4278 0.7754
-0.6359 0.3534
0.0061 0.7565
0.8407 1.5326
0.2713 1.3354
0.4664 1.9980
-0.1813 1.2539
1.4384 2.0383
1.9001 2.7755
0.1022 0.7861
0.1251 0.7456
-0.6314 0.9942

Các giá trị của

được lập kế hoạch chống lại các giá trị của

trên biểu đồ được hiển thị bên dưới:

Nhìn vào các phương trình cần thiết để tính toán hệ số tương quan, trước tiên chúng ta sẽ tính toán các giá trị cho

. Đây là những giá trị trung bình của

tương ứng. Chúng tôi thấy rằng:

Tiếp theo, chúng tôi sẽ tính toán

. Chúng tôi sẽ đặt các giá trị này bên cạnh các giá trị của chúng tôi về

trên bảng trên:

-0.9557 0.5369 -0.5131 1.7782 0.4654
-1.6441 -0.1560 0.2565 4.0881 1.8909
1.2254 1.9230 2.3564 0.7184 0.4955
1.9062 1.9957 3.8042 2.3360 0.6031
1.9679 2.1673 4.2650 2.5284 0.8991
-0.3469 0.7954 -0.2759 0.5252 0.1795
-0.2328 0.5415 -0.1261 0.3728 0.4592
1.5064 1.2335 1.8581 1.2737 0.0002
0.4278 0.7754 0.3317 0.0025 0.1969
-0.6359 0.3534 -0.2247 1.0276 0.7495
0.0061 0.7565 0.0046 0.1382 0.2140
0.8407 1.5326 1.2885 0.2143 0.0983
0.2713 1.3354 0.3623 0.0113 0.0135
0.4664 1.9980 0.9319 0.0079 0.6067
-0.1813 1.2539 -0.2273 0.3126 0.0012
1.4384 2.0383 2.9319 1.1249 0.6711
1.9001 2.7755 5.2737 2.3174 2.4223
0.1022 0.7861 0.0803 0.0760 0.1875
0.1251 0.7456 0.0933 0.0639 0.2242
-0.6314 0.9942 -0.6277 1.0185 0.0506

Với những giá trị này, chúng ta có thể tính toán hiệp phương sai:

Chúng tôi cũng có thể tính toán độ lệch chuẩn:

Bây giờ chúng ta có thể tính toán hệ số tương quan:

Hồi quy là gì

Hồi quy là một phương pháp để tìm mối quan hệ giữa hai biến. Cụ thể, chúng ta sẽ xem xét hồi quy tuyến tính, đưa ra phương trình cho "dòng phù hợp nhất" cho một mẫu dữ liệu nhất định, trong đó hai biến có mối quan hệ tuyến tính. Một đường thẳng có thể được mô tả bằng một phương trình ở dạng

ở đâu

là gradient của đường và

trục và hồi quy tuyến tính cho phép chúng tôi tính toán các giá trị của

. Khi chúng tôi đã tính toán hệ số tương quan

, chúng tôi có thể tính toán các giá trị này là:

Lưu ý rằng trong những trường hợp này,

được coi là biến phụ thuộc trong khi

là biến độc lập. Từ những tính toán trước đây của chúng tôi, chúng tôi biết rằng

,

. Vì vậy,

.

. Vì vậy,

.

Hình ảnh dưới đây cho thấy biểu đồ phân tán trước đó với dòng

:

Dữ liệu, với đường thẳng phù hợp nhất thu được từ phân tích hồi quy

Như chúng tôi đã đề cập trước đây, phân tích hồi quy hỗ trợ chúng tôi đưa ra dự đoán. Ví dụ: nếu giá trị của biến độc lập (

) là 1.000, thì chúng ta có thể dự đoán rằng

sẽ gần với

. Trên thực tế, giá trị của

có thể không nhất thiết phải chính xác là 1.614. Do không chắc chắn, giá trị thực tế có thể sẽ khác. Lưu ý rằng độ chính xác của dự đoán cao hơn đối với dữ liệu có hệ số tương quan gần ± 1.

Sự khác biệt giữa Tương quan và Hồi quy

Mô tả các mối quan hệ

Tương quan mô tả mức độ liên quan của hai biến.

hồi quy đưa ra một phương pháp để tìm mối quan hệ giữa hai biến.

Đưa ra dự đoán

Tương quan chỉ đơn thuần mô tả mức độ liên quan của hai biến. Phân tích mối tương quan giữa hai biến không cải thiện độ chính xác mà giá trị của biến phụ thuộc có thể được dự đoán cho một giá trị nhất định của biến độc lập.

hồi quy cho phép chúng ta dự đoán các giá trị của biến phụ thuộc cho một giá trị nhất định của biến độc lập một cách chính xác hơn.

Sự phụ thuộc giữa các biến

Trong phân tích tương quan, không quan trọng biến nào độc lập và biến nào độc lập.

Trong phân tích hồi quy, cần phải phân định giữa biến phụ thuộc và biến độc lập.

Hình ảnh lịch sự:

“Thiết kế lại Tệp: Correlation_examples.png bằng đồ họa vectơ (tệp SVG)” của DenisBoigelot (Tác phẩm riêng, trình tải lên ban đầu là Imagecreator) [CC0 1.0], thông qua Wikimedia Commons

Sự khác biệt giữa Tương quan và Hồi quy