Sự khác biệt giữa Tương quan và Hồi quy
Mục lục:
- Sự khác biệt chính - Tương quan so với hồi quy
- Tương quan là gì
- Hồi quy là gì
- Sự khác biệt giữa Tương quan và Hồi quy
Sự khác biệt chính - Tương quan so với hồi quy
Tương quan và hồi quy là hai phương pháp dùng để khảo sát mối quan hệ giữa các biến trong thống kê. Các Sự khác biệt chính giữa tương quan và hồi quy là sự tương quan đo lường mức độ mà hai biến số có liên quan với nhau, nhưng trái lại hồi quy là một phương pháp để mô tả mối quan hệ giữa hai biến. Hồi quy cũng cho phép người ta dự đoán chính xác hơn giá trị mà biến phụ thuộc sẽ nhận cho một giá trị nhất định của biến độc lập.
Tương quan là gì
Trong thống kê, chúng ta nói rằng có mối tương quan giữa hai biến nếu hai biến có liên quan với nhau. Nếu mối quan hệ giữa các biến là tuyến tính, chúng ta có thể biểu thị mức độ liên quan của chúng bằng cách sử dụng một số được gọi là Hệ số tương quan của Pearson
.
nhận giá trị từ -1 đến 1. Giá trị 0 có nghĩa là hai biến không tương quan. Giá trị âm chỉ ra rằng mối tương quan giữa các biến là âm: tức là khi một biến tăng, biến kia giảm. Tương tự, một giá trị dương cho
có nghĩa là dữ liệu có tương quan thuận (khi một biến tăng thì biến kia cũng tăng theo).
Một giá trị của
nghĩa là -1 hoặc 1 mang lại mối tương quan mạnh nhất có thể. Khi nào
các biến được cho là hoàn toàn tương quan nghịch và khi
các giá trị được cho là hoàn toàn tương quan thuận. Hình dưới đây cho thấy một số hình dạng của biểu đồ phân tán giữa hai biến và hệ số tương quan cho từng trường hợp:
Hệ số tương quan của Pearson cho các loại biểu đồ phân tán khác nhau
Hệ số tương quan của Pearson cho hai biến
và
được định nghĩa như sau:
Ở đây,
là hiệp phương sai giữa
và
:
Các điều khoản
và
đại diện cho độ lệch chuẩn của
và
Điều này được định nghĩa là:
và
Hãy để chúng tôi xem cách tính hệ số tương quan bằng cách sử dụng một ví dụ. Chúng tôi sẽ cố gắng tính toán hệ số tương quan cho bộ 20 giá trị sau đây cho
và
:
|
|
-0.9557 | 0.5369 |
-1.6441 | -0.1560 |
1.2254 | 1.9230 |
1.9062 | 1.9957 |
1.9679 | 2.1673 |
-0.3469 | 0.7954 |
-0.2328 | 0.5415 |
1.5064 | 1.2335 |
0.4278 | 0.7754 |
-0.6359 | 0.3534 |
0.0061 | 0.7565 |
0.8407 | 1.5326 |
0.2713 | 1.3354 |
0.4664 | 1.9980 |
-0.1813 | 1.2539 |
1.4384 | 2.0383 |
1.9001 | 2.7755 |
0.1022 | 0.7861 |
0.1251 | 0.7456 |
-0.6314 | 0.9942 |
Các giá trị của
được lập kế hoạch chống lại các giá trị của
trên biểu đồ được hiển thị bên dưới:
Nhìn vào các phương trình cần thiết để tính toán hệ số tương quan, trước tiên chúng ta sẽ tính toán các giá trị cho
. Đây là những giá trị trung bình của
và
tương ứng. Chúng tôi thấy rằng:
Tiếp theo, chúng tôi sẽ tính toán
và
. Chúng tôi sẽ đặt các giá trị này bên cạnh các giá trị của chúng tôi về
và
trên bảng trên:
|
|
|
|
|
-0.9557 | 0.5369 | -0.5131 | 1.7782 | 0.4654 |
-1.6441 | -0.1560 | 0.2565 | 4.0881 | 1.8909 |
1.2254 | 1.9230 | 2.3564 | 0.7184 | 0.4955 |
1.9062 | 1.9957 | 3.8042 | 2.3360 | 0.6031 |
1.9679 | 2.1673 | 4.2650 | 2.5284 | 0.8991 |
-0.3469 | 0.7954 | -0.2759 | 0.5252 | 0.1795 |
-0.2328 | 0.5415 | -0.1261 | 0.3728 | 0.4592 |
1.5064 | 1.2335 | 1.8581 | 1.2737 | 0.0002 |
0.4278 | 0.7754 | 0.3317 | 0.0025 | 0.1969 |
-0.6359 | 0.3534 | -0.2247 | 1.0276 | 0.7495 |
0.0061 | 0.7565 | 0.0046 | 0.1382 | 0.2140 |
0.8407 | 1.5326 | 1.2885 | 0.2143 | 0.0983 |
0.2713 | 1.3354 | 0.3623 | 0.0113 | 0.0135 |
0.4664 | 1.9980 | 0.9319 | 0.0079 | 0.6067 |
-0.1813 | 1.2539 | -0.2273 | 0.3126 | 0.0012 |
1.4384 | 2.0383 | 2.9319 | 1.1249 | 0.6711 |
1.9001 | 2.7755 | 5.2737 | 2.3174 | 2.4223 |
0.1022 | 0.7861 | 0.0803 | 0.0760 | 0.1875 |
0.1251 | 0.7456 | 0.0933 | 0.0639 | 0.2242 |
-0.6314 | 0.9942 | -0.6277 | 1.0185 | 0.0506 |
Với những giá trị này, chúng ta có thể tính toán hiệp phương sai:
Chúng tôi cũng có thể tính toán độ lệch chuẩn:
Bây giờ chúng ta có thể tính toán hệ số tương quan:
Hồi quy là gì
Hồi quy là một phương pháp để tìm mối quan hệ giữa hai biến. Cụ thể, chúng ta sẽ xem xét hồi quy tuyến tính, đưa ra phương trình cho "dòng phù hợp nhất" cho một mẫu dữ liệu nhất định, trong đó hai biến có mối quan hệ tuyến tính. Một đường thẳng có thể được mô tả bằng một phương trình ở dạng
ở đâu
là gradient của đường và
trục và hồi quy tuyến tính cho phép chúng tôi tính toán các giá trị của
và
. Khi chúng tôi đã tính toán hệ số tương quan
, chúng tôi có thể tính toán các giá trị này là:
Lưu ý rằng trong những trường hợp này,
được coi là biến phụ thuộc trong khi
là biến độc lập. Từ những tính toán trước đây của chúng tôi, chúng tôi biết rằng
,
và
. Vì vậy,
.
và
. Vì vậy,
.
Hình ảnh dưới đây cho thấy biểu đồ phân tán trước đó với dòng
:
Dữ liệu, với đường thẳng phù hợp nhất thu được từ phân tích hồi quy
Như chúng tôi đã đề cập trước đây, phân tích hồi quy hỗ trợ chúng tôi đưa ra dự đoán. Ví dụ: nếu giá trị của biến độc lập (
) là 1.000, thì chúng ta có thể dự đoán rằng
sẽ gần với
. Trên thực tế, giá trị của
có thể không nhất thiết phải chính xác là 1.614. Do không chắc chắn, giá trị thực tế có thể sẽ khác. Lưu ý rằng độ chính xác của dự đoán cao hơn đối với dữ liệu có hệ số tương quan gần ± 1.
Sự khác biệt giữa Tương quan và Hồi quy
Mô tả các mối quan hệ
Tương quan mô tả mức độ liên quan của hai biến.
hồi quy đưa ra một phương pháp để tìm mối quan hệ giữa hai biến.
Đưa ra dự đoán
Tương quan chỉ đơn thuần mô tả mức độ liên quan của hai biến. Phân tích mối tương quan giữa hai biến không cải thiện độ chính xác mà giá trị của biến phụ thuộc có thể được dự đoán cho một giá trị nhất định của biến độc lập.
hồi quy cho phép chúng ta dự đoán các giá trị của biến phụ thuộc cho một giá trị nhất định của biến độc lập một cách chính xác hơn.
Sự phụ thuộc giữa các biến
Trong phân tích tương quan, không quan trọng biến nào độc lập và biến nào độc lập.
Trong phân tích hồi quy, cần phải phân định giữa biến phụ thuộc và biến độc lập.
Hình ảnh lịch sự:
“Thiết kế lại Tệp: Correlation_examples.png bằng đồ họa vectơ (tệp SVG)” của DenisBoigelot (Tác phẩm riêng, trình tải lên ban đầu là Imagecreator) [CC0 1.0], thông qua Wikimedia Commons