Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic

Mục lục:

Anonim

Các Sự khác biệt chính giữa hồi quy tuyến tính và hồi quy logistic là hồi quy tuyến tính được sử dụng để dự đoán một giá trị liên tục trong khi hồi quy logistic được sử dụng để dự đoán một giá trị rời rạc.

Hệ thống học máy có thể dự đoán kết quả trong tương lai dựa trên việc đào tạo các đầu vào trong quá khứ. Có hai loại học máy chính được gọi là học có giám sát và học không có giám sát. Hồi quy và phân loại nằm trong học tập có giám sát trong khi phân cụm thuộc học tập không giám sát. Các thuật toán học tập có giám sát sử dụng dữ liệu được gắn nhãn để đào tạo tập dữ liệu. Hồi quy tuyến tính và hồi quy logistic là hai loại thuật toán học có giám sát. Hồi quy tuyến tính được sử dụng khi biến phụ thuộc là liên tục và mô hình là tuyến tính. Hồi quy logistic được sử dụng khi biến phụ thuộc là rời rạc và mô hình là phi tuyến tính.

Hồi quy tuyến tính, Hồi quy logistic, Học máy

Hồi quy tuyến tính là gì

Hồi quy tuyến tính tìm mối quan hệ giữa các biến độc lập và phụ thuộc. Cả hai đều liền kề nhau. Biến độc lập là biến không bị thay đổi bởi các biến khác. Nó được ký hiệu là x. Cũng có thể có nhiều biến độc lập như x1, x2, x3,… Biến phụ thuộc thay đổi theo biến độc lập, và được ký hiệu là y.

Khi có một biến độc lập, phương trình hồi quy như sau.

y = b0 + b1x

Ví dụ, giả sử rằng x đại diện cho lượng mưa và y đại diện cho năng suất cây trồng.

Hình 1: Hồi quy tuyến tính

Tập dữ liệu sẽ giống như trên. Sau đó, một dòng bao gồm hầu hết các điểm dữ liệu được chọn. Dòng này đại diện cho các giá trị dự đoán.

Hình 2: Khoảng cách giữa các điểm dữ liệu thực tế và các giá trị dự đoán

Sau đó, khoảng cách từ mỗi điểm dữ liệu đến dòng được tìm thấy như trong biểu đồ trên. Đây là khoảng cách giữa giá trị thực tế và giá trị dự đoán. Khoảng cách này còn được gọi là sai số hoặc phần dư. Dòng phù hợp nhất phải có tổng bình phương sai số ít nhất. Khi giá trị lượng mưa mới được cho (x), có thể tìm năng suất cây trồng tương ứng (y) bằng cách sử dụng đường này.

Trong thế giới thực, có thể có nhiều biến độc lập (x1, x2, x3…). Đây được gọi là hồi quy nhiều tuyến tính. Phương trình hồi quy tuyến tính bội như sau.

Hồi quy logistic là gì

Hồi quy logistic có thể được sử dụng để phân loại hai lớp. Nó còn được gọi là phân loại nhị phân. Kiểm tra email có phải là spam hay không, dự đoán liệu khách hàng có mua sản phẩm hay không, dự đoán khả năng nhận được khuyến mãi hay không là một số ví dụ khác về hồi quy logistic.

Hình 3: Hồi quy logistic

Giả sử rằng số giờ học mỗi ngày của một sinh viên là biến số độc lập. Tùy thuộc vào đó, xác suất vượt qua một kỳ thi được tính toán. Giá trị 0,5 được coi là ngưỡng. Khi số giờ mới được đưa ra, có thể tìm xác suất đậu kỳ thi tương ứng bằng cách sử dụng đồ thị này. Nếu xác suất trên 0,5 được coi là 1 hoặc đậu. Nếu xác suất dưới 0,5 thì coi như là 0 hoặc không đạt.

Áp dụng phương trình hồi quy tuyến tính cho hàm sigmoid sẽ cho phương trình hồi quy logistic.

Chức năng sigmoid là

Một điểm quan trọng khác cần lưu ý là hồi quy logistic chỉ có thể áp dụng để phân loại 2 lớp. Nó không được sử dụng để phân loại đa thủy tinh.

Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic

Sự định nghĩa

Hồi quy tuyến tính là một cách tiếp cận tuyến tính mô hình hóa mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Ngược lại, hồi quy logistic là một mô hình thống kê dự đoán xác suất của một kết quả chỉ có thể có hai giá trị.

Sử dụng

Trong khi hồi quy tuyến tính được sử dụng để giải các bài toán hồi quy, thì hồi quy logistic được sử dụng để giải các bài toán phân loại (phân loại nhị phân).

Phương pháp luận

Hồi quy tuyến tính ước lượng biến phụ thuộc khi có sự thay đổi trong biến độc lập. Hồi quy logistic tính toán khả năng xảy ra một sự kiện. Đây là một điểm khác biệt quan trọng giữa hồi quy tuyến tính và hồi quy logistic.

Giá trị sản phẩm đầu ra

Ngoài ra, trong hồi quy tuyến tính, giá trị đầu ra là liên tục. Trong hồi quy logistic, giá trị đầu ra là rời rạc.

Người mẫu

Mặc dù hồi quy tuyến tính sử dụng một đường thẳng, nhưng hồi quy logistic sử dụng đường cong S hoặc hàm sigmoid. Đây là một điểm khác biệt quan trọng giữa hồi quy tuyến tính và hồi quy logistic.

Các ví dụ

Dự đoán GDP của một quốc gia, dự đoán giá sản phẩm, dự đoán giá bán nhà, dự đoán điểm số là một số ví dụ về hồi quy tuyến tính. Dự đoán email có phải là thư rác hay không, dự đoán liệu giao dịch thẻ tín dụng có gian lận hay không, dự đoán liệu khách hàng có vay hay không là một số ví dụ về hồi quy logistic.

Phần kết luận

Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là hồi quy tuyến tính được sử dụng để dự đoán một giá trị liên tục trong khi hồi quy logistic được sử dụng để dự đoán một giá trị rời rạc. Tóm lại, hồi quy tuyến tính được sử dụng để hồi quy trong khi hồi quy logistic được sử dụng để phân loại.

Thẩm quyền giải quyết:

1. Phân tích hồi quy tuyến tính | Hồi quy tuyến tính trong Python | Thuật toán học máy | Simplilearn, ngày 26 tháng 3 năm 2018, có sẵn tại đây. 2. Hồi quy logistic | Hồi quy logistic bằng Python | Thuật toán học máy | Simplilearn, ngày 22 tháng 3 năm 2018, có sẵn tại đây.

Hình ảnh lịch sự:

1. “Hồi quy tuyến tính” của Sewaqu - Tác phẩm riêng, Miền công cộng) qua Commons Wikimedia2. “Phần dư cho phù hợp hồi quy tuyến tính” của Thomas.haslwanter - Tác phẩm riêng (CC BY-SA 3.0) qua Commons Wikimedia3. “Logistic-curve” của Qef (talk) - Được tạo từ đầu với gnuplot (Public Domain) qua Commons Wikimedia

Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic