Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic
Mục lục:
- Hồi quy tuyến tính là gì
- Hồi quy logistic là gì
- Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic
Các Sự khác biệt chính giữa hồi quy tuyến tính và hồi quy logistic là hồi quy tuyến tính được sử dụng để dự đoán một giá trị liên tục trong khi hồi quy logistic được sử dụng để dự đoán một giá trị rời rạc.
Hệ thống học máy có thể dự đoán kết quả trong tương lai dựa trên việc đào tạo các đầu vào trong quá khứ. Có hai loại học máy chính được gọi là học có giám sát và học không có giám sát. Hồi quy và phân loại nằm trong học tập có giám sát trong khi phân cụm thuộc học tập không giám sát. Các thuật toán học tập có giám sát sử dụng dữ liệu được gắn nhãn để đào tạo tập dữ liệu. Hồi quy tuyến tính và hồi quy logistic là hai loại thuật toán học có giám sát. Hồi quy tuyến tính được sử dụng khi biến phụ thuộc là liên tục và mô hình là tuyến tính. Hồi quy logistic được sử dụng khi biến phụ thuộc là rời rạc và mô hình là phi tuyến tính.
Hồi quy tuyến tính, Hồi quy logistic, Học máy
Hồi quy tuyến tính là gì
Hồi quy tuyến tính tìm mối quan hệ giữa các biến độc lập và phụ thuộc. Cả hai đều liền kề nhau. Biến độc lập là biến không bị thay đổi bởi các biến khác. Nó được ký hiệu là x. Cũng có thể có nhiều biến độc lập như x1, x2, x3,… Biến phụ thuộc thay đổi theo biến độc lập, và được ký hiệu là y.
Khi có một biến độc lập, phương trình hồi quy như sau.
y = b0 + b1x
Ví dụ, giả sử rằng x đại diện cho lượng mưa và y đại diện cho năng suất cây trồng.
Hình 1: Hồi quy tuyến tính
Tập dữ liệu sẽ giống như trên. Sau đó, một dòng bao gồm hầu hết các điểm dữ liệu được chọn. Dòng này đại diện cho các giá trị dự đoán.
Hình 2: Khoảng cách giữa các điểm dữ liệu thực tế và các giá trị dự đoán
Sau đó, khoảng cách từ mỗi điểm dữ liệu đến dòng được tìm thấy như trong biểu đồ trên. Đây là khoảng cách giữa giá trị thực tế và giá trị dự đoán. Khoảng cách này còn được gọi là sai số hoặc phần dư. Dòng phù hợp nhất phải có tổng bình phương sai số ít nhất. Khi giá trị lượng mưa mới được cho (x), có thể tìm năng suất cây trồng tương ứng (y) bằng cách sử dụng đường này.
Trong thế giới thực, có thể có nhiều biến độc lập (x1, x2, x3…). Đây được gọi là hồi quy nhiều tuyến tính. Phương trình hồi quy tuyến tính bội như sau.
Hồi quy logistic là gì
Hồi quy logistic có thể được sử dụng để phân loại hai lớp. Nó còn được gọi là phân loại nhị phân. Kiểm tra email có phải là spam hay không, dự đoán liệu khách hàng có mua sản phẩm hay không, dự đoán khả năng nhận được khuyến mãi hay không là một số ví dụ khác về hồi quy logistic.
Hình 3: Hồi quy logistic
Giả sử rằng số giờ học mỗi ngày của một sinh viên là biến số độc lập. Tùy thuộc vào đó, xác suất vượt qua một kỳ thi được tính toán. Giá trị 0,5 được coi là ngưỡng. Khi số giờ mới được đưa ra, có thể tìm xác suất đậu kỳ thi tương ứng bằng cách sử dụng đồ thị này. Nếu xác suất trên 0,5 được coi là 1 hoặc đậu. Nếu xác suất dưới 0,5 thì coi như là 0 hoặc không đạt.
Áp dụng phương trình hồi quy tuyến tính cho hàm sigmoid sẽ cho phương trình hồi quy logistic.
Chức năng sigmoid là
Một điểm quan trọng khác cần lưu ý là hồi quy logistic chỉ có thể áp dụng để phân loại 2 lớp. Nó không được sử dụng để phân loại đa thủy tinh.
Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic
Sự định nghĩa
Hồi quy tuyến tính là một cách tiếp cận tuyến tính mô hình hóa mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Ngược lại, hồi quy logistic là một mô hình thống kê dự đoán xác suất của một kết quả chỉ có thể có hai giá trị.
Sử dụng
Trong khi hồi quy tuyến tính được sử dụng để giải các bài toán hồi quy, thì hồi quy logistic được sử dụng để giải các bài toán phân loại (phân loại nhị phân).
Phương pháp luận
Hồi quy tuyến tính ước lượng biến phụ thuộc khi có sự thay đổi trong biến độc lập. Hồi quy logistic tính toán khả năng xảy ra một sự kiện. Đây là một điểm khác biệt quan trọng giữa hồi quy tuyến tính và hồi quy logistic.
Giá trị sản phẩm đầu ra
Ngoài ra, trong hồi quy tuyến tính, giá trị đầu ra là liên tục. Trong hồi quy logistic, giá trị đầu ra là rời rạc.
Người mẫu
Mặc dù hồi quy tuyến tính sử dụng một đường thẳng, nhưng hồi quy logistic sử dụng đường cong S hoặc hàm sigmoid. Đây là một điểm khác biệt quan trọng giữa hồi quy tuyến tính và hồi quy logistic.
Các ví dụ
Dự đoán GDP của một quốc gia, dự đoán giá sản phẩm, dự đoán giá bán nhà, dự đoán điểm số là một số ví dụ về hồi quy tuyến tính. Dự đoán email có phải là thư rác hay không, dự đoán liệu giao dịch thẻ tín dụng có gian lận hay không, dự đoán liệu khách hàng có vay hay không là một số ví dụ về hồi quy logistic.
Phần kết luận
Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là hồi quy tuyến tính được sử dụng để dự đoán một giá trị liên tục trong khi hồi quy logistic được sử dụng để dự đoán một giá trị rời rạc. Tóm lại, hồi quy tuyến tính được sử dụng để hồi quy trong khi hồi quy logistic được sử dụng để phân loại.
Thẩm quyền giải quyết:
1. Phân tích hồi quy tuyến tính | Hồi quy tuyến tính trong Python | Thuật toán học máy | Simplilearn, ngày 26 tháng 3 năm 2018, có sẵn tại đây. 2. Hồi quy logistic | Hồi quy logistic bằng Python | Thuật toán học máy | Simplilearn, ngày 22 tháng 3 năm 2018, có sẵn tại đây.
Hình ảnh lịch sự:
1. “Hồi quy tuyến tính” của Sewaqu - Tác phẩm riêng, Miền công cộng) qua Commons Wikimedia2. “Phần dư cho phù hợp hồi quy tuyến tính” của Thomas.haslwanter - Tác phẩm riêng (CC BY-SA 3.0) qua Commons Wikimedia3. “Logistic-curve” của Qef (talk) - Được tạo từ đầu với gnuplot (Public Domain) qua Commons Wikimedia