Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên

Mục lục:

Anonim

Các Sự khác biệt chính giữa cây quyết định và rừng ngẫu nhiên là cây quyết định là một biểu đồ sử dụng phương pháp phân nhánh để minh họa mọi kết quả có thể có của một quyết định trong khi rừng ngẫu nhiên là một tập hợp các cây quyết định đưa ra kết quả cuối cùng dựa trên đầu ra của tất cả các cây quyết định của nó.

Máy học là một ứng dụng của Trí tuệ nhân tạo, mang đến cho hệ thống khả năng học hỏi và cải thiện dựa trên kinh nghiệm trong quá khứ. Cây quyết định và rừng ngẫu nhiên là hai kỹ thuật trong học máy. Một cây quyết định lập bản đồ các kết quả có thể có của một loạt các lựa chọn liên quan. Nó phổ biến vì nó đơn giản và dễ hiểu hơn. Khi tập dữ liệu trở nên lớn hơn nhiều, một cây quyết định không đủ để tìm ra dự đoán. Một khu rừng ngẫu nhiên, là một tập hợp các cây quyết định, là một giải pháp thay thế cho vấn đề này. Đầu ra của rừng ngẫu nhiên dựa trên kết quả của tất cả các cây quyết định của nó.

Cây quyết định, Máy học, Rừng ngẫu nhiên

Cây quyết định là gì

Cây quyết định là một sơ đồ hình cây được sử dụng để xác định một quá trình hành động. Mỗi nhánh của cây đại diện cho một quyết định, sự kiện xảy ra hoặc phản ứng có thể xảy ra.

Có một số thuật ngữ liên quan đến cây quyết định. Entropy là phép đo tính không thể đoán trước trong tập dữ liệu. Sau khi chia nhỏ tập dữ liệu, mức entropy giảm khi độ khó dự đoán giảm. Mức tăng thông tin là sự giảm entropy sau khi trích xuất tập dữ liệu. Điều quan trọng là phải chia nhỏ dữ liệu theo cách nào đó để thu được thông tin cao hơn. Các quyết định cuối cùng hoặc các phân loại được gọi là các nút lá. Nút trên cùng hoặc nút chính được gọi là nút gốc. Tập dữ liệu nên được tách cho đến khi entropy cuối cùng trở thành 0.

Một cây quyết định đơn giản như sau.

Hình 1: Cây quyết định

Trên cây quyết định phân loại một tập hợp các loại trái cây. Có 4 quả nho, 2 quả táo và 2 quả cam. Khi xem xét đường kính nhỏ hơn 5, nho được phân loại thành một bên trong khi cam và táo vào bên kia. Nho không thể được phân loại thêm vì nó không có entropy. Khi phân loại dựa trên màu sắc, tức là quả có màu đỏ hay không, táo được phân loại ở một bên trong khi cam được phân loại ở bên kia. Do đó, cây quyết định này phân loại táo, nho hoặc cam với độ chính xác 100%.

Nhìn chung, cây quyết định đơn giản để hiểu, dễ diễn giải và hình dung hơn. Nó không yêu cầu chuẩn bị nhiều dữ liệu. Nó có thể xử lý cả dữ liệu số và dữ liệu phân loại. Mặt khác, nhiễu dữ liệu có thể gây ra quá tải. Hơn nữa, mô hình cũng có thể không ổn định do các biến thể nhỏ.

Rừng ngẫu nhiên là gì

Rừng ngẫu nhiên là một phương pháp hoạt động bằng cách xây dựng nhiều cây quyết định trong giai đoạn đào tạo. Quyết định của đa số cây là quyết định cuối cùng của rừng ngẫu nhiên. Một ví dụ đơn giản như sau.

Giả sử có một tập hợp các loại trái cây (anh đào, táo và cam). Sau đây là ba cây quyết định phân loại ba loại trái cây này.

Hình 2: Cây quyết định 1

Hình 3: Cây quyết định 2

Hình 4: Cây quyết định 3

Một quả mới có đường kính là 3 được đưa cho mô hình. Quả này có màu vàng cam, mọc vào mùa hè. Cây quyết định đầu tiên sẽ phân loại nó như một quả cam. Cây quyết định thứ hai sẽ phân loại nó là anh đào trong khi cây quyết định thứ ba sẽ phân loại nó là cam. Khi xét cả ba cây thì có hai đầu ra quả cam. Do đó, sản lượng cuối cùng của khu rừng ngẫu nhiên là một quả cam.

Nhìn chung, khu rừng ngẫu nhiên cung cấp kết quả chính xác trên một tập dữ liệu lớn hơn. Nó cũng làm giảm nguy cơ mặc trang phục quá mức.

Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên

Sự định nghĩa

Cây quyết định là một công cụ hỗ trợ quyết định sử dụng biểu đồ hoặc mô hình dạng cây về các quyết định và các hệ quả có thể xảy ra của chúng, bao gồm kết quả sự kiện cơ hội, chi phí tài nguyên và tiện ích. Rừng ngẫu nhiên là một phương pháp học tập tổng hợp hoạt động bằng cách xây dựng vô số cây quyết định tại thời điểm đào tạo và đưa ra lớp tùy thuộc vào từng cây riêng lẻ.

Overfitting

Có khả năng trang bị quá mức trong cây quyết định. Việc sử dụng nhiều cây trong khu rừng ngẫu nhiên làm giảm nguy cơ quá mức.

Sự chính xác

Một khu rừng ngẫu nhiên cho kết quả chính xác hơn một cây quyết định.

Sự phức tạp

Cây quyết định đơn giản và dễ hiểu, dễ diễn giải và hình dung hơn một rừng ngẫu nhiên, tương đối phức tạp hơn.

Phần kết luận

Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên là cây quyết định là một biểu đồ sử dụng phương pháp phân nhánh để minh họa mọi kết quả có thể có của một quyết định trong khi rừng ngẫu nhiên là một tập hợp các cây quyết định đưa ra kết quả cuối cùng dựa trên kết quả đầu ra của tất cả cây quyết định của nó.

Thẩm quyền giải quyết:

1. Random Forest Algorithm - Khu rừng ngẫu nhiên được giải thích | Khu rừng ngẫu nhiên trong Máy học, Simplilearn, ngày 12 tháng 3 năm 2018, Có sẵn tại đây.

Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên