Trước khi đi đến việc lựa chọn mô hình, mình sẽ nói qua về nguyên tắc khi mình làm dự báo nhé!
1. Nguyên tắc dự báo và các chỉ số đánh giá độ chính xác mô hình
Đối với tất cả các dự báo của mình, mình đều làm theo nguyên tắc sau:
- Chia tập dữ liệu thành 2 tập dữ liệu: tập train (75-80% quan sát) và tập test (25-20% quan sát còn lại).
- Sau đó, bạn lập bảng thống kê các chỉ số đánh giá độ chính xác của các mô hình với dữ liệu thực tế.
Lưu ý: Cách tính và ý nghĩa các chỉ số trong bảng mọi người có thể xem tại link https://sefidian.com/.../a-guide-on-regression-error.../
Các chỉ số khác các bạn có thể tự tìm hiểu. Nếu mn quan tâm đến cách tính, ý nghĩa và dùng các chỉ số trong trường hợp nào thì trong bài viết tiếp theo mình sẽ chia sẻ nha!
- Các chỉ số này càng nhỏ thì kết quả dự báo càng chính xác với thực tế.
- Sau khi chọn được model phù hợp, bạn sẽ dùng model đó để dự báo cho các quan sát cần dự báo.
2. Làm gì với bảng thống kê các chỉ số trên?
Có hai trường phái để chọn mô hình: "Choose the best model" và "Combine model"
- Trường phái 2: Kết hợp các kết quả của các mô hình thành kết quả dự báo cuối cùng
Tóm lại chúng ta chọn “Choose the best model” hay “Combine model”
Tùy theo nhu cầu và thực trạng dữ liệu mà chúng ta sẽ đưa ra các lựa chọn khác nhau.
- Nếu bạn quan tâm đến thời gian chạy các mô hình, tốc độ chạy model, bạn chọn “Choose the best model”.
- Nếu bạn đã theo dõi dữ liệu đủ lâu và thấy rằng tại quan sát mô hình X đều đem lại kết quả dự báo tốt hơn thì bạn có thể chọn “Choose the best model” (ví dụ như bạn dự báo doanh số hàng tháng và thấy mô hình Arima đều đưa ra các dự báo gần với thực tế và mô hình Arima cũng giải thích được đặc điểm dữ liệu của bạn thì bạn có thể chọn luôn mô hình Arima cho dự báo của mình). Vì không phải lúc nào kết hợp các dự báo cũng đem lại kết quả dự báo tốt hơn.
- Nếu bạn thấy các dự báo của mình, tại các thời điểm khác nhau lại fit với các mô hình khác nhau thì hãy chọn “Combine model”.
Nguồn tham khảo: Tự tổng hợp từ thực tế và quá trình học tập
Tags:
Kỹ năng phân tích