Bài đăng

Hiển thị các bài đăng có nhãn Reinforcement Learning

Machine Learning cho mọi người - 5: Học tăng cường (Reinforcement Learning)

Hình ảnh
5. Học tăng cường (Reinforcement Learning) Thăm dò và khai thác. Qui trình ra quyết định Markov. Học theo mô hình Q, học theo qui tắc, và học sâu tăng cường. “Tôi chỉ ăn một ít sôcôla để hoàn thành phần cuối này.” Trong học có giám sát, dữ liệu đào tạo đi theo một từ khóa trả lời từ đối tượng giống như “người giám sát”. Giá mà cuộc sống chỉ làm việc theo cách đó! Trong học tăng cường (reinforcement learning – RL), không có từ khóa trả lời, nhưng agent học tăng cường của bạn vẫn phải quyết định cách vận hành tác vụ của nó. Khi vắng mặt dữ liệu đào tạo, agent sẽ học từ kinh nghiệm. Nó tập hợp các ví dụ đào tạo (“hành vi này tốt, hành vi kia xấu”) thông qua thử và sai khi cố gắng hoàn thành nhiệm vụ, với mục tiêu tối đa hóa lợi ích trong dài hạn. Trong phần cuối này, chúng ta sẽ khám phá: -           Đánh đổi thăm dò/khai thác -           Qui trình ra quyết định Markov (Mark...