第一篇:強化學習基本原理通俗介紹

2023-06-25     CDA數據分析師

原標題:第一篇:強化學習基本原理通俗介紹

你好,我是zhenguo(郭震)

今天強化學習第一篇: 白話介紹強化學習的基本原理

強化學習是一種機器學習方法,旨在讓智能體(agent)通過與環境的交互學習如何做出最優的行動選擇以獲得最大的累積獎勵。

這是官方化的定義,初學者如何更好理解這個定義呢。

我們看看下面這幅圖,智能體就是下面的 紅點

環境是什麼呢?就是智能體(紅點)所處的這個迷宮,迷宮中黑格子表示障礙物,它是無法穿過的。白格子表示可以正常通行。這就是 環境

強化學習的 目標就是讓紅點變得足夠智能,智能到什麼程度呢?讓它能夠順利的找到從紅格子(起始點)到綠格子(迷宮出口)的路徑,並且學習到最後:讓它能夠從任意一個起始點找到一條合適的路徑從出口出去。

如果學習一段時間,最終智能體幾乎很快就能找到:從任意起點到出口的路徑。

你看,這足夠有意思吧!

它是如何做到的?答案是 強化學習

進一步說是靠 獎勵做到的。

簡單來說,你走對了,我獎勵你;走到障礙物那裡,我懲罰你;找到出口我大大的獎勵你,這就是一個簡單明了的獎勵機制。

不斷重複下去,不斷嘗試和試錯,最終紅點就變為真正的 智能體

你看下面這幅圖,紅點是不是很智能了,它總能找到出口,並且基本不再犯錯。

這條路徑中,它只犯過這樣的錯誤,圓圈所示,它嘗試走到這裡,但是發現兩側都是障礙物,無法越過,然後馬上回退到上一步,並且準確走出迷宮。

以上就是強化學習的一個基本原理介紹。

文章來源: https://twgreatdaily.com/zh-tw/a57fd3fcdb419f70f49b90fc0311157e.html