什么是加強(qiáng)學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí),是機(jī)器學(xué)習(xí)的范式和方**之一,用于描述和解決智能體(agent)在與環(huán)境的交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題。強(qiáng)化學(xué)習(xí)的常見模型是標(biāo)準(zhǔn)的馬爾可夫決策過(guò)程(Markov Decision Process, MDP)。 按給定條件...
掃一掃,添加客服微信