對手類型未知情況下的兩人零和馬爾科夫博弈決策
摘要: 本文研究一類典型的非完全信息博弈問題—–對手類型未知的兩人零和馬爾科夫博弈,其中對手類型多樣且每次博弈開始前無法得知對手類型.文中提出了一種基于模型的多智能體強化學(xué)習(xí)算法—–對手辨識的極大極小Q學(xué)習(xí)(DOMQ).該算法首先建立對手相關(guān)環(huán)境的經(jīng)驗?zāi)P?再使用經(jīng)驗?zāi)P蛯W(xué)習(xí)納什均衡策略,己方智能體在實際博弈中根據(jù)經(jīng)驗?zāi)P团袛鄬κ诸愋?從而使用相應(yīng)的納什均衡策略,以保證收益下限.本文所... (共8頁)
開通會員,享受整站包年服務(wù)