Академический Документы
Профессиональный Документы
Культура Документы
ﻣﺴﺌﻠﻪی .١
ﯾ از روشﻫﺎی راﯾﺞ ﺑﺮای ﺣﻞ ﻣﺴﺎﺋﻞ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ در ﺷﺒ ﻪﻫﺎی ﻋﺼﺒﯽ اﺳﺘﻔﺎده از روش Gredient Policy
اﺳﺖ .اﯾﻦ روش را ﺑﻪ ﺻﻮرت ﮐﺎﻣﻞ ﺗﻮﺿﯿﺢ دﻫﯿﺪ.
ﻣﺴﺌﻠﻪی .٢
ﻣﻘﺎﻻت ﻣﺮﺑﻮط ﺑﻪ دو ﺷﺒ ﮥ ١ DQNو ٢ A3Cرا ﮐﻪ درﻣﻮرد ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﺎ اﺳﺘﻔﺎده از ﺷﺒ ﻪﻫﺎی ﻋﺼﺒﯽ ﻋﻤﯿﻖ
ﻫﺴﺘﻨﺪ ،ﻣﻄﺎﻟﻌﻪ ﮐﻨﯿﺪ ﺳﭙﺲ ﺑﻪ ﺳﻮاﻻت زﯾﺮ ﭘﺎﺳﺦ دﻫﯿﺪ:
(١ﺳﺎﺧﺘﺎر دو ﺷﺒ ﻪ را ﺗﻮﺿﯿﺢ داده و ﺳﭙﺲ ﺗﻔﺎوتﻫﺎی آنﻫﺎ را ﻣﻄﺮح ﻧﻤﺎﯾﯿﺪ.
(٢رواﺑﻂ ﺗﺌﻮری دو ﺷﺒ ﻪ و ﺗﻮاﺑﻊ ﻫﺰﯾﻨﻪ آنﻫﺎ را ﺗﻮﺿﯿﺢ دﻫﯿﺪ.
hyperparameter (٣ﻫﺎی ﻣﻮﺟﻮد در دو ﺷﺒ ﻪ را ﻧﺎم ﺑﺮده و ﺗﺎﺛﯿﺮ ﻫﺮ ﯾ را ﺗﻮﺿﯿﺢ دﻫﯿﺪ.
(۴روشﻫﺎﯾﯽ ﮐﻪ در راﺳﺘﺎی ﭘﺎﯾﺪار ﮐﺮدن و آﻣﻮزش ﺷﺒ ﻪﻫﺎ اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ را ﺗﻮﺿﯿﺢ دﻫﯿﺪ.
ﻣﺴﺌﻠﻪی .٣
ﻣﻘﺎﻟﮥ ٣ AlphaGoرا ﮐﻪ ﺗﻮﺳﻂ ﮔﺮوه DeepMindدر ﻣﺠﻠﮥ Natureﭼﺎپ ﺷﺪ ،ﻣﻄﺎﻟﻌﻪ ﮐﺮده و ﺑﻪ ﺻﻮرت ﺧﻼﺻﻪ
روش اﺳﺘﻔﺎده ﺷﺪه ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ و ﺑﻪ ﮐﻤ ﺷﺒ ﻪﻫﺎی ﻋﺼﺒﯽ ﻋﻤﯿﻖ ﺑﺮای ﺣﻞ ﺑﺎزی Goدر اﯾﻦ ﻣﻘﺎﻟﻪ
را ﺗﻮﺿﯿﺢ دﻫﯿﺪ.
١ Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan
Wierstra, and Martin Riedmiller. ”Playing atari with deep reinforcement learning.” arXiv preprint
arXiv:1312.5602 (2013).
٢ Mnih, Volodymyr, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim
”Harley, David Silver, and Koray Kavukcuoglu. ”Asynchronous methods for deep reinforcement learning.
In International conference on machine learning, pp. 1928-1937. 2016.
٣ Silver, David, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche,
Julian Schrittwieser et al. ”Mastering the game of Go with deep neural networks and tree search.” nature
529, no. 7587 (2016): 484.