Вы находитесь на странице: 1из 1

‫ﯾﺎدﮔﯿﺮی ﻣﺎﺷﯿﻦ‬

‫ﻧﯿﻢﺳﺎل ﻧﺨﺴﺖ ‪٩٧-٩۶‬‬


‫ﻣﺪرس‪ :‬ﺣﻤﯿﺪ ﺑﯿ‬ ‫داﻧﺸ ﺪهی ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ‬

‫زﻣﺎن ﺗﺤﻮﯾﻞ‪ ١٣ :‬دیﻣﺎه‬ ‫ﯾﺎدﮔﯿﺮی ﻋﻤﯿﻖ‬ ‫ﺗﻤﺮﯾﻦ ﺳﺮی ﭼﻬﺎرم‬

‫ﻧﮑﺎت زﯾﺮ را رﻋﺎﯾﺖ ﮐﻨﯿﺪ‪:‬‬


‫ﻓﺎﯾﻞ ﻓﺸﺮده و ﺑﺎ ﻋﻨﻮان ‪ HW5_STD#‬در ﺳﺎﯾﺖ ‪ Quera.ir‬ﺑﺎرﮔﺬاری‬ ‫ﻓﺎﯾﻞ ﮔﺰارش را ﺑﻪ ﻫﻤﺮاه ﺗﻤﺎﻣ ﮐﺪﻫﺎ در ﯾ‬
‫ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫ﺳﻮاﻻت ﺧﻮد را از ﻃﺮﯾﻖ ‪ Piazza‬ﻣﻄﺮح ﮐﻨﯿﺪ‪.‬‬

‫ﻣﺴﺌﻠﻪی ‪.١‬‬
‫ﯾ از روشﻫﺎی راﯾﺞ ﺑﺮای ﺣﻞ ﻣﺴﺎﺋﻞ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ در ﺷﺒ ﻪﻫﺎی ﻋﺼﺒﯽ اﺳﺘﻔﺎده از روش ‪Gredient Policy‬‬
‫اﺳﺖ‪ .‬اﯾﻦ روش را ﺑﻪ ﺻﻮرت ﮐﺎﻣﻞ ﺗﻮﺿﯿﺢ دﻫﯿﺪ‪.‬‬

‫ﻣﺴﺌﻠﻪی ‪.٢‬‬
‫ﻣﻘﺎﻻت ﻣﺮﺑﻮط ﺑﻪ دو ﺷﺒ ﮥ ‪ ١ DQN‬و ‪ ٢ A3C‬را ﮐﻪ درﻣﻮرد ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﺎ اﺳﺘﻔﺎده از ﺷﺒ ﻪﻫﺎی ﻋﺼﺒﯽ ﻋﻤﯿﻖ‬
‫ﻫﺴﺘﻨﺪ‪ ،‬ﻣﻄﺎﻟﻌﻪ ﮐﻨﯿﺪ ﺳﭙﺲ ﺑﻪ ﺳﻮاﻻت زﯾﺮ ﭘﺎﺳﺦ دﻫﯿﺪ‪:‬‬
‫‪ (١‬ﺳﺎﺧﺘﺎر دو ﺷﺒ ﻪ را ﺗﻮﺿﯿﺢ داده و ﺳﭙﺲ ﺗﻔﺎوتﻫﺎی آنﻫﺎ را ﻣﻄﺮح ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫‪ (٢‬رواﺑﻂ ﺗﺌﻮری دو ﺷﺒ ﻪ و ﺗﻮاﺑﻊ ﻫﺰﯾﻨﻪ آنﻫﺎ را ﺗﻮﺿﯿﺢ دﻫﯿﺪ‪.‬‬
‫‪ hyperparameter (٣‬ﻫﺎی ﻣﻮﺟﻮد در دو ﺷﺒ ﻪ را ﻧﺎم ﺑﺮده و ﺗﺎﺛﯿﺮ ﻫﺮ ﯾ را ﺗﻮﺿﯿﺢ دﻫﯿﺪ‪.‬‬
‫‪ (۴‬روشﻫﺎﯾﯽ ﮐﻪ در راﺳﺘﺎی ﭘﺎﯾﺪار ﮐﺮدن و آﻣﻮزش ﺷﺒ ﻪﻫﺎ اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ را ﺗﻮﺿﯿﺢ دﻫﯿﺪ‪.‬‬

‫ﻣﺴﺌﻠﻪی ‪.٣‬‬
‫ﻣﻘﺎﻟﮥ ‪ ٣ AlphaGo‬را ﮐﻪ ﺗﻮﺳﻂ ﮔﺮوه ‪ DeepMind‬در ﻣﺠﻠﮥ ‪ Nature‬ﭼﺎپ ﺷﺪ‪ ،‬ﻣﻄﺎﻟﻌﻪ ﮐﺮده و ﺑﻪ ﺻﻮرت ﺧﻼﺻﻪ‬
‫روش اﺳﺘﻔﺎده ﺷﺪه ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ و ﺑﻪ ﮐﻤ ﺷﺒ ﻪﻫﺎی ﻋﺼﺒﯽ ﻋﻤﯿﻖ ﺑﺮای ﺣﻞ ﺑﺎزی ‪ Go‬در اﯾﻦ ﻣﻘﺎﻟﻪ‬
‫را ﺗﻮﺿﯿﺢ دﻫﯿﺪ‪.‬‬

‫‪١ Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan‬‬
‫‪Wierstra, and Martin Riedmiller. ”Playing atari with deep reinforcement learning.” arXiv preprint‬‬
‫‪arXiv:1312.5602 (2013).‬‬
‫‪٢ Mnih, Volodymyr, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim‬‬
‫”‪Harley, David Silver, and Koray Kavukcuoglu. ”Asynchronous methods for deep reinforcement learning.‬‬
‫‪In International conference on machine learning, pp. 1928-1937. 2016.‬‬
‫‪٣ Silver, David, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche,‬‬
‫‪Julian Schrittwieser et al. ”Mastering the game of Go with deep neural networks and tree search.” nature‬‬
‫‪529, no. 7587 (2016): 484.‬‬

Вам также может понравиться