Page 70 - My FlipBook
P. 70
ЭРДЭМ ШИНЖИЛГЭЭНИЙ БҮТЭЭЛИЙН ЭМХЭТГЭЛ “Эрдмийн чуулган-2023”
нь цаашид цуваа порт ашиглан пайтон хэлтэй
холбогдон, машин сургалтын аргаар бодит
эргэлдэх урвуу дүүжинг шидэж босгон
тэнцвэржилтийг хангах боломжийг бүрдүүлж өгөх
юм.
ДҮГНЭЛТ
1. Эргэлдэх урвуу дүүжин нь тогтворгүй,
шугаман бус систем ба үүний тэнцвэржилтийг
хангах удирдлагын алгоритмыг машин сургалтын
гүн детерминистик полиси градейнт аргаар
сайжруулан виртуал орчинд туршиж ажиллууллаа.
5-р зураг. Эргэлдэх урвуу дүүжингийн бодит загварын
хэрэгжүүлэлт 2. Эхний шатанд эргэлдэх урвуу дүүжингийн
математик загварыг гаргаж, виртуал орчинд
Туршилтын бодит загварыг хэрэгжүүлэхдээ загварчилсан. Ингэхдээ пайтон хэлний Open AI
12В-ын тогтмол гүйдлийн цахилгаан хөдөлгүүр gym санг ашиглан, өөрсдийн тооцоолсон
ашигласан ба түүний эргэлтийг мэдрэх эргэлтийг математик загварыг оруулан ажиллуулсан.
тоологч байрлуулсан. Мөн дүүжин савааны
хазайлтын өнцгийг потенциаметрт харгалзах 3. Виртуал дүүжингээ ашиглан гүн
хүчдэлийн хэмжээгээр тодорхойлохоор холбосон. детерминистик полиси градейнт аргаар дүүжинг
шидэж босгож тэнцвэржүүлэх туршилтыг
амжилттай хэрэгжүүлсэн ба эхний 60 дахь
оролдлогоос эхлэн дүүжингээ амжилттай шидэж
босгон тэнцвэржүүлж, ревард буюу урамшууллын
хэмжээг -200 аас их байлгаж чадсан. Тус арга нь
дүүжингийн жин болон хэлбэр хийцээс
хамаарахгүй тэнцвэржүүлж чаддагаараа онцлогтой
юм.
4. Энэхүү судалгаан нь зөвхөн виртуал
орчинд гүн детерминистик полиси градейнт аргаар
шидэж босоо байрлалд тэнцвэржүүлсэн тул
6-р зураг. Эргэлдэх урвуу дүүжингийн удирдлагын цаашид өөрсдийн хийсэн бодит загварыг тус аргаар
бүдүүвч тэнцвэржүүлж бусад аргатай харьцуулан судлах
шаардлагатай гэж үзэж байна.
Савааны хазайлтын өнцөг болон хөдөлгүүрийг
удирдах өгөгдлийг компьютерын цуваа портоор ТАЛАРХАЛ
дамжуулахаар загварчилсан.
Энэхүү судалгааны ажлыг гүйцэтгэхэд
тусалсан МУИС -ийн Хэрэглээний шинжлэх ухаан,
инженерчлэлийн сургуулийн профессор Б.Ганбат,
профессор Ч.Лодойравсал багш нартаа талархал
илэрхийлье.
АШИГЛАСАН МАТЕРИАЛ, НОМ ЗҮЙ
[1] Ц.Тэнгис, А.Батмөнх “Дөрвөн сэнстийн тэнцвэржилтэд
төлөвийн орны туйлыг оновчтой байршуулах нь”,
Монголын мэдээллийн технологи Улаанбаатар, 2017 он.
[2] Б.Луубаатар, А.Батмөнх “Дан болон давхар урвуу
дүүжингийн тэнцвэржилт”, Монголын мэдээллийн
технологи Улаанбаатар, 2017 он.
[3] Lucian Busoniu, Robert Babuska, and Bart De Schutter, “A
7-р зураг. Бодит эргэлдэх урвуу дүүжингийн хазайлтын Comprehensive survey of Multiagent Reinforcement
өнцгийн аналог утга Learning,” IEEE Trans. On Systems, Man, And Cybernetics,
2008.
Бид бодит эргэлдэх урвуу дүүжингийн [4] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas
хазайлтын өнцгийн аналог хүчдэлийн утгыг Schneider, John Schulman, Jie Tang, and Wojciech Zaremba,
компьютерын цуваа портоор компьютерт OpenAI Gym. arXiv:1606.01540, 2016.
дамжуулж пайтон хэл ашиглан дүрсэлснийг 7-р
зурагт харуулав. Цуваа портын хурдыг секундэд [5] Nir Baram, Oron Anschel, and Shie Mannor, “Model-Based
Adversarial Imitation Learning. In NIPS Workshop on Deep
115200 бит байхаар тохируулан дамжуулсан. Энэ Reinforcement Learning,” 2016.
69