Page 68 - My FlipBook
P. 68

ЭРДЭМ ШИНЖИЛГЭЭНИЙ БҮТЭЭЛИЙН ЭМХЭТГЭЛ                                     “Эрдмийн чуулган-2023”



                 SRV02   ба   дүүжин   системийн   ердийн       горимыг идэвхгүй болгох шаардлагатай. Сургалт
              тохиргоонд  үндэслэн  дээрх  системийн  төлөвийн   тус  бүр  нь  200  оролдлогоос  тогтоно.  Нийт
              орон зайн дүрслэл нь:                             урамшууллыг   тооцоолохдоо   оролдлого   тус
                                                                бүрийн урамшууллын нийлбэрээр тооцно.
                    ′  0   0     1    0         0
                 ά    0    0     0    1         0               B. Actor – Critic загвар
               [  ] = [                 ] [ ] + [  ]         
                    ′′  0 39.32 −14.52 0       ′  25.54
                 ἄ    0 81.78 −13.98 0    ά    24.59               Дүүжингийн  бодлогыг  энэ  судалгаанд  actor-
                                                                critic загвар ашиглан шийдвэрлэсэн. Энэ загварын
                           1  0 0  0       0
                            = [     ] [ ] + [ ]                 actor  сүлжээ  нь  policy  функц  P(s)  ашигладаг  ба
                           0  1 0  0       0                    critic  сүлжээ  нь  value  функц  V(s)  болон  Q  (s,a)
                            III. АРГА ЗҮЙ                       ашигладаг.
              A. Систем                                            Actor-critic  загвар  нь  тус  тусдаа  сургалтын
                                                                алгоритмыг  хэрэгжүүлдгээрээ  бусад  загвараас
                        Эргэлдэх   урвуу   дүүжин   нь   нэг    илүү  уян  хатан  юм.  DDPG  сургалтын  actor-critic
              хөдөлгүүрийн  тусламжтайгаар  чөлөөтэй  эргэх     загваруудыг  үүсгэхдээ  ижил  weigth  -тэй  байхаар
              хөдөлгөөн  бүхий  савааг  удирдах  сонгодог       үүсгэсэн.  Reinforcement  суралцах  агент  нь  actor,
              удирдлагын   бодлого   юм   [10].   Цахилгаан     critic  модель  болон  буферийг  үүсгэнэ.  Буфер  нь
              хөдөлгүүр  нь  дүүжин  савааг  бэхэлсэн  гартай   DDPG  ухаалаг  агентын  суралцсан  туршлагыг
              холхивчоор  холбогдсон.  Энэ  нь  дүүжин  савааг   хадгалдаг  ба  цаашид  суралцахад  нь  ашигладаг.
              босоо байрлалд аль болох бага хурдатгалтай барих   Агент нь хоёр үндсэн функцтэй байдаг. Эхнийх нь
              гол зорилготой.                                   policy  эсвэл  action  -г  сонгох,  нөгөөх  нь  агентыг
                                                                сургахад зориулагдсан [7].
                                                                C. Полиси градейнт арга

                                                                        Policy  gradeint  арга  нь  өгсөн  урамшуулал
                                                                буюу  reward  -г  бууруулж  хүлээгдэж  буй
                                                                хуримтлагдсан  J(θ)  -г  хамгийн  их  байх  policy
                                                                функц π_θ=P(a|s) -г сурах зорилготой [10].


              2-р зураг. Эргэлдэх урвуу дүүжингийн янз бүрийн байрлал.
              (а) ба (б) нь завсрын буюу тогтворгүй төлөв; (в) босоо буюу
                             зорьж буй төлөв
              2-р зургийн (в) -д үзүүлсний дагуу дүүжин савааг
              босоо  байрлалд  тэнцвэртэй  барих  нь  чухал  юм.
              Эргэлдэх  урвуу  дүүжингийн  загварыг  пайтон            Энд  d^π  (s)  нь  өгөгдсөн  π_ϴ-ийн  хувьд
              хэлээр   загварчилсан   ба   оролт,   гаралтын    Марковын  гинжин  хэлхээний  хөдөлгөөнгүй
              параметрүүдийн  хүрээг  доорх  3-р  хүснэгтэд
              харуулав.                                         тархалт юм.
              GYM СИМУЛЯЦИЙН ОРЧИН ДАХЬ “PENDULUM-V1” -Н ОРОЛТ                (    ) = lim     (     =     |           )
                                                                              
                          ГАРАЛТЫН ПАРАМЕТРҮҮД                                       →∞        0,      
                                                 3-Р ХҮСНЭГТ            Бодлогын параметр θ нь градиент өгсөлтийг
                                                                ашиглан шинэчлэгдсэн дээрх зорилгын функцийг
              Параметрий  Хэмжээ   Элемент    Бага   Их         нэмэгдүүлэх  зорилготой  алгоритм.  Параметр
              н нэр                                             шинэчлэх дүрмийг дараах байдлаар бичиж болно.
                                  cosθ       -1.0   1.0                            =      + ƞ          (    )
                                                                                            
              Ажиглалт                                                   Зорилгын  функцийн  градиентыг  дараах
              (төлөв), s   (3, 1)   sinθ     -1.0   1.0         байдлаар тодорхойлно.
                                  θ          -8.0   8.0                     (    ) =     [lim      (     ,      )                      (     |     )]
                                                                                       
                                                                         
                                                                                  =0                                    
              Үйлдэл, a   (1,)    Хөдөлгөөн   -2.0   2.0           Функцийн хувьд A^π (s_t,a_t )=Q^π (s_t,a_t )-
                                                                V^π  (s_t)  дээрх  илэрхийллийг  дараах  байдлаар
              Урамшуулал,   (1,)   −     + 0.1     2  -16.273   0   бичиж болно.
                                     2
              r                   + 0.001    
                                         2
                                                                             (    ) =     [lim      (     ,      )                      (     |     )]
                                                                                       
                      Энэ   симуляци   дээр   хурдан   сургах                     =0                                    
              боломжтой  үүнийг  хийхийн  тулд  бодит  бодит

                                                           67
   63   64   65   66   67   68   69   70   71   72   73