Page 68 - My FlipBook
P. 68
ЭРДЭМ ШИНЖИЛГЭЭНИЙ БҮТЭЭЛИЙН ЭМХЭТГЭЛ “Эрдмийн чуулган-2023”
SRV02 ба дүүжин системийн ердийн горимыг идэвхгүй болгох шаардлагатай. Сургалт
тохиргоонд үндэслэн дээрх системийн төлөвийн тус бүр нь 200 оролдлогоос тогтоно. Нийт
орон зайн дүрслэл нь: урамшууллыг тооцоолохдоо оролдлого тус
бүрийн урамшууллын нийлбэрээр тооцно.
′ 0 0 1 0 0
ά 0 0 0 1 0 B. Actor – Critic загвар
[ ] = [ ] [ ] + [ ]
′′ 0 39.32 −14.52 0 ′ 25.54
ἄ 0 81.78 −13.98 0 ά 24.59 Дүүжингийн бодлогыг энэ судалгаанд actor-
critic загвар ашиглан шийдвэрлэсэн. Энэ загварын
1 0 0 0 0
= [ ] [ ] + [ ] actor сүлжээ нь policy функц P(s) ашигладаг ба
0 1 0 0 0 critic сүлжээ нь value функц V(s) болон Q (s,a)
III. АРГА ЗҮЙ ашигладаг.
A. Систем Actor-critic загвар нь тус тусдаа сургалтын
алгоритмыг хэрэгжүүлдгээрээ бусад загвараас
Эргэлдэх урвуу дүүжин нь нэг илүү уян хатан юм. DDPG сургалтын actor-critic
хөдөлгүүрийн тусламжтайгаар чөлөөтэй эргэх загваруудыг үүсгэхдээ ижил weigth -тэй байхаар
хөдөлгөөн бүхий савааг удирдах сонгодог үүсгэсэн. Reinforcement суралцах агент нь actor,
удирдлагын бодлого юм [10]. Цахилгаан critic модель болон буферийг үүсгэнэ. Буфер нь
хөдөлгүүр нь дүүжин савааг бэхэлсэн гартай DDPG ухаалаг агентын суралцсан туршлагыг
холхивчоор холбогдсон. Энэ нь дүүжин савааг хадгалдаг ба цаашид суралцахад нь ашигладаг.
босоо байрлалд аль болох бага хурдатгалтай барих Агент нь хоёр үндсэн функцтэй байдаг. Эхнийх нь
гол зорилготой. policy эсвэл action -г сонгох, нөгөөх нь агентыг
сургахад зориулагдсан [7].
C. Полиси градейнт арга
Policy gradeint арга нь өгсөн урамшуулал
буюу reward -г бууруулж хүлээгдэж буй
хуримтлагдсан J(θ) -г хамгийн их байх policy
функц π_θ=P(a|s) -г сурах зорилготой [10].
2-р зураг. Эргэлдэх урвуу дүүжингийн янз бүрийн байрлал.
(а) ба (б) нь завсрын буюу тогтворгүй төлөв; (в) босоо буюу
зорьж буй төлөв
2-р зургийн (в) -д үзүүлсний дагуу дүүжин савааг
босоо байрлалд тэнцвэртэй барих нь чухал юм.
Эргэлдэх урвуу дүүжингийн загварыг пайтон Энд d^π (s) нь өгөгдсөн π_ϴ-ийн хувьд
хэлээр загварчилсан ба оролт, гаралтын Марковын гинжин хэлхээний хөдөлгөөнгүй
параметрүүдийн хүрээг доорх 3-р хүснэгтэд
харуулав. тархалт юм.
GYM СИМУЛЯЦИЙН ОРЧИН ДАХЬ “PENDULUM-V1” -Н ОРОЛТ ( ) = lim ( = | )
ГАРАЛТЫН ПАРАМЕТРҮҮД →∞ 0,
3-Р ХҮСНЭГТ Бодлогын параметр θ нь градиент өгсөлтийг
ашиглан шинэчлэгдсэн дээрх зорилгын функцийг
Параметрий Хэмжээ Элемент Бага Их нэмэгдүүлэх зорилготой алгоритм. Параметр
н нэр шинэчлэх дүрмийг дараах байдлаар бичиж болно.
cosθ -1.0 1.0 = + ƞ ( )
Ажиглалт Зорилгын функцийн градиентыг дараах
(төлөв), s (3, 1) sinθ -1.0 1.0 байдлаар тодорхойлно.
θ -8.0 8.0 ( ) = [lim ( , ) ( | )]
=0
Үйлдэл, a (1,) Хөдөлгөөн -2.0 2.0 Функцийн хувьд A^π (s_t,a_t )=Q^π (s_t,a_t )-
V^π (s_t) дээрх илэрхийллийг дараах байдлаар
Урамшуулал, (1,) − + 0.1 2 -16.273 0 бичиж болно.
2
r + 0.001
2
( ) = [lim ( , ) ( | )]
Энэ симуляци дээр хурдан сургах =0
боломжтой үүнийг хийхийн тулд бодит бодит
67