!  å

 󼼺
ܴ ȭн : ȭн ⺻    ΰ


SMART
 

ܴ ȭн : ȭн ⺻ ΰ

ζ ׷, /輺 |

Ⱓ
2022-06-22
PDF
뷮
68 M
PC
Ȳ
1, 0, 0
 Ұ
ټ

 Ұ

ȭн Ȯ Ϻ !

å ̷а ǹ Ưϰ ȭн Ұ. Ͽ ȭн ˰ ڼ SLM Lab ̺귯 ̿ ̾, δ ȭн ǹ ϱ ٷ.

ű Ӹ xii</br>Ÿ ı xiii</br>õ xv</br>ϸ xvi</br> xxi</br></br><b>CHAPTER 01 ȭн Ұ 1</b></br></br>1.1 ȭн 1</br>1.2 MDPμ ȭн 7</br>1.3 ȭн нϴ Լ 11</br>1.4 ȭн ˰ 13</br> 1.4.1 å ˰ 14</br> 1.4.2 ġ ˰ 15</br> 1.4.3 ˰ 16</br> 1.4.4 յ 17</br> 1.4.5 å ٷ ˰ 18</br> 1.4.6 Ȱå Ȱå ˰ 19</br> 1.4.7 19</br>1.5 ȭн н 20</br>1.6 ȭн н 22</br> 1.6.1 Ŭ 23</br> 1.6.2 ǵ Ҽ 24</br> 1.6.3 24</br>1.7 25</br></br><b>PART I å ˰ ġ ˰</b></br></br><b>CHAPTER 02 REINFORCE 29</b></br></br>2.1 å 30</br>2.2 Լ 31</br>2.3 å 31</br> 2.3.1 å 33</br>2.4 ī ǥ 36</br>2.5 REINFORCE ˰ 37</br> 2.5.1 REINFORCE 38</br>2.6 REINFORCE 39</br> 2.6.1 ּ REINFORCE 39</br> 2.6.2 ġ å ϱ 42</br> 2.6.3 ൿ 44</br> 2.6.4 å ս 45</br> 2.6.5 REINFORCE Ʒ 46</br> 2.6.6 Ȱå ޸ 47</br>2.7 REINFORCE Ʈ Ʒ 50</br>2.8 53</br> 2.8.1 : ?? ȿ 53</br> 2.8.2 : ذ ȿ 55</br>2.9 57</br>2.10 Ÿ 57</br>2.11 58</br></br><b>CHAPTER 03 (SARSA) 59</b></br></br>3.1 Q Լ V Լ 60</br>3.2 ð н 63</br> 3.2.1 ð н 66</br>3.3 ൿ 73</br> 3.3.1 Ž Ȱ 74</br>3.4 ˰ 75</br> 3.4.1 Ȱå ˰ 76</br>3.5 77</br> 3.5.1 ൿ Լ: Ƿ Ž 77</br> 3.5.2 Q ս 78</br> 3.5.3 Ʒ 80</br> 3.5.4 Ȱå ġ ޸ 81</br>3.6 Ʈ Ʒ 83</br>3.7 86</br> 3.7.1 : н ȿ 86</br>3.8 87</br>3.9 Ÿ 88</br>3.10 89</br></br><b>CHAPTER 04 Q Ʈũ(DQN) 91</b></br></br>4.1 DQN Q Լ н 92</br>4.2 DQN ൿ 94</br> 4.2.1 å 97</br>4.3 100</br>4.4 DQN ˰ 101</br>4.5 DQN 103</br> 4.5.1 Q ս 103</br> 4.5.2 DQN Ʒ 104</br> 4.5.3 ޸ 105</br>4.6 DQN Ʈ Ʒ 108</br>4.7 111</br> 4.7.1 : Ű Űó ȿ 111</br>4.8 113</br>4.9 Ÿ 114</br>4.10 114</br></br><b>CHAPTER 05 DQN 115</b></br></br>5.1 ǥ Ʈũ 116</br>5.2 DQN 119</br>5.3 켱 ִ (PER) 123</br> 5.3.1 ߿䵵 ǥ 125</br>5.4 DQN 126</br> 5.4.1 Ʈũ ʱȭ 127</br> 5.4.2 Q ս 128</br> 5.4.3 ǥ Ʈũ Ʈ 129</br> 5.4.4 ǥ Ʈũ DQN 130</br> 5.4.5 DQN 130</br> 5.4.6 켱 ִ 131</br>5.5 Ÿ DQN Ʈ Ʒ 137</br>5.6 142</br> 5.6.1 : DQN PER ȿ 142</br>5.7 146</br>5.8 Ÿ 146</br></br><b>PART II յ </b></br></br><b>CHAPTER 06 Ƽ ൿ-(A2C) 149</b></br></br>6.1 ൿ 150</br>6.2 150</br> 6.2.1 Ƽ Լ 151</br> 6.2.2 Ƽ Լ н 155</br>6.3 A2C ˰ 156</br>6.4 A2C 159</br> 6.4.1 Ƽ 160</br> 6.4.2 ġ սǰ å ս 162</br> 6.4.3 ൿ- Ʒ 163</br>6.5 Ʈũ Űó 164</br>6.6 A2C Ʈ Ʒ 166</br> 6.6.1 nܰ ̵ ̿ A2C ӿ 166</br> 6.6.2 GAE ̿ A2C ӿ 169</br> 6.6.3 nܰ ̵ ̿ A2C 170</br>6.7 173</br> 6.7.1 : nܰ ̵ ȿ 173</br> 6.7.2 : GAE ?? ġ ȿ 175</br>6.8 176</br>6.9 Ÿ 177</br>6.10 177</br></br><b>CHAPTER 07 å ȭ(PPO) 179</b></br></br>7.1 븮 180</br> 7.1.1 ɺر 180</br> 7.1.2 Լ 182</br>7.2 å ȭ(PPO) 189</br>7.3 PPO ˰ 193</br>7.4 PPO 195</br> 7.4.1 PPO å ս 195</br> 7.4.2 PPO Ʒ 196</br>7.5 PPO Ʈ Ʒ 198</br> 7.5.1 PPO 198</br> 7.5.2 ڸ PPO 201</br>7.6 203</br> 7.6.1 : GAE ?? ġ ȿ 204</br> 7.6.2 : Ŭ ?? ȿ 205</br>7.7 207</br>7.8 Ÿ 208</br></br><b>CHAPTER ȭ 209</b></br></br>8.1 ȭ 210</br>8.2 񵿱 ȭ 212</br> 8.2.1 ȣ׿ϵ! 213</br>8.3 A3C Ʈ Ʒ 216</br>8.4 219</br>8.5 Ÿ 219</br></br><b>CHAPTER 09 ˰ 221</b></br></br><b>PART III λ</b></br></br><b>CHAPTER 10 ȭн ۾ϱ 225</b></br></br>10.1 Ʈ 226</br> 10.1.1 ׽Ʈ 226</br> 10.1.2 ڵ ǰ 232</br> 10.1.3 ũ÷ 233</br>10.2 236</br> 10.2.1 ȣ 236</br> 10.2.2 å 翡 237</br> 10.2.3 Ϳ 238</br> 10.2.4 ó 239</br> 10.2.5 ޸ 239</br> 10.2.6 ˰ Լ 240</br> 10.2.7 Ű 240</br> 10.2.8 ˰ ȭ 243</br> 10.2.9 ȭ 243</br> 10.2.10 Ķ 244</br> 10.2.11 Lab ũ÷ 244</br>10.3 Ÿ Ʈ 245</br>10.4 ȭн ˸ 249</br> 10.4.1 Ķ ǥ 249</br> 10.4.2 ˰ 252</br>10.5 255</br></br><b>CHAPTER 11 SLM Lab 257</b></br></br>11.1 SLM Lab ˰ 257</br>11.2 spec 260</br> 11.2.1 ˻ 262</br>11.3 SLM Lab 265</br> 11.3.1 SLM Lab ɾ 265</br>11.4 м 266</br> 11.4.1 266</br>11.5 268</br></br><b>CHAPTER 12 Ʈũ Űó 269</b></br></br>12.1 Ű 269</br> 12.1.1 ۼƮ(MLP) 270</br> 12.1.2 ռŰ(CNN) 272</br> 12.1.3 ȸͽŰ(RNN) 274</br>12.2 Ʈũ ׷ ̵ 275</br> 12.2.1 MDP POMDP 275</br> 12.2.2 ȯ Ʈũ 279</br>12.3 Net API 282</br> 12.3.1 Է° 284</br> 12.3.2 Ʈũ ڵ 286</br> 12.3.3 Ʒ ܰ 289</br> 12.3.4 ޼ҵ 290</br>12.4 291</br>12.5 Ÿ 292</br></br><b>CHAPTER 13 ϵ 293</b></br></br>13.1 ǻ 294</br>13.2 300</br>13.3 ȭн ȭ 302</br>13.4 ϵ 307</br>13.5 308</br></br><b>CHAPTER 14 311</b></br></br>14.1 312</br>14.2 ϰἺ 319</br>14.3 ⼺ 320</br>14.4 ս 325</br> 14.4.1 ̹ ׷̽ϸ 325</br> 14.4.2 ̻ȭ 326</br> 14.4.3 ؽ ⵿ 327</br> 14.4.4 Ÿ ս 327</br>14.5 ó 331</br> 14.5.1 ǥȭ 332</br> 14.5.2 ̹ ó 333</br> 14.5.3 ð ó 335</br>14.6 339</br></br><b>CHAPTER 15 ൿ 341</b></br></br>15.1 ൿ 341</br>15.2 ൿ ϰἺ 345</br>15.3 ൿ ⼺ 347</br>15.4 352</br>15.5 Ÿ: ϻ󿡼 ൿ 353</br></br><b>CHAPTER 16 357</b></br></br>16.1 357</br>16.2 ̵ 359</br>16.3 364</br></br><b>CHAPTER 17 Լ 365</b></br></br>17.1 ɼ Ȯ 366</br>17.2 Ǽ Ȯ 368</br>17.3 371</br></br>APPENDIX A ȭн ŸӶ 372</br>APPENDIX B ȯ 374</br>B.1 ̻ ȯ 375</br> B.1.1 CartPole-v0 375</br> B.1.2 MountainCar-v0 376</br> B.1.3 LunarLander-v2 377</br> B.1.4 PongNoFrameskip-v4 378</br> B.1.5 BreakoutNoFrameskip-v4 378</br>B.2 ȯ 379</br> B.2.1 Pendulum-v0 379</br> B.2.2 BipedalWalker-v2 380</br></br>ʷα 381

ټ

  • 10
  • 8
  • 6
  • 4
  • 2

(ѱ 300̳)
侲
Ʈ
 ۼ ۼ õ

ϵ ϴ.