[ml-agents] Hyperparameters

Unity3D 2019. 5. 19. 15:48
반응형

https://github.com/Unity-Technologies/ml-agents/blob/master/docs/Training-PPO.md

 

Unity-Technologies/ml-agents

Unity Machine Learning Agents Toolkit. Contribute to Unity-Technologies/ml-agents development by creating an account on GitHub.

github.com

1
2
3
4
5
6
7
8
9
10
BallBrain:
    normalize: true    #정규화 되었는가? (학습성능향상)
    gamma: 0.90    #미래의 보상을 현재에 적용할때 할인률
 
    #lambda
    #미래의 보상을 평가 할때 이전까지의 보상을 기준으로 하는 정도 
    #낮으면 지금까지의 보상을 기준으로 미래의 보상을 평가하게 되고, 지금까지의 경향을 유지하는 방향으로 굳어짐 
    #높으면 이전까지의 값을 기준으로 하는게 아니라 미래의 값을 그대로 받아 들이기 때문에 높은 다양성을 가지게 됨
    #너무 적으면 경향이 너무 굳어지고, 너무 높으면 다양성을 커지고 안정성은 떨어짐 
    lambda: 0.99 
 
 

 

Gamma 
gamma corresponds to the discount factor for future rewards. 
This can be thought of as how far into the future the agent should care about possible rewards. 
In situations when the agent should be acting in the present in order to prepare for rewards in the distant future, this value should be large. 
In cases when rewards are more immediate, it can be smaller.



감마 

미래의 보상에 대한 할인율 

감마는 미래의 보상에 대한 할인 요인에 해당합니다. 
이는 에이전트가 가능한 보상에 대해 얼마나 신경 써야 하는지를 생각할 수 있습니다. 
먼 미래에 보상을 준비하기 위해 대리인이 현재 행동해야하는 상황에서는이 값이 커야합니다. 
보상이 더 즉각적인 경우에는 더 작을 수 있습니다.



Lambda

lambd corresponds to the lambda parameter used when calculating the Generalized Advantage Estimate (GAE). 
This can be thought of as how much the agent relies on its current value estimate when calculating an updated value estimate. 
Low values correspond to relying more on the current value estimate (which can be high bias), 
and high values correspond to relying more on the actual rewards received in the environment (which can be high variance). 
The parameter provides a trade-off between the two, and the right value can lead to a more stable training process.




lambd는 GAE (Generalized Advantage Estimate)를 계산할 때 사용되는 람다 매개 변수에 해당합니다. 
이는 업데이트 된 가치 추정치를 계산할 때 상담원이 현재의 가치 견적에 얼마나 의존 하는지를 생각할 수 있습니다. 
낮은 값은 현재 값 추정 (높은 바이어스가 될 수 있음)에 더 많이 의존하고 높은 값은 환경에서받는 실제 보상 (높은 분산 일 수 있음)에 더 많이 의존하는 것과 같습니다. 
매개 변수는 둘 사이의 균형을 제공하며 올바른 값은보다 안정적인 교육 프로세스로 이어질 수 있습니다.

반응형

'Unity3D' 카테고리의 다른 글

ImportError: Could not find 'cudart64_90.dll'.  (0) 2019.05.19
Using TensorFlowSharp in Unity (Experimental)  (0) 2019.05.19
Tower Defense Template (분해)  (0) 2019.05.03
LayerMask  (0) 2019.05.01
world, screen, viewport  (0) 2019.04.23
: