+ 강화학습을 배우고 구현하고자 노력하는 중으로, 이해한 바를 남기고자 하는 노트 정리와 비슷한 것입니다. 따라서 정확하지 않은 내용이 있을 수 있습니다. 현재 참고하고 있는 논문) 은 해당 논문의 6. Conclusion and discussion에서 Future work로 "It will be interesting to explore methods that allow such agents to communicate, e.g. by sharing their learned knowledge."라고 언급하면서 후속 논문은 이에 대한 내용일 것이라 예상할 수 있다. 그리고 와 이다. 이것이 앞선 논문의 후속 논문으로 보이며 첫번째 논문의 코드(tensorpack사용)을 pytorch로 refactoring함..