Project/[Landmark Detection] RL

[Reinforcement Learning] reinforcement learning for anatomical landmark detection

HJChung 2020. 11. 18. 11:21

Alansary, Amir, et al. "Evaluating reinforcement learning agents for anatomical landmark detection." Medical image analysis 53 (2019): 156-164.

 

With Medical Image, since manual landmark annotation is time consuming and error prone, automatic methods were developed to tackle this problem.

They formulate the landmark detection problem as a sequential decision making process of a goal-oriented agent, navigating in an environment (the acquired image) towards a target landmark.

 

One of the main advantages of applying RL to the landmark detection problem is the ability to learn simultaneously both a search strategy and the appearance of the object of interest as a unified behavioral task for an artificial agent.

About Reinforcement Learning(RL)

Summarizing what I understood.. 1. Reinforcement Learning이란

 

 

static한 데이터 셋에서 거의 무한하게 많이 필요한 (data, output)를 사용해 learning하는 방법 대신에, 매순간 action을 실행해 reward를 받으면서 최종적으로 맨 마지막에 모든 reward의 합 (정확하게는 그것의 expectation을)이 maximization하게 만드는 policy를 learning하는 것이 강화학습의 개념이다.

 

이렇게 이전 상태들을 참고하지 않고 현재 상태만으로 최선의 결정을 내릴 수 있는 마르코프 성질을 지닌 문제를 '마르코프 결정 과정(Markov Decision Process (MDP))'라고 부른다. 이렇게 미래의 보상을 최대화하는 최적의 동작들을 오직 현재 상태의 정보만으로 결정하는 MDP로 강화학습 문제를 정의하면 해법이 단순해지기때문에 보통 RL문제를 푼다고 하면 강화학습은 마르코프 성질을 만족한다는 전제하에 Markov Decision Process (MDP)를 의미한다.

 

 

본질적으로 하나의 강화학습 알고리즘은 어떤 Environment에서 행동하는 소프트웨어 Agent를 구축한다.

※ Environment는 state와 action이 있고 reward를 산출하는 과정이면 어떤 것이라도 환경이 될 수 있다. 

Agent는 Environment의 현재 State를 입력받는다.

※ 하나의 State는 특정 시점 t에서 Environment에 관한 모든 데이터의 집합이다.

그리고 Agent는 이 State 정보를 이용해서 어떤 Action을 취한다. 

※ Agent가 Action을 결정하기 위해 사용하는 알고리즘을 Policy라고 한다. 

이 Action은 Environment을 결정론적으로 또는 확률적으로 변경하며, 그러면 Environment의 현재 state(st)가 바뀐다.(st+1)

이렇게 State(st)에서 Agent가 Action at를 취해서 다음State(st+1)로 전이하면 Agent는 그에 따른 Reward를 받는다

Agent의 목적은 Reward의 장기간 기대치를 최대로 만드는 Action을 학습하는 것이다.

 

 

어떻게 모든 reward의 합 (정확하게는 그것의 expectation을)이 maximization하게 만드는 policy를 learning시킬 수 있을까?

 

Value Function

 

 

동작 가치 함수(Qπ)는 상태 s와 동작 a의 쌍(s, a)를 그 state에서 policy π에 따라 action을 취했을 때 기대 가치(reward)로 mapping하는 함수이다. 이 함수를 Q function이라 하고, Q function의 값을 Q value라고 한다. 

Q-learning

그러나 초기에는 agent는 상태 전이 확률과 보상에 대해 알지 못한다.

보상에 대해서 알기 위해서는 적어도 한 번은 각 상태와 전이를 경험해야하고, 신뢰할 만한 전이 확률을 알기 위해서도 여러번 경험을 해야 한다. 

그래서 이러한 경우처럼 agent가 MDP에 대해 일부 정보만 알고 있을 때를 다룰 수 있도록 가치 반복 알고리즘을 변형한 것이 시간차 학습(Temporal Difference learning(TD 학습))이며, 이러한 시간차 학습 알고리즘과 비슷하게 Q-learning 역시 전이 확률과 보상을 초기에 알지 못한 상황에서 Q-가치 반복 알고리즘을 적용한 것이다. 

Q-learning은 agent가 랜덤한 정책을 사용하여 탐색하는 것을 보고 점진적으로 Q-value 추정을 향상시키는 방식으로 작동한다. 

 

Deep Q-learning

그리고 Q-value를 추정하기 위해 사용하는 DNN을 Deep Q-network(DQN) 이라고 하고, DQN을 사용하여 근사 Q-learning을 하는 것을 Deep Q-learning 이라고 한다.

 

 

Reinforcement learning for landmark detection on Medical Image

  • Goal: an artificial agent learns to make a sequence of decisions towards the target anatomical landmark.
  • Environment: 3D medical image
  • State: each states defines a 3D Region of Interest (ROI) centered around the target landmark and current position. 
  • Agent: artificial agent
  • Action: [left, right, up, down, forward, backward] six actions, { ± ax,  ± ay,  ± az}, in the positive or negative direction of x, y or z. 
  • DQN: DQN-based network architecture for anatomical landmark detection. Output of the CNN results in a Q-value for each action. The best action is selected based on the highest Q-value.

 

 

  • Reward: Agent가 target landmark에 가깝게 이동하고 잇는지 멀리 이동하고 있는지에 대한 여부
    • D: Euclidean distance between two points(the previous step and current step)
    • Pi: the current predicted landmark’s position at step i (현재 상태에서 agent 위치)
    • Pt: the target ground truth landmark’s location. (실제 landmark 위치)

 

  • Terminal state: the terminal state during training when the distance between the current point of interest and the target landmark Pt are less than or equal to 1mm.

 

 


 

To Study..

 

 

Related Work

  • Ghesu et al. (2016) adopted a deep RL-agent to navigate in a 3D image with fixed step actions for automatic landmark detection. The artificial agent tries to learn the optimal path from any location to the target point by maximizing the accumulated rewards of taking sequential action steps.
  •  Xu et al. (2017), inspired by Ghesu et al. (2016), proposed a supervised method for action classification using image partitioning. Their model learns to extract an action map for each pixel of the input image across the whole image into directional classes towards the target point. They use a fully convolutional network (FCN) with a large receptive field to capture rich contextual information from the whole image. Their method achieves better results than using an RL agent, however, it is restricted to 2D or small sized 3D images due to the computational complexity of 3D CNNs.
  • In order to overcome this additional computational cost, Li et al. (2018) and Noothout et al. (2018) presented a patch-based iterative CNN to detect individual or multiple landmarks simultaneously.
  • Furthermore, Ghesu, Georgescu, Grbic, Maier, Hornegger, Comaniciu, 2017Ghesu, Georgescu, Zheng, Grbic, Maier, Hornegger, Comaniciu, 2019 extended their RL-based landmark detection approach to exploit multi-scale image representations.

And..RL, that has been applied to several medical imaging applications.

 

 

 

Reference

github.com/amiralansary/rl-medical/blob/master/examples/LandmarkDetection/SingleAgent/doc/midl_2018.pdf

www.sciencedirect.com/science/article/pii/S1361841518306121?casa_token=koo1U9Cl87QAAAAA:Q2WdkAOjsUfKPlvcZhZSJG30D8qlgzgHSRyZe0kjGrn_TSvSc1JL-nSrJp-Gh6EpeGLUfYK5WIY#fig0004

sanghyukchun.github.io/90/

www.slideshare.net/ssuser06e0c5/q-learning-cnn-object-localization