본문 바로가기

딥러닝/Paper Review

Self supervised stereo matching 관련 ICRA 2021 논문 : PVStereo-Pyramid Voting Module for End-to-End Self-Supervised Stereo Matching

728x90
SMALL

안녕하세요 오늘 리뷰할 논문은 self supervised stereo matching 관련 논문입니다.

해당 논문은 ICRA 2021에 accept 되었습니다.

 

해당 논문에서는 loss와 self supervised 방식 부분만을 집중해서 보도록 하겠습니다!

Network에 대한 자세한 설명은 생략하도록 하겠습니다.

 

그럼 간단히 바로 설명 시작하도록 하겠습니다.

 

해당 논문은 supervised 방식과 self supervised 방식 두가지 모두로 실험을 진행하였습니다.

여기서 self supervised 방식에 초점을 맞추려고 하는데요, 해당 논문에서는 self supervised 방식으로 하기 위해서 가짜 정답을 생성해줍니다. 이를 생성하는 위의 Fig 2를 보시면 이해하실 수 있습니다.

Fig 2의 내용을 간단히 설명 하자면,

1. left image와 right image 모두에 대해서 다양한 해상도로 pyramid 형태로 이미지를 만들어 줍니다.

2. 각 이미지 해상도에 따라서 TSM(traditional stereo matching) 을 사용해서 disparity를 생성합니다.

3. 각 이미지 사이즈마다 disparity를 voting해서 신뢰할 만한 부분만을 선별합니다.

4. 선별된 left right depth를 가지고 LRDCC(left right disparity consistency check)를 통해서 최종적으로 신뢰할만한 부분만을 선별해서 최종 가짜 정답인 D 물결을 생성합니다. 

 

 

해당 논문에서는 두가지 가정을 하고 있습니다.

1. confident disparities possess similar values, and

2. their matching costs or correlations are consistent,

regardless of image resolution.

 

그럼 수식을 이용해서 조금 더 자세히 설명드리도록 하겠습니다.

여기서 D~은 traditional stereo matching network를 통해서 나온 disparity, p는 pixel, c~는 cost volume을 의미합니다. 해당 식을 간단히 설명하자면, 즉 각 해상도별로 구한 disparity와 cost volume이 각 pixel 마다 차이가 없으면 신뢰한다 라고 이해하시면 될 것 같습니다. 해상도가 (400,400), (200,200), (100,100), (50,50), (25,25)가 있다고 하면 이 각각에서 disparity를 뽑아주고, 이를 upsampling해서 모두 크기를 맞춰 준 후 각 이미지 별로 특정 pixel 값에서의 disparity, cost volume이 비슷할 경우만 신뢰한다는 것입니다.

 

제가 생각했을 때의 voting map v(p)는 v =1이면 사용, v =0 이면 사용하지 않는다입니다.

이렇게 생각하면 논문에서 typo가 있는 것 같은데요, 해당 논문에서는 C(p)를 다음과 같이 구한 후 C(p,1)(즉, C(p)에서 구한 첫번째(disaprity에 대한 것))가 k1 보다 작을 경우 0, 크거나 같을 경우 1이라고 하였는데요, 이것이 아니고 반대인 C(p,1) > k1 =0, C(p,1) <k1 = 1이라고 생각합니다. 마찬가지고 C(p,2)에 대해서도 똑같이 적용하면 됩니다.

 

이렇게 해서 구해준 후 left right disparity consistency check를 통해서 최종적으로 신뢰할만한 pixel을 구해주면 최종 정답으로 사용될 disparity pseudo gt가 나오게 됩니다.

 

Network는 다음과 같습니다. 해당 논문에서는 LSTM 개념을 사용해서 network를 설계하였습니다.

network에 대한 설명은 생략하도록 하겠습니다,

이제 loss에 대해 설명하도록 하겠습니다. loss는 기존에 봐왔던 loss 와 동일합니다.

먼저 (6)번 수식은 disparity loss 입니다. supervised 방식에서 사용하던 loss를 그대로 사용하였고, huber loss를 이용하였습니다. 즉 예측한 disparity와 위에서 만든 pseudo disparity ground truth와 비슷해야 한다는 loss 입니다.

 

 

그다음으로는 (7)번 수식은 계속 많이 봐왔던 image reconstruction loss 입니다.

 

마지막으로 disparity의 smoothness loss 입니다. 

 

 

 

결과를 보시면 해당 논문의 성능이 가장 잘 나오는 것을 확인 할 수 있습니다. 

 

 

그럼 이상으로 self supervised stereo matching 관련 가장 최신 논문 리뷰를 마치도록 하겠습니다.

혹시 잘못된 부분이나 질문이 있으시면 댓글로 남겨주세요

 

 

728x90
LIST