본문 바로가기

딥러닝/Paper Review

Self-supervised stereo matching 관련 논문 : Self-supervised learning for Stereo Matching with Self-Improving Ability

728x90
SMALL

안녕하세요 오늘 제가 리뷰할 논문은 self-supervised 방식의 stereo matching 논문입니다.

 

핵심만 간단히 설명 드리고자 합니다!

 

먼저 해당 논문의 Network architecture 입니다.

 

해당 network는 기존의 stereo matching과 유사하게 network가 구성 되어있습니다.

 

Feature Volume Construction에서 cross feature volume은 왼쪽과 오른쪽 이미지에 대응하는 것에서 추출해 배운 feature를 concat 해서 만들어집니다. 파란색의 사각형은 left image의 feature map을 나타내고, staked 오렌지 사각형은 traversed된 right feature map을 나타냅니다. 

위의 (1)번 식에서 u는 x축으로의 이동을 의미하고, v는 y축으로의 이동을 의미한다고 보시면 됩니다.

따라서 left image의 x값에 해당 pixel의 right disparity값 만큼 x축 이동을 하면 right image의 pixel 좌표와 같다는 말입니다. 즉, right image에서 (10,10) pixel이 있고, (10,10) 좌표의 right disparity 값이 5라고 하면 이는 left image (10,10)에서 right disparity 값 5를 x축에다가만 더한 (15,10)이 되며 right image (10,10)와 left image (15,10)이 같음을 의미합니다. 

 

--> 해당 개념은 left image right image warping과 동일하다고 보시면 됩니다.

 

(2)번 수식도 마찬가지로 생각을 하시면 될것 같습니다. left-right feature map (u,v,d)는 left feature map의 (u,v) 와 right feature의 (u-d,v)를 concat 한 것이다라고 생각하면 됩니다. 그리고 (3)번 수식은 이를 반대로 right-left feature map에 대해서 적용한 것이라고 생각하면 됩니다. 

 

 

그럼 본격적으로 loss 설명을 하도록 하겠습니다.

 

먼저 (6)번 수식의 loss는 기존에도 설명을 계속 했던 loss 입니다. 해당 loss는 image reconstruction loss라고 생각하시면 될 것 같습니다. S는 SSIM을 의미합니다. 

 

(7)번 수식은 disparity에 대한 smoothness loss입니다.

 

(8)번 수식은 위의 그림을 보면서 쉽게 이해할 수 있습니다. 마찬가지로 image reconstruction인데 이를 두번 반복하는 것이라고 생각하면 될 것 같습니다. 

마지막으로 (9)번 수식은 실제 시나리오에서 특히 텍스처가없는 영역에 대해 유사한 warping loss를 성취하는 여러 warping function이 있을 수 있습니다. 따라서 텍스처없는 영역을 처리 할 때 강력한 정규화를 제공하기 위해 모델에서 최대 depth의 합을 최대화하거나 모든 불일치의 합을 최소화하는 MDH (Maximum-DepthHeuris tic)를 활용합니다.

 

최종 결과입니다. 표를 보시면 supervised 방식 + unsupervised 방식을 혼합해서 넣었습니다. 해당 논문에서의 결과가 기존의 몇몇 supervised 방식과 unsupervised 방식보다 잘 나오는 것을 확인할 수 있습니다. 

 

 

그럼 오늘 논문 리뷰를 마치도록 하겠습니다.

혹시 잘못된 부분이 있거나 질문이 있는 경우 댓글을 달아주세요!

728x90
LIST