본문 바로가기

딥러닝/Paper Review

Unsupervised stereo matching 관련 PAMI 2021 논문 : Parallax Attention for Unsupervised Stereo Correspondence Learning

728x90
SMALL

안녕하세요 오늘 제가 리뷰할 논문은 unsupervised stereo matching 관련 논문입니다.

해당 논문은 CVPR에 accept되고, 조금 더 발전 시켜 2020 PAMI에 나온 논문 입니다.

 

정말 간단하게 설명을 드리려고 합니다!!

 

먼저 해당 논문의 핵심인 Parallax-Attention Module PAM 부터 설명하도록 하겠습니다

 

위의 Fig. 2는 self attention과 parallax attention을 비교한 그림입니다. parallax는 시차라는 의미로 stereo matching에서 left right 이미지는 마치 t번째와 t+1번째 이미지와 같아 같은 epipolar line 상에서 attention을 준다고 생각하면 될 것 같습니다. 

 

그 다음으로는 PAM의 구조에 대한 설명입니다. 

 

두개의 feature maps A,B가 주어졌을 때 1x1 con를 하고 이를 multiplication, softmax를 해서 MB->A의 parallax attention map을 얻습니다. 그리고 나서 그 후 위의 그림에 따른 연산을 통해서 최종적으로 valid mask와 output feature를 얻습니다. 

 

위의 Fig.4는 Toy example을 통해서 설명을 한 결과 그림입니다. Stereo image Ileft와 Iright가 있을 때 parallax attention maps Mleft->right Mright->left가 PAM으로부터 생성 될 수 있습니다. 여기서 만약 stereo image 간의 disparity가 0이라면 parallax attention map은 Fig 4의 (a)와 같이 나올 것입니다. 그 이뉴는 Ileft의 i번째 값이 Iright의 i번째 값에 대응이 되기 때문입니다. 그럼 만약 해당 pixel의 disparity가 5라고 할 경우 Ileft의 i번째 pixel은 Iright의 j-5번째 pixel과 대응이 됩니다. 그래서 이런식으로 pixel의 disparity값이 0이 아니라면 각 대응 pixel을 찾아서 parallax attention을 만들어줍니다. 따라서 Fig 4의 (b)와 같은 결과를 얻을 수 있습니다. 

 

 

그 다음으로는 Left-Right Consistency and Cycle Consistency에 대해서 설명하도록 하겠습니다. 

 

 

개념은 간단합니다. Mright->left의 parallax attention과 right image를 geomatry-aware matrix multiplication을 하여 left image를 생성한다는 것이 (1)번 수식의 개념이고(왼쪽과 오른쪽을 바꾸어서도 실행) , (2)번 (3)번 수식도 마찬가지의 개념이라고 생각하면 됩니다.

 

그 다음으로는 (4)번 수식은 valid mask를 구하는 식입니다. 위에서 구한 parallax attention map이 특정 threshold 이상의 값을 가질 경우 1 아닐 경우 0으로 주어서 valid mask를 구합니다. 

 

아래는 전체적인 Architecture 그림입니다. 

그 다음으로 추가적으로 생각할 부분은 Output Module에서의 refinement 부분입니다. 

해당 논문에서는 confidence map인 Mcon을 사용해서 초기에 구한 disparity는 non- occluded 영역에만 적용시키고, 새로 partial convolution을 통해 나온 disparity는 occluded 영역에 적용을 시켜서 최종 refine된 disparity를 구합니다. 

 

 

이제 loss function에 대해서 설명하도록 하겠습니다.

먼저 (10)번 수식은 photometric loss입니다. 이전의 image reconstuction loss와 동일하다고 생각하면 될 것 같습니다. 여기서 S는 SSIM을 의미합니다. 

 

그 다음 (11)번 수식은 smoothness loss입니다. 

 

위의 (13)(14)(15) 수식은 PAM 관련 loss들입니다. 

(13)번 수식은 left image에서 Mright->left인 parallax attention map과 right image를 multiplication한 후 차를 비교하는 것입니다. consistency check loss와 같다고 생각하시면 될 것 같습니다. 이전에 블로그 포스팅에 많이 설명 된 것과 비슷하다고 생각하시면 됩니다. 여기서 M은 parallax attention map이고 I는 image를 의미합니다. p는 pixel을 의미합니다. 

 

그리고 (14)번 수식에서 Mright->left(i,j,k)는 right image에서의 (i,k)와 left image에서의 (i,j)의 feature similarity를 계산하는 것입니다. 이것을 Mright->left(i,j,k) 뿐만 아니라 Mleft->right(i,j,k)도 해주어서 둘다를 포함해서 M(i,j,k)라고 한 것입니다.

 

(15)번 수식은 (13)번과 비슷하게 이해하면 될 것 같습니다.   

 

 

아래는 supervised 방식과 unsupervised 방식의 기존 논문들과 함께 비교한 표입니다. 결과를 보시면 새로 제안한 것이 좋은 성능을 나타내고 있는 것을 확인할 수 있습니다. 

 

 

아래 그림은 예측 결과 image입니다. 

그럼 이상으로 논문 리뷰를 마치도록 하겠습니다.

 

잘못된 점이나 궁금한 점이 있다면 댓글로 남겨주세요.

728x90
LIST