본문 바로가기

딥러닝/Paper Review

Self supervised confidence 관련 ECCV 2020 논문 : Self-adapting confidence estimation for stereo

728x90
SMALL

오늘 리뷰할 논문은 ECCV 2020에 accept된 self supervised 방식의 confidence 논문입니다.

 

 

핵심 아이디어를 중심으로 간단히 설명드리도록 하겠습니다.

 

 

해당 논문은 아래의 그림과 같이 self supervised 방식을 사용하여서 disparity 값에 따른 confidence 값을 얻습니다.

 

해당 논문에서는 3가지를 check 하고 그것을 이용해서 confidence를 학습시킵니다. 

 

먼저 가장 첫번째부터 설명하도록 하겠습니다. 

 

Image reprojection error

해당 error는 left image와 right image를 left disparity로 warping 시킨 image와 비교하는 error 입니다. 

여기서 left image와 right image의 차이보다 left image와 right image를 left disparity를 이용해서 warping 시킨 image의 차이가 작을 경우 알맞게 disparity 값이 있다는 의미입니다. 따라서 T = 1이 되게 됩니다. 그렇지 않을 경우는 T = 0 이 됩니다. 

 

Aggreement among neighboring matches 

 

HNxN은 histogram encoding 이고, NxN은 number of neighbors 입니다. 특정 pixel에서 NxN window를 씌웠을 때 해당 pixel의 disparity와 그 주변의 disparity 값이 같아야 한다고 가정하는 것입니다. 

따라서 DA가 0.5보다 클 경우 A = 1, 그렇지 않을 경우 A = 0이 됩니다. 

 

 

Uniqueness constraint 

즉, IL의 픽셀에 대한 고유성은 대상 이미지에서 다른 픽셀과 충돌하지 않는 경우, 즉 다른 픽셀과 일치하는 IR의 동일한 픽셀과 일치하지 않는 경우 유지되야 한다는 것입니다. 

따라서 충돌하지 않는 경우 U = 1, 그렇지 않을 경우 U = 0이 됩니다. 

 

 

 

이제 위에서 구한 3가지 조건들을 이용해서 loss에 적용을 시켜 줄 것입니다. 

 

Multi-modal Binary Cross Entropy

여기서 P = [Tp, Ap] Q = [Tq] 가 될수도 있고, P = [Tp, Ap, Up] q = [Tq, Aq, Uq]가 될 수 도 있고, 조합은 다양합니다. 

P는 P들의 집합이고, Q는 q들의 집합입니다. 

 

예를 들어서 설명을 드리도록 하겠습니다. 

 

먼저 P의 집합을 P = [Tp, Ap, Up] Q의 집합을 Q = [Tq, Aq, Uq]라고 한다면,

한 pixel에 대해서 Tp = 1, Ap = 1, Up = 1이고, Tq = 0, Aq = 0, Uq = 0이라고 할경우 LMBCE = log(o)가 됩니다. 따라서 output에서는 해당 pixel이 신뢰도가 높은 1이여야 합니다. 

그리고 Tp = 1, Ap = 1, Up = 0 이고, Tq = 0, Aq = 0, Uq = 1이라면 LMBCE = 0으로 loss에 적용 시켜주지 않습니다.

Tp = 0, Ap = 0 Up = 0 이고, Tq = 1, Aq = 1 Uq =1 이라면 LMBCE = log(1-o)가 됩니다. 따라서 output 해당 pixel이 신뢰도가 낮은 0이여야 합니다.

 

이와 같이 신뢰도가 3가지 측정에 대해서 다 1로 나올 경우 확실히 신뢰할 만한 영역이라고 판단한 것이고, 다 0으로 나올 경우 확실히 신뢰하지 못하는 영역이라고 판단하고, 그렇지 않은 경우들은 판단할 수 없다고 해서 loss를 준 것입니다.

 

여기서 P의 집합과 Q의 집합은 자신이 선택할 수 있습니다. 

 

 

아래의 그림이 바로 이에 관련된 결과 이미지 입니다.

 

a)는 P = [Tp], Q = [Tq],  b)는 P = [Ap], Q = [Aq], c)는 P = [Up], Q = [Uq], d)는 P = [Tp, Ap, Up] , Q = [Tq],  e)는 Q = [Tp, Ap, Up] , Q = [Tq, Aq, Uq] 일 때의 결과를 나타냅니다. 

 

 

 

아래의  표는 Ablation study 결과 입니다. 

 

 

 

아래의 표는 다른 confidence network들과 성능을 비교한 표입니다. 

 

 

그럼 이상으로 논문 리뷰를 마치도록 하겠습니다.

 

 

질문이 있거나 잘못된 점이 있으면 댓글로 남겨주세요!

728x90
LIST