본문 바로가기

논문 리뷰

Cross-Media Similarity Evaluation for Web Image Retrieval in the Wild

Given baseline methods that use relatively simple text/image matching, how much progress have advanced models made is also unclear.

이 논문 당시에도(2018) 텍스트와 이미지를 조인트 임베딩 semantic embedding 논문들은 많았지만, 베이스라인 모델과 비교해서 얼마나 좋은지 정확히 연구는 없었다고 한다. 그래서 이 논문은 간단한 베이스라인 모델과 semantic embedding간의 성능에 대한 비교 연구를 한다.

논문이 제시하는 베이스라인 모델이라는 것은 누구나 생각할 수 있는 그러한 간단한 모델이다. 기본적으로는 클릭로그를 이용하는 모델이다

  • image2text
    • 이미지의 유사 이미지 k를 찾는다
      • CNN 임베딩이 필요
    • k 이미지에 붙어 있는 쿼리(클릭으로) 와 제출한 쿼리의 재커드 유사도를 잰다
  • text2image
    • image2text 의 반대
    • 쿼리q(이효리)의 유사 쿼리 qj(이효리 이상순)를 찾는다
      • 이 논문은 워드 벡터같은것을 이용하는것이 아닌 그냥 쿼리간의 재커드 유사도로 잰다
    • 쿼리 qj에 붙어있는 이미지(클릭으로) 와 주어진 이미지의 유사도를 잰다.

advanced models이라는 것은 semantic embedding 모델들을 말한다. 기본적으로 CNN으로 학습된 이미지 임베딩과 word2vec으로 학습된 워드벡터를 한 공간으로 매핑하는 모델들이다

  • PSI
  • DeViSE
  • ConSE

Image retrieval experiments on the challenging Clickture dataset show that the proposed text2image is a strong baseline, comparing favorably to recent deep learning alternatives.

결론적으로는 실제 이미지 검색 클릭 로그 데이터인 Clickture 데이터 셋에서 간단한 베이스라인 모델인 text2image가 어드밴스 모델들보다 더 좋은 성능을 보였다는 것이다.

어드밴스 모델들이 장점을 보이는 부분은 visualness가 높은 쿼리들에 대해서는 좋은 성능을 보이는데, 실제로 visualness가 높은 쿼리들은 리얼 데이터에서 그렇게 큰 비중을 차지하지 못해서 그렇다는것이 논문의 주장이다

  • visualness란 예를 들어 "이효리"같은 쿼리는 visualness가 높은 쿼리이고 "행복" 같은 쿼리는 visualness가 낮은 쿼리이다

image

위의 실험 결과를 보면 visualness가 높은 쿼리[0.8,1]에서는 DeViSE같은 조인트 임베딩 모델이 text2image 모델보다 좋은 성능을 보이지만 visualness가 낮은 쿼리[0.2,0.4]에서는 베이스라인 모델들(image2text, text2image)가 더 좋은 성능을 보임을 알수 있다.

더욱이 실제 데이터처럼 데이터에 노이즈를 추가하면 이같은 경향을 더 뚜렸해지는데 어드밴드 모델들은 다음과 같이 노이즈에 매우 취약한 모습을 보이는 실험결과를 보인다

image

위의 결과는 노이즈가 추가된 clickture 데이터셋에 대한 평가인데 visualness가 높은 쿼리[0.8,1]에서조차 베이스라인모델들이 더 좋은 성능을 보인다.

마지막으로 논문은 다음과 같은 결론을 짓는다

Given the proposed text2image method as the baseline, much
progress has already been made by the advanced semantic em- bedding models. Nonetheless, the progress is mainly attributed to their relatively good performance on visual-oriented queries (Q2).
This class of queries accounts for only a small part of real-user queries. Image retrieval experiments on the Click- ture dataset show that text2image outperforms several recently developed deep learning models including DeViSE, ConSE, BoWDNN, MRW-NN, and RCCA. For web image retrieval in the wild, we recommend text2image as a new baseline to be com- pared against when one advocates novel cross-media similarity models.

'논문 리뷰' 카테고리의 다른 글

트랜스포머 네트워크 transformer network  (0) 2021.03.25