Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Archives
Today
Total
관리 메뉴

cb

[논문리뷰] One-2-3-45 본문

ai - paper

[논문리뷰] One-2-3-45

10011001101 2024. 9. 28. 02:38

One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, Hao Su

https://arxiv.org/abs/2306.16928

 

One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

Single image 3D reconstruction is an important but challenging task that requires extensive knowledge of our natural world. Many existing methods solve this problem by optimizing a neural radiance field under the guidance of 2D diffusion models but suffer

arxiv.org

 

 

0. Abstract


Single image 3D reconstruction은 natural world에 대한 많은 지식을 필요로 한다. 기존 방법들은 2D diffusion modeld의 neural radiation field를 최적화함으로써 이 문제를 해결했지만, 최적화 시간이 길다는 문제와 최종 아웃풋의 불일치 등의 문제가 발생했다. 따라서 본 논문에서는 단일 이미지를 입력으로 받았을 때 360도의 3d textured mesh를 단일 feed forward만으로도 만들어낼 수 있는 방법을 제안한다. 먼저, 2d 디퓨전 모델인 Zero-123을 사용하여 multi-view 이미지를 만들어내고, 이를 3d 공간으로 업스케일링한다. 기존에는 multi-view 예측에서 일관성이 없다는 문제가 있었기 때문에, 본 논문에서는 이에 대한 해결책을 제시한다. 추가로, 기존 방법론들보다 더 나은 모양, 개선된 3d 재구성 시간을 제공한다는 장점이 존재한다. 이는 text-to-image diffusion 모델과 결합하여 text-to-3d 태스크를 지원할 수 있다는 전망이 있다.

 

view 예측에서 일관성이 없다는 문제가 있었기 때문에, 본 논문에서는 이에 대한 해결책을 제시한다. 추가로, 기존 방법론들보다 더 나은 모양, 개선된 3d 재구성 시간을 제공한다는 장점이 존재한다. 이는 text-to-image diffusion 모델과 결합하여 text-to-3d 태스크를 지원할 수 있다는 전망이 있다.

1. Introduction


Single image 3D reconstruction은 하나의 2d 이미지만을 입력으로 받았을 때, 객체의 3D 모델을 재구성하는 작업으로, 로봇 객체 조작, 3D 콘텐츠 생성, AR/VR 같은 분야에 응용되는 중요한 작업이다. 하지만 단일 이미지에서 3D 모델을 생성해내는 것은 불충분한 정보를 갖고 있기 때문에 쉽게 생성해낼 수 없다는 문제점을 갖고 있다.

 

반면, 인간은 3D 세계에 대한 광범위한 지식을 바탕으로 3D 콘텐츠를 능숙하게 추론해낼 수 있다. 이를 기반으로, 이전 연구들은 3D shape dataset을 사용하여 3D generative models를 훈련시켜왔다.

 

하지만 이 방법은 보이지 않는 부분에 대해서는 일반화 성능이 떨어지고, 제한적인 3d dataset 크기로 인해 제대로 물체를 재구성하지 못 한다는 문제가 발생한다.

 

따라서, 본 논문에서는 2D diffusion model에서 얻은 사전 정보를 3d reconstruction에 효율적으로 활용할 수 있는 방안을 제시한다.

그 방안은 2d diffusion model과 cost-volume-based 3d reconstruction 기술을 결합하는 것으로, 장면별 최적화 없이도 고퀄리티의 360도 textured mesh를 구현해낼 수 있다.

 

SparseNeuS를 활용하여 cost volume-based neural surface reconstruction을 진행한다. 이는 3d output의 일관성을 유지하는 데에 도움을 줄 수 있다.

또, Zero123의 고도 추정 모듈을 사용하여 카메라의 포즈를 계산한다. 이를 통해 각 view에서의 reconstruction이 제대로 이루어질 수 있도록 돕는다.

 

one-2345는 multi-view synthesis, elevation estimation, and 3D reconstruction의 세 모듈을 통합함으로써 짧은 시간 안에 3d mesh를 제작해낼 수 있고, 기존 방법들보다 우수한 성능을 낼 수 있었다.

 

2. Method


one-2345는 총 세 가지의 주요 모듈로 구성된다.

 

첫 번째는 multi-view synthesis(다중 뷰 합성)로, 2stage를 거쳐 다중 뷰 이미지를 생성해낸다. 여기서 다중 뷰 이미지는 zero123 모델을 사용하였고, 원하는 카메라의 좌표와 그 좌표에서 바라본 객체의 모습을 출력해낸다.

 

두 번째는 pose estimation(포즈 추정)으로, zero123에서 생성한 인근 4개의 뷰를 사용하여 입력 이미지의 고도각 θ를 추정해 내는 것이다. 입력 뷰의 추정 포즈와 상대 포즈(relative pose)를 결합하여 multi-view 이미지들의 pose를 얻어낸다.

 

마지막으로, 3d reconstruction 모듈에서는 360◦ mesh 재구성을 위해 SDF 기반 generalizable neural surface reconstruction 모듈을 사용한다.

 

2.1 Zero123: View-conditioned 2D diffusion

최근의 2d diffusion model 연구들은 pre-trained diffusion model을 fine-tuning하여 어떤 특정 조건에 따라 이미지를 잘 생성할 수 있도록 하였다. 그 중에서도, Zero123은 단일 RGB 이미지와 camera transformation이 주어졌을 때, 원하는 camera view에서의 synthesis image를 만들어내는 것을 목표로 한다.

 

Zero 123는 객체가 좌표계의 원점에 중심을 두고 구형 카메라를 사용한다고 가정한다. 두 카메라 포즈 (θ1, ϕ1, r1), (θ2, ϕ2, r2) 가 주어졌을 때 f(x1, θ2 − θ1, ϕ2 − ϕ1, r2 − r1)라는 모델을 통해 x2를 예측할 수 있도록 한다.

 

Zero123는 camera pose 에 대한 fine tuning을 통해 diffusion model이 안정적으로 카메라 시점을 제어할 수 있도록 하였다.

 

2.2 Nerf-based and SDF-based method

먼저, 앞선 모듈(Zero123)에서 단일 이미지만을 통해 통해 32개의 multi-view 이미지를 생성하고 카메라 포즈를 구면에서 균일하게 샘플링해냈으면, NeRF 기반 또는 SDF 기반 방법을 통해 3d mesh를 구성해내는 과정을 거친다.

 

하지만 사진에서 보이는 것과 같이 두 방법 모두 왜곡과 플로터를 생성해낸다는 문제가 발생하였다.

이는 Zero123에서 입력의 상대적인 pose가 크거나, 특이한 경우에 발생하는 문제였다.

 

2.3 cost volume-based neural surface reconstruction module( Neural Surface Reconstruction from Imperfect Multi-View Predictions)

따라서 기존의 최적화 기반 접근 방식보다는, 일반화 간으한 SparseNeuS 기반 SDF 재구성 방법을 사용하도록 하였다. 이는 multi-view streo, neural scene representation, volume redering을 결합할 수 있다.

 

전체 아키텍처 그림에서 볼 수 있듯이, reconstruction 모듈은 m개의 포즈에서의 이미지를 입력으로 받는다. 우선 모듈은 2d feature network를 사용하여 m개의 2d 피처맵을 추출해내는 것으로 시작한다.

 

그런 다음, 각 3d voxel을 m개의 2d 피처 평면에 투영하여 3d cost volume을 만들어낸다. 이후 3d sparse CNN을 지나면서 인풋의 geometry volume을 추출해 내고, 임의의 3d 지점에서의 SDF를 예측하기 위해 MLP는 3D 좌표와 interpolated features를 받는다.

3d point의 색을 예측하기 위해서 또 새로운 MLP가 사용되고, 소스 이미지의 시야 방향에 대한 광선의 방향을 입력으로 받는다.

네트워크는 각 소스 뷰에 대한 블렌딩 가중치를 예측하고, 3d 포인트의 색상은 투영된 색상의 가중합으로 예측된다.

 

2-Stage Source View Selection and Groundtruth-Prediction Mixed Training

원래 SparseNeuS는 정면에 대한 view reconstruction을 보여 주었지만, 본 논문에서는 360도로 mesh를 재구성하여 깊이 정보를 추가한 단일 피드포워드 네트워크를 구축하였다.

 

먼저, n개의 카메라로부터 GT RGB, depth image를 뽑아낸다. 그런 다음, frozen시킨 Zero123를 사용하여 균일하게 배치된 n개의 카메라에 대해 근처에 있는(nearby) 4개의 뷰의 pose(RGB 및 깊이 이미지)를 예측한다.

 

학습 중에는 모든 뷰에 대해 근처 4개 pose를 예측하는데, n개의 GT RGB 중 랜덤하게 하나를 골라 타켓 뷰로 삼는다.

이것을 2-stage source view selection이라 한다.

 

2.4 Camera Pose Estimation

reconstruction을 진행하기 위해서는 만들어낸 모든 view에 대한 camera pose가 필요하다.

 

이 과정에서도 다른 과정에서와 동일하게 먼저 zero123를 사용하여 인근 4개의 뷰를 예측한다. 그런 다음 모든 가능한 elevation angles(고도 각도)를 세밀하게 나열한다. 그런 다음, 각 후보 각도에 대해 각 이미지의 카메라 포즈를 계산하고, 이 카메라 포즈 세트에 대한 reprojection error를 계산하여 이미지와 카메라 포즈 간에 대한 일관성을 측정한다.

 

여기서 재투영 오류가 가장 적은 고도 각도를 주변 모든 카메라 포즈를 생성하는 데 사용한다.

 

3. Experiments


 

'ai - paper' 카테고리의 다른 글

[논문리뷰] TEVAD  (6) 2024.10.02
[논문리뷰] I-JEPA  (1) 2024.10.01
[논문리뷰] Pix2Pix  (0) 2024.09.28
[논문 리뷰] VoxelNet  (0) 2024.08.08
[논문 리뷰] Frustum PoinNet  (0) 2024.08.02