快轉到主要內容

論文筆記

論文筆記 - 3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian Splatting
··3751 字·8 分鐘
論文筆記 3DGS 人體重建
本篇筆記整理了 3DGS-Avatar (CVPR 2024) 的研究內容。該論文旨在解決從單眼視角影片(monocular video)高效重建可動畫(animatable)的著裝虛擬人像(clothed human avatars)的挑戰,特別是針對現有基於 NeRF 方法在訓練和渲染速度上的限制。筆記內容涵蓋了其核心方法:利用 3D Gaussian Splatting (3DGS) 作為基礎表示,設計了從標準空間(canonical space)到觀察空間(observation space)的變形流程,包括非剛性(non-rigid)和剛性(rigid)變形模組,以及一個用於處理視角相關顏色和局部變形的 Color MLP。此外,筆記也記錄了其優化策略,如姿態修正(pose correction)和關鍵的「盡可能等距」(as-isometric-as-possible, AIAP)正規化,以提升對未見姿態的泛化能力與重建品質。
論文筆記 - NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
··3178 字·7 分鐘
論文筆記 NeuS
本篇筆記整理了 NeuS (NeurIPS 2021) 的研究內容。該論文致力於從多視角影像(multi-view images)中實現高品質的 3D 表面重建,旨在結合隱式表面表示(implicit surface representation)和體積渲染(volume rendering)的優點,同時克服先前方法(如 IDR 和 NeRF)各自的局限性。筆記內容涵蓋了其核心方法:將 3D 表面表示為神經符號距離函數(Neural Signed Distance Function, SDF)的零水平集(zero-level set),並提出一種新穎的體積渲染方案來訓練此 SDF 網路。此方案的關鍵在於設計了一個基於 SDF 導數(S-density)的權重函數(weight function)和對應的不透明度密度(opaque density),使其既能無偏差地(unbiased)定位表面,又能處理遮擋(occlusion-aware)。此外,筆記也記錄了其訓練細節,包括損失函數(包含顏色損失、Eikonal 正規化和可選的遮罩損失)以及層級採樣(hierarchical sampling)策略,最終目標是重建出高保真度的物體表面。
論文筆記 - MonoNeRF: Learning Generalizable NeRFs from Monocular Videos without Camera Poses
··2982 字·6 分鐘
論文筆記 NeRF
MonoNeRF (ICML 2023) 這篇論文探索了一個重要的問題:如何在缺乏真實相機姿態(camera poses)標註的情況下,從普通的單眼視角影片(monocular videos)中學習可泛化的神經輻射場(NeRFs)。本篇筆記旨在整理該研究提出的解決方案,內容涵蓋其核心的自動編碼器(autoencoder)架構、用於估計相對相機姿態與單眼深度的編碼器、基於多平面影像(Multiplane Images)的 NeRF 解碼器,以及實現自監督學習所依賴的自動尺度校準(auto-scale calibration)等關鍵技術細節。
論文筆記 - Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with Reflection
··3249 字·7 分鐘
論文筆記 NeuS
這篇筆記整理了 ICCV 2023 的 Ref-NeuS 論文。該研究針對多視角影像中帶有反射的物體重建問題,提出了一個減少歧異性的神經隱式表面學習框架,旨在解決反射導致的多視角不一致性與模糊問題。論文提出一個專門處理反射表面的方法,其核心技術包括:透過分析多視角顏色不一致性和點的可見性來定義「反射分數」,以此識別反射區域;設計一個「反射感知光度損失」,根據反射分數自適應地降低反射像素的權重;以及利用反射方向來建構更精確的輻射場。實驗結果顯示,相較於現有方法,Ref-NeuS 在具有反射的場景中,能夠重建出更高品質的表面幾何、更平滑的表面法線,並維持良好的渲染效果。
論文筆記 - Ref-DVGO: Reflection-Aware Direct Voxel Grid Optimization for an Improved Quality-Efficiency Trade-Off in Reflective Scene Reconstruction
··1582 字·4 分鐘
論文筆記 NeRF
這篇筆記整理了發表於 ICCV 2023 的 Ref-DVGO 論文。該研究探討如何在重建具有反射特徵的場景時,有效平衡重建品質與計算效率之間的關係,特別是針對現有方法在處理高反光物體時面臨的訓練時間長、資源需求高問題。論文提出了一種基於直接體素網格最佳化(Direct Voxel Grid Optimization, DVGO)的改進方法,使其具備反射感知能力。其核心思想是借鑒 Ref-NeRF 中將出射輻射(outgoing radiance)參數化為反射方向函數的概念,但將原本由大型 MLP 學習的各種屬性(如入射輻射、漫反射顏色、粗糙度、鏡面反射顏色)改由體素網格來表示和最佳化。筆記內容涵蓋了其方法細節、採用的損失函數與訓練策略(如 coarse-to-fine 和體素網格漸進縮放),並記錄了與其他方法的實驗比較結果,展示了 Ref-DVGO 在提升渲染品質的同時,顯著加快訓練和渲染速度並減少 GPU 記憶體需求。
論文筆記 - NSF: Neural Surface Fields for Human Modeling from Monocular Depth Scene Reconstruction
··3808 字·8 分鐘
論文筆記 NeRF 人體重建
本篇筆記整理自 ICCV 2023 論文《NSF: Neural Surface Fields for Human Modeling from Monocular Depth Scene Reconstruction》。該論文提出一種只需單目深度序列即可學習細緻且可動畫的人體模型的方法,突破了以往 3D 人體重建對高階感測設備與複雜預處理的依賴。核心貢獻為引入 Neural Surface Fields (NSF),在 canonical space 上定義連續的神經場,能高效融合不同姿勢與服裝幾何,實現任意解析度的網格重建,且無需重新訓練。實驗證明 NSF 相較於過往方法有更高效率與更佳的幾何、紋理還原能力,支援快速 few-shot 新人物訓練與高質感動畫生成,並能直接進行紋理轉換。
論文筆記 - (Humans in Minutes) Learning Neural Volumetric Representations of Dynamic Humans in Minutes
··2273 字·5 分鐘
論文筆記 NeRF 人體重建
本篇筆記整理 CVPR 2023 的 Humans in Minutes,聚焦在單眼影片中以數分鐘完成可自由視角的動態人體重建。方法以 SMPL 為骨架先驗,將 4D 體積運動重參數化為 2D 表面 UV 與時間,並結合 inverse LBS 與殘差形變在 canonical space 學習位姿變形;同時採用依部位切分的 part-based voxelized 表示與多解析度 hash encoding,依人體區塊複雜度高效建模密度與顏色。相較既有 NeRF 類方法,本作在維持競爭力的畫質下,將優化時間縮短至百倍等級(512×512、RTX 3090 約數分鐘),訓練僅需每幀姿態與前景遮罩,並於文中進一步分析損失設計、正則化與對 SMPL 依賴等限制。
論文筆記 - MonoHuman: Animatable Human Neural Field from Monocular Video
··4618 字·10 分鐘
論文筆記 NeRF 人體重建
針對單眼影片的人體可動畫自由視角渲染,MonoHuman(CVPR 2023)提出 shared bidirectional deformation,在 canonical space 共享運動權重並以前向/反向一致性正則,學得 pose‑independent 變形場,減輕單向變形在不可見姿態上的 over‑fitting;同時構建以關鍵影格為索引的 observation bank,透過 forward correspondence search 從相似姿態檢索對應特徵以引導渲染,緩解遮擋與細節模糊。該方法於新視角與新姿態設定皆優於既有方法(LPIPS 顯著提升),並能在複雜極端姿勢下保持外觀連貫與細節保真。
論文筆記 - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose Control
··5149 字·11 分鐘
論文筆記 NeRF 人體重建
針對可控姿勢下的人體自由視角合成,Neural Actor(SIGGRAPH Asia 2021)以 SMPL 作為幾何先驗,透過 inverse skinning 將觀測點對齊至 canonical space,並以殘差變形網路補足大位移與細微皺摺;同時將定義於 SMPL 的 2D 紋理圖作為潛在變數,配合法向圖→紋理圖的轉換網路與特徵提取器提供動態外觀先驗,緩解僅憑骨架姿勢難以描述的遮擋與模糊。該方法在長姿勢序列、挑戰性新姿勢與跨人重演中皆達到高品質自由視角渲染,並支援透過形狀參數進行人體重塑。
論文筆記 - F2-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories
··2689 字·6 分鐘
論文筆記 NeRF
針對自由/任意相机軌跡於大型無界場景的重建與渲染,F2‑NeRF(CVPR 2023)提出以可見相機投影建構的 perspective warping,搭配多重雜湊網格與視角一致採樣,並用 octree 自適應分配前景/背景網格,配合 disparity 與 TV 正則抑制偽影;在 LLFF、NeRF‑360‑V2、Free dataset 展現高速訓練與高品質重建。
論文筆記 - (DVGO) Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction
··4103 字·9 分鐘
論文筆記 NeRF
本篇筆記整理了 DVGO (CVPR 2022) 的研究內容。該論文提出直接體素網格優化方法,針對神經輻射場訓練速度緩慢的問題實現超快收斂。核心技術包括使用密集體素網格建模 3D 幾何體、post-activation 插值技術、兩階段優化策略等。相較於 NeRF 的 10-20 小時訓練時間,DVGO 僅需 15 分鐘即可達到相當品質。
論文筆記 - HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
··3965 字·8 分鐘
論文筆記 NeRF 人體重建
本篇筆記為筆者在閱讀 HumanNeRF (CVPR 2022) 這篇論文時的隨記。該研究提出了一種方法,用於從單眼視角的影片(monocular video)中,為移動中的人物生成自由視角的渲染結果。這項技術試圖解決在僅有單一、變動視角輸入的情況下,重建人物在任意新視角下的外觀(包含姿態、衣物等細節)的挑戰。筆記將整理 HumanNeRF 的核心方法,包括如何使用標準體積表示(canonical volume)、分解運動場(motion field decomposition),以及姿態修正(pose correction)等技術來實現其目標。