一、 论文推荐行文结构
这套结构采用“总-分-分-总”的经典架构,从理论到基础实现,再到算法优化,最后是底层硬件优化和综合测试。
- 第一章 绪论
- 研究背景与意义(3DGS 的兴起、RISC-V 在边缘计算的潜力)
- 国内外研究现状(3DGS 渲染器现状、RISC-V 平台图形渲染现状)
- 论文主要工作与贡献
- 论文组织结构
- 第二章 3DGS渲染原理与RISC-V体系结构基础 (我们之前修改的那部分)
- 3DGS 算法原理与渲染管线
- RISC-V 指令集架构与 RVV 向量扩展特性
- 第三章 跨平台 3DGS 渲染引擎设计与基线实现 (你的基线工作)
- 渲染器整体架构设计(管线拆解:Load → Project → Sort → Rasterize/Blend)
- 跨平台编译与构建(x86 与 LicheePi 4A 环境搭建)
- 基于 C++ 的基准算法实现(标量版本)
- 引出问题:基于你的总结数据,说明基线版本在板端存在严重的性能瓶颈。
- 第四章 渲染管线的软硬件协同优化 (你已完成的 x86 优化 + 后续优化)
- 光栅化遍历算法优化: 从 Pixel-major 到 Gaussian-major(对应你总结第 5 节的 4 倍加速,详细阐述原理)。
- 内存访问局部性优化: 针对 Fill 和 Blend 瓶颈,将高斯属性从 AoS(结构体数组)重构为 SoA(数组结构体),提高 Cache 命中率。
- 快速排序算法适配: 引入基于并行基数排序(Radix Sort)的深度排序优化。
- 第五章 基于 RVV 的核心算子向量化加速 (体现论文题目“基于RISC-V”的核心工作,需要你接下来重点做)
- RVV 向量化编程模型与内联汇编策略
- 投影算子(Projection)向量化: 空间变换矩阵乘法、三维协方差计算的 SIMD 展开。
- 混合算子(Blend)向量化: 指数运算(Exp)的近似向量化、Alpha 混合的并行化。
- 第六章 实验评估与分析 (你的总结第 6-10 节放这里)
- 实验环境与数据集(LicheePi 4A 硬件配置、13 个模型、65 个视角的设定)
- 正确性验证: x86 与 RISC-V 渲染结果的视觉比对、图像质量评价(PSNR/SSIM)。
- 消融实验与性能瓶颈分析:
- 各优化模块的加速比分析(对比优化前、你总结里的阶段1、以及RVV优化后)
- 各管线阶段耗时占比拆解(对应你总结的第 8 节)
- 多核并行扩展性分析(Scalability): OpenMP 线程数对性能的影响。
- 最慢样例(Corner Case)剖析(对应你总结的第 10 节 playroom 等模型的分析)。
- 第七章 总结与展望
- 论文工作总结
- 未来工作展望(如二进制格式加载、更底层的 GPU/NPU 协同等,对应你总结的第 12 节)
二、 后续必须补充的实验内容(Gap Analysis)
目前的实验总结是一份极好的“基线测试报告”(Baseline Report),但要作为最终论文,还缺少优化落地后的成果证明。你需要在后续阶段补充以下实验:
1. 核心缺失:RVV 向量化加速实验(重中之重)
你现在的板端测试仅仅开启了编译器的自动向量化(-DUSE_RVV=1 -O3),但编译器通常无法完美识别 3DGS 复杂的投影和混合逻辑。
- 需要做的事: 使用 C Intrinsics(如
vle32.v,vfmac.vv)手动重写Projection和Blend算子。 - 补充实验: 对比 [标量 C++] vs [编译器自动向量化] vs [手动 RVV 优化] 在板端的性能差异。这才是你论文最能拿高分的技术硬核点。
2. 多核扩展性实验(Scalability Test)
你在总结中提到了 OMP_THREADS=4。评委一定会问:LicheePi 4A 是四核 TH1520,多线程调度的效率如何?
- 需要做的事: 选 3 个代表性模型(如轻负载的
bonsai,重负载的playroom)。 - 补充实验: 分别在
OMP_THREADS = 1, 2, 3, 4下运行,画出加速比折线图。如果 4 核跑不满 4 倍,可以在论文中分析原因(如访存带宽受限或锁冲突)。
3. 内存布局优化实验(AoS vs SoA)
你的总结中指出“Fill 为 x86 的 13.85 倍”、“Blend 占比近一半”。在 RISC-V 开发板上,Cache Miss 的代价极其高昂。
- 需要做的事: 高斯点的数据结构默认可能是 AoS(
struct Gaussian { float x,y,z; float r,g,b; ...};)。改为 SoA(float xs[], ys[], zs[], rs[]...)。 - 补充实验: 测试这种数据局部性重排对 Fill 和 Blend 阶段时间的降低效果。
4. 画质客观指标评估(PSNR/SSIM)
你目前的判断标准是“成功渲染并生成 PPM”(1/0 判断)。学术论文需要量化指标。
- 补充实验: 将你的 RISC-V 渲染输出与原始 3DGS 官方 Python/CUDA 版输出(或者你的 x86 版作为 Ground Truth)计算 PSNR 和 SSIM。只需要挑几个代表性视角证明“为了性能所做的优化(如 Fast-math, Alpha 截断)没有引起画质的严重肉眼可见下降”即可。
5. 渲染规模边界测试
实验固定了 max_splats=500000。
- 补充实验: 选取一个大模型(如
playroom),分别设置max_splats为 10万、30万、50万、80万,测试渲染时间和内存峰值的增长曲线,论证你的系统在资源受限的边缘板卡上的边界能力。
三、 论文术语转换建议(写论文时的注意事项)
在你把这份 Markdown 笔记写进论文时,请注意替换口语化的词汇:
板端RISC-V 边缘计算平台 / 目标硬件平台case测试样例 / 渲染视角最慢 case极端负荷场景 (Corner Cases)quick retest局部复测验证kept pts有效渲染基元数 / 视锥内高斯数量load ms场景资产加载开销 / 模型反序列化时间1/0 输出判断渲染管线完整性验证
总结: 你现在已经完成了最枯燥的基建和测试排雷工作。接下来,不要再去跑更多的模型了(13个足够了),而是要针对目前的瓶颈,把 RVV 内联汇编和多线程的深度加上去,只要能让 Blend 和 Projection 的时间再往下降一降,你的毕业论文就具备了非常优秀的软硬件协同设计含金量。