一、 论文推荐行文结构

这套结构采用“总-分-分-总”的经典架构,从理论到基础实现,再到算法优化,最后是底层硬件优化和综合测试。

  • 第一章 绪论
    • 研究背景与意义(3DGS 的兴起、RISC-V 在边缘计算的潜力)
    • 国内外研究现状(3DGS 渲染器现状、RISC-V 平台图形渲染现状)
    • 论文主要工作与贡献
    • 论文组织结构
  • 第二章 3DGS渲染原理与RISC-V体系结构基础 (我们之前修改的那部分)
    • 3DGS 算法原理与渲染管线
    • RISC-V 指令集架构与 RVV 向量扩展特性
  • 第三章 跨平台 3DGS 渲染引擎设计与基线实现 (你的基线工作)
    • 渲染器整体架构设计(管线拆解:Load Project Sort Rasterize/Blend)
    • 跨平台编译与构建(x86 与 LicheePi 4A 环境搭建)
    • 基于 C++ 的基准算法实现(标量版本)
    • 引出问题:基于你的总结数据,说明基线版本在板端存在严重的性能瓶颈。
  • 第四章 渲染管线的软硬件协同优化 (你已完成的 x86 优化 + 后续优化)
    • 光栅化遍历算法优化: 从 Pixel-major 到 Gaussian-major(对应你总结第 5 节的 4 倍加速,详细阐述原理)。
    • 内存访问局部性优化: 针对 Fill 和 Blend 瓶颈,将高斯属性从 AoS(结构体数组)重构为 SoA(数组结构体),提高 Cache 命中率。
    • 快速排序算法适配: 引入基于并行基数排序(Radix Sort)的深度排序优化。
  • 第五章 基于 RVV 的核心算子向量化加速 (体现论文题目“基于RISC-V”的核心工作,需要你接下来重点做)
    • RVV 向量化编程模型与内联汇编策略
    • 投影算子(Projection)向量化: 空间变换矩阵乘法、三维协方差计算的 SIMD 展开。
    • 混合算子(Blend)向量化: 指数运算(Exp)的近似向量化、Alpha 混合的并行化。
  • 第六章 实验评估与分析 (你的总结第 6-10 节放这里)
    • 实验环境与数据集(LicheePi 4A 硬件配置、13 个模型、65 个视角的设定)
    • 正确性验证: x86 与 RISC-V 渲染结果的视觉比对、图像质量评价(PSNR/SSIM)。
    • 消融实验与性能瓶颈分析:
      • 各优化模块的加速比分析(对比优化前、你总结里的阶段1、以及RVV优化后)
      • 各管线阶段耗时占比拆解(对应你总结的第 8 节)
    • 多核并行扩展性分析(Scalability): OpenMP 线程数对性能的影响。
    • 最慢样例(Corner Case)剖析(对应你总结的第 10 节 playroom 等模型的分析)。
  • 第七章 总结与展望
    • 论文工作总结
    • 未来工作展望(如二进制格式加载、更底层的 GPU/NPU 协同等,对应你总结的第 12 节)

二、 后续必须补充的实验内容(Gap Analysis)

目前的实验总结是一份极好的“基线测试报告”(Baseline Report),但要作为最终论文,还缺少优化落地后的成果证明。你需要在后续阶段补充以下实验:

1. 核心缺失:RVV 向量化加速实验(重中之重)

你现在的板端测试仅仅开启了编译器的自动向量化(-DUSE_RVV=1 -O3),但编译器通常无法完美识别 3DGS 复杂的投影和混合逻辑。

  • 需要做的事: 使用 C Intrinsics(如 vle32.v, vfmac.vv)手动重写 ProjectionBlend 算子。
  • 补充实验: 对比 [标量 C++] vs [编译器自动向量化] vs [手动 RVV 优化] 在板端的性能差异。这才是你论文最能拿高分的技术硬核点。

2. 多核扩展性实验(Scalability Test)

你在总结中提到了 OMP_THREADS=4。评委一定会问:LicheePi 4A 是四核 TH1520,多线程调度的效率如何?

  • 需要做的事: 选 3 个代表性模型(如轻负载的 bonsai,重负载的 playroom)。
  • 补充实验: 分别在 OMP_THREADS = 1, 2, 3, 4 下运行,画出加速比折线图。如果 4 核跑不满 4 倍,可以在论文中分析原因(如访存带宽受限或锁冲突)。

3. 内存布局优化实验(AoS vs SoA)

你的总结中指出“Fill 为 x86 的 13.85 倍”、“Blend 占比近一半”。在 RISC-V 开发板上,Cache Miss 的代价极其高昂。

  • 需要做的事: 高斯点的数据结构默认可能是 AoS(struct Gaussian { float x,y,z; float r,g,b; ...};)。改为 SoA(float xs[], ys[], zs[], rs[]...)。
  • 补充实验: 测试这种数据局部性重排对 Fill 和 Blend 阶段时间的降低效果。

4. 画质客观指标评估(PSNR/SSIM)

你目前的判断标准是“成功渲染并生成 PPM”(1/0 判断)。学术论文需要量化指标。

  • 补充实验: 将你的 RISC-V 渲染输出与原始 3DGS 官方 Python/CUDA 版输出(或者你的 x86 版作为 Ground Truth)计算 PSNR 和 SSIM。只需要挑几个代表性视角证明“为了性能所做的优化(如 Fast-math, Alpha 截断)没有引起画质的严重肉眼可见下降”即可。

5. 渲染规模边界测试

实验固定了 max_splats=500000

  • 补充实验: 选取一个大模型(如 playroom),分别设置 max_splats 为 10万、30万、50万、80万,测试渲染时间内存峰值的增长曲线,论证你的系统在资源受限的边缘板卡上的边界能力。

三、 论文术语转换建议(写论文时的注意事项)

在你把这份 Markdown 笔记写进论文时,请注意替换口语化的词汇:

  • 板端 RISC-V 边缘计算平台 / 目标硬件平台
  • case 测试样例 / 渲染视角
  • 最慢 case 极端负荷场景 (Corner Cases)
  • quick retest 局部复测验证
  • kept pts 有效渲染基元数 / 视锥内高斯数量
  • load ms 场景资产加载开销 / 模型反序列化时间
  • 1/0 输出判断 渲染管线完整性验证

总结: 你现在已经完成了最枯燥的基建和测试排雷工作。接下来,不要再去跑更多的模型了(13个足够了),而是要针对目前的瓶颈,把 RVV 内联汇编和多线程的深度加上去,只要能让 Blend 和 Projection 的时间再往下降一降,你的毕业论文就具备了非常优秀的软硬件协同设计含金量。