毕设

一、论文推荐行文结构

这套结构采用“总-分-分-总”的经典架构，从理论到基础实现，再到算法优化，最后是底层硬件优化和综合测试。

第一章绪论
- 研究背景与意义（3DGS 的兴起、RISC-V 在边缘计算的潜力）
- 国内外研究现状（3DGS 渲染器现状、RISC-V 平台图形渲染现状）
- 论文主要工作与贡献
- 论文组织结构
第二章 3DGS渲染原理与RISC-V体系结构基础 (我们之前修改的那部分)
- 3DGS 算法原理与渲染管线
- RISC-V 指令集架构与 RVV 向量扩展特性
第三章跨平台 3DGS 渲染引擎设计与基线实现 (你的基线工作)
- 渲染器整体架构设计（管线拆解：Load → Project → Sort → Rasterize/Blend）
- 跨平台编译与构建（x86 与 LicheePi 4A 环境搭建）
- 基于 C++ 的基准算法实现（标量版本）
- 引出问题：基于你的总结数据，说明基线版本在板端存在严重的性能瓶颈。
第四章渲染管线的软硬件协同优化 (你已完成的 x86 优化 + 后续优化)
- 光栅化遍历算法优化： 从 Pixel-major 到 Gaussian-major（对应你总结第 5 节的 4 倍加速，详细阐述原理）。
- 内存访问局部性优化： 针对 Fill 和 Blend 瓶颈，将高斯属性从 AoS（结构体数组）重构为 SoA（数组结构体），提高 Cache 命中率。
- 快速排序算法适配： 引入基于并行基数排序（Radix Sort）的深度排序优化。
第五章基于 RVV 的核心算子向量化加速 (体现论文题目“基于RISC-V”的核心工作，需要你接下来重点做)
- RVV 向量化编程模型与内联汇编策略
- 投影算子（Projection）向量化： 空间变换矩阵乘法、三维协方差计算的 SIMD 展开。
- 混合算子（Blend）向量化： 指数运算（Exp）的近似向量化、Alpha 混合的并行化。
第六章实验评估与分析 (你的总结第 6-10 节放这里)
- 实验环境与数据集（LicheePi 4A 硬件配置、13 个模型、65 个视角的设定）
- 正确性验证： x86 与 RISC-V 渲染结果的视觉比对、图像质量评价（PSNR/SSIM）。
- 消融实验与性能瓶颈分析：
  - 各优化模块的加速比分析（对比优化前、你总结里的阶段1、以及RVV优化后）
  - 各管线阶段耗时占比拆解（对应你总结的第 8 节）
- 多核并行扩展性分析（Scalability）： OpenMP 线程数对性能的影响。
- 最慢样例（Corner Case）剖析（对应你总结的第 10 节 playroom 等模型的分析）。
第七章总结与展望
- 论文工作总结
- 未来工作展望（如二进制格式加载、更底层的 GPU/NPU 协同等，对应你总结的第 12 节）

二、后续必须补充的实验内容（Gap Analysis）

目前的实验总结是一份极好的“基线测试报告”（Baseline Report），但要作为最终论文，还缺少优化落地后的成果证明。你需要在后续阶段补充以下实验：

1. 核心缺失：RVV 向量化加速实验（重中之重）

你现在的板端测试仅仅开启了编译器的自动向量化（-DUSE_RVV=1 -O3），但编译器通常无法完美识别 3DGS 复杂的投影和混合逻辑。

需要做的事： 使用 C Intrinsics（如 vle32.v, vfmac.vv）手动重写 Projection 和 Blend 算子。
补充实验： 对比 [标量 C++] vs [编译器自动向量化] vs [手动 RVV 优化] 在板端的性能差异。这才是你论文最能拿高分的技术硬核点。

2. 多核扩展性实验（Scalability Test）

你在总结中提到了 OMP_THREADS=4。评委一定会问：LicheePi 4A 是四核 TH1520，多线程调度的效率如何？

需要做的事： 选 3 个代表性模型（如轻负载的 bonsai，重负载的 playroom）。
补充实验： 分别在 OMP_THREADS = 1, 2, 3, 4 下运行，画出加速比折线图。如果 4 核跑不满 4 倍，可以在论文中分析原因（如访存带宽受限或锁冲突）。

3. 内存布局优化实验（AoS vs SoA）

你的总结中指出“Fill 为 x86 的 13.85 倍”、“Blend 占比近一半”。在 RISC-V 开发板上，Cache Miss 的代价极其高昂。

需要做的事： 高斯点的数据结构默认可能是 AoS（struct Gaussian { float x,y,z; float r,g,b; ...};）。改为 SoA（float xs[], ys[], zs[], rs[]...）。
补充实验： 测试这种数据局部性重排对 Fill 和 Blend 阶段时间的降低效果。

4. 画质客观指标评估（PSNR/SSIM）

你目前的判断标准是“成功渲染并生成 PPM”（1/0 判断）。学术论文需要量化指标。

补充实验： 将你的 RISC-V 渲染输出与原始 3DGS 官方 Python/CUDA 版输出（或者你的 x86 版作为 Ground Truth）计算 PSNR 和 SSIM。只需要挑几个代表性视角证明“为了性能所做的优化（如 Fast-math, Alpha 截断）没有引起画质的严重肉眼可见下降”即可。

5. 渲染规模边界测试

实验固定了 max_splats=500000。

补充实验： 选取一个大模型（如 playroom），分别设置 max_splats 为 10万、30万、50万、80万，测试渲染时间和内存峰值的增长曲线，论证你的系统在资源受限的边缘板卡上的边界能力。

三、论文术语转换建议（写论文时的注意事项）

在你把这份 Markdown 笔记写进论文时，请注意替换口语化的词汇：

板端 $\to$ RISC-V 边缘计算平台 / 目标硬件平台
case $\to$ 测试样例 / 渲染视角
最慢 case $\to$ 极端负荷场景 (Corner Cases)
quick retest $\to$ 局部复测验证
kept pts $\to$ 有效渲染基元数 / 视锥内高斯数量
load ms $\to$ 场景资产加载开销 / 模型反序列化时间
1/0 输出判断 $\to$ 渲染管线完整性验证

总结： 你现在已经完成了最枯燥的基建和测试排雷工作。接下来，不要再去跑更多的模型了（13个足够了），而是要针对目前的瓶颈，把 RVV 内联汇编和多线程的深度加上去，只要能让 Blend 和 Projection 的时间再往下降一降，你的毕业论文就具备了非常优秀的软硬件协同设计含金量。

Quartz 4

Explorer

毕设

一、论文推荐行文结构

二、后续必须补充的实验内容（Gap Analysis）

1. 核心缺失：RVV 向量化加速实验（重中之重）

2. 多核扩展性实验（Scalability Test）

3. 内存布局优化实验（AoS vs SoA）

4. 画质客观指标评估（PSNR/SSIM）

5. 渲染规模边界测试

三、论文术语转换建议（写论文时的注意事项）

Graph View

Table of Contents

Backlinks

Quartz 4

Explorer

毕设

一、 论文推荐行文结构

二、 后续必须补充的实验内容（Gap Analysis）

1. 核心缺失：RVV 向量化加速实验（重中之重）

2. 多核扩展性实验（Scalability Test）

3. 内存布局优化实验（AoS vs SoA）

4. 画质客观指标评估（PSNR/SSIM）

5. 渲染规模边界测试

三、 论文术语转换建议（写论文时的注意事项）

Graph View

Table of Contents

Backlinks

一、论文推荐行文结构

二、后续必须补充的实验内容（Gap Analysis）

三、论文术语转换建议（写论文时的注意事项）