合肥实习机会：日薪300元，深探国产NPU与大模型部署硬核技术

最近在关注招聘动态，发现了一个相当硬核的实习机会，坐标合肥。对于想深入底层技术、不想只做上层应用调包侠的同学来说，这绝对是个值得投递的好去处。

这家公司是做国产端侧 AI 芯片的，方向非常聚焦：AI Infra、编译器、Runtime 开发以及嵌入式开发。目前的日薪标准是 300 元/天，表现好还有绩效激励，重点是表现优异的应届生是有转正机会的。

下面我帮大家拆解一下这几个核心岗位的技术含金量，以及如果你去了具体会干什么。

这个岗位的目标非常明确：让千亿参数的大模型在自研芯片上高效跑起来。大家平时在 PC 上跑 LLM 可能觉得习以为常，但在端侧芯片上，这可是个巨大的挑战。

在这个岗位，你需要深入理解 Transformer 的推理全流程，这不仅仅是写个 Prompt 那么简单。具体工作会涉及到：

算子级优化：你需要去优化 Matmul（矩阵乘法）、Attention（注意力机制）、RMSNorm、RoPE 等核心算子。这些是 Transformer 的基石，优化一点，整体性能就能提升一大截。
Kernel 融合与调度：如何减少内存搬运？如何让流水线不打架？这些都是需要你考虑 Kernel 融合和调度优化的地方。
模型量化：FP16/BF16/INT8，如何在降低精度的同时保证数值一致性，这可是个大工程。
性能瓶颈分析：出现了精度异常（比如 NaN）怎么办？算力利用率上不去怎么办？你需要用 Roofline 模型去分析是计算受限还是访存受限。

加分项：如果你有 vLLM、TensorRT-LLM 或者 ONNX Runtime 的使用经验，甚至写过 CUDA 算子，那这个岗位简直是为你量身定做的。

如果你对编译原理感兴趣，这个岗位非常有挑战性。因为 GPU/CPU 生态已经很成熟了，有 NVIDIA 这样的巨头托底，但国产 NPU 往往需要自建工具链。

你的任务是参与自研 NPU 编译器的开发，完善前端、IR（中间表示）、优化 Pass、代码生成等模块。简单来说，你要打造一个“翻译官”，把 PyTorch 或 TensorFlow 的图高效地翻译成芯片能懂的指令。

技术栈方面，你会接触到 MLIR、TVM、Triton 等前沿编译基础设施。你需要对接这些开源生态，探索主流模型在自研芯片上的落地路径。

你会学到什么？

如果有过 LLVM、MLIR 或者 CUDA/OpenCL 的开发经验，在这里你会如鱼得水。

Runtime 是模型部署的最后一公里。这个岗位的核心使命是基于自研 AI 工具链，完成客户模型的端到端部署。

具体来说，你会用 C++ 和 Python 编写插件、自动化脚本，还要去客户现场或者远程调试各种“疑难杂症”。比如功能 bug、性能跑不上去、精度对不齐等等。

这个岗位非常锻炼解决实际工程问题的能力。你需要把客户的痛点转化为工具链的需求，反向推动后端研发团队迭代。懂 C++、有嵌入式开发经验，并且熟练使用 AI 工具（如 Cursor、Copilot）辅助开发的同学会很有优势。

这三个岗位虽然侧重点不同，但都围绕着**“国产 AI 芯片底层软件栈”**这一核心命题。在如今 AI 算力受制于人的大背景下，做 AI Infra 和异构计算编译器，不仅技术护城河极高，未来的职业发展路径也非常宽广。

如果你满足以下任一条件，建议大胆尝试：

日薪 300 元在合肥的实习岗位中算是很有竞争力的，而且公司氛围据说比较轻松，Mentor 也很乐意带人。

投递方式：感兴趣的同学可以直接发送简历到：[email protected] 邮件主题记得注明应聘方向和来自技术社区推荐。