合肥实习机会:日薪300元,深探国产NPU与大模型部署硬核技术
最近在关注招聘动态,发现了一个相当硬核的实习机会,坐标合肥。对于想深入底层技术、不想只做上层应用调包侠的同学来说,这绝对是个值得投递的好去处。
这家公司是做国产端侧 AI 芯片的,方向非常聚焦:AI Infra、编译器、Runtime 开发以及嵌入式开发。目前的日薪标准是 300 元/天,表现好还有绩效激励,重点是表现优异的应届生是有转正机会的。
下面我帮大家拆解一下这几个核心岗位的技术含金量,以及如果你去了具体会干什么。
一、 大模型部署实习生:从理论到落地的实战
这个岗位的目标非常明确:让千亿参数的大模型在自研芯片上高效跑起来。大家平时在 PC 上跑 LLM 可能觉得习以为常,但在端侧芯片上,这可是个巨大的挑战。
在这个岗位,你需要深入理解 Transformer 的推理全流程,这不仅仅是写个 Prompt 那么简单。具体工作会涉及到:
- 算子级优化:你需要去优化 Matmul(矩阵乘法)、Attention(注意力机制)、RMSNorm、RoPE 等核心算子。这些是 Transformer 的基石,优化一点,整体性能就能提升一大截。
- Kernel 融合与调度:如何减少内存搬运?如何让流水线不打架?这些都是需要你考虑 Kernel 融合和调度优化的地方。
- 模型量化:FP16/BF16/INT8,如何在降低精度的同时保证数值一致性,这可是个大工程。
- 性能瓶颈分析:出现了精度异常(比如 NaN)怎么办?算力利用率上不去怎么办?你需要用 Roofline 模型去分析是计算受限还是访存受限。
加分项:如果你有 vLLM、TensorRT-LLM 或者 ONNX Runtime 的使用经验,甚至写过 CUDA 算子,那这个岗位简直是为你量身定做的。
二、 NPU 编译器实习工程师:打造最强“翻译官”
如果你对编译原理感兴趣,这个岗位非常有挑战性。因为 GPU/CPU 生态已经很成熟了,有 NVIDIA 这样的巨头托底,但国产 NPU 往往需要自建工具链。
你的任务是参与自研 NPU 编译器的开发,完善前端、IR(中间表示)、优化 Pass、代码生成等模块。简单来说,你要打造一个“翻译官”,把 PyTorch 或 TensorFlow 的图高效地翻译成芯片能懂的指令。
技术栈方面,你会接触到 MLIR、TVM、Triton 等前沿编译基础设施。你需要对接这些开源生态,探索主流模型在自研芯片上的落地路径。
你会学到什么?
- DSL 设计与实现:如何设计一个既易用又高效的领域特定语言(DSL),让算法同事能方便地在芯片上写算子。
- 代码生成与指令集:直接接触汇编级或指令级的优化,这在学校里是很难接触到的实战经验。
- 异构计算编程模型:理解不同硬件架构下的并行计算模式。
如果有过 LLVM、MLIR 或者 CUDA/OpenCL 的开发经验,在这里你会如鱼得水。
三、 Runtime 开发工程师:连接算法与硬件的桥梁
Runtime 是模型部署的最后一公里。这个岗位的核心使命是基于自研 AI 工具链,完成客户模型的端到端部署。
具体来说,你会用 C++ 和 Python 编写插件、自动化脚本,还要去客户现场或者远程调试各种“疑难杂症”。比如功能 bug、性能跑不上去、精度对不齐等等。
这个岗位非常锻炼解决实际工程问题的能力。你需要把客户的痛点转化为工具链的需求,反向推动后端研发团队迭代。懂 C++、有嵌入式开发经验,并且熟练使用 AI 工具(如 Cursor、Copilot)辅助开发的同学会很有优势。
总结与建议
这三个岗位虽然侧重点不同,但都围绕着**“国产 AI 芯片底层软件栈”**这一核心命题。在如今 AI 算力受制于人的大背景下,做 AI Infra 和异构计算编译器,不仅技术护城河极高,未来的职业发展路径也非常宽广。
如果你满足以下任一条件,建议大胆尝试:
- 对计算机体系结构有深刻理解(Cache Hierarchy、内存墙、并行计算)。
- 熟悉 Transformer/LLM 结构,并且有推理部署经验。
- 玩过编译器(LLVM/MLIR/TVM)或者写过算子。
- 是 C++ 高手,喜欢钻研底层性能优化。
日薪 300 元在合肥的实习岗位中算是很有竞争力的,而且公司氛围据说比较轻松,Mentor 也很乐意带人。
投递方式: 感兴趣的同学可以直接发送简历到:[email protected] 邮件主题记得注明应聘方向和来自技术社区推荐。

评论已关闭