Summarize by Aili
不牺牲算法,不挑剔芯片,这个来自中科院的团队正在加速国产AI芯片破局
🌈 摘要
本文探讨了编译技术在国产 AI 芯片生态建设中的重要作用。文章介绍了中科加禾团队的创业缘起、学术成果积累以及在编译优化技术方面的创新。同时分析了当前国内 AI 芯片生态的挑战,以及中科加禾提出的跨平台 AI 算力产品解决方案。
🙋 Q&A
[01] 创业缘起:国产芯片市场走强,涌现市场机会
1. 从做学术到创业,您走过了一段怎样的心路历程?
- 作者自 1997 年开始在清华大学从事编译器和芯片工具软件相关的科研工作,积累了丰富的经验。
- 随着国家对国产芯片产业的推动,作者团队承担了很多构建芯片工具链方面的职责,但发现纯靠科研的方式难以产业落地。
- 大模型的出现和国产芯片需求激增,为编译技术在产业落地提供了机遇,促使作者决定创业,以编译技术为核心,服务于国产芯片算力崛起。
2. 在创业之前,您的团队主要做出了哪些成果?
- 团队在二进制翻译、GPU/NPU架构编译优化等方面积累了大量论文成果,证明编译器可以充分挖掘硬件算力,在不同硬件平台上取得优秀性能。
- 团队成员在国内重要 AI 芯片项目中积累了丰富的经验,对芯片可编程性和性能优化有深入理解,为创业奠定了坚实基础。
[02] 编译的「魔力」—— 极致优化
1. 对于大模型算力消耗巨大的问题,编译技术能发挥什么作用?
- 编译技术可以在不降低算法精度的情况下,将算力利用效率提升2-10倍,这是硬件和算法优化之外的另一个重要优化空间。
- 编译优化主要包括算子融合、高性能算子生成、访存计算通讯的编排优化等,可以充分挖掘硬件潜能,提升整体性能。
2. 编译技术具体如何实现这种优化?
- 算子融合:将多个算子融合为更大的算子,提高芯片利用率
- 高性能算子生成:自动生成针对不同硬件的高性能算子
- 任务编排优化:合理切分任务,平衡计算、访存和通讯,提升整体效率
[03] 「天下苦 CUDA 久矣」,探索国产 AI 芯片生态建设
1. 如何看待 CUDA 在行业中的地位及其对国产芯片生态的影响?
- CUDA 确实是英伟达的护城河,构建了庞大的生态,整个 AI 领域都建立在 CUDA 之上。
- 对于国内来说,既要利用融合现有 CUDA 生态,又要让国产自主生态生长起来,两种路径应该并存。
- 短期内,兼容 CUDA 可能是硬件厂商占领生态的捷径,但长远来看,新语言如 Triton、SYCL 也代表了未来发展方向。
2. 中科加禾主要探索的路线是什么?
- 中科加禾主要做一个与语言和芯片解耦的编译平台,支持各类前端语言和后端硬件,实现跨平台的 0 成本适配和优化。
- 既支持 CUDA 源码翻译,也接入新兴语言标准,通过统一的中间表示实现通用性。
[04] 上接各类大模型,下接各家芯片,突破通用性挑战,提供商业化最优解
1. 中科加禾在做什么样的工作?
- 中科加禾的目标是提供一个中间软件平台,实现大模型应用在不同国产算力平台上的 0 成本适配、0 损耗执行和 0 延迟部署。
- 通过这个平台,应用可以在不同硬件之间自由切换,解决当前国产芯片生态碎片化带来的适配问题。
2. 实现这一目标有哪些技术挑战?
- 不同国产芯片架构差异较大,如何将其统一抽象并提供通用支持是一大挑战。
- 如何在保证通用性的同时,最大限度地发挥不同硬件的性能优势也是需要解决的问题。
- 此外,还需要应对不同厂商研发节奏不一致带来的适配难题。
[05] 大模型时代,也是编译器的黄金时代,建好一座「桥梁」
1. 您如何看待编译器在大模型时代的机遇?
- 编译器正处于一个黄金时代,无论从学术还是产业角度来看,编译技术都面临着新的发展机遇。
- 大模型对算力需求的激增,以及国产芯片生态的快速发展,为编译技术在产业落地提供了良好时机。
2. 编译器的内涵和外延如何随 AI 时代的发展而变化?
- 编译技术正从传统的底层芯片编译,延伸到框架层的 AI 编译,进而覆盖整个 AI 系统的各个层面。
- 编译技术的目标是在软硬件之间建立更好的桥梁,让应用能够更容易、更快地映射到不同平台上。这也是中科加禾正在努力实现的目标。
Shared by Mooqii ·
© 2024 NewMotor Inc.