magic starSummarize by Aili

不牺牲算法,不挑剔芯片,这个来自中科院的团队正在加速国产AI芯片破局

🌈 摘要

本文探讨了编译技术在国产 AI 芯片生态建设中的重要作用。文章介绍了中科加禾团队的创业缘起、学术成果积累以及在编译优化技术方面的创新。同时分析了当前国内 AI 芯片生态的挑战,以及中科加禾提出的跨平台 AI 算力产品解决方案。

🙋 Q&A

[01] 创业缘起:国产芯片市场走强,涌现市场机会

1. 从做学术到创业,您走过了一段怎样的心路历程?

  • 作者自 1997 年开始在清华大学从事编译器和芯片工具软件相关的科研工作,积累了丰富的经验。
  • 随着国家对国产芯片产业的推动,作者团队承担了很多构建芯片工具链方面的职责,但发现纯靠科研的方式难以产业落地。
  • 大模型的出现和国产芯片需求激增,为编译技术在产业落地提供了机遇,促使作者决定创业,以编译技术为核心,服务于国产芯片算力崛起。

2. 在创业之前,您的团队主要做出了哪些成果?

  • 团队在二进制翻译、GPU/NPU架构编译优化等方面积累了大量论文成果,证明编译器可以充分挖掘硬件算力,在不同硬件平台上取得优秀性能。
  • 团队成员在国内重要 AI 芯片项目中积累了丰富的经验,对芯片可编程性和性能优化有深入理解,为创业奠定了坚实基础。

[02] 编译的「魔力」—— 极致优化

1. 对于大模型算力消耗巨大的问题,编译技术能发挥什么作用?

  • 编译技术可以在不降低算法精度的情况下,将算力利用效率提升2-10倍,这是硬件和算法优化之外的另一个重要优化空间。
  • 编译优化主要包括算子融合、高性能算子生成、访存计算通讯的编排优化等,可以充分挖掘硬件潜能,提升整体性能。

2. 编译技术具体如何实现这种优化?

  • 算子融合:将多个算子融合为更大的算子,提高芯片利用率
  • 高性能算子生成:自动生成针对不同硬件的高性能算子
  • 任务编排优化:合理切分任务,平衡计算、访存和通讯,提升整体效率

[03] 「天下苦 CUDA 久矣」,探索国产 AI 芯片生态建设

1. 如何看待 CUDA 在行业中的地位及其对国产芯片生态的影响?

  • CUDA 确实是英伟达的护城河,构建了庞大的生态,整个 AI 领域都建立在 CUDA 之上。
  • 对于国内来说,既要利用融合现有 CUDA 生态,又要让国产自主生态生长起来,两种路径应该并存。
  • 短期内,兼容 CUDA 可能是硬件厂商占领生态的捷径,但长远来看,新语言如 Triton、SYCL 也代表了未来发展方向。

2. 中科加禾主要探索的路线是什么?

  • 中科加禾主要做一个与语言和芯片解耦的编译平台,支持各类前端语言和后端硬件,实现跨平台的 0 成本适配和优化。
  • 既支持 CUDA 源码翻译,也接入新兴语言标准,通过统一的中间表示实现通用性。

[04] 上接各类大模型,下接各家芯片,突破通用性挑战,提供商业化最优解

1. 中科加禾在做什么样的工作?

  • 中科加禾的目标是提供一个中间软件平台,实现大模型应用在不同国产算力平台上的 0 成本适配、0 损耗执行和 0 延迟部署。
  • 通过这个平台,应用可以在不同硬件之间自由切换,解决当前国产芯片生态碎片化带来的适配问题。

2. 实现这一目标有哪些技术挑战?

  • 不同国产芯片架构差异较大,如何将其统一抽象并提供通用支持是一大挑战。
  • 如何在保证通用性的同时,最大限度地发挥不同硬件的性能优势也是需要解决的问题。
  • 此外,还需要应对不同厂商研发节奏不一致带来的适配难题。

[05] 大模型时代,也是编译器的黄金时代,建好一座「桥梁」

1. 您如何看待编译器在大模型时代的机遇?

  • 编译器正处于一个黄金时代,无论从学术还是产业角度来看,编译技术都面临着新的发展机遇。
  • 大模型对算力需求的激增,以及国产芯片生态的快速发展,为编译技术在产业落地提供了良好时机。

2. 编译器的内涵和外延如何随 AI 时代的发展而变化?

  • 编译技术正从传统的底层芯片编译,延伸到框架层的 AI 编译,进而覆盖整个 AI 系统的各个层面。
  • 编译技术的目标是在软硬件之间建立更好的桥梁,让应用能够更容易、更快地映射到不同平台上。这也是中科加禾正在努力实现的目标。
Shared by Mooqii ·
© 2024 NewMotor Inc.