OneFlow源码分析; VLIW 的过去和现在;深入挖掘Cerebras AI系统前沿趋势

2024-08-29 16:15:56 | 作者: 匿名

1. Stable Diffusion采样速度翻倍!仅需10到25步的扩散模型采样算法

拥有自研深度学习编译技术的OneFlow团队,在不降低采样效果的情况下,成功将之前的“一秒出图”缩短为“半秒出图”!在GPU 上不到0.5 秒即可获得高清图像!

这是基于清华大学朱军教授领导的TSAIL团队提出的DPM-Solver,专门为扩散模型设计的高效求解器:该算法不需要任何额外的训练,既适用于离散时间,也适用于连续时间时间扩散模型。几乎在20 至25 个步骤内即可实现收敛,并且只需10 至15 个步骤即可获得非常高质量的样本。在Stable Diffusion上,25步DPM-Solver可以比50步PNDM实现更好的采样质量,因此采样速度直接翻倍。

关联:

https://mp.weixin.qq.com/s/vr5Pw6rc36PwQbP7j9vQYg

2. 比快更快,Stable Diffusion实现一秒出图

起初AI绘图需要几天时间,后来减少到几十分钟,再到几分钟。绘图时间不断加快。问题是,专业艺术从业者甚至普通人的使用速度能有多快?普及大众?

显然,目前还无法给出具体答案。即便如此,可以肯定的是,AI 建图在技术和速度上的突破很可能接近甚至超过阈值,因为这一次,OneFlow 带来了名副其实的“一秒就能出一张地图”的稳定扩散模型”。

链接:https://mp.weixin.qq.com/s/KqffXfRhLN0LP3cHKkt2DQ

3. VLIW的前世今生:为什么DL加速器都青睐于它

如今,很多专注于云推理和训练市场的产品在提到基础设施时都会宣传其定制化的向量运算指令集、大发射位宽、高度并行执行能力。这些名词背后的底层结构几乎都是VLIW。被Intel收购的Habana大方地宣称使用了定制的VLIW指令集。虽然VLIW结构在前几十年只能算是取得了“非常有限的成果”,但就当前深度学习处理器架构的发展而言,回顾VLIW的特点及其成功和失败案例仍然非常重要。有道理,也许这也是AI设计的一个可能的方向。

关联:

https://zhuanlan.zhihu.com/p/101538383

4. 深挖Cerebras:世界上最大AI芯片的架构设计

作为业界备受瞩目的AI加速器初创公司,成立于2016年的Cerebras希望通过构建新的AI加速器解决方案来解决AI计算问题,实现数量级的计算性能:首先,需要提高计算核心架构,不能只是盲目其次,要以超越摩尔定律的速度提高芯片集成度;最后,需要简化集群连接,大幅提高集群计算效率。

为了实现上述目标,Cerebras 设计了全新的计算核心架构。它使得在单个设备上运行非常大规模的模型成为可能。此外,还开发了仅需要简单数据并行的水平扩展和局部非结构化稀疏加速技术,大幅降低了大型模型的应用门槛。

关联:

https://mp.weixin.qq.com/s/_JmINzustpH1bEDMjz9WaA

OneFlow源码分析; VLIW 的过去和现在;深入挖掘Cerebras AI系统前沿趋势

5. 关于AI芯片软件栈的六条感悟

链接:

https://zhuanlan.zhihu.com/p/582706007

6. AI编译关键技术 • 高层循环编译优化 - 不仅仅是分块和合并

如何利用编译优化理论和方法将计算图描述的深度学习算法部署在特定硬件上并使算法高效运行是学术界和工业界的重要研究课题。更深入的芯片编译技术内容在清华大学出版社的新书《多面体编译理论与深度学习实践》中。

关联:

https://mp.weixin.qq.com/s/mBheJ9NG8khcLRshI40b2w

7. TVM for DSA的一些总结

目前TVM/MLIR等开源AI编译器的生态已经有了一定程度的完善,因此进入了TVM的坑(终端侧对TVM的接受度较高)。对于TVM来说,针对CPU/GPU等通用架构做了很多优化工作。我们的开发并没有走BYOC路线(也没有现成的编译软件栈,需要从0-1构建所有轮子),所以我们走的是relay-te-tir-(llvm)-dsa像CPU/GPU这样的路线,我们想遵循它。 TVM 上的各种优秀功能。

关联:

https://zhuanlan.zhihu.com/p/571045566

8. OneFlow源码解析:Global Tensor

上面提到的和PyTorch中的普通Tensor类似,在OneFlow中称为Local Tensor。 Local Tensor 从单卡角度来看是一个普通的Tensor。相比之下,OneFlow中有一个独特的概念——Global Tensor。 Global Tensor是指由placement和SBP属性指定的全局角度的逻辑Tensor。 Global Tensor的形状是一个逻辑形状,其真实数据根据放置和SBP规则分布在多个等级上。

Global Tensor可以通过tensor.to_global()由普通Local Tensor转换,也可以直接使用data或Numpy构造。

关联:

https://mp.weixin.qq.com/s/bVaz0DQkiylCA6S0SbFm3g

9. 李白:你的模型权重很不错,可惜被我没收了

按照目前的趋势,模型变得越来越大,大到GPU甚至无法容纳完整的模型。必须使用分布式并行技术,但分布式代码在很多框架中是高度定制的。对于新手来说,根本看不懂,也不知道如何使用,让大家上手非常困难,让自己宝贵的发际线更加珍贵。

OneFlow源码分析; VLIW 的过去和现在;深入挖掘Cerebras AI系统前沿趋势

针对大模型的上述痛点,我们必须采用分布式的方法(数据并行、模型并行、管道并行)来运行大模型。那么,李白有什么特点呢?

关联:

https://mp.weixin.qq.com/s/zWsB-iL0gYSqKKnYuRqw5g

10. 一个更快的YOLOv5问世,附送全面中文解析教程

作为计算机视觉领域的一项基础技术,目标检测在业界得到广泛应用,而YOLO系列因其良好的综合性能而成为流行的框架选择。

此次,为了让用户深入了解OneFlow训练目标检测模型的可行性和性能优势,我们通过导入oneflow作为torch,将Ultralytics版本的YOLOv5迁移到OneFlow后端。

与PyTorch相比,YOLOv5目前在OneFlow上训练小批量时具有5%-10%的性能优势,而训练大批量的性能与PyTorch相同。

关联:

https://mp.weixin.qq.com/s/imTnKQVWcJkY7yswBLcYtw

11. 关于AI大模型的一点思考和讨论

大家似乎都沉浸在大模型的繁荣昌盛之中。在大多数工业场景中,大型模型并不能直接发挥价值。在不同的任务中,我们还是需要根据实际场景来谈具体的模型和算法。不建议一有解决方案就提出大模型,也不建议用大模型作为主要技术方案来愚弄对这项技术不是特别了解的人。其实学术论文中没有人会说我们用一个Big Model来解决所有问题。未来,大模型应该可以继续向2.c提到的方向努力,但一定会演变成一系列千奇百怪、或好或坏的AI架构,扫假留真。

关联:

https://zhuanlan.zhihu.com/p/580745171

12. 直播预告LiBai:开源大规模预训练模型库及开发实践

LiBai(李白)模型库是一个基于OneFlow的开源大规模模型工具箱,涵盖了Hugging Face、Megatron-LM、DeepSpeed、FairSeq等所有主流Transformer库的优点,为用户提供“开箱即用”的功能。深度学习大模型经验。目前,立白支持BERT、GPT、ViT、Swin-Transformer、T5等常见大型模型,以及MoCoV3、MAE等最新研究。它可以开箱即用,并且可以轻松地对下游任务进行微调。

报名链接:

https://mp.weixin.qq.com/s/Td3LZjwxBFiSRwUb4_yUNw

用户评论

无望的后半生

看了这个OneFlow源码分析,感觉VLIW技术真的挺有意思的,以前都没怎么关注过。

    有10位网友表示赞同!

枫无痕

OneFlow的源码分析太全面了,对Cerebras AI系统也有深入了解,涨知识了。

    有18位网友表示赞同!

坠入深海i

VLIW的过去和现在,这篇分析写得挺有意思的,以前只知道是向量指令集。

    有14位网友表示赞同!

慑人的傲气

Cerebras AI系统的前沿趋势,这篇分析真是开眼了,原来AI系统可以这样设计。

    有14位网友表示赞同!

晨与橙与城

OneFlow源码分析做得不错,特别是对VLIW的讲解,让我对它有了新的认识。

    有16位网友表示赞同!

花菲

深入挖掘Cerebras AI系统前沿趋势,这种分析文章对做AI研发的非常有帮助。

    有19位网友表示赞同!

陌上花

看完OneFlow源码分析,感觉VLIW和Cerebras AI系统的发展潜力很大。

    有18位网友表示赞同!

醉婉笙歌

这篇VLIW的过去和现在分析,让我对这一技术有了更深的理解。

    有7位网友表示赞同!

■孤独像过不去的桥≈

Cerebras AI系统前沿趋势,这篇文章内容丰富,对行业趋势把握得很好。

    有20位网友表示赞同!

←极§速

OneFlow源码分析,对于初学者来说,这样的文章真的很实用。

    有7位网友表示赞同!

箜明

深入挖掘Cerebras AI系统前沿趋势,这篇分析很有前瞻性,期待未来更多应用。

    有15位网友表示赞同!

心悸╰つ

VLIW技术发展至今,这篇分析让我看到了它的无限可能。

    有12位网友表示赞同!

几妆痕

OneFlow源码分析,让我对开源项目有了更多兴趣。

    有8位网友表示赞同!

昂贵的背影

Cerebras AI系统前沿趋势,这篇文章让我对AI芯片有了新的认识。

    有5位网友表示赞同!

哽咽

这篇VLIW的过去和现在分析,让我对计算机体系结构产生了浓厚兴趣。

    有10位网友表示赞同!

断秋风

OneFlow源码分析和Cerebras AI系统前沿趋势,这两篇文章都让我受益匪浅。

    有15位网友表示赞同!

败类

深入挖掘Cerebras AI系统前沿趋势,感觉这篇文章对行业影响很大。

    有8位网友表示赞同!

闷骚闷出味道了

看完VLIW的过去和现在,我决定深入研究一下这个技术。

    有20位网友表示赞同!

虚伪了的真心

OneFlow源码分析,让我对编程有了更深的理解。

    有9位网友表示赞同!

声明:本文由入驻作者编辑撰写,除官方账号外,观点仅代表作者本人,不代表本平台立场,如有侵犯您的知识产权的作品和其它问题,请与我们取得联系,我们会即时修改或删除。

标签

相关新闻

  • 用心2020,《用心》

    用心2020,《用心》

    随着现代竞技的高速发展,职业运动员不仅需要具备卓越的体能和技术,还需要拥有卓越的心理素质,才能在激烈的比赛中保持自信和冷静,取得最佳成绩。以下是提高心理素质的几点建议:1. 建立正确的心理状态比赛前,职业运动员需要充分休......

    2023-09-04 15302
  • 2005年NBA全明星扣篮大赛

    2005年NBA全明星扣篮大赛

    1、大赛简介2005年2月19日,NBA全明星周末在丹佛开幕,其中扣篮大赛成为全明星周末的最大亮点之一。当年NBA新秀中锋安德烈-伊戈达拉在扣篮大赛上成为最终胜利者。2、规则解析扣篮大赛是由四名选手组成,每名选手分别进行......

    2023-09-04 2147