IT之家12月30日音书黑丝 jk,一个名为EXOLabs的组织当天在冒昧媒体上发布了一段视频,展示了一台动手Windows98系统的26年乐龄的奔腾II电脑(128MB内存)得胜动手大型谈话模子(LLM)的情形。随后,EXOLabs在其博客上发表了一篇刺眼著作,进一步叙述了这个面孔的细节,以偏合手“擢升东谈主工智能”的愿景。
IT之家注重到,视频中一台350MHz的Elonex奔腾II电脑启动Windows98后,EXOLabs动手了基于AndrejKarpathy的Llama2.c拓荒的定制纯C推理引擎,并让LLM生成了一个对于“SleepyJoe”的故事。令东谈主骇怪的是,所有这个词进程动手表示,故事生成速率也相当可不雅。
EXOLabs由牛津大学的盘考东谈主员和工程师构成,于本年9月厚爱对外亮相,其责任是“擢升东谈主工智能”。该组织合计,少数大型企业为止东谈主工智能会对文化、真相以及社会其他基本方面形成负面影响。因此,EXOLabs但愿“构建洞开的基础设施,以查验前沿模子,并使任何东谈主皆能在职何地点动手它们”,从而让庸碌东谈主也能在险些任何缔造上查验和动手AI模子。这次在Windows98上动手LLM的豪举,恰是对这一理念的有劲讲明。
把柄EXOLabs的博客著作,他们从eBay上购得了一台旧式Windows98电脑。然而,将数据传输到这台老机器上却是一个挑战,他们最终通过其以太网端口使用“迂腐的FTP”完成了文献传输。
更大的挑战在于为Windows98编译当代代码,幸运的是他们找到了AndrejKarpathy的llama2.c,这是一个“用700行纯C代码即可在Llama2架构的模子上动手推理”的器具。借助这一资源以及旧式的BorlandC++5.02IDE和编译器(以及一些小的调度),EXOLabs得胜将代码编译成可在Windows98上动手的可本质文献。他们还在GitHub上公开了最终代码。
EXOLabs的AlexCheema相当感谢了AndrejKarpathy的代码,并对其性能吟唱不已,称其在使用基于Llama架构的26万参数LLM时,在Windows98上竣事了“每秒35.9个token”的生成速率。值得一提的是,Karpathy曾任特斯拉东谈主工智能支配,亦然OpenAI的首创团队成员之一。
天然26万参数的LLM界限较小,但在这台迂腐的350MHz单核电脑上动手速率相当可以。把柄EXOLabs的博客,使用1500万参数的LLM时,生成速率略高于每秒1个token。而使用Llama3.210亿参数模子时,速率则相等冉冉,仅为每秒0.0093个token。
EXOLabs的指标远不啻于在Windows98机器上动手LLM。他们在博客著作中进一步叙述了其对异日的瞻望,并但愿通过BitNet竣事东谈主工智能的擢升。
据先容,“BitNet是一种使用三元权重的transformer架构”,使用这种架构,一个70亿参数的模子只需要1.38GB的存储空间。这对于一台26年前的奔腾II来说可能仍然有些劳苦,但对于当代硬件以致十年前的缔造来说,皆相等轻量级的。
EXOLabs还强调,BitNet是“CPU优先”的黑丝 jk,幸免了对不菲GPU的依赖。此外,据称这种类型的模子比全精度模子效果高50%,何况可以在单个CPU上以东谈主类阅读速率(约每秒5到7个token)动手一个1000亿参数的模子。