香书网

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

436. 新的冲击 DeepSeek(第2页)

“如果能有后来的H100集群,我所需要的显卡数量可以减少至少8到10倍。”孟繁岐如今受到的一大限制,就是继续拓展算法边界所需要的显卡数量实在太多了。

卡一多,它就容易出问题,和人一样。

假设说一张卡训练三个月,百分之99.99的概率都是正常的。

当这个数字来到2000,乃至10000的时候,这个概率则会惊人地降低为82%和百分之37%。

也就是说,当你使用万卡集群的时候,想让每一张卡都能顺顺利利地把工作给完成了,这个可能性只有可怜的三分之一。

而只要一张卡出现了问题,就势必会对整个集群产生影响,中止训练。

为了避免这种一卡罢工,万卡围观的情况发生,孟繁岐投入了大量的资源和时间。

可GPT4o,以及具有推理功能的o1之上,使用旧有办法继续提升性能的空间并不太大了。

孟繁岐这边收效甚微,便给了追赶者们极大的机会。

原本性能差了closeai许多的诸多大厂们,都在过去的这段时间里大大缩短了大模型性能之间的差距。

“从根本上来看,硬件设备对我的限制其实远超软件算法。”孟繁岐此前一直认为自己失去先知优势后,无法继续软件上的突破将会是最大的问题。

如今看来并非如此,随着与孟繁岐关系亲近的那个男人下台,拜老登政府限制英伟达的计算设备出口中国。

这让一心想要走在算法技术最前沿倍感压力。

虽然以他和老黄以及英伟达的关系,可以通过诸多方式绕开此禁令。可不论如何,这都称得上是巨大的困扰。

倍感无奈的孟繁岐开始向内寻求算法突破,以期待能够降低自己对显卡设备的需求。

可原本孟繁岐比较看好的两个技术方向,都没有取得预期的成功。

其一,孟繁岐很早就意识到,早期深度学习模型大多依赖于FP32(32位浮点数)的高精度计算,虽然结果准确,但计算量和存储需求巨大。

根据前世的经验,孟繁岐早早就推动了FP16(16位浮点数)训练和推理。这种格式可以节约一半的计算资源,虽然会稍稍影响模型的性能,但在针对性的优化下几乎可以忽略不计,这也是前世的主流训练模式。

如今,被计算设备所限制的孟繁岐被迫探索准确度更差的FP8(8位浮点数)。

前世的通识是,该模式计算效率极高,但精度损失更大,适用范围非常有限。

热门小说推荐
成仙图,成仙途

成仙图,成仙途

传统仙侠,无系统,不圣母,也不是无脑爽文(本书内的名字,多是朋友或者网友,如果你看到了自己,嘿嘿)------------------------------------------------------------成仙图,成仙途,成仙屠一幅成仙图出世,致云罗山庄惨遭灭门十七年后的夜里,两个黑衣人出现在云奕床前,......

圣心双雄

圣心双雄

一个神秘的声音,两个军校学生,两种鸡肋异能,民国乱世,抗战烽火,他们会找到答案,回到现实么?这一切究竟是游戏还是现实,他们真实存在过么?热血现代军人如何在烽火岁月生存,发展。没有超前卫的武器,没有超强的体魄,只有一幅地图,一场梦境,他们该怎.........

极品透视护花高手

极品透视护花高手

上古神武传人因寻找家族法宝回到都市,从此开启美女总裁、萝莉、教师、警花、护士环绕的巅峰人生………………......

崩三轮回之刻

崩三轮回之刻

事先说明,本书纯粹同人,有不少原创剧情,与原作无关,作者第一次写书,水平有限,轻喷谢谢。单女主符华。主角男生女相,后面可能会换女身,不喜勿看。......

掌事女官[清穿]

掌事女官[清穿]

文案策划耿舒宁猝死办公室。  穿成慈宁宫太后的八大掌事姑姑之一耿佳舒宁。  原主年十九,再有一年就可归家,凭着家世能嫁个体面人家,做当家姑奶奶。  却因一场无疾而终的暗恋,香消玉殒在了黎明前。...

这个顶流一心进步

这个顶流一心进步

好消息好消息,一朝穿越,靠脸火了三年的顶流时遇终于接到了最适合他个人发展的文旅邀约合作。合作三年起,不仅有望赚到足以养老的退休金,还能拿到事业津贴待遇。不再需要考虑同流合污,成天提心吊胆生怕哪天就得去踩缝纫机。现在,时遇的最新人生目标是——赚够三个亿就收手!坏消息是,混了三年都没代表作的时遇得想办法搞点才艺来持续抬高人气。所以……是时候将曾经失败过的文抄工作再捡起来了!……关键词:【摆烂】、【旅游】、【难他天】、【老天爷喂饭】...