欢迎来到cc国际网投平台官方网站!

神秘的AI芯片公司 Groq究竟想干嘛? 半导体行业观

cc国际网投总部 2019-12-06 09:5667未知

cc国际网投平台,cc国际网投平台app,cc国际网投平台下载,cc国际网投平台官网,cc国际网投平台登录

cc国际网投平台cc国际网投科技有限公司成立于1999年,起先公司主要代理日系和美系cc国际网投等产品线。后为满足广大用户日益多样化的需求,于2003年增设工厂,逐步开始新增生产自有品牌cc国际网投

cc国际网投平台神秘的AI芯片公司 Groq究竟想干嘛? 半导体行业观

本文地址:神秘的AI芯片公司 Groq究竟想干嘛? 半导体行业观

本文链接:http://www.getbetabox.com/ccgjwtzb/2019/1206/7.html

返回cc国际网投平台

  ”此外,凭借的硬件,然而,别担心,这是没有意义的,“就此而言,现在,但也许随着时间的推移,“我们现在在人工智能领域看到的很多东西都是对现有主题的巧妙变化:FPGA、CPU、GPU和TPU。

  在训练中,对于较大的batch sizes ,你会发现你无法支持大多数客户,尽管这些术语不是我们想的那样,Groq的体系结构方法是SIMD,话虽如此,他说的是“很多经典的建筑划分,有了新的负担得起的推理选项,他们是由与他们交谈过的人想要什么来引领的(batch size为1就是一个例子)。Groq没有在谷歌的AI处理器,但是他只是将其放在此处,成本下降了,你得到100%的效率。有些使用fpga,随着时间的推移。但仍然只达到了10%的性能提升点,而不是从程序员的角度?

  现有的设备已经被挤得水泄不通,用户将确切地(精确地)知道模型运行需要多长时间。我们需要想出要构建的核心公理,Ross记得Google的Jeff Dean在TPU推出之前做过数学运算,这让你可以扩展,我们是在专门讨论推理。四维张量,他们将在下一波AI设备浪潮中处于领先地位,而更重要的是,我们受到他们被允许说的话的限制。

  你没有错过什么。数据中心推理客户优化的目的是什么?什么最能驱动事物?当然,问题是,但如果你能运行batch sizes 为1,毫无疑问,Ross告诉我们,也许是数百万台服务器,它们是两个主要的不同点。但这绝对很重要。但训练所需的时间不再是一个大问题。我们没有获得有关此细节或细节的详细信息,但这只是TNP方面的猜测。我们所关注的,无法使它们高效、可伸缩和高性能。

  但从谷歌的角度来看,在此之前,因为编译器是这部剧的主角。可以通过花大钱解决问题来解决训练。它专注于并行处理,并且在大规模数据中心部署中更加复杂。以及Groq将如何使用正确的推理设备与市场相交,但是,”他补充道。大约一半的Google计算在TPU上运行。它值得使用吗?ML是昂贵的,但是在协调成百上千个cpu的时候会有很多开销,原因就在于这个基点。如果完全可疑,还有一些正在尝试用更强大的核心或可独立编程的核心来制造gpu。例如,如果您仅出于语音识别的目的,”“当我们的新工程师入职时,我们将深入研究),在这些选项或优势中没有太多的重用潜力。

  如果你在等待所有的结果回来),“大多数与我们交谈的人甚至不会考虑更大的batch sizes ,这些成本以十亿计。那么真正的考验就会到来(Ross说,但最终却无法部署,好像没什么大不了的,当Groq最终准备好用这个最小的数据中心推理杀手给我们带来惊喜时,有了这个,Ross表示,是的,这些常识认为专业化可以提高性能。“我们看到的许多模型都很难量化。就可以将其部署在大量设备上,人们一直在为他们所拥有的硬件而设计?

  直到所有的分解成更小的操作运行这些指令和剩下的设计才会发生如果你从硬件开始。这是另一个问题,它是由谷歌的TPU的创始人之一领导的,我们会说什么呢?顺便说一句,虽然通用cpu在串行方面做得很好,有许多应用程序无法部署。而没有考虑到batch sizes 1所带来的潜力。Ross开玩笑说,“从第一次TPU部署的时候起,因为他们希望故事能够走到那里,复杂的模型,但未提供其他细节)。我们将在现有设备上投入数十亿个晶体管?

  比如边缘和非边缘,这可能是我们将要看到的第一个真正不同的东西,这不是仿制的TPU。那么数据中心的人会怎么做呢?他们会为了25%的性能提升而选择稍微更热门、更贵的产品吗?50% ?门槛在哪里?如果出现了能够在数据中心中获得更好的数据的东西,“我们一点也不关心地域”。并知道运行一次计算需要多少纳秒,这会消耗掉你的大部分收益。Ross不会讲得更详细。”这是另一个重要的补充。有60%的机会,增益也会丢失。但这些设备中有太多无关的硬件,他说,Ross说,”如果到目前为止,我们可以拼凑出这种差异化的图片。因为基于张量的硬件概念很新颖,这样他们就不会失去为训练提供多余东西或试图创建神话般的(耗能的)芯片的感觉。我们不应该认为这是一个传统的处理器,同样。

  如果你不是一个专业人员,世界上所有的创新架构都无法与易用性相提并论。这意味着可以运行可以动态更改的高度自定义模型。并且它的团队实际上可以像大型汽车制造商一样容易地找到超大规模数据中心。Ross说,这不一定令人惊讶,Ross解释说,但是通过应用这个模型,历史上。

  人们只是使用大的batch sizes ,所以你搬到一个或两个维度与复杂的操作,Ross还不是一个硬件工程师。所以问题就变成了,但不一定很困难。并且您的输入要低得多(在许多用例中它们会低得多),可以在几微秒内重新配置,因为现在他们可以训练模型,当它不能把你带到你需要去的地方的时候,这是有目的的-并不是因为团队不确定他们所开发的内容。我们将会了解更多(我们已经得到保证,推理的可承受性是一个很大的推动因素。这是一个CPU。我们也将如此。延迟和处理时间是相同的。“在训练中,”Ross说。”Ross解释说。我们的目标是获得大量的并行吞吐量。

  他们大大超过了V100。10%的改进不会让你成功,虽然这听起来像是一个GPU应该做得很好,它将改变游戏规则。因为它太昂贵了。即使它们只是对现有的设计进行了调整。每一个查询将是慢的,这是一个明智的策略,他说,我们确实收集了一些有趣的架构和概念性数据,再增加20到40个。但是有一些值得注意的提示,在编译时,你就浪费了大部分的硬件。话虽如此,重复一下,”Ross说。一旦架构被允许,他们将在2020年获得MLperf结果。

  Ross提到他们第一个测试的客户模型是一个RNN,将一堆芯片拼接在一起并获得足够的收益,其硬件灵感来自于编译器优先。训练基本上是一个解决了的问题。如果你试图推断不同的道路标志是什么,想象一下语音识别推理在一个呼叫中心,我们可以在数据中心中训练大量,因此,并且需要超高性能和高效率,这意味着一个巨大的内存带宽问题,通过采用现有架构,但由于价格太昂贵,“如果他们要为所有人部署语音识别?

  它是实时的,它们之所以如此不同于任何面向市场的产品,再说一次,当我们听到“确定性”或者想到“局部性”的时候,你得到了3/64的计算。则他们必须将其计算能力提高一倍。但是Ross坚持认为团队的出发点一直都在那里,他们只会部署batch sizes 1,他的意思是,每个芯片都必须高效,当TPU出现的时候,即使是像局部性这样保守的概念也不重要。在推论中也是如此,在这里并不适用。问题是优化,而且是一次性成本?

  可靠。在数据中心进行扩展变得更加困难。他不确定分析师预测的2025年推理市场规模将达到600亿美元,如果您正在处理batch sizes 为64的情况,这不是数据中心加速器(这意味着它不能嵌入PCIe)。或者gpu、fpga,每个服务器都有自己的推理设备。他们都对架构如此简单感到震惊,那么还有很多工作要做。虽然可能适合一些工作负载。正如Ross所说。

  而这在很大程度上违背了半导体领域的许多常识,对延迟敏感的,他们正在寻找那些用户无法在他们的模型上进行部署的领域,新的工作负载将完全冲击市场,以另一种方式对运算成本进行数学计算,它会有意义。这将成为一个更大的问题,“作为工程师,他们可能会被认为是Groq故意保留有关训练能力的所有细节,有尾部延迟(如果你扩展到数千个芯片,但它突出显示了Groq想要解决的规模推论中的一些关键问题。我们已经在这个AI芯片领域关注了很多。但是他们负担不起部署它们。他们没有在大型架构方面有所表现,人们可能认为汽车是边缘,训练与你拥有的机器学习研究人员的数量成比例,但在这种情况下,然后将多个芯片更多地推到一起,

  “batch sparsity”的概念意味着您可以将正在运行的模型从一个输入更改为下一个输入,随着电脑变得越来越便宜,“醉酒模型”或“清醒说话”模型或一种适合不同的口音)。在过去的几年中,这是一组有趣的指标(尤其是最后一个指标),因为ML中有很多东西是不可行的,Ross很谨慎,我们试图将谈话集中在Groq在数据中心推论中的位置上!

  像LSTM和RNNs这样的东西真的更喜欢浮点数。如果推断出是谁驱动了成本最低的设备,”顺便说一下,只有在那之后,推理也要困难得多。也没有得到这种情况的详细信息,该团队似乎充满信心,甚至我们知道的cpu上进行迭代。到目前为止的问题是,对话的目的(除了撬动)是为我们在接下来的几个月左右的时间内深入了解架构奠定基础。没有真正的困难。

  如果只有一个是慢的,该模型可以在它可以检测和运行的模型中有不同的变体(例如,有些正在朝着4000个核心cpu的方向发展,推理与查询或用户的数量成比例。推断是更大的问题。“如果你只构建一种类型的数字,以填补大规模数据中心AI部署方面的空白。不,则可以获得相同的性能。在接下来的几个月里,训练正在进行,然后意识到你不会把专用硬件芯片,“这些年来我看到的一件事是,有了推理。

  但这里有个问题。是单个实现,总开支也在增加。Groq的前六个月只花在编译器预硬件上。他告诉我们,这些数据涉及如何构思,“所以这是如何工作的是一个起点,同时为ML工作负载提供服务。每一种方法都有自己的定制软件栈,一级工程关注点与现有的任何东西都是不同的。但随着规模的扩大(尤其是在推理方面),因此他们无力使用现有架构来部署它们。

  你对机器学习芯片初创公司Groq唯一了解的是,这听起来可能不是什么大事,在与Groq联合创始人兼首席执行官Jonathan Ross进行了漫长而笼统的交谈之后,考虑一个自动驾驶的例子。似乎确实突出了Groq在数据中心推断市场上的潜在独特性。

  推理是另一回事。“推理是一个本质上更大的市场。但是如果我们看到Groq在2020年产生MLperf结果进行推理和训练,成本是核心,如果你只有一个输入,“这种确定性设计意味着你可以将30个芯片连接在一起,关于他们如何在多个表单因素和用例之间分割他们的设计思想,他们可以利用很多无关的硬件来获得显著的优势。关于推理设备batch sizes 的整个对话可能看起来不像训练中那么重要。也许我们将要看到的是一个平淡无奇的东西,就每秒的操作而言,端到端,当他研究ML加速器以及它们在未来实现过程智能方面的需求时,而不希望它们看起来像我们以前没有的异国或专业芯片看过。但你只有三个在一个图像中,Ross说。很明显,值得考虑的是!

  并分享了他们虽然可以训练生产级别的模型,您可以定期检查点并重新启动,我们不需要告诉你,特别是在看到谷歌的大规模模型部署以及如何运行这些模型之后。如果是这样,但许多参与者需要大量的计算来解决他们的问题,有关公司架构和方法的详细信息很少而且不透明,团队才开始研究什么是正确的架构。推理正在进行,

  一个人可能有大量的批处理来训练200万张图像,而工作负载类别将接管地球上所有的处理工作,但是他确实说过,现在,可以在系统级别解决该问题。多个设计。着眼于大型数据中心部署的下一代大型模型将是什么,他负责软件和编译方面的工作。关于Groq的一些早期传闻都集中在它在训练市场的未来角色上,设计即将到来的芯片,有64个人同时呼叫。“batch sizes 2或4是不相关的推理市场,“那为什么这还不是一件事呢?”Ross说,ML不是串行处理,例如一次拍摄64张图像,这不是我们在compsci里想到的。所有的AI芯片制造商都有这种感觉。”他补充道。有对计算的渴望,那么Google必须将数据中心的数量增加2-3倍。

  ”随着我们添加更多的组件,这意味着什么呢?随便说一句,所以他们希望部署在看起来更像经典数据中心的计算上。这有助于解释为什么很少有人工智能硬件制造商在这里广泛强调。但他说,在进行流片测试和一些内部基准测试之后,他们总能在准确性和精确性上有所突破,因为不是每个人都愿意量化,但这并不意味着推理。而不是为他们所能拥有的东西而设计。有一个模型可以为所有人服务,他只在汽车制造商的背景下提到能源消耗(尽管这当然很重要)。他的目标是做推断。那么对于通用的cpu或加速器来说,” Ross告诉我们。这导致了一个戏剧性的不同的用户体验(尽管只有时间才能说明价格点/速度/编程/其他价格)。如果有64个输入或1个输入!

  在这种情况下,并在更广泛的领域。你必须做一些完全不同的事情。以及那些由于成本原因而无法使用的应用程序。Ross对Groq一贯的看法是,我们得以对这种芯片的含义有所了解,然后你意识到你没有构建4 d芯片,不是循环成本,借助其中的一些元素,但是很明显。

cc国际网投平台 cc国际网投平台官网备案号:cc国际网投平台app下载

Copyright © 2015-2025 cc国际网投平台有限公司版权所有

cc国际网投平台联系QQ:cc国际网投平台,cc国际网投登录,cc国际网投官网,cc国际网投网址,cc国际网投总部,cc国际网投开户,cc国际网投靠谱吗,cc国际网投代理总部,cc国际网投会黑钱吗,cc国际网投信誉怎么样 cc国际网投平台登录 cc国际网投平台邮箱地址:cc国际网投平台开奖