成本、安全性和灵活性：开源生成式AI的商业案例_贝斯特全球最奢游戏-USDT游戏平台

成本、安全性和灵活性：开源生成式AI的商业案例

定制案例 | 2024-12-18 08:42

　　这是一个问题★★，因为构建商业产品需要大量的测试和优化★★。★★★“使用开源，你就可以控制在哪里使用模型以及何时让模型退役。”

　　Hugging Face目前仅针对文本生成就跟踪了超过150000个大型语言模型，而六个月前只有80000个★★。太多了，无法选择？Chatbot Arena对160多个顶级模型（包括专有和开源）进行了排名，列出了这些模型的许可模式。

　　但总体而言★，无需支付OpenAI的API费用肯定会节省成本。★★“这可能是使用开源模型的两三个主要原因之一，你可以更好地控制成本。”

　　Sarer表示：“Meta最初带着一些较小的模型进入市场，但现在他们也有了一个前沿的模型，正在与主要参与者展开激烈竞争。”市场份额数字印证了这一点★，根据预测销售平台Enlyft的数据显示，GPT-4 41%在市场份额方面位列第一★，Llama以16%的市场份额位列第二，Mistral也榜上有名，但市场份额不到5%。

　　最终，我们很可能会走向一个混合型的未来★★★，Genpact全球AI负责人Sreekanth Menon说。★★★“尽管人们对用开源进行替代的情绪普遍存在★★★，但开源模型和闭源模型都会有自己的一席之地。★★★”

　　其他企业也发现，开源AI模型可以提供更大的灵活性、安全性和成本优势★★，尽管这其中存在一定风险。

　　除了模型本身，还有数千个与生成式AI相关的开源工具。GitHub列出了100000多个名称中带有大型语言模型的项目，而5月份的时候只有50000个。但大多数企业都坚持与大厂商展开合作★。德勤技术、媒体、娱乐和电信行业实践人工智能部门负责人Baris Sarer表示，Meta的Llama模型是在行业部署中出现最多的模型★★，其次是Mistral。在Chatbot Arena排行榜上，最新的Llama 3.1略落后于最新的OpenAI模型（9月份的GPT-4o），但领先于8月发布的同一模型。

　　“如果你的企业正在发布一些开源的东西，而你的律师正试图创建另一个许可——请不要这样做，有很多好的许可，只需选择一个符合你目标的许可即可★★。”

　　Ringdahl说，出于安全考虑，很多商业提供商使用客户数据来训练他们的模型★★。可以选择退出，但有一些注意事项★，例如，你可能需要支付更多费用以确保数据不会被用于训练★★★，并且可能会向公众公开。

　　他补充说，随着企业越来越认真地在AI技术上进行大规模商业押注★★★，他们需要谨慎对待许可，使用具有完全开源许可的模型还有其他好处★，例如可以访问模型的权重，使模型微调和调整变得更容易。企业需要注意的另一件事就是开源许可，这要求所有衍生作品也必须是开源的。

　　厂商有时候会宣布他们的AI是开源的★，因为这么做有助于营销★★★，并让客户感到他们没有被束缚住。“他们有这种光环效应，但他们并没有真正做到这一点，★★”Collier说★。

　　然后是地理问题。Emburse在全球120个不同的国家或者地区可用，而OpenAI则不行。此外★★★，一些地区有数据驻留和其他限制性要求。★★★“因此，我们通过开源进行扩充，使我们能够在未覆盖的领域提供服务★★★，并保证了安全、隐私和合规性。”

　　旅行和费用管理公司Emburse看到了很多机会可以让他们从生成式AI中受益。这项技术可以用来改善个人用户的体验，例如★★，通过更智能地分析收据★★★，或者通过发现欺诈行为来帮助企业客户。

　　★“OpenAI目前的模型是GPT 4-o，但他们即将推出第五版★，最终第四版就会消失——按照他们的时间表，而不是我的时间表。”

　　最后，还有长期可持续性的问题★。★★★“建立一个开放模型，发布模型，让数百万人去使用它，这是一回事，而围绕它建立一个商业模式并将其变现则是另一回事。变现很难，那么谁会继续为这些模型提供资金？构建第一个版本是一回事，但构建第五个版本又是另一回事。”

　　开源的情况并非如此。★★★“模型创建者通常不承担法律责任，”Chandrasekaran说。是的★★★，开源模型可以更容易地重新训练或定制★★★，但这个过程很复杂，成本很高。“底层基础模型正在迅速发生变化★★，如果你定制了某些东西★，而基础模型发生了变化，你就必须重新定制★★。”

　　“你可以采用预先训练的开源模型，使用你自己的专有数据对其进行微调。”他补充说，开源在部署方面提供了更大的灵活性。“如果你想在边缘部署较小的模型，这个领域大多数模型都是开源的。”

　　“如果客户倾向于在本地部署AI，那么开源实际上是唯一的选择，而在某些行业，本地部署实际上仍然相当普遍★★。★★★”而且与Emburse一样，很多企业都看到了使用开源的地理原因。

　　在任何有关开源AI的讨论中，Meta的Llama都是第一个被提及的★★★。但这个模型在技术上可能不是开源的，而且这种区别很重要。10月下旬，Open Source Initiative发布了开源AI的第一个定义★。

　　他补充说，当新开发人员需要快速进入项目并开始高效工作时，这种模型有助于上手，而且维护解决方案也很棒★★★。”

　　它要求开源人工智能不仅要共享源代码和支持库，还要共享模型参数，以及模型训练数据的完整描述、来源、范围★★★、特征和标记程序★★。但更重要的是★★，用户必须能够将开源AI用于任何目的★★★，而无需征得许可。

　　更低的成本★★★、更大的灵活性★★★、更高的安全性——开源有什么不值得爱的★★？开源模型和专有模型之间的性能差距很大，但去年对我们来说已经是很久以前了。Gartner分析师Arun Chandrasekaran说：“到2024年，差距已经明显缩小，但尽管差距已经明显缩小，我们还没有看到很多开放模型投入生产。”

　　这意味着，对于非英语的用例，经过微调的开源模型可能比大型商业模型更准确★。

　　他说，原因之一就是企业对闭源模型进行了大量投资，并且没有看到任何迫切需要改变的情况。然后是运行开源模型的操作复杂性和潜在的法律责任。法律赔偿是OpenAI★、微软、Adobe和其他主要厂商生成式AI合同的一个共同特征。

　　★★“随着这个领域的快速发展，我们的开源大型语言模型选择肯定会发生变化，我们已经开发了我们的软件，以便（开源或专有的）大型语言模型可以通过配置换入或换出。★★★”

　　另一个好处是，有了开源，Emburse就可以进行额外的模型训练★★★。Emburse公司有收据样本，已经进行了标记和分类，采用多种不同的格式和语言★。“我们针对自己的特定用例对模型进行了微调★，效果非常好，成功率极高。★”

　　“如果一家企业定制了模型或根据自己的专有数据对其进行了微调★★★，他们可能并不想公布它”★，因为外界总有办法让模型公开它的训练数据。

　　★★“在我们的案例中★★★，我们是在自己的AWS私有云上运行模型的，所以我们仍然需要为使用进行付费。如果你不了解使用模式以及这对费用的影响，就仍然会导致价格冲击。”

　　例如，对于销售潜在客户开发，AI用于从内部和外部来源获取洞察，以便更好地让销售人员做好准备向客户推销产品和服务，提出追加销售和交叉销售的建议。

　　在最一般的定义中，“开源★”是指可用的代码，并且可以在各种情况下免费修改和使用模型。这方面有很多模型可供选择★★。

　　Meta本身将其称为社区许可或定制的商业许可。OpenInfra Foundation首席运营官Mark Collier参与了新定义的制定，他表示，企业用户了解这其中的细微差别非常重要。★“对我来说★★★，最重要的是，人们和企业有能力和自由地采用这项基础技术★，出于不同目的对其进行重新组合、使用和修改，而无需征得许可★★。”因此★★，企业需要确信他们是可以把AI整合到产品中，而不是有人回来告诉他们不能这样做。

　　根据这个定义★，Meta的Llama模型是开放的，但在技术上不是开源的，因为这其中是存在限制的★★★。例如，某些Llama模型不能用于训练其他模型★。如果它用于每月用户超过7亿的应用或服务，则需要获得Meta的特殊许可。

　　他说：“这是专有商业模型的陷阱之一，这其中有很多细则，而且事情并不总是公开的。”

　　目前，Emburse公司正在使用法国打造的Mistral开源模型。他说：“我们已经评估了所有主要的开源大型语言模型★，发现Mistral在经过训练后最适合我们的用例，另一个考虑因素是大型语言模型的大小，可能会影响到推理时间。★★”

　　★“在全球范围内，我们看到AI越来越被视为对国家安全和主权的重要性，因此需要将AI保留在你的地理位置范围内，坦率地说，这使开源成为唯一的选择。★”

　　卡内基梅隆大学人工智能教授Anand Rao说：“研究表明，参数数量在数百万到数十亿之间的小型语言模型，它们在专门任务中的表现可以胜过大型通用语言模型。”

　　★“他们几个月前在美国和欧洲地区上线了这个模型，现在正在根据反馈进行改进，未来将更广泛地推广它，我们从使用它的销售人员那里得到了很好的反馈。”

　　他承认，这些问题很棘手，尤其是AI领域发展得如此迅速，即使模型开发人员不断发明新的许可，这也无济于事。

　　★★“他们有一系列用例——销售、营销运营、现场服务，我们因为成本、控制、可维护性和灵活性等因素选择了Meta的Llama作为首选模型★★。”

　　他说，这些模型需要的计算能力更少★★★，可以更有效地进行微调，这使其更适合在资源受限的环境中部署使用★。

　　OpenAI和Anthropic等商业生成式AI平台备受关注，但开源替代方案可以提供成本效益★★★、安全性和灵活性。

　　以阅读收据并准确分类费用的简单工作为例★★★。由于收据看起来可能非常不同，因此自动完成这项工作可能是很棘手的。为了解决这个问题，Emburse公司转向采用生成式AI★★★，并决定同时使用商业模型和开源模型。该公司首席技术官Ken Ringdahl表示，这两种类型的生成式AI都有各自的优势。OpenAI的主要商业模型部署起来更快、更容易★，而且开箱即用，准确度更高★★★，但开源替代方案提供了安全性、灵活性、更低的成本，而且进行了额外的训练，准确度更高★。

　　Kong对开发者API使用情况进行了调查，发现了类似的平衡，OpenAI份额为27%，Llama是8%，Mistral是4%。除了排行榜前几名的知名前沿模型之外，还有为小众用例设计的小型语言模型（SLM）也在迅速普及★★★。

　　然而他说★★★，现在正式计算投资回报率还为时过早，这将需要在很长一段时间内获得更多数据点，但早期结果足以扩大推广范围★★★。

　　确实，专有的生成式AI（通常是 OpenAI）的采用率最高。但Sarer表示，在很多情况下，使用开源替代方案也是合理的★。

　　由资金雄厚的企业支持的闭源模型可以突破AI的极限。★★★“他们可以提供高度精炼的★★★、专业化的解决方案★，这些解决方案受益于对研发的大量投资，★★★”他说。

　　“Llama 3有一个经过验证的用例★，可以提供对软件的理解以及与其他代码行的关联，它还可以帮助重构。事实证明★★★，Llama 3在这方面非常出色★★★。”

　　德勤的Sarer最近与一家数据中心技术公司展开合作，该公司正在寻求利用AI来帮助改造前台和后台。

　　即使是开箱即用★，某些开源模型在特定任务上也可能要好于比商业替代方案。Globant数字创新高级副总裁兼技术副总裁Agus Huerta表示，他看到使用Llama 3的代码生成性能优于ChatGPT★。

　　“Meta就是一个很好的例子★★。很多主流科技报道都说这是开源AI，扎克伯格就是这么描述的，而且一直都是这么反复强调的★。但当你深入了解细节的时候，就会发现许可方面是有限制的。”

　　最后，除了安全性和灵活性之外★，成本也是一个关键因素。有了开源，企业仍然需要支付基础设施费用，但不必支付AI厂商的利润。“开源是有理由的，而且这种理由会变得越来越充分，★”Sarer说。

成本、安全性和灵活性：开源生成式AI的商业案例

皮具代工首选品牌

关于我们

联系信息

快速链接

扫描二维码