尽管美国对中国芯片实施禁令,但中国的人工智能生态系统已超出预期,尤其是阿里巴巴开源的Qwen系列在社区中得到广泛采用和讨论,引起了国际开发者的关注
中国出于多种原因创建了一个完全独立的人工智能生态系统:1)减少对西方的依赖;2)防火墙的审查限制;但这并不是说创新受到了抑制。
目前,中国的人工智能生态系统中拥有一批极其活跃的参与者,今天我们将深入探讨阿里巴巴在该领域扮演的角色。
公司 | 基础设施层 | 模型层 | 应用层 |
阿里巴巴 | 阿里云提供强大的云基础设施,支持开源模型和广泛的人工智能服务。 | Qwen-72B 和 Qwen-1.8B 是阿里云开发的高级 LLM,具有多模态处理能力。 | 钉钉,企业聊天平台阿里妈妈,为在天猫和淘宝上销售的中小企业提供人工智能驱动的广告优化工具集。 |
腾讯 | 腾讯通过智能高性能网络增强其 AI 能力,优化 LLM 培训的 GPU 使用率。 | 浑源是腾讯自有的面向企业应用的法学硕士项目,注重效率和成本效益。 | 腾讯的人工智能服务包括 在其现有应用程序中提供个性化的新闻推送和聊天机器人解决方案。 |
华为 | 华为云专注于技术自主,提供针对AI应用定制的高性能基础设施。 | 盘古3.0由基础模型、行业模型和场景模型组成,适用于各个领域的多样化应用。 | 华为的法学硕士学位应用于金融和医疗保健等各个行业,以加强数字化转型。 |
字节跳动 | 字节跳动利用其云基础设施来支持其 LLM 的部署,强调 AI 服务的成本效益。 | 豆包是字节跳动推出的LLM系列产品,专为各类应用而设计,具有激进的定价策略。 | 豆包聊天机器人等应用程序和其他生成式人工智能工具旨在增强用户互动和内容生成。 |
百度 | 百度云为人工智能模型训练和部署提供全面的基础设施,专注于人工智能领域的技术进步。 | Ernie 是百度的旗舰 LLM 项目,随着时间的推移,其训练效率和应用性能都有了显著的提升。 | 百度的应用程序利用 Ernie 来增强搜索功能、对话代理和其他人工智能驱动的解决方案。 |
蔡崇信讲述阿里巴巴的AI战略,重点利用现有的云业务来支持AI基础设施。
阿里巴巴的人工智能战略
阿里巴巴在人工智能领域投入了五大重点,并采取了双重战略。
端到端技术栈策略:
- 建立专有的 LLM - Qwen 并向 AI 建设者提供其 LLM
- 云计算服务
- 设计用于处理人工智能应用的芯片。
生态系统战略:
- 将人工智能融入现有的面向消费者的应用程序中
- 为整个生态系统的人工智能公司提供资金
阿里巴巴无疑是国际上最知名的中国科技公司,拥有领先的云业务和专有的法学硕士技术。虽然在中国,百度和华为都有自己的模式和云服务,但百度以数据为中心的战略始终更侧重于其自动驾驶技术,而华为始终更侧重于计算和硬件,而其法学硕士则被视为企业客户“锦上添花”的附加项目。
相比之下,阿里巴巴曾多次表示,其目标是“让所有人都能使用人工智能”。 2024年云栖大会上, 阿里巴巴首席执行官吴忌寒强调,公司致力于支持从芯片、服务器、网络到存储和数据中心的开源生态系统。
专有法学硕士:统一钱文(Qwen)
阿里巴巴 AI 产品中的佼佼者是“统一千文”,这是一个类似于“超级聊天机器人”的大型语言模型。这种先进的模型能够理解和生成文本,适用于文章生成、对话响应和客户支持等各种应用。
Qwen 系列具有令人难以置信的规模、跨基准的性能、多模式功能以及为广大用户提供可访问性的承诺。阿里巴巴已将这项技术公开,允许其他企业免费使用它来增强他们的客户服务能力。
“与 GPT4/4.o 相比,从整体表现来看,它是中国最具竞争力的法学硕士项目。” GroundAI 创始人、前华为首席数字官 Leo Jiang。
他补充说,Qwen 之所以如此特别,是因为它有两种格式,“它的 API 驱动的 LLM 服务可以缩短上市时间,并具有成本效益。而它的开源版本则为客户提供了更多的控制权和隐私权。”
阿里巴巴于 2023 年推出了大型语言开发工具统一千文,通常被称为 Qwen,目前已是 2.5 版。Qwen 模型(包括 Qwen-72B 和 Qwen-1.8B)以其多样化的参数大小(从 18 亿到 720 亿个参数)和多模态功能而闻名,这使它们不仅可以处理文本,还可以处理音频和视觉数据。
通过对超过 3 万亿个标记进行训练,这种灵活性得到了增强,使它们能够在各种基准测试中胜过许多其他开源模型,包括多任务准确性和代码生成能力。
Qwen 将自己定位为全方位的 AI 助手,有五个关键应用用例:
1)实时会议记录和摘要
2)处理冗长的内容并提供需要复杂理解的摘要
3)AI PowerPoint 演示文稿创建
4)实时同声翻译
5)与可以解决问题的人工智能代理进行视频聊天。
来源:阿里巴巴
Qwen 的独特之处在于其令人印象深刻的技术和对开源原则的坚定承诺,因为阿里巴巴在 Hugging Face 和 ModelScope 等平台上提供了其模型的各种版本。 一些人一直对阿里巴巴选择向其他公司开放其模式感到困惑,因为它一直在向人工智能投入大量资金,现在却免费提供其成果。然而,阿里巴巴一直坚持让所有人都能使用这一模式,因为它强调,这种方法可以营造一种协作环境,让开发人员可以一起实验和创新。阿里巴巴可以稍后实现盈利,阿里巴巴肯定会找到方法来实现这一点,但就目前而言,它已成为让所有人都能使用先进人工智能技术的关键参与者。
阿里巴巴一直在其电子商务市场应用淘宝等应用程序的公开数据上训练其开源 AI 模型,鉴于每月活跃用户超过 9.3 亿,这是一个巨大的竞争优势。通过开放其专有模型,它引发了一场争论:开源 AI 模型(通常更透明、更具成本效益)是否也更容易被滥用。
尤其是月活跃用户少于 1 亿的公司可以免费使用这些模型,从而推动各行业更广泛地采用这些模型。通过支持开源社区的发展,阿里巴巴的目标是让用户能够有效地利用人工智能能力,同时减少对专有技术的依赖。
ChinaAI 的 Jeff Ding 翻译了广为流传的 AItechtalk 文章 为什么 Qwen 是目前世界上最受欢迎的开源大型模型, 其中写道,“根据 Hugging Face 的数据,Qwen 系列/血统的模型已经达到 50,000 多个。也就是说,全球开发者基于 Qwen 系列基础训练出了超过 50,000 个衍生模型,仅次于 Llama 系列的约 70,000 个。这个数据是判断一个模型生态级影响力最有说服力的指标。”
令人印象深刻的是,Qwen 模型在去年引起了汽车、游戏和科学研究等各个领域的极大兴趣。自推出以来,这些模型的下载量已超过 4000 万次。此外,轻量级 Qwen-1.8B 模型专为部署在智能手机等边缘设备上而设计,使其成为需要较低计算资源的应用程序的一个有吸引力的选择。
此次 Qwen2.5 的全面升级,意味着更大的参数规模、更强大的照片和视频理解能力、大规模音频语言模型、持续开源的模型,不仅得到了大幅提升,而且无论是 Qwen-Plus 还是 Qwen-Turbo,都降低了支持复杂任务的强大推理能力的成本。
展望未来,首席执行官吴忌寒指出,尽管人工智能发展迅速,但 AGI(通用人工智能)仍处于早期阶段。他强调了合作的重要性,并强调统一钱文的 API 推理成本同比下降了 97%,这是其日益流行的一个关键因素。事实上,这一点得到了华为前高管 Leo 的证实,他指出,与中国大多数其他模型相比,Qwen 模型的准确性和真实性更高。 它可以针对优先考虑输出准确性并旨在最大限度地减少模型幻觉的企业用例进行定制 此外, Qwen 目前最大的优势在于它为开发人员提供了强大而又经济高效的替代方案。
如何最好地利用 Qwen?
Qwen 是一款既具有竞争力又具有商业可行性的大型语言模型 (LLM)。它在开源社区的广泛采用确保了更广泛的验证和支持,同时其部署得到了阿里云世界一流的基础设施的支持。这些因素使 Qwen 成为企业的不二之选。以下是指导您进行 Qwen 企业部署的四个关键步骤。
- 定义业务目标和用例:专注于高影响力的用例,例如自动化客户支持、增强数据分析或改进内容生成。
- 数据准备和基础设施设置:评估并准备训练和微调 Qwen 模型所需的数据。这包括清理、构建和确保相关数据集的可用性,因为总成本的 60–70% 通常位于这一层。
- 试点项目和迭代评估: 从小规模试点项目开始,将结果与预定义的 KPI 进行比较,并快速迭代以进行改进。
- 扩大规模和整合: 将 Qwen 完全集成到您现有的工作流程中以充分发挥其潜力,同时建立治理结构来监控和优化其性能。
阿里云
蔡崇信表示,人工智能和云计算业务就像左手和右手。na podcast 采访挪威对冲基金经理 Nicolai Tangen。如前所述,任何人都可以通过 API 使用阿里巴巴的 LLM,或者直接使用其开源模式。但是,对于任何想要部署 Qwen 的人来说,他们都需要云计算能力,而阿里云可以提供这种能力。
事实上,目前中国801家科技公司、一半以上的大型示范企业都在阿里云上运行,这个规模是其他任何公司都无法比拟的。 Joe 重申,阿里巴巴是亚太地区最大的云服务提供商,在为“统一钱包”收集数据和试验方面具有巨大优势。这种良性循环使得两大业务在 AI 层面上不断相互促进。
此外,该公司还创建了最大的开源社区,名为 模型范围 该平台上托管着许多其他开源模型,当开发人员使用这些开源模型时,他们也需要计算能力,这已成为阿里巴巴云收入的主要驱动力。
通过向初创公司提供云基础设施,这家科技巨头希望通过允许它们直接访问面向消费者的最佳应用程序来规避风险。提供云基础设施将使该公司能够访问跨领域和用例的多样化数据池,如果获得许可,它可以利用这些数据来微调自己的模型。这也意味着人才招募和接触该领域的创新将更加容易。
阿里巴巴的人工智能应用
那么我们来看看应用方面。阿里巴巴已将人工智能广泛融入其自身运营,将其用于其电子商务平台上的产品推荐、智能客户服务、人工智能支持的广告定位以及云服务中的人工智能驱动解决方案。此外,它还在寻找更好地利用人工智能来提高物流效率和其他用例的方法。今天,我们先来看看几个成熟的。
人工智能在线服务(AI OS) 是阿里巴巴搜索工程团队开发的平台。AI OS 集成个性化搜索、推荐和广告功能,支持阿里巴巴各平台的各种业务场景,主要专注于淘宝等市场应用。该技术最初专注于淘宝的搜索功能,现已扩展到包括深度学习技术和各种搜索和推荐引擎。
Dingtalk 是一款企业聊天软件,类似于 Slack。在 Dingtalk 中,所有产品都已启用 AI,并嵌入了用于企业和个人用途的 AI 代理,该代理于 2024 年初推出。AI 代理是一个虚拟机器人,可以检查数据分析,并配备记忆、规划和执行功能。
与代理交互的形式是通过类似于 ChatGPT 的聊天机器人。该公司建议的用例包括将机器人用作销售人员、IT、人力资源行政、财务或采购人员,它可以帮助公司自动执行管理流程中许多重复的繁琐任务。
与此同时,阿里妈妈是一个帮助品牌在阿里巴巴的电子商务市场应用程序——天猫/淘宝上进行广告优化的平台。阿里妈妈是阿里巴巴一个相对不为人知的业务部门,但实际上它早在 2007 年就成立了。它是一个为在淘宝或天猫平台上销售的企业提供的数字营销平台。人工智能多媒体 LMA 于今年 4 月推出,目前已全面应用于 2B 应用程序。这些工具包括能够处理客户查询和执行基本广告设计任务以提高效率和质量的人工智能销售代理。此外,阿里妈妈还提供用于预算和定价的销售分析、用于提高投资回报率的库存管理工具以及用于广告的经济高效的文本到图像或视频生成服务。该公司声称已为平台上的 100 多万商家提供服务,并显著降低了广告制作成本。
投资以抓住一切可能性(机会)
阿里巴巴积极收购和投资了多个有前途的人工智能公司,尤其是专注于人工智能芯片开发和法学硕士开发的公司。这些战略举措旨在扩大阿里巴巴在快速发展的人工智能领域的机会。
仅在 2024 年,阿里巴巴就领投了多家 AI 公司的主要融资,包括对 Moonshot AI 的 $1 亿美元投资,使其估值飙升至约 $25 亿美元;对百川的 $6.91 亿美元融资,使其估值升至约 $28 亿美元;并向 MiniMax 承诺投资超过 $6 亿美元,MiniMax 是所谓的四大“老虎”中的三家。
目前,中国最有价值的四家人工智能初创公司被称为“人工智能四小虎”,它们均是在过去三到五年内成立的,并已取得巨大成功。 Moonshot 估值达 $3 亿美元, Minimax 估值 $2 亿美元, 芝浦 AI融资近$8亿 和 百川的估值据称接近$20亿美元。
阿里巴巴的芯片:T-Head
最后,也是经常被忽视的是阿里巴巴在硬件开发方面的努力。新闻快讯, 华为并不是唯一一家开发芯片硬件的中国科技巨头。
阿里巴巴的芯片合资企业, T 型头在美国持续的贸易限制下,作为中国推动半导体自给自足的更广泛举措的一部分,T-Head 正在 RISC-V 架构的开发方面取得重大进展。T-Head 专注于创建可支持各种应用的高性能芯片,包括人工智能 (AI)、大数据分析和在线交易。
T-Head 的著名产品之一是振岳 510,这是一款专为企业固态硬盘 (SSD) 设计的控制器芯片。这款芯片在阿里巴巴的 Apsara 云计算大会上发布,与现有解决方案相比,它将输入和输出操作的延迟降低 30%,从而提高阿里云数据中心的性能。这项创新至关重要,因为它使阿里巴巴能够优化其云服务并提高处理大规模数据处理任务的效率。
随着中国继续应对对美国技术的限制,T-Head 对 RISC-V 的关注代表着其朝着芯片设计和制造领域可能实现更大独立性的战略举措。
我们知道,阿里巴巴对其 AI 战略采取了整体方法。它包含全面的技术堆栈,并将自己定位为生态系统中的关键参与者,这些都是进一步推动 Qwen 模型发展的关键基础。Qwen 模型建立在从基础设施级到芯片级的可扩展性基础上,旨在支持阿里巴巴广泛的电子商务、应用程序和投资生态系统中的各种应用程序。这一战略重点不仅增强了模型的功能,而且还确保了它们在各种企业驱动用例中的相关性和有效性,这些用例优先考虑准确性并最大限度地减少模型幻觉。 它已成功地将自己定位为中国人工智能生态系统中最重要的参与者之一,甚至是最重要的参与者。
##
来源:采访、行业报告、专家见解、公司公告、投资者关系材料、Aspara 会议记录和 Alizila。
链接
- 阿里云 Qwen 官方链接
- Qwen2.5-LLM 说明,最后更新于 2024 年 9 月
- Github Qwen2.5:一系列支持多种参数规模(从 0.5B 到 72B)的大型语言模型,在长文本生成、指令跟踪和结构化数据理解方面的能力有所提升,支持 29 种语言。其应用适用于代码生成、文本生成和复杂数据处理。Qwen2.5 提供量化、推理和本地部署等功能,与各种计算框架兼容,例如 Hugging Face、ModelScope、vLLM 等。
- Github 昆明-VL:是一个大规模视觉语言模型,支持图文输入,具备多语言对话能力,尤其擅长中英文图文识别,支持高分辨率图像处理和细粒度识别,性能超越大部分开源模型。
- Github Qwen-Audio:能够处理各种音频输入(例如人类语音、自然声音、音乐等)并生成文本输出。该模型适用于音频识别、音频描述、场景分类和情感识别等任务。
- Github Qwen2.5-数学:支持中英文数学题解答,融合思路链(CoT)和工具集成推理(TIR)。
- Github Qwen2.5-编码器:最新的开源编程模型,支持128K的上下文窗口,涵盖92种编程语言。
作者简介
Grace 撰写了关于人工智能 x 能源、人工智能 x 地缘政治、人工智能 x 大型科技的文章 AI Proem 的 Substack。
她还经常为 财富, 外交家以及其他关于人工智能、科技和公司治理的国际出版物。在从事记者工作期间,Grace 曾在新加坡为 CNBC 报道亚洲科技和商业,她的作品还发表在《南华早报》、《标普全球市场情报》、《雅虎财经》和《今日美国》上。
Grace 的 5 大推荐:
- 人工智能军备竞赛远未结束:芯片只是游戏的一半,基础设施才是另一半
- 为什么数据中心目前还不能完全使用可再生能源
- 大型科技公司盈利情况:全力投入人工智能
- 百度、阿里巴巴、腾讯:人工智能对决
- 一个全新的核世界
下一轮深度较量:华为 vs. Nvidia 和谷歌
订阅以获取最新博客文章更新
留下你的评论: