谷歌的搜索业务是 最后 对抗真正的竞争对手。

一家名为 Perplexity 的新兴人工智能搜索公司专注于构建和扩展知识,截至 2024 年初,其月活跃用户数 (MAU) 已达 1000 万,月环比增长率达到惊人的 40% 以上。

截至撰写本文时,其 MAU 可能在 4000 万到 5000 万之间。与 Google 搜索 MAU 相比,它仍然很小。然而,真正令人期待的是它提供的新搜索体验,它不仅专注于您知道的内容,例如根据关键字搜索返回结果,而且还在您不确定要搜索什么时扩展您的知识,例如不知道要搜索的关键字。 

这是由混合搜索提供支持的。 

什么是混合搜索?

混合搜索是一种先进的搜索技术,它结合了传统关键字搜索(基于关键字)和现代语义搜索功能(基于意图)的优势。 

搜索引擎结果主要取决于关键词匹配。例如,如果您搜索具有高清摄像头的最佳智能手机,传统的关键词搜索只会显示包含“智能手机”和“高清摄像头”关键词的结果,但您可能会错过其评论、比较和其他特定于上下文的见解(如低光性能、视频功能等)等信息。

然而,语义搜索可以理解你购买智能手机的意图,但你可以通过将关键字搜索和语义搜索结合起来,获得更准确的结果和更全面的结果。这就是混合搜索。

为什么混合搜索在 2024 年很重要?

你知道吗,即使是亚马逊和 eBay 等顶级电子商务公司也使用混合搜索算法来提供更好的推荐和改善体验?在创业公司方面,他们的行动甚至更快。例如,总部位于英国的创业公司 Moonsift 正在利用混合搜索帮助在线购物者找到他们喜欢的产品。 月筛 为用户提供电子商务浏览器扩展,以便用户从互联网上挑选可购物的产品,这对于向用户提供他们想要的精确结果或服务至关重要。 

为用户提供完美的体验并让用户感到被理解至关重要,这就是为什么混合搜索在 2024 年如此重要。 

2024 年最佳混合搜索解决方案

市场上有很多混合搜索工具。下面我们研究了三种最热门的 混合搜索解决方案 您会发现值得一看。

#1 松果

Pinecone 平台是一个基于云的矢量数据库,专为搜索应用而设计。它将矢量搜索与关键字和熟悉的元数据过滤器相结合,以获得最新和相关的结果。它为语义和多模式搜索功能以及候选生成服务提供了用户 API 接口。借助其无忧的基础设施,创建 AI 解决方案变得非常简单。 

Pinecone 的主要特点

  • 一体化解决方案: 将关键字和语义搜索结合在单一系统中,简化了实施和管理。
  • 可定制的相关性: 轻松调整精确匹配和相关概念之间的平衡以满足您的业务需求。
  • 用途广泛: 适用于文本、图像和音频等各种内容类型,适合不同的业务用例。
  • 可扩展性: 高效处理大量数据,伴随您的业务增长而不会出现性能问题。
  • 方便使用的: 通过简单的 API 与现有系统无缝集成,降低技术复杂性。
  • 提高准确性: 通过考虑具体术语和整体背景来提高搜索精度,从而带来更好的用户体验。
  • 经济高效: 无需多种搜索解决方案,从而可能降低运营成本和复杂性。
  • 适应性: 支持多种业界标准的搜索模型,可根据具体的业务需求灵活实施。

使用案例:

Pinecone 可用于提供个性化推荐、实时搜索相似性以及创建需要快速准确搜索功能的 AI 应用程序。Pinecone 的一些用例如下: 

  • 电子商务产品搜索: 提高产品发现率和相关性。
  • 开放领域问答: 提高常识查询的准确性。
  • 情境聊天机器人: 在对话式人工智能中提供更多相关的回应。
  • 个性化的搜索体验: 根据用户偏好和行为定制结果。
  • 检索增强生成 (RAG): 通过相关信息检索增强语言模型输出。
  • 企业搜索: 改进跨不同公司数据的信息检索。
  • 内容推荐系统: 向用户推荐相关内容。

案例研究:

让我们来探讨一下如何 Pinecone 帮助 Entrapeer 取得了成功。

挑战: Entrapeer 是一个拥有 20 多万个用例和 300 多万个初创企业资料的平台,在处理大量数据方面面临挑战。用户很难快速获得见解并浏览高度复杂的数据集。探索过程耗时且效率低下,对决策产生负面影响。 

解决方案: 他们实施了 Pinecone 的矢量数据库技术来帮助访问数据。通过使用嵌入,Pinecone 简化了海量数据处理并更快地提供了洞察。

取得的成果: 你猜怎么着,pinecone 的实施在不同方面都取得了积极的成果。首先,平台开始处理数千个用例,并收到数百万个启动配置文件。以前这是手动完成的,因此在处理开销减少 99% 的背景下,结果令人震惊。 

其他优点包括客户对数据集的快速浏览和高效的决策,这有助于该平台在市场上保持领先地位。

官网链接: https://www.pinecone.io/

#2 威维特

Weaviate 是一家开源矢量数据库提供商,其主要功能之一是混合搜索。该团队已迅速扩张至 80 多名员工,为初创企业和企业客户提供服务。  

Weaviate 的混合搜索使用稀疏向量(用于关键字搜索)和密集向量(用于语义搜索)来表示搜索查询和文档的含义和上下文。

Weaviate的主要特点:

  • 结合多种搜索算法,提高准确性和相关性
  • 生成反馈循环: 获取模型生成的结果,对其进行矢量化,然后将其保存回数据库以供将来使用。这创建了一个数据生成、存储和检索的循环,可以增强 AI 应用程序的功能
  • 实时处理: 能够实时搜索和更新数据,即使在导入或修改数据时也是如此
  • 经济高效的架构: 在速度和成本之间实现战略平衡,能够管理大型数据集而无需将所有内容保存在内存中
  • 灵活性: 支持各种编程语言和 GraphQL 查询
  • 可扩展性: 设计用于水平扩展以处理大型数据集和高查询量
  • 多式联运: 能够处理多种数据类型,包括文本、图像等,使其适用于各种应用程序
  • AI模型集成: 与各种人工智能和机器学习模型无缝集成

使用案例:

Weaviate 最适合需要上下文理解的应用程序,例如聊天机器人或 AI 驱动的搜索引擎。Weaviate 的一些用例如下:

  1. 电子商务产品搜索:
    • 通过将精确的关键字匹配与语义相关的项目相结合来改善产品发现
    • 增强用户体验并潜在提高转化率
  2. 内容推荐系统:
    • 通过理解具体术语和整体背景,提供更相关的内容建议
    • 提高用户参与度和在平台上停留的时间
  3. 知识管理系统:
    • 促进企业环境中更高效的信息检索
    • 通过提供更准确的搜索结果提高员工的工作效率

案例研究:

挑战:Instabase 是一个企业级 AI 应用平台,每天处理超过 50 万份文档。挑战非常明显,即文档处理和理解,因为它每天都要处理大量数据。他们之所以选择 Weaviate,是因为领先的开源工具为他们提供了灵活性,同时比他们测试的任何其他数据库都更能达到 Instabase 的关键性能指标。

解决方案:Instabase 使用 Weaviate 为其 AI Hub 平台提供支持并处理跨多个行业的复杂数据挑战。 

解决方案是使用 Weaviate 简化数据理解。得益于其模块化架构的集成能力,它有助于对可用数据进行分类、验证和提取,从而使文档结构合理且易于访问,并允许做出更好的决策。

结果:作为AI原生的开源矢量数据库,它显著提高了搜索的相关性和数据提取速度。

官网链接: https://weaviate.io/

#3 Elasticsearch 

Elasticsearch 是一款流行的开源搜索引擎插件,能够处理多种数据类型。它以闪电般的搜索速度和精细调整的相关性功能而闻名。Elasticsearch 背后的公司是 Elastic,该公司成立于 2012 年,自成立以来发展迅速,并于 2018 年上市。

Elasticsearch 的主要特点:

  • 全文搜索功能: 利用倒排索引结构对大量文本数据进行快速高效搜索,支持复杂查询和短语搜索。
  • 可扩展性: 能够在集群中的多个节点上水平扩展
  • 实时处理: 提供近乎实时的搜索和分析功能,可快速获取数据并立即进行搜索
  • 灵活性: RESTful API 和 JSON 支持使其易于与各种编程语言和工具集成
  • 无模式且面向文档: 允许灵活的数据存储,无需预定义的模式,并且可以轻松提取结构化和非结构化数据
  • 地理空间支持: 能够有效处理基于位置的查询和分析
  • 自动节点恢复: 内置功能可在节点发生故障或离开集群时帮助维持集群健康
  • 跨集群复制: 支持将索引从一个 Elasticsearch 集群复制到另一个 Elasticsearch 集群;适用于灾难恢复、数据局部性和集中报告场景
  • 一流的安全性: 支持多租户并提供强大的安全功能,包括基于角色的访问控制、加密和审计日志记录

使用案例:

弹性搜索插件最适合电子商务网站、安全实验室,尤其是那些需要高级产品搜索、推荐引擎和企业知识管理系统的网站。弹性搜索的一些用例包括:

  • 地理空间数据搜索
  • 日志和事件数据分析
  • 网站和电子商务搜索引擎
  • 商业智能

案例研究:

挑战: 首要的挑战是增加用户群以及随之而来的数据日志。Etsy 的日志系统收到垃圾邮件并且变得很慢。由于工程师无法将所有日志汇总或存储在一个地方,他们无法关联数据以进行分析。因此,该系统需要更高级的分析能力。

技术: Elastic 搜索工具是用于创建此基础设施的主要技术。它不是免费的,但 Etsy 支付了年度订阅费来使用 Elastic Search 的基于云的版本。这是最好的日志解决方案之一。

结果: Etsy 将日志处理移至外部,他们意识到迁移到 Etsycloud 为其开发人员创建了最佳日志解决方案。他们开始创建日志数据的可视化表示,这有助于深入了解系统的运行情况。最后,他们能够做他们多年来一直在寻找的事情 - 对日志数据进行出色的分析。

官网链接: https://www.elastic.co/elasticsearch

3 种混合搜索解决方案的比较 

特征松果威维特Elasticsearch
可扩展性专注于基于向量的语义搜索使用向量嵌入进行语义搜索将全文搜索与高级混合搜索相结合
一体化与机器学习模型无缝协作与 ML 模型良好集成并支持多种数据类型轻松与各种数据源和外部工具集成
实时搜索专为实时、高性能搜索而设计支持实时语义搜索功能提供高性能的实时搜索和分析
灵活性专注于向量搜索和推荐系统支持多种数据类型和用例能够进行复杂查询和详细过滤
高级功能高维向量相似度和实时更新最佳支持强大的语义搜索和知识图谱功能帮助进行全面的全文搜索、聚合和过滤

结论:

预计谷歌将面临美国司法部 (DoJ) 的更多审查,这将对其其他业务(包括谷歌搜索业务)产生冲击。这将推动更多采用新的搜索体验类型,以对抗其即将到来的竞争对手(如 Perplexity)。这对世界的意义在于,在数据不断增长和用户需求不断变化的情况下,超越基本的关键字搜索并在产品堆栈中采用混合搜索解决方案至关重要,以增强处理复杂查询时的用户体验,并保持竞争力和相关性。  

发布者
上一篇文章
你可能还会喜欢

留下你的评论:

您的邮箱地址不会被公开。 必填项已用 * 标注