开源 AI 搜索平台:大规模 hybrid 向量、文本与结构化检索
Vespa 在 docs.vespa.ai 与 vespa.ai 文档化开源 AI 搜索平台,面向大规模应用,结合 big data、向量搜索、机器学习排序与实时 inference。Vespa 可在单条 YQL 查询中通过 nearestNeighbor、weakAnd、wand、rank() 等算子实现 hybrid retrieval,并用分阶段 rank profile 组合 BM25、closeness 与 tensor 特征(见 docs.vespa.ai/en/learn/tutorials/hybrid-search)。内置 embedder 可在 Vespa 内生成文本 embedding(教程引用 snowflake-arctic-embed-xs 等模型)。定位 RAG 一阶段检索、推荐与 intelligent search,数十亿文档规模亚 100ms 延迟。可自托管或使用 Vespa Cloud。
使用场景
- 需要高 recall hybrid 一阶段检索的 RAG 管道
- 带 ML 排序的推荐与个性化
- 企业规模自托管 vector+search 替代方案
- 生产调优前 benchmark hybrid 搜索技术
- 与 typesense-mcp 对比评估 Agent 搜索后端
主要功能
- 单条 YQL 中 hybrid sparse+dense retrieval(nearestNeighbor、weakAnd、wand)
- 分阶段 rank profile 组合 BM25、向量 closeness 与 tensor 表达式
- 内置 embedder 支持在 Vespa 内生成文本 embedding
- 文本/向量/结构化 attribute 的 schema 与实时 indexing
- 分布式部署扩展至数十亿文档
相关推荐
相关推荐
3 收录条目
Typesense
Typesense 在 typesense.org/docs 文档化开源搜索引擎,支持容错关键词检索、分面与向量检索。向量搜索见 typesense.org/docs/30.2/api/vector-search:KNN、OpenAI/PaLM 或 ts/* 内置模型 auto-embedding、混合 rank fusion、按 ID 相似查询、HNSW 与 flat_search_cutoff。Typesense Cloud 或自托管,REST API 与官方客户端。
Algolia
Algolia 在 algolia.com/doc 文档化站点、应用与电商搜索平台,含容错、分面、过滤、个性化与 Recommend API。NeuralSearch(algolia.com/doc/guides/ai-relevance/neuralsearch/get-started)在关键词检索上叠加向量搜索、合并排序列表,并通过 default、conservative、expanded_reach、append_only 等 preset 混合结果;可在控制台或 semanticSearch/settings API 配置,多数 preset 变更无需 reindex。Algolia 亦文档化官方 MCP——Public MCP 用于应用范围索引暴露,Productivity MCP 位于 https://mcp.algolia.com/mcp 供用户范围的 search、Recommend 与 analytics 工作流。SDK 覆盖 JavaScript、Python、PHP、Java、Go、Ruby 与 .NET。
Exa
Exa 提供网页搜索、正文抽取、相似页面查找、答案生成和深度研究接口,更适合给 Agent 做事实 grounding,而不是给人看传统搜索结果页。