返回技术能力
AI & Machine Learning

Vector DB

存 embedding 的专用数据库,语义搜索和 RAG 的底层基础设施。


它是什么

向量数据库专门存储和检索高维向量(embedding),支持相似度搜索。文本、图片、音频都可以被 embedding 成向量,然后通过向量距离找到最相似的内容。

为什么重要

传统关键词搜索找不到「意思相近但用词不同」的内容。向量搜索解决了语义匹配问题,是 RAG、推荐系统、图片搜索的基础设施。

核心概念

EmbeddingCosine SimilarityANNHNSWMetadata FilteringSparse/Dense

我的使用体验

用过 Chroma 做轻量项目,了解 Pinecone 和 Milvus 适合生产环境。选型关键看数据规模和是否需要分布式。小项目 Chroma 足够。

学习资源