这就像是在一个拥挤的图书馆里找一本书,你知道它在哪个书架上,但是找到它还需要花费大量的时间。向量数据库处理的是各种AI应用产生的非结构化数据,通过近似查进行模糊匹配,输出的是概率上的提供相对最符合条件的答案,而非精确的标准答案。 举例来说,传统数据库做图片检索可能是通过关键词去搜索,向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近,就说明语意越接近,效果也有最相似。
随着时间的推移,向量数据库开始在不同的领域和应用中不断成长和进化。从世纪年 伊朗手机号码列表 代末到年初,美国国立卫生研究院和斯坦福大学都开始使用向量数据库。 年到年间,随着基因研究的深入和加速,向量数据库也在并行中增长,像UniVec 数据库这样的工具在年就已经被广泛使用,它们在基因序列比对、基因组注释等领域发挥了重要作用。 年和年之间,向量数据库开始爆炸式增长,它被应用于自然语言处理、计算机视觉、推荐系统等领域。
这些领域都需要处理大量和多样化的数据,并从中提取有价值的信息。 向量数据库通过使用诸如余弦相似度、欧氏距离、Jaccard 相似度等度量方法,以及诸如倒排索引、局部敏感哈希、乘积量化等索引技术,实现了高效和准确的向量检索。 目前各大厂商使用的推荐系统、以图搜图、哼唱搜歌、问答机器人等应用,其内核都是向量数据库。 在今年,向量数据库开始被用于与大语言模型结合的应用。 它为大语言模型提供了一个外部知识库,使得大语言模型可以根据用户的查询,在向量数据库中检索相关的数据,并根据数据的内容和语义来更新上下文,从而生成更相关和准确的文本。
|