Recently in AI创作 Category

随着大语言模型(LLM)和 AI 应用的爆发式增长,一种新型数据库悄然成为 AI 基础设施的核心组件----向量数据库(Vector Database)

传统数据库的局限

传统关系型数据库擅长精确匹配:WHERE name = 'Alice'。但面对以下场景时力不从心:

  • 以图搜图:找出"视觉上相似"的图片

  • 语义搜索:用一句话找出"含义相近"的文档

  • 推荐系统:找出"行为上相似"的用户

这类问题的本质是相似性搜索,而不是精确匹配。

向量与嵌入(Embedding)

AI 模型(如 BERT、CLIP、text-embedding-ada-002)可以将非结构化数据转化为高维浮点数向量,称为 Embedding:

 "今天天气真好" → [0.12, -0.87, 0.34, 0.91, ...]  # 768 维

语义相近的内容,其向量在空间中的距离也更近。相似性搜索就转化为了近似最近邻(ANN, Approximate Nearest Neighbor)搜索问题。

向量数据库的核心能力

 原始数据 → Embedding 模型 → 向量 → 向量数据库存储 → ANN 查询 → Top-K 结果
能力说明
高效 ANN 搜索亿级向量毫秒级返回
多种索引支持IVF、HNSW、DiskANN 等
标量过滤向量搜索 + 条件过滤组合查询
水平扩展分布式存储与查询

OrbStack 数据恢复完整指南

概述

本指南记录了从OrbStack备份镜像文件(data.img.raw)中恢复Docker卷和容器的完整过程。

恢复内容

  • ✅ Docker卷:fedora4cnangel (2.2GB)

  • ✅ 容器:fedora43 (基于自定义Fedora 43镜像)

  • ✅ 用户配置、开发环境和历史数据

其他可用卷

备份中还包含以下卷(未恢复):

  • elasticsearch_certs (28KB)

  • elasticsearch_esdata01 (6.2MB)

  • elasticsearch_kibanadata (4KB)

Monthly Archives

Pages

Powered by Movable Type 9.1.1

About this Archive

This page is an archive of recent entries in the AI创作 category.

C/C++ is the next category.

Find recent content on the main index or look in the archives to find all content.