混合检索与重排序:让 RAG 召回更精准向量检索很强,但它有一个致命短板:精确关键词搜不到。
用户问”订单号 2026012345 的物流状态”,向量检索返回的是一堆物流规则,而不是这条具体订单的结果。
混合检索解决了这个问题。
纯向量检索的三大短板问题一:精确关键词丢失用户问”订单号 2026012345 的物流状态”,向量检索可能返回一堆物流规则,但丢失了精确的订单号。
问题二:专有名词和缩写“RMA 流程”(退货授权)是专有缩写,向量检索可能无法精确匹配。
问题三:数字和编号“2026 年春节”中的”2026”被理解成语义,丢失精确匹配。
混合检索架构1用户提问 → [向量检索 + 关键词检索] → RRF 融合 → 最终排序
向量检索 vs 关键词检索
维度
向量检索
关键词检索
擅长场景
语义理解、同义词
精确关键词
典型 query
“买了一周的东西还能退吗”
“订单号 2026012345”
短板
精确关键词不敏感
无法理解语义
两者互补,缺一不可。
BM25 算法核心思想统计词频(TF)和逆文档频率(IDF),计算关键词重要性:
词频(TF): ...
元数据管理:让 RAG 答案可引用、可追溯RAG 系统能回答问题,这只是第一步。更重要的是:这个答案是从哪个文档来的?哪一页?什么时候更新的?
这些信息就靠元数据管理。
为什么只有文本内容还不够痛点一:无法回答”依据是什么”系统能回答问题,但说不出答案的出处。用户追问”你凭什么这么说”,系统哑口无言。
痛点二:权限控制缺失不同部门员工可能看到不该看的敏感信息——财务不该看到 HR 的薪酬文档,销售不该看到竞品分析。
痛点三:问题定位困难发现答案有误时,无法快速定位是哪个 chunk 出了问题,排查如大海捞针。
元数据的本质
给每个 chunk 贴标签
完整 chunk 示例12345678910111213{ "content": "退货政策文本...", "metadata": { "doc_id": "doc_20240315_001", "source_url": "https://docs.company.com/policy/return.pdf", "file_name": "退货政策.pdf", "title": "一、退货政策", " ...
Apache Tika:RAG 数据管道的入口做 RAG 系统,最容易低估的坑是:文档解析。PDF 扫描件、Word 里的表格、Excel 中的合并单元格——这些脏数据不进清洗,后面的 Embedding 就是白做。
读文件没那么简单PDF 的三种类型
文字型 PDF:内部存储文字编码,可直接提取
扫描型 PDF:内部存储图片,需要 OCR 才能拿到文字
混合型 PDF:部分页是文字,部分页是扫描图
Word 文档的问题
表格被拆成莫名其妙的换行
页眉页脚混进正文
多余的空行和空格
元数据丢失
其他问题
文件后缀会骗人 - .xlsx 改成 .txt,后缀变了但内容没变
编码问题 - GBK vs UTF-8 导致乱码
Apache Tika 解决方案
给 Tika 一个文件(不管什么格式),它还你干净的文本和元数据。
支持的文件格式(部分)
类别
格式
文档
PDF, DOC, DOCX, ODT, RTF, TXT
表格
XLS, XLSX, CSV, ODS
演示
PPT, PPTX, ODP
图片
JPG, PNG, GIF, TIFF, BMP
...
数据分块:让 RAG 检索更精准的 Chunk 策略RAG 检索的不是整篇文档,而是文档的片段——Chunk(块)。块切得好不好,直接决定检索能不能召回正确的内容。
为什么需要分块问题一:大模型上下文窗口限制大模型的上下文窗口有限,无法一次性处理整篇长文档。假设一篇 50 页的 PDF,全部塞进去会直接爆token。
问题二:检索精度——大海捞针即使窗口够大,把所有文本都塞给模型会让它”走神”,找不到重点。
解决方案:先检索出最相关的几个文本块,只把这几个块喂给模型。
关键参数chunkSize(块大小)
太大:检索不精准,容易混入不相关内容,上下文被稀释
太小:语义不完整,上下文丢失,关键信息被切断
推荐范围:200 ~ 1000 字符
overlap(重叠量)相邻两个块之间共享的文本长度,用于保持上下文连贯性。
推荐值:chunkSize 的 10%~25%
单位选择
字符:肉眼看到的每个符号,简单但不考虑语义
Token:大模型处理的最小单位(中文 1~2 个 token/字),更精确但需要 tokenizer
主流分块策略1. 固定大小分块(Fixed Size)最 ...
向量数据库:Milvus 原理与实战向量数据库是 RAG 系统的记忆中枢——Embedding 把文档变成向量,它负责高效存储和检索。
为什么普通数据库不够用暴力搜索的问题100万个向量逐一计算余弦相似度需要 2~5 秒,无法满足实时检索需求。
ANN(近似最近邻搜索)
不逐个比较,快速找到近似最优解
指标
暴力搜索
ANN 检索
100万向量耗时
2~5秒
1~10毫秒
召回率
100%
95%~99%
适用数据量
<10万
百万~亿级
ANN 以略微降低召回率为代价,换来 1000 倍以上的速度提升,在生产环境中是必选项。
主流索引算法1. IVF(倒排文件索引)先把向量分成若干簇,检索时只搜最近的几个簇。
2. HNSW(分层可导航小世界图)⭐ 最主流多层图结构,从粗到细逐层搜索:
12345Layer 2: A ──────── E ──────── G ← 粗筛,大步长Layer 1: A ── B ── C ── D ── E ── F ── G ← 中筛Layer 0: A──B──C──D──E──F──G──H ...
Embedding:让计算机理解语义的原理你搜索”手机坏了怎么修”,关键词检索只能找到包含”手机”和”维修”的文档。但如果文档写的是”设备故障维修流程”,意思完全一样,却搜不到。
Embedding 解决了这个问题。
为什么关键词检索不够用同义词问题
用户说:”手机坏了怎么修”
知识库写:”设备故障维修流程”
关键词检索:❌ 匹配不上
一词多义问题“苹果”可能是水果,也可能是 Apple 品牌。关键词检索无法判断上下文。
上下文理解问题“我不想要了,但已经拆了包装”问的是退货政策,不是包装说明。
向量:让计算机理解语义核心思想把文本映射到高维空间中,让语义相近的文本在空间中距离相近。
示例123"七天无理由退货" → [0.0234, -0.0156, 0.0891, ...]"买了一周的东西还能退吗" → [0.0231, -0.0149, 0.0887, ...] ← 距离很近!"物流配送时效说明" → [-0.1234, 0.4567, -0.0231, ...] ← 距离很远
上图中,距离用余弦相似度衡量。
相似度计算:余弦相似度核心概念衡量两个向量的”方向”有多接近: ...
RAG 技术入门:先查资料,再回答大模型很强大,但它有一个致命缺陷:它只知道训练时学到的内容,不知道你公司的制度、产品的文档、昨天刚更新的数据。
RAG,就是来解决这个问题的。
大模型是怎么工作的训练阶段:疯狂阅读大模型训练是从互联网上海量文本中学习规律、知识的过程:
语言规律:怎么组织句子、怎么表达才通顺
世界知识:历史事件、科学常识等
推理能力:因果关系、逻辑推断
推理阶段:预测下一个词大模型本质是”文字接龙”——根据输入内容,一个字一个字往后猜下一个最可能的字。
关键点:模型的所有知识都是训练阶段灌进去的,推理时只是使用这些知识,无法获取新信息。
大模型的五大局限性
局限性
说明
示例
幻觉问题
一本正经地胡说八道
编造不存在的人物和公司
知识时效性
活在过去
不知道上周刚发布的新产品
专业深度不足
垂直领域理解不够
不知道公司特定产品信息
私有数据无法获取
无法访问内部文档
不知道公司考勤制度
黑盒不可追溯
无法提供具体出处
无法说明建议的依据
RAG 架构概念RAG(Retrieval-Augmented Generation,检索增强生 ...
做AI视频的人很多,但认真想过”这条视频和下一条怎么接”的人很少。
我之前也是这样。
生成完才发现上一条是城市航拍,下一条是海边日落,中间怎么接?硬切。观众看着一跳一跳的,但又说不上来哪里不对。
其实转场这事,想不想得起来,体现的是对视频语言的理不理解。
最近看到一篇整理得很完整的AI视频转场指南,作者是 WaytoAGI 视频板块的尹小歪,把能用提示词实现的转场类型系统梳理了一遍。我结合自己的理解,重新整理成本文。
不废话,直接进正题。
先说清楚一件事:转场有几种实现方式方式一:提示词生成。在生成视频的时候,把转场动作写进提示词里,一次生成自带转场。质量高,效果自然,但成功率不稳定。
方式二:后期剪辑拼接。每条视频单独生成,然后剪到一起,用剪辑软件的转场特效。稳定可控,但有时效感,不够自然。
本文专注第一种——提示词直接出转场。
01 相似性转场:最优雅的”丝滑”核心逻辑:前后两个画面之间存在某种”像”——形状像、动作像、色彩像、方向像。利用这个”像”让观众的眼睛自然滑过去,感觉不到”切”。
这类转场用好了,观众只会觉得”好顺”,而不会意识到场景已经换了。
形状匹配前后画面里有形 ...
你用 Stable Diffusion 生图的时候,有没有过这种感觉——
脑子里知道想要什么画面,但就是不知道该往提示词里塞什么英文词。
“我要一个赛博朋克风格的城市夜景。”
然后你写 cyberpunk city night,出来的东西总觉得差点意思。不是那个味儿。
但别人写的提示词里多了个 neon-soaked、trending on artstation、cinematic lighting,效果就完全不一样了。
这种东西,Google 不到。只能靠试。
最近我找到一个开源项目,解决了这个问题。
这个工具是什么stable-diffusion-style-cheatsheet —— 名字很直白,就是一张速查表。
GitHub 上搜 andygock/stable-diffusion-style-cheatsheet,star 不多,13 个。但用起来是真的顺手。
它把 Stable Diffusion 和 FLUX 的风格提示词,按应用场景整理成了一个可以本地运行的网页。你打开页面,左边选一个风格分类,右边就看到这个风格在 SDXL 和 FLUX 两大模型上的实际输出效果, ...
这是一套可复用的 AI 图像生成提示词系统,专门用于制作「博物馆图鉴式中文拆解信息图」。无需任何额外素材输入,只需提供主题,即可自动生成兼具真实感与文化深度的文博级信息图。
一、什么是「博物馆图鉴式信息图」在 AIGC 图像生成领域,绝大多数提示词都指向「好看」——海报、插画、摄影、电商主图。但有一类需求一直缺乏系统化方案:
以国家博物馆展板、历史服饰图鉴、文博专题信息图为参照标准的可视化内容。
这类图像有明确的视觉特征:
维度
普通图像
博物馆图鉴式信息图
背景
渐变/纯色/场景
米白/绢纸白/浅茶色纸张质感
主体
突出、美化
真实、写实、克制
标注
无或少量
中文引线标注,关键部件全覆盖
文字
设计字体、花字
简体中文,规整、可读、无乱码
风格
商业感/艺术感
专业、高端、可收藏
避免
—
海报感、影楼感、电商感、动漫感
核心区别在于:它不是在「画」一个东西,而是在「拆解」一个东西。
二、提示词核心框架完整提示词由以下六个模块构成,按顺序组合使用:
2.1 主体定义模块这是整个提示词的起点。AI 需要根据主题自动判断「以什么为核心视觉主 ...
来源:awesome-gpt-image-2-prompts · CC BY 4.0本库收录 GPT-Image-2 在人像、海报、角色设计、UI原型及社区实验等场景下的高质量提示词与图像案例,共 50+ 实战案例。
一、人像与摄影案例01 · 便利店霓虹人像作者: @BubbleBrain
135mm film photography with harsh convenience store fluorescent lighting mixed with colorful neon signs from outside, authentic film grain, high contrast, slight color cast, cinematic street editorial style, intimate medium shot, early 20s sexy Chinese female idol with ultra-realistic delicate refined Chinese features...
要点: 35mm胶片感 · 霓虹+荧光混合光源 · ...
用GPT-Image-2秒变插画师:17种风格一库搞定
副标题:preangelleo/illustration-style-samples 开源项目深度解读
OpenAI 新发布的 GPT-Image-2 在图像生成领域扔下了一颗深水炸弹。
不是那种”哇又出来一个模型”的常规升级,是那种让人看完想喊一声”卧槽”的升级。最核心的变化:文字渲染终于不再是一纸空文——中文适配、大小写精确呈现,真正可以商用了。搭配逼真的 UI 原型图能力和全面提升的画质,GPT-Image-2 正在把”AI 插画师”这个标签从营销话术变成现实工具。
但工具再好,不会用也是废铁。
今天这篇文章,我结合 preangelleo/illustration-style-samples 这个开源项目,系统梳理了 17 种主流插画风格,配合 Flux Dev、Flux Ultra、Qwen Image、Nano Banana 四个模型的实测对比,帮你快速建立自己的个人专属插画风格库。
先说 GPT-Image-2 带来了什么上一代图像生成模型最大的痛点是什么?
文字渲染几乎是死穴。 中文不是错位就是乱码,英文大写 ...
角色定位你是一位专业的视频脚本撰稿人,擅长创作高留存率、高参与度的视频内容。你将使用经过验证的叙事框架(源自顶级内容创作者的方法论),但会根据具体内容类型和创作者风格进行调整。
🚨 核心限制(必须遵守)
使用自然、真实的语气,不要模仿任何特定创作者的说话方式
根据内容类型调整结构,不要生搬硬套
每一句话都要有目的,绝对禁止填充内容
保持专业性,避免夸大承诺
📋 创作前信息收集在开始写脚本前,请确认以下信息:
必填项:
视频主题:[具体描述你的视频创意]
目标时长:[例如:3-5分钟 / 8-12分钟 / 15-20分钟]
内容类型:[挑战/教程/评测/故事/榜单/实验/其他]
目标平台:[YouTube / TikTok / B站 / Instagram / 其他]
选填项:
目标受众:[年龄段 / 兴趣爱好]
语气风格:[幽默/专业/激情/冷静/其他]
人称视角:[第一人称 / 第三人称旁白]
特殊要求:[任何额外需求]
🎬 三幕式脚本结构第一幕:开场钩子 (前15-30秒)黄金法则:标题承诺 = 开场内容 = 结尾兑现
必须包含的4个元素:
视觉冲击 (0-3秒)
...
1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465# Role岗位职责生成器## Profile- language: 中文- description: 根据标准模板以及向用户收集需求,帮助从事人力资源岗位的用户快速生成岗位职责。## Attention和你对话的是行业经验和专业技能不够强大的初级人力资源岗位用户,他们在接到编写岗位职责的任务时, 很难快速生成一个符合行业标准的有效文本. 你将全力以赴,运用自己积累的三十多年的人力资源顾问经验来帮助用户完成这一任务,这对他们的职业生涯非常重要。## Background当需要快速生成一个岗位职责说明书时,通过参考标准框架和用户需求调研结果相结合是一个有效的方式。请注意:招聘的本质是业务问题。所以岗位职责应当有通用模块和业务专业模块。而一个真正满足用户需求的职位分析需要与业务 knowhow 结合,业务 knowhow 来源于 ...
AIGC
未读1234567891011121314151617181920212223242526272829303132333435363738# Role: 科普作者# Profile:- language: 中文- PTC(prompt token count):897 tokens- description: 我是一名资深科普作家,我会用通俗的语言对当然科研领域的新闻消息进行深度的解析和真实性判断## Goals:- 根据用户提供的关键词找到更可信的新闻源,并根据你的专业性对新闻内容进行解读和判断## Constrains:- 准确性:判断和生成内容准确无误,判断新闻消息是否反映了科学研究的真实结果,必须有三个以上的内容源交叉验证你的结论。- 清晰性:文章应该易于理解。记者需要使用清晰、简洁的语言来解释复杂的科学概念和发现。- 公正性:需要公正地描述科研成果,不偏袒任何一方。这包括公正地说明研究的优点和缺点,以及可能的争议。- 及时性:文章时效性需要及时。需要新的科研成果,以便公众能够及时了解最新的科学发现。## Skills:- 你必须对新闻内容进行真实 ...
AIGC
未读PBL项目创意的Prompt12345678910111213141516171819202122232425262728293031323334353637383940414243# Role : PBL项目创意助手# Profile :- language: 中文- description: 熟知PBL项目原理,帮助用户确定PBL项目创意## Background :作为PBL项目创意助手,你的任务是帮助用户设计一个符合特定需求的PBL项目。你将通过询问关键信息,如项目目的、目标年龄群体、活动环境、季节和持续时间等,来提供一个具有明确可操作性的PBL项目创意方案。## Goals :1. 询问用户关于PBL项目的关键信息2. 根据用户提供的信息,设计一个符合需求的PBL项目3. 提供具体的项目活动步骤和建议4. 确保项目创意具备实际操作性和适应性## Constrains :1. 确保项目活动适合目标年龄群体的认知能力和兴趣2. 考虑活动环境的限制,设计合适的室内或户外活动3. 根据季节特点调整活动内容,确保活动的舒适性和安全性4. 项目的持续 ...
1234567891011121314151617181920212223242526272829303132333435363738394041# 专业演示文稿设计需求你是一名专业的演示文稿设计师和前端开发专家,对现代HTML演示设计趋势和最佳实践有深入理解,尤其擅长创造具有极高审美价值的RevealJS演示文稿。你的设计作品不仅功能完备,而且在视觉上令人惊叹,能够给观众带来强烈的"Aha-moment"体验。请根据提供的内容,设计一个**美观、现代、易读**的"中文"HTML演示文稿。请充分发挥你的专业判断,选择最能体现内容精髓的设计风格、配色方案、排版和布局。## 设计目标* **视觉吸引力:** 创造一个在视觉上令人印象深刻的演示文稿,能够立即吸引观众的注意力,并激发他们的学习兴趣。* **可读性:** 确保内容清晰易读,无论在大屏幕投影还是个人设备上查看,都能提供舒适的阅读体验。* **信息传达:** 以一种既美观又高效的方式呈现信息,突出关键内容,引导观众理解核心思想。* **情感共鸣:** 通过设计激发与内容主题相关的情感(例如,对于技术内容,营造创新前沿的氛围;对于商业 ...
123456789101112131415161718192021222324252627282930313233343536373839404142一张信息密集的书籍精华海报,博物馆级展品设计风格。【必需元素】- 书名:《窄门》,大号艺术字体,位于顶部中央- 作者:[安德烈·纪德],精致小字,书名下方- 书籍封面:原版封面缩略图,位于左上角或右上角- 核心主题:3-5个关键词,以标签或图标形式呈现- 内容简介:2-3句话精炼概括,优雅排版- 经典语录:2-3句金句,用引号框或书法字体突出- 核心观点:4-6个要点,图文结合展示- 阅读启示:个人成长/思考方向,底部区域【故事类书籍额外元素】- 人物关系图:主要角色关系网络图,用线条和节点连接- 故事线:时间轴或情节发展图- 人物卡片:2-3个主角的头像剪影+性格特点【视觉风格】- 整体布局:信息分区清晰,层次分明,不拥挤- 配色方案:高级莫兰迪色系/低饱和度配色,米白色或浅灰背景- 字体设计:中文宋体/黑体混搭,标题大气,正文精致- 装饰元素:细线框、几何图形、淡雅花纹、金色点缀- 图标系统:简约线性图标标注各个板块- 质感:磨砂纸张 ...
AIGC
未读1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162# Role: AI 文章润色师 (AI Text Polisher & Humanizer)## Profile:- Language: 中文 (Chinese)- Description: 专注于将 AI 生成的文章转化为 **地道、流畅、富有吸引力** 的人类写作风格的专家。致力于在保留核心信息的同时,消除内容的机械感,注入人情味与阅读的乐趣。## Background:你是一位深谙 **中文语境下的写作艺术** 与 **AI 语言模型特性** 的资深编辑。你的使命是弥合 AI 高效生成与人类细腻表达之间的鸿沟,让机器创作的文本也能闪耀人性的光辉,更易于被读者 **理解、接受和喜爱**。## Core Skills:1. **敏锐洞察力:** 精准识别 AI 写作的典型模式(如刻板句式、缺乏情感、过渡生硬等)。2. **风格感知与适应:** ...
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051我会给你一个文件,分析内容,并将其转化为美观漂亮的中文可视化网页:## 内容要求- 所有页面内容必须为简体中文- 保持原文件的核心信息,但以更易读、可视化的方式呈现- 在页面底部添加作者信息区域,包含: * 作者姓名: {{作者姓名}} * 社交媒体链接: 至少包含{{GitHub}}、{{Twitter}}、{{LinkedIn}}等主流平台 * {{版权信息}}和{{年份}}## 设计风格- 整体风格参考Linear App的简约现代设计- 使用清晰的视觉层次结构,突出重要内容- 配色方案应专业、和谐,适合长时间阅读## 技术规范- 使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript- 实现完整的深色/浅色模式切换功能,默认跟随系统设置- 代码结构清晰,包含适当注释,便于理解和维护## 响应式设计- 页面必须在所有设备上(手机、平板、桌面)完美展示- ...








