大模型提示词实用指南

提示词不是“芝麻开门”般的咒语,而是一份给模型看的任务书。模型输出是否稳定,通常不取决于用户是否使用了夸张的身份、激励或套话,而是任务是否明确、资料是否充分、边界是否清楚、格式是否可执行。
这份指南按实际使用顺序展开。先讲判断原则,再讲提示词结构、常见误区、任务场景写法、复杂任务处理、效果评估和迭代方法,最后给出可直接套用的模板。读完后,可以不再依赖零散技巧,而是用一套稳定的方法设计提示词。
一、基本定位:清晰描述任务
大模型接收提示词后,并不会因为用户承诺“小费”、制造压力、反复强调“这很重要”而天然变得更可靠。真正能改善输出的,是清晰的任务、准确的上下文、可执行的约束和明确的验收标准。
当然,在某些特定的情景下,不太文明的提示词能够歪打正着的提高大模型回复的质量。
写提示词时,可以把模型当作一位能力很强但不了解业务细节的新同事。用户需要交代任务目标、资料范围、工作步骤、输出格式和禁止事项。交代得越清楚,输出越稳定;交代得越抽象,模型越容易凭默认模式补全,进而出现跑题、泛化、编造或格式不合规。
好提示词的无需措辞复杂,把需要执行的任务交代完整即可,目标、依据、边界、步骤和交付形态都不能缺位。
从机制上看,大模型并不是在接收提示词后检索一个预设答案,而是在给定上下文中生成最可能的后续文本。提示词越明确,模型可利用的上下文约束越充分;提示词越含混,模型越容易调用训练语料中的常见表达模式随机进行补全。这就好比有人问你吃什么,你回答“随便”或者“火锅”,得到的结果是相去甚远的。
因此,提示词设计的关键不是制造神秘指令,而是减少模型需要猜测的空间。反过来,如果提示词只写“详细一点”“专业一点”“帮我优化”,模型只能根据默认经验补全,输出就容易出现泛化、跑题或不合规。
这种能力与“大模型的上下文学习”有关。研究表明,规模化语言模型可以通过提示词中的任务说明和少量示例完成新任务,而不一定需要重新训练模型。这也说明,提示词不是附属装饰,而是模型完成任务时最直接的上下文条件。[1]
二、六条原则
(一)任务明确:先说要做什么
提示词开头应直接写明任务。不要先铺垫大量背景再把真正需求藏在最后。复杂任务可以分层说明,但核心指令要放在前面。
(二)标准量化:把“好一点、详细点”改成可执行标准
“详细”“专业”“不要太长”都属于弹性词。更稳妥的写法是明确字数、段落数、分析维度、必须包含的项目和禁止遗漏的内容。
(三)边界清楚:说明依据范围和排除范围
涉及事实、法规、案例、数据、引用时,要告诉模型只能依据哪些材料,哪些内容不能自行补写。资料不足时,应要求模型明确说明不足,而不是用常识填补。
(四)角色有用,但不能替代任务说明
角色设定可以限定专业视角、文体和审查标准,但必须服务于具体任务,不能替代资料、维度和输出规则。
(五)格式先定:不要让模型猜交付形态
需要表格、清单、正文段落、JSON、Word 大纲或审稿意见时,应在提示词中直接写明。格式越明确,后期返工越少。
(六)允许不确定:降低编造概率
涉及证据不足、资料缺失、来源无法核验时,应允许模型回答“不确定”或“资料不足”。强迫模型必须给答案,往往会提高幻觉风险。
|
常见弱表达 |
问题 |
更稳妥的写法 |
|
帮我写好一点 |
“好”没有标准,模型只能猜 |
明确主题、受众、字数、风格、结构和必须包含的信息 |
|
你是顶级专家 |
身份口号不能替代分析规则 |
说明专家身份对应的审查维度、判断标准和输出格式 |
|
越详细越好 |
可能导致冗长、发散、重点不清 |
列出分析维度,并限定每一部分的深度和长度 |
|
不要胡说 |
约束过于笼统 |
要求“无资料依据则标注资料不足,不得自行编造来源、数据和结论” |
|
按你觉得合适的格式 |
输出形态不稳定 |
指定为表格、分点、正文段落、JSON 或可直接粘贴到文档的格式 |
三、标准结构
多数任务可以采用“任务—资料—要求—格式—核验”的结构。它不复杂,但能覆盖日常使用中的主要变量。
(一)通用结构
【任务】请完成什么工作,例如:审阅文章、改写段落、提炼观点、生成方案、核验事实。
【资料】以下内容是必须依据的材料,或说明可使用的资料来源。
【角色/视角】从什么专业角度处理,例如财务、税务、法律、商业史、学术审稿。
【要求】必须保留什么、补充什么、禁止什么、需要达到什么标准。
【输出格式】按标题、表格、清单、段落、JSON 或 Word 结构输出。
【核验规则】资料不足时如何处理,是否需要标注不确定性、引用来源或待确认事项。
这套结构的作用,是把任务边界转化为模型可执行的规则。
(二)分层提示词:复杂任务不要混成一大段
对复杂任务,可以把提示词理解为四层:任务层、资料层、规则层和交付层。任务层解决“做什么”,资料层解决“依据什么”,规则层解决“怎么判断、怎么处理”,交付层解决“最终交成什么样”。
复杂提示词不是越长越好,而是层次要清楚。如果任务、背景、限制和格式混在一个大段落里,模型容易遗漏;如果四层分明,即使提示词较长,执行稳定性也会更高。
(三)更适合复杂材料的标签结构
当材料较长,或同时包含背景、任务、格式、禁止事项时,可以使用标签分隔。标签名称不必固定,关键是前后一致、层次清楚。中文标签和 Markdown 标题同样可用。
<资料>
在这里粘贴文章、数据、会议记录、法规条文或案例材料。
</资料>
<任务>
请基于上述资料完成审阅,并指出事实错误、逻辑漏洞、表达问题和可修改位置。
</任务>
<输出格式>
1.总体判断;2.问题清单;3.修改建议;4.不确定事项。
</输出格式>
<限制>
不得脱离资料编造事实;无法判断的内容请标注“资料不足”。
</限制>
四、常见误区
误区一:用激励、威胁、讨好替代清晰指令
“我给你小费”“做不好就惩罚你”“拜托一定要认真”这类表达通常不会稳定提升质量。应把篇幅留给任务、资料、标准和格式。
误区二:迷信“专家身份”开头
角色设定不是无效,但不能滥用。它适合限定写作风格、专业视角和审查框架;不适合作为事实准确性的保证。事实类任务更需要资料来源、检索范围、引用规范和不确定性标注。
误区三:模板越长越好
长提示词如果只是堆砌套话,会稀释核心任务。复杂提示词应“分层”,不是“堆字数”。
误区四:把“认真、仔细、深入”当作万能词
这些词可以作为语气提醒,但不能替代步骤。更好的写法是列出分析步骤、检查维度和验收标准。
误区五:强迫模型必须给确定答案
在事实、法律、财税、医学、金融等高风险场景,允许模型说“不确定”反而更可靠。要求模型说明依据、缺口和可核验路径,比要求它“必须回答”更安全。
延伸:常见幻觉类型与提示词控制方式
幻觉并不只表现为“编造事实”。在实际使用中,它还可能表现为编造文献、误用法规、跳步推理、错误计算或生成不合规格式。提示词无法彻底消除幻觉,但可以通过限定来源、要求依据、允许不确定和规定核验步骤来降低风险。
|
幻觉类型 |
典型表现 |
提示词控制方式 |
|
事实幻觉 |
编造不存在的数据、政策、案例或公司事实 |
限定资料来源,要求无法确认时标注“资料不足” |
|
引用幻觉 |
生成看似真实但不存在的论文、法规、网页链接 |
要求逐条核验标题、发布主体、日期和链接 |
|
逻辑幻觉 |
事实本身正确,但推论过度或因果关系不成立 |
要求区分事实、推断和结论,列出判断依据 |
|
计算幻觉 |
公式、口径或计算过程错误 |
要求列出公式、字段来源和计算过程 |
|
格式幻觉 |
JSON、表格、编号、字段不符合要求 |
给出固定字段、示例格式和自检规则 |
涉及法律、财税、医学、金融、投资、新闻核验、公司公告等任务时,提示词至少应包含以下要求:
1.明确资料来源,不得使用无法核验的二手材料替代正式来源;
2.要求列出依据,并区分事实、推断和建议;
3.涉及法规、政策、价格、行情、公告时,应核验发布日期、适用期间和效力状态;
4.对无法确认的内容标注“资料不足”或“待核验”;
5.禁止编造法规、案例、数据、文献和链接;
6.涉及专业责任的结论,应提示需要人工复核。
这类任务的目标不是让模型“给一个看起来完整的答案”,而是让模型在证据边界内完成整理、分析和提示风险。
误区六:忽略当前工具能力
有的模型能联网、读文件、调用工具,有的不能。提示词写得再完整,也不能替代模型没有的能力。涉及最新政策、行情、新闻、价格、法规、公司公告时,应明确要求使用外部资料;如果当前模型不能检索或读取文件,则应要求其说明无法实时核验。
可以把任务分为两类:一类是“基于已给材料处理”,例如改写文章、提炼摘要、整理会议纪要;另一类是“需要外部事实支持”,例如核验法规、分析上市公司公告、比较商品价格、生成新闻日报。后一类任务仅靠提示词并不可靠,必须引入搜索、文件读取、数据库、计算工具或人工复核。
|
任务类型 |
单靠提示词是否足够 |
应补充的资料或工具 |
|
润色已有文章 |
通常足够 |
原文材料、风格要求 |
|
核验最新法规 |
不足 |
官方网站、法规数据库、发布日期 |
|
分析 Excel 数据 |
不足 |
原始表格、字段说明、计算工具 |
|
撰写公司案例研究 |
不足 |
公告、年报、监管处罚、权威媒体报道 |
|
生成新闻日报 |
不足 |
新闻源检索、链接核验、发布时间筛选 |
五、不同任务场景的写法
提示词没有一种固定写法。不同任务要突出不同变量:写作任务重风格和受众,分析任务重维度和证据,事实核验重来源和不确定性,数据任务重口径和格式。
示例:从弱提示词到可执行提示词
提示词优化不是把句子写长,而是把模型容易误解、遗漏或自行发挥的部分补齐。下面以常见写作任务为例。
|
项目 |
内容 |
|
弱提示词 |
帮我把这篇文章写专业一点。 |
|
可能问题 |
“专业”没有标准,模型无法判断受众、保留边界、改写幅度和输出格式,容易大幅改动原意。 |
|
改进提示词 |
请以财务专家和学术审稿人的视角,对以下文章进行润色。要求保留原文事实、数据、案例和结论,只优化逻辑衔接、专业表达和段落节奏。输出修订后全文,不要解释修改过程。 |
|
改进效果 |
任务、角色、保留边界和输出形态均被明确,模型更容易把修改限定在表达层面,降低擅自改写事实和结论的风险。 |
对复杂任务,建议至少检查四个问题:模型是否知道要做什么,是否知道依据什么做,是否知道哪些内容不能动,是否知道最终交付成什么格式。
(一)写作类任务:明确主题、受众、文风和结构
写作类任务最怕“泛”。应说明文章主题、目标读者、核心论点、篇幅、文体、禁止事项。若有范文,应给出可模仿的风格片段,但不要只说“像某某一样”。
|
要素 |
写法示例 |
|
任务 |
围绕“中小企业内控不能照搬大厂制度”写一篇文章。 |
|
受众 |
中小企业老板、财务负责人。 |
|
文风 |
专业、克制、有案例感,避免口号化。 |
|
结构 |
开篇提出问题;中段解释为什么大厂制度不适配;后段提出三条轻量化内控路径。 |
|
限制 |
不要使用“首先、其次、此外”的机械递进;不要空泛倡议。 |
对风格要求较高的任务,可以补充“正例”和“反例”。抽象地写“专业、克制、有案例感”有时仍不够稳定;给出一段符合要求的样例,再说明哪些表达不符合要求,模型更容易把风格要求转化为可执行的文本模式。
|
场景 |
更稳妥的提示方式 |
|
模仿文风 |
粘贴一段范文,说明可模仿的是叙事节奏、句式密度和论证方式,不要求照搬观点 |
|
分类判断 |
给出正例、反例和边界案例,说明判定标准 |
|
审稿评分 |
给出高分样例和低分样例,说明差异 |
|
结构化输出 |
给出完整字段样例,并说明字段缺失时如何处理 |
示例不是越多越好。与任务高度相关的一两个样例,通常比大量无关材料更有效。
(二)改写润色类任务:明确保留项与改动边界
改写任务不是重写任务。若原文事实、数据、结论不能动,必须写清楚。尤其是财务、税务、法律文章,提示词要同时规定“保意、保真、去痕”。完整可复制模板见第九章。
(三)分析审阅类任务:给出维度与评分规则
审阅类任务要避免让模型自由发挥。应指定评分维度、问题定位方式、建议粒度和输出表格。完整可复制模板见第九章。
(四)事实核验类任务:限定来源、要求证据、允许未知
事实核验不能只问“对不对”。应要求列出可核验依据、疑点、替代资料和无法确认的部分。链接失效时,应寻找权威替代来源;无法确认的条目,应标注“待核验”。
(五)数据分析类任务:明确口径、字段、计算方法
数据分析提示词必须交代字段定义、时间范围、计算口径、异常值处理方式和输出表格。否则模型容易给出漂亮但不可复核的结论。
(六)结构化输出任务:先给格式,再给内容
需要 JSON、表格、清单、Word 章节时,应把格式放在提示词中,并要求模型不要额外添加解释。例如:输出为 JSON 数组,每条新闻包含 title、source、date、summary、url、category;字段缺失时填 null,不要编造;除 JSON 外不要输出其他文字。
六、复杂任务的分步处理
复杂任务不宜一次塞进一个大段落。更稳妥的办法是把任务拆成“理解—判断—执行—核验”四步。模型可以先在内部分析,再输出结构化结论;用户不需要追求完整思维链,而应要求模型给出可检查的依据、步骤摘要和最终结果。
(一)分步提示的基本方法
1.先要求模型识别任务目标、材料范围和可能风险。
2.再要求模型按指定维度分析或处理。
3.随后要求输出正式结果。
4.最后要求自检:是否遗漏要求、是否有无依据内容、格式是否合规。
(二)复杂任务提示词示例
请处理以下文章,按四步完成:
第一步,概括文章核心论点和结构,不超过 200 字;
第二步,检查事实、数据、引用和逻辑链条,列出问题清单;
第三步,在不改变事实和结论的前提下进行全文修订;
第四步,自检是否保留原文数据、案例、术语和引用,列出仍需人工确认的事项。
注意:最终输出以“修订后全文”为主,不要输出冗长解释;资料不足处标注“待核验”。
七、相关概念
日常使用提示词不需要掌握复杂算法,但了解几个基本概念,有助于判断什么时候靠提示词就够,什么时候必须补充资料或工具。
(一)上下文学习
上下文学习说明,模型不仅会读取任务说明,也会从提示词中的示例中归纳任务模式。因此,示例本身应被视为任务条件的一部分 [1]。
(二)思维链提示
对推理、计算、规划类任务,分步提示往往比直接要求答案更可靠。相关研究表明,让模型生成中间推理步骤,可以改善部分复杂推理任务的表现 [2]。但在实际办公场景中,用户不必追求完整思维链,更应要求模型给出可检查的依据、步骤摘要和最终结论。
(三)检索增强生成
对法规、新闻、公告、论文、价格等事实密集型任务,模型内部知识可能过时,也可能无法给出来源。检索增强生成的思路,是让模型结合外部资料生成答案,以提高事实可追溯性和时效性 [3]。
(四)推理与行动结合
对需要搜索、读取文件、调用工具的任务,仅靠“想”不够,还需要模型执行外部动作。ReAct 等方法强调把推理与行动结合起来,使模型在需要时查询资料、调用工具、修正路径 [4]。这类任务的提示词应写清楚:何时检索、检索哪些来源、如何引用、如何处理资料不足。
八、效果评估与迭代
提示词不是一次写完就结束。高质量提示词往往来自“输出—检查—修正—再输出”的循环。模型输出失控时,第一件事不是责怪模型,而是倒查任务、资料、边界、格式或核验规则是否存在缺口。
(一)四个评估维度
|
评估维度 |
检查问题 |
|
准确性 |
是否完成核心任务,是否遗漏明确要求,事实和计算是否可靠。 |
|
相关性 |
是否围绕主题展开,是否出现无关内容、跑题或过度发挥。 |
|
可用性 |
输出能否直接使用,是否还需要大量人工改写。 |
|
稳定性 |
多次生成或换模型后,结构和质量是否基本一致。 |
(二)常见问题的倒推修正
|
输出问题 |
可能原因 |
提示词修正方向 |
|
答非所问 |
核心任务不突出,真正需求被背景淹没 |
把任务目标放在第一句,复杂任务分层列出 |
|
内容空泛 |
缺少资料、场景、受众和分析维度 |
补充背景材料,明确必须覆盖的要点 |
|
输出太长 |
没有限定篇幅、层级或表格列数 |
限定字数、段落数、表格字段和输出范围 |
|
格式混乱 |
只说“按合适格式”,没有给结构 |
指定标题、表格列名、JSON 字段或示例格式 |
|
事实不稳 |
没有限定资料来源,也没有允许不确定 |
要求列出来源,无法确认时标注“待核验” |
|
文风机械 |
只有抽象风格词,没有样例和禁用表达 |
给出范文片段,明确禁止套话和机械递进 |
|
建议不可操作 |
只要求“提出建议”,没有规定建议粒度 |
要求每条建议包含问题定位、修改动作和替换文本 |
|
擅自改写事实 |
没有说明保留边界 |
明确保留事实、数据、案例、术语和结论 |
九、常用模板库
以下模板可直接替换关键词使用。使用时不要机械套用,应根据任务删减无关部分,保留真正影响输出质量的要求。
(一)通用任务模板
请完成以下任务:{任务名称}。
背景/资料:{粘贴资料或说明资料来源}。
处理视角:{专业角色或审查角度}。
具体要求:1){要求一};2){要求二};3){要求三}。
输出格式:{表格/清单/段落/JSON/Word 章节结构}。
限制:不得编造资料、数据和来源;无法判断的内容请标注“资料不足”。
(二)文章审阅评分模板
请以财务专家、税务专家、企业管理专家、学术审稿人和作家的综合视角,审阅以下文章。
评分总分 100 分,维度包括:内容深度与原创性、事实与数据准确性、逻辑结构、专业表达、语言流畅度。
每一条建议需包含:问题位置、问题说明、修改方向、可直接替换的文字或操作建议。
不得泛泛评价,不要只写“建议加强论证”;必须指出具体怎么改。
(三)全文去痕改写模板
请对以下文章进行全文修订。
核心原则:保意,保留每段核心观点、逻辑和结论;保真,原文数据、案例、术语、引用不得删改;去痕,减少模板化转折、空洞判断、机械递进和不自然术语堆砌。
输出要求:直接输出修订后的完整文章。无需解释修改过程。不得使用“此段保持不变”等说明性文字。
如需新增参考文献,正文中按“[序号]”标注,并在文末列出完整来源。
(四)事实核验模板
请核验以下内容的事实准确性。
核验对象:{文章/数据/参考文献/案例描述}。
核验标准:来源是否存在、主体是否权威、日期是否匹配、表述是否与原始材料一致。
输出格式:表格,列为“原文表述—核验结果—依据—风险等级—修改建议”。
限制:没有可靠依据的,不得判断为真实;只能标注“未能确认”或“待核验”。
(五)研究写作模板
请围绕{公司/事件/主题}撰写一篇研究文章。
资料范围:优先使用政府部门、监管机构、交易所公告、权威财经媒体和公司公告。
结构要求:事件背景、关键事实、财务/法律/治理分析、责任链条、影响与启示、结语。
引用要求:正文以“[1]”形式标注,文末按 GB/T 7714 格式列出参考资料并保留完整 URL。
限制:不得使用无法核验的网文、论坛传言或二手拼接材料替代权威来源。
(六)数据分析模板
请基于以下数据完成分析,不得使用数据之外的信息推断事实。
分析维度:{盈利能力/偿债能力/营运效率/现金流/趋势变化/对标分析}。
要求:列出公式、计算过程、结果表格和解释;异常数据需单独说明;无法计算的指标请说明原因。
输出格式:先给结论摘要,再给指标表,最后给风险提示和待补充数据清单。
十、检查清单
发送提示词前,可用下面清单作最后检查。前文已经讨论过原则和结构,本节只保留可执行项目,便于快速核对。
•任务是否一句话说清楚了?
•是否提供了必要资料或说明资料来源?
•是否明确受众、专业视角或文风?
•是否列出必须包含的内容?
•是否写明禁止事项,例如不得编造、不得省略、不得改变数据?
•是否规定输出格式、长度和结构?
•是否允许模型在资料不足时说明不确定?
•是否删除了无关铺垫、情绪化表达和无效套话?
•复杂任务是否拆分为步骤或模块?
•是否设计了检查或自检环节?
十一、层级
提示词使用大致可以分为三个层级。第一层是把话说清楚,解决模型听不懂的问题;第二层是把边界说清楚,解决模型乱发挥的问题;第三层是把任务流程设计清楚,解决复杂工作不可控的问题。
初级用户往往追求“万能提示词”,成熟用户更关注“任务设计”,专业用户则会把提示词、资料、工具和核验机制组合成一套可复用的工作流。提示词不是孤立技巧,而是人机协作流程中的任务接口。
结语
好提示词的本质,是把人的真实需求翻译成模型可以执行的工作说明。它不靠神秘词汇,也不靠夸张身份,而靠清晰的任务、可靠的资料、明确的边界、稳定的格式和持续迭代。
日常使用中,只要坚持“说清任务、给足资料、限定边界、指定格式、允许不确定、根据输出反推修改”这六件事,大多数写作、分析、核验和办公任务都能获得更稳定、更可用的结果。
参考文献
[1] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[EB/OL]. arXiv, 2020-05-28[2026-06-03]. https://arxiv.org/abs/2005.14165.
[2] WEI J, WANG X, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models[EB/OL]. arXiv, 2022-01-28[2026-06-03]. https://arxiv.org/abs/2201.11903.
[3] LEWIS P, PEREZ E, PIKTUS A, et al. Retrieval-augmented generation for knowledge-intensive NLP tasks[EB/OL]. arXiv, 2020-05-22[2026-06-03]. https://arxiv.org/abs/2005.11401.
[4] YAO S, ZHAO J, YU D, et al. ReAct: synergizing reasoning and acting in language models[EB/OL]. arXiv, 2022-10-06[2026-06-03]. https://arxiv.org/abs/2210.03629.