AI 测试基础与 AI 辅助测试面试题

本文档包含 22 道 AI 测试入门 + AI 辅助测试方向的高频面试题，覆盖基础认知、AI 辅助生成用例与脚本、缺陷分析提效、视觉驱动自动化、主流工具与平台。AI 测试相关内容拆为四章，本章是第一章，后续 LLM/RAG、Agent/AIGC、ML 模型/AI 安全分别独立成篇。

一、AI 测试基础认知（8题）

Q1: 什么是 AI 测试？AI 测试与传统测试有什么区别？

答案：

AI 测试有两层含义，面试时最好先把这点说清楚再往下展开。

第一层是「测试 AI 系统本身」（Testing AI），对象是机器学习模型、大语言模型、Agent、推荐系统这类含有 AI 组件的产品。第二层是「用 AI 做测试」（AI for Testing），对象还是普通软件，只是借助大模型、视觉模型等手段提升测试效率。

跟传统测试比，AI 测试主要在三个维度不一样：

输出确定性。传统软件给定输入应当输出固定结果，可以用断言精确匹配；AI 系统输出有不确定性，同样输入可能给出不同回答，需要用相似度、范围、分布等"软断言"。

正确性定义。传统测试有明确的预期值；AI 测试很多时候没有唯一正确答案，要靠评估指标、人类判断、对比基线综合判断。

测试对象。传统测试关注代码逻辑；AI 测试还要关注训练数据质量、模型版本、Prompt、上下文、外部依赖（向量库、工具、模型 API）等更多变量。

Q2: AI 测试的两条主线分别解决什么问题？

答案：

可以理解为「攻」和「守」两条线，工程师同时要会两边，但偏重不同岗位会有差异。

「用 AI 做测试」（AI for Testing）解决效率问题。常见落点是用大模型自动生成用例草稿、自然语言驱动 UI 自动化、缺陷自动归类去重、根因分析、测试报告自动总结、评审摘要等，目标是把测试同学从重复劳动里解放出来。

「测试 AI 系统」（Testing AI）解决质量问题。常见落点是 Prompt 回归、幻觉检测、RAG 评估、Agent 路径校验、模型行为测试、安全合规测试、上线监控等，目标是让 AI 产品上线后不出大事故。

实际工作中两条线经常交叉，比如做 LLM 应用测试时也会用另一个 LLM 做 Judge，本质上既是「用 AI」也是「测 AI」。

Q3: 什么是 AI 测试金字塔？有哪些层次？

答案：

AI 测试金字塔是从传统测试金字塔演化来的，从下到上一般分四层：

最底层是数据测试。包括数据完整性、分布、标注质量、去重、敏感信息脱敏等，是模型质量的根基，"垃圾进垃圾出"这句话在 AI 项目里尤其成立。

中间一层是模型测试。覆盖模型功能（行为测试、CheckList）、效果指标（Accuracy、Precision、Recall、F1、AUC）、推理性能、可解释性、公平性等。

再往上是系统集成测试。把模型嵌进应用之后端到端测，比如 API 接口测试、上下文拼接、工具调用、向量检索、缓存、降级策略。

最顶层是业务/用户体验测试。从真实用户场景出发，看产品能不能解决业务问题，包括 A/B 测试、灰度、用户反馈、长期留存影响。

数量上跟传统金字塔一样，越底层越多越快、越顶层越少越贵；不同的是 AI 项目的"数据测试"通常占比最大，传统软件项目里反而是单元测试占比最大。

Q4: AI 测试工程师的能力模型包含哪些维度？

答案：

业内常见的 AI 测试岗位对能力的要求大概有五块：

测试基本功。传统测试方法、自动化、性能、安全这些底子要有，AI 测试不是凭空出现的新工种，而是测试能力的延伸。

AI/ML 基础。理解监督学习、无监督学习、深度学习、Transformer 架构、Embedding、向量检索、Prompt、RAG、Agent 等基本概念，不要求会写训练代码，但要看得懂论文摘要、能看懂模型评估报告。

工程能力。Python 是底线（绝大多数 AI 工具是 Python 生态），能写脚本、能调 API、能用 LangChain/LlamaIndex 之类框架做 PoC，能在 Docker/K8s 里跑起来评估流水线。

数据与统计直觉。能看懂混淆矩阵、能算 P-value、能识别样本不平衡、能判断评估结果是不是有统计显著性，避免把噪声当结论。

业务理解和沟通。AI 项目跨职能（算法、工程、产品、业务），测试同学常常承担"翻译者"角色，需要能跟算法同学讨论指标、跟产品同学讨论用户体验、跟业务方解释风险。

Q5: 为什么说 AI 系统的测试比传统软件更难？

答案：

主要难在四个地方：

输出不可预期。同样的输入跑两次结果可能不一样，不能用 assertEquals 一锤定音；要用相似度、阈值、分布判断，断言本身就需要更复杂的设计。

正确性边界模糊。一个对话回答到底"好不好"经常没有标准答案，需要靠评估指标 + 人工判断综合，主观成分高。

变更影响难追踪。Prompt 改一个字、温度调 0.1、模型升级一个版本、向量库重新索引，都可能让结果显著变化，回归成本极高。

依赖项多且不可控。模型 API 可能限流、外部知识库可能更新、工具可能升级，测试环境很难做到 100% 可复现，定位问题难度上一个台阶。

应对策略上常见的是建评估集、自动化评估流水线、用快照对比、Prompt 版本化、模型版本锁定，把"不可控"逐项收敛。

Q6: AI 测试中常见的"不确定性"问题如何应对？

答案：

不确定性几乎是 AI 测试绕不开的问题，常用的应对手段有几类：

控制变量。测试时把温度调到 0、固定随机种子、固定模型版本，让输出尽量稳定，方便回归对比。但要注意线上往往不会用 0 温度，所以这类测试只能验证"基本对不对"，不能验证"用户实际体验"。

软断言代替硬断言。不要求字符串完全一致，改成用相似度（cosine、ROUGE、BERTScore）、关键词命中、JSON 字段校验、LLM-as-Judge 等手段判断"是否合格"。

样本量与统计显著性。单条用例的偶然失败说明不了问题，要跑一组用例看通过率和分布，对比不同版本时用统计检验避免被噪声误导。

评估集分层。冒烟集、回归集、对照集、压力集分开管理，关键场景必须 100% 通过，长尾场景按通过率达标。

监控线上分布。把线上输入和反馈采样回流，定期更新评估集，避免离线测试与线上脱节。

Q7: AI 项目的测试生命周期跟传统项目有什么不同？

答案：

传统项目的测试生命周期通常是计划→设计→执行→评估→维护一条线，AI 项目在这条线上多了几个阶段。

数据准备与评估阶段。测试同学要参与数据集设计、标注规范制定、数据质量验收，相当于多了一个"测数据"的环节。

模型评估阶段。模型训练完成后要做离线评估，跟基线对比、跟竞品对比，形成评估报告作为是否可上线的依据。

灰度与 A/B 阶段。AI 模型很难一次性切流，多采用灰度发布、流量分桶、AB 实验，测试要参与实验设计和指标验收。

线上监控阶段。模型上线后要持续看核心指标、看数据漂移、看用户反馈，触发条件达到时回滚或重训，相当于"测试右移"在 AI 项目里更刚需。

整体上 AI 项目的测试更像产品研发的伴随过程，而不是传统瀑布里的"开发完才介入"。

Q8: AI 测试的核心评估维度有哪些？

答案：

跨场景看下来，AI 系统的评估维度大致可以汇成五组：

效果维度。看模型/系统输出是否准确、有用，比如分类准确率、生成质量、检索相关性、Agent 完成率。

性能维度。响应延迟、吞吐量（QPS/TPS）、显存占用、Token 成本、并发能力，跟传统性能测试类似但指标更细。

稳定性维度。同样输入多次输出的一致性、长时间运行的衰减、突发流量下的退化、外部依赖故障时的兜底。

安全与合规维度。对抗鲁棒性、Prompt 注入抵抗、内容安全（涉政涉黄违法）、隐私保护、合规标注。

公平性与体验维度。对不同人群、不同语言、不同场景的表现一致性，以及用户实际感受（满意度、留存、转化）。

具体项目按重要性挑核心几项做硬指标，其他做软指标和监控，不要追求所有维度都做到 100%。

二、AI 辅助测试用例与脚本（8题）

Q9: 如何用大模型生成测试用例？流程是什么？

答案：

用大模型生成用例是当下提效最直接的场景，常见流程分四步：

输入准备。把需求文档、PRD、接口定义、UI 截图、历史用例等作为上下文喂给模型。文档质量直接决定生成质量，必要时先让模型对文档做"可测性分析"，发现歧义提前澄清。

Prompt 设计。给模型角色（资深测试），明确任务（生成等价类/边界值/异常场景用例），约定输出格式（JSON、Markdown 表、Excel），举一两个示例（Few-shot）。常用方法学（边界值、判定表、状态法）写在 Prompt 里能显著提升质量。

模型生成。调用大模型 API（OpenAI、Claude、文心、通义、Qwen 等），如果用例量大，分模块分批生成，避免一次塞过多上下文。

人工审校与入库。生成结果不能直接用，要由测试工程师审一遍：补漏、去重、调整优先级、关联需求 ID。审完后导入用例管理系统。

成熟团队会把这套流程做成内部工具或平台，需求一变更自动触发用例草稿生成，测试同学只做审核和补充。

Q10: AI 生成的测试用例质量如何评估和把关？

答案：

不能盲目信 AI 生成的内容，要从几个维度做质量把关：

需求覆盖率。生成的用例是不是覆盖了所有需求点和验收标准，可以用矩阵图反查，未覆盖的让 AI 补一轮。

场景多样性。是否覆盖正常、异常、边界、极端、并发、安全等场景，AI 默认偏正向覆盖，异常和边界容易遗漏，需要专门提示。

可执行性。步骤是否清晰、前置条件是否完整、预期结果是否可验证，避免出现"系统应正常工作"这种含糊描述。

去重与合并。AI 容易生成相似度很高的多条用例，要做合并；可以用 Embedding 相似度做自动去重。

事实正确性。涉及业务规则、接口字段、技术细节时容易"一本正经胡说八道"，必须人工核对，必要时让 AI 引用文档片段以便溯源。

把关流程上推荐"AI 生成 → 自动去重 → 测试评审 → 业务/开发抽审 → 入库"，最后一步抽审是为了交叉验证，避免测试同学也被 AI 带偏。

Q11: 用 AI 辅助编写自动化脚本有哪些常见模式？

答案：

目前几种主流模式：

代码补全模式。在 IDE 里用 Copilot、Cursor、通义灵码这类工具，写脚本时实时补全。适合已有框架内写新用例，效率提升一般在 30%-50%。

自然语言生成脚本。给定描述（"打开登录页，输入账号密码，断言跳转到首页"），AI 直接生成 Selenium/Playwright 代码。适合快速 PoC，但生成结果通常需要调整定位器和等待逻辑。

视觉驱动模式。Midscene、Skyvern、Browser Use 等工具用大模型分析页面截图，直接根据自然语言指令操作元素，不需要写定位器。适合 UI 频繁变动的场景。

录制 + AI 优化模式。用工具录制基础脚本，再用 AI 做断言补全、参数化、用例拆分。

接口脚本生成模式。给 AI Swagger/OpenAPI 文档，让它生成接口测试脚本和 Mock 数据。

实战中很少只用一种，通常是"自然语言生成骨架 + IDE 补全细节 + 人工调优"组合用。需要注意 AI 生成的代码必须经过 review，否则容易混入低质量等待和不稳定定位策略，反而加大维护成本。

Q12: 视觉驱动 UI 自动化（如 Midscene、Skyvern）跟传统 Selenium 有什么区别？

答案：

两者的核心差异在「怎么找到元素」和「怎么决定动作」上：

维度	传统 Selenium/Playwright	视觉驱动（Midscene、Skyvern、Browser Use）
定位方式	依赖 DOM（id/xpath/css）	截图 + 多模态大模型理解
测试描述	代码或步骤化 API	自然语言指令
UI 变动适应性	DOM 改了脚本就挂	视觉理解能容忍一定变动
跨技术栈	需要不同 driver	截图能看到的都能操作
执行速度	快（毫秒级）	慢（每步要调 LLM，秒级）
成本	几乎无 API 成本	有 LLM 调用成本
调试难度	错误定位清晰	黑盒，模型决策不易解释
适用场景	稳定的回归	探索性测试、跨平台测试、UI 频繁变动

实战里通常组合用：核心稳定流程用传统框架做高速回归，新功能、特殊页面、不易自动化的场景用视觉驱动方案。

视觉驱动方案的几个注意点：成本可控（评估每条用例 Token 消耗）、关键步骤加截图留底、对模型决策做日志记录方便复盘、必要时降级到传统方式。

Q13: 如何用大模型做缺陷自动归类与去重？

答案：

缺陷归类与去重是 AI 提效里收益最明显的场景之一，做法分两步：

去重判断。把新提交的缺陷标题和描述用 Embedding 模型转向量，跟历史缺陷库做相似度检索（cosine similarity），相似度高于阈值的提示"可能是已有缺陷"。常用工具是 Sentence-BERT、OpenAI Embedding、Voyage、BGE 等。

分类打标。把缺陷喂给大模型，让它判断模块归属、严重等级、缺陷类型（功能/性能/安全/兼容）、可能根因。可以用零样本（zero-shot）让模型自由判断，或用小样本（few-shot）给几个示例引导，分类准确率会显著提升。

落地时几个关键点：

阈值要可调，相似度太高会漏报、太低会误报，建议在历史数据上做 ROC 调优。

人工兜底，AI 给出建议但不替代人决定，提交者可以确认或拒绝合并。

闭环反馈，把人工判断结果回流，定期微调或更新 Prompt，让模型越用越准。

去重和分类的指标要持续监控，准确率突然下降可能是新模块上线、术语变化或模型漂移导致。

Q14: 如何用 AI 做缺陷根因分析？

答案：

根因分析是更深的应用，主要在缺陷量大、代码库复杂的项目里有价值：

数据准备。把缺陷描述、报错日志、堆栈、最近一段时间的代码变更（commit log + diff）、相关测试用例、监控数据汇总到一起，作为 LLM 的输入。

让 LLM 做关联分析。Prompt 里明确目标（找出最可能的根因和可疑代码位置），引导模型从堆栈往代码定位、从代码变更看是哪次提交引入的、从相似历史缺陷找类似根因。

输出建议。包括可疑模块、可疑函数、可疑提交、修复方向、需要确认的问题列表。

人工确认。开发拿到建议后做最后判断，结果再回流给模型作为反馈。

成熟方案如 Sentry、Datadog 的 AI Root Cause Analysis、自研的根因分析平台，都是这个思路的工业化版本。

注意几点：根因分析对上下文质量要求很高，日志和变更数据不全的话效果会差；模型给出的根因不能 100% 信，需要把它定位为"加速器"而不是"决策者"；涉及生产数据时要做脱敏。

Q15: AI 辅助生成测试报告与摘要的实践方法？

答案：

测试报告自动生成是 AI 在测试领域最容易落地的场景之一，因为输入结构化、输出格式相对固定：

数据采集。从 CI 流水线、用例管理系统、缺陷系统、监控系统拉取本次测试的全量数据：用例总数、通过/失败/阻塞数、缺陷新增数、严重缺陷列表、性能数据、覆盖率数据。

报告生成。把数据喂给 LLM，让它生成几个层次的内容：结构化数据（图表能用的）+ 自然语言摘要（执行情况、风险点、建议）+ 上下文比对（跟上次的差异、趋势分析）。

按角色定制。测试 Lead 看详细问题，开发看自己模块的失败用例，产品和管理层看摘要和趋势。一份数据多视角呈现。

自动分发。通过邮件、IM（飞书/钉钉/企业微信）、看板等渠道按订阅推送。

落地几个细节：数据准确性是底线，错的数据写得再漂亮也是负资产；摘要要保守，不要让 AI 编造没有的趋势或结论；关键风险点要醒目突出，不要被淹没在大段文字里；持续收集读者反馈，不断优化 Prompt。

Q16: 用 Cursor、Copilot 等 AI IDE 提升测试效率有哪些技巧？

答案：

AI IDE 用得好可以让测试同学的脚本编写效率翻倍，几个实操技巧：

充分利用上下文。Cursor 这类工具支持把整个项目纳入上下文，写新用例时让 AI 参考已有用例的风格和工具方法，避免每个用例都重新造轮子。

结构化提示。不要只说"帮我写个登录测试"，而是给清楚目标、技术栈、断言要求、命名规范、错误处理偏好。Prompt 越具体输出越准。

让 AI 帮你看代码。审核别人的自动化代码时让 AI 先做一轮审查，找出冗余等待、不稳定定位、缺失断言等常见问题，再人工复核。

让 AI 帮你迁移。框架升级、Selenium 4 升 Playwright、JUnit 4 升 JUnit 5 这类工作，AI 批量改造效率很高，人工只需要 review 关键变化。

让 AI 帮你解释。看陌生测试代码时让 AI 用自然语言总结逻辑、潜在问题、改进建议，比自己一行一行读快得多。

风险提示：AI 偶尔会写出能跑但有问题的代码（错的断言、Race Condition、信息泄露），所有 AI 产出都要走代码评审，不能因为是 AI 写的就放低标准。

三、AI 测试工具与平台（6题）

Q17: 主流 AI 测试与评估工具有哪些？分别解决什么问题？

答案：

可以按用途分四类，组合起来覆盖常见场景：

类别	代表工具	主要解决问题
LLM 应用评估	DeepEval、Promptfoo、TruLens、Giskard	Prompt 回归、幻觉检测、综合指标评估
RAG 系统评估	RAGAS、TruLens、Ragas Evaluator	Faithfulness、Answer Relevance、Context Recall
LLMOps 与可观测性	LangSmith、Helicone、Langfuse、Arize Phoenix	调用追踪、成本监控、Prompt 管理、评估编排
视觉/AI 驱动 UI 自动化	Midscene、Skyvern、Browser Use、Playwright AI	截图理解、自然语言驱动浏览器
ML 模型测试与监控	Evidently、Giskard、Deepchecks、WhyLabs	数据漂移、模型监控、行为测试

国内方面，字节的 Midscene、阿里的通义灵码、百度的文心一言评估、腾讯的混元评估等都在快速发展，企业内部也越来越多自研评估平台，把上面这些能力集成进自家流水线。

选型时看四点：跟现有栈是否兼容（语言/框架/CI）、是否支持自定义指标、社区活跃度、商业化与开源策略。

Q18: DeepEval 是什么？典型使用场景？

答案：

DeepEval 是 Confident AI 出品的开源 LLM 评估框架，定位是「LLM 应用的 PyTest」，让评估像写单测一样写。

它的核心能力包括：

内置指标。Faithfulness、Answer Relevancy、Hallucination、Toxicity、Bias、Contextual Precision/Recall 等十几种开箱即用的指标，都基于 LLM-as-Judge 实现。

自定义指标。支持用 G-Eval（基于 Prompt 的评估）或纯代码方式写自定义指标，灵活性高。

测试用例与数据集。可以写单条 testcase 或加载数据集批量评估，结果输出到本地或 Confident AI 平台。

CI 集成。提供 PyTest 插件，可以直接写 test_xxx 函数，跑 pytest 就出评估结果，方便接 GitHub Actions / GitLab CI。

红队测试（Red Teaming）。新版本提供对抗测试模板，自动生成攻击 Prompt 测试模型的鲁棒性。

典型使用场景：LLM 应用迭代时做 Prompt 回归、RAG 应用上线前做综合评估、模型版本升级时做对比测试、CI 流水线里做质量门禁。

Q19: Promptfoo 是什么？怎么用它做 Prompt 回归？

答案：

Promptfoo 是开源的 LLM Prompt 评估与测试工具，定位偏「Prompt 工程师的 PyTest」，跟 DeepEval 有重叠但更聚焦在 Prompt 层。

核心能力：

声明式配置。用 YAML 写测试用例和评估规则，不用写代码也能跑，对非工程背景同学友好。

多模型对比。支持同时跑多个模型/Provider（OpenAI、Anthropic、本地模型），生成对比矩阵，选型时特别有用。

丰富的断言。除了相似度、关键词、JSON Schema 校验，还支持 LLM Rubric（用 LLM 当裁判）、Code Eval（自定义 JS/Python 函数）。

CLI + Web UI。命令行跑评估，Web UI 看结果矩阵和详情。

CI 集成。可以阻断 Prompt 退化的合并请求。

做 Prompt 回归的典型流程：

把当前可用的 Prompt 写到 yaml；为每个目标场景定义测试用例（输入 + 预期断言）；引入新 Prompt 版本作为对比组；CI 跑 promptfoo eval；结果在 Web UI 里对比，新版本通过率不低于基线才允许合并。

适合场景：Prompt 频繁迭代的产品、需要做模型选型的项目、希望评估配置代码化的团队。

Q20: LangSmith / Helicone / Langfuse / TruLens 这类 LLMOps 平台的定位与差异？

答案：

这几个工具都属于 LLMOps 范畴，覆盖 LLM 应用从开发到上线的可观测性、评估、版本管理，定位略有差异：

LangSmith：LangChain 官方出品，跟 LangChain/LangGraph 框架深度集成。强项是调用链路追踪（Trace）、Prompt Hub 版本管理、评估编排、Dataset 管理。商业化产品（有免费额度）。

Helicone：定位 LLM 调用代理，所有请求经过它做记录、缓存、限流、成本统计。强项是不需要改代码就能接入（改 base URL 即可），适合快速接入做监控。开源 + 云服务双模式。

Langfuse：开源 LLMOps 平台，类似 LangSmith 的开源替代。提供 Trace、Prompt 管理、评估、用户反馈收集等能力，可以自部署，对数据敏感的企业很友好。

TruLens：TruEra 出品的评估专精平台，强项是 RAG 评估、反馈函数（Feedback Functions）、多模型对比，跟 LangChain、LlamaIndex 集成度高。

工具	主打能力	部署模式	适合团队
LangSmith	全流程 + Lang 生态深度集成	SaaS	已用 LangChain 的团队
Helicone	调用代理 + 监控	SaaS / 自部署	想快速接入监控的团队
Langfuse	全流程开源	自部署优先	数据敏感、要自控的团队
TruLens	RAG/LLM 评估精专	库 + 可选平台	偏研究和评估精度的团队

实际选型时按数据合规要求、技术栈、预算综合考虑，必要时混用（如自部署 Langfuse + 用 Promptfoo 做 CI 评估）。

Q21: 如何选型 AI 测试工具？评估维度有哪些？

答案：

选 AI 测试工具跟选其他工具的逻辑类似，但要多关注几个 AI 特性维度：

场景匹配。先想清楚要解决什么问题（Prompt 回归、RAG 评估、Agent 测试、模型监控、UI 自动化），不要被「全能工具」忽悠。多数情况下专精工具组合优于一站式平台。

模型与框架兼容。是否支持你用的 LLM Provider（OpenAI、Claude、Bedrock、本地模型）、是否兼容你用的 LangChain/LlamaIndex/自研框架、是否支持你用的语言（Python/Node/Java）。

可观测性与可调试性。能不能查到每次失败的完整上下文（Prompt、模型、输出、评分理由），能不能在失败时方便定位到原因。

数据合规与部署模式。涉及生产数据的评估优先选支持自部署或私有云的方案；纯研发阶段 SaaS 可以接受。

成本可控。LLM-as-Judge 类评估每条用例都要调 LLM，规模大时成本不低，要算清楚每月评估预算和缓存策略。

社区与持续性。这类工具迭代非常快，半年前热门的工具可能已经被新工具替代，看社区活跃度、Star 数趋势、商业化支撑。

学习曲线。团队当前能力下手成本，能不能在两周内跑通一个真实场景。

Q22: 在传统 CI/CD 流水线中如何集成 AI 测试？

答案：

把 AI 测试接入 CI/CD 是让评估持续化的关键，常见做法是分层介入：

提交时（Commit / PR）。跑轻量级评估：Prompt 单元测试、关键场景 LLM-as-Judge、低成本指标。目标是几分钟内反馈，阻断明显劣化。常用工具是 Promptfoo / DeepEval 的 PyTest 插件。

合并前（Merge Request）。跑回归集，覆盖更全的用例和指标，包含 RAG 端到端评估、关键 Agent 场景、性能基线对比。可以用 CI 的并发能力跑批量评估。

发布前（Pre-release）。跑全量评估和压力测试，包括对抗测试、安全测试、长链路 Agent、上线 Checklist。耗时可以更长，结果作为发布门槛。

发布后（Post-deploy）。线上监控 + 采样评估，把真实流量回流做离线评估，发现问题及时报警和回滚。

落地几个关键点：

成本控制。LLM 评估按调用计费，要做缓存（同样 Prompt 不重复跑）、采样、夜间跑全量。

结果可视化。评估结果接到看板，趋势看得到，劣化才好预警。

阻断策略。哪些指标必须 100% 通过、哪些只需达到阈值、哪些只是参考，要事先约定，避免 CI 经常红被忽略。

模型版本锁定。CI 里要固定模型版本和参数，避免「环境的事让评估不可复现」。

把 AI 评估当成一类新的"测试"看待，沿用 CI/CD 一切既有最佳实践（覆盖率、阻断、报告、复盘），不要从零造一套流程。