【译】迈向 2026 的我的 LLM 编码工作流

【由 ChatGPT 辅助翻译】

来源 URL：https://addyo.substack.com/p/my-llm-coding-workflow-going-into
发布时间：2025-12-18T15:30:46+00:00

AI 编码助手在今年成为了颠覆性的工具，但要真正发挥它们的威力，需要技巧与结构化的方法。 这些工具显著提升了 LLM 在真实世界编码中的能力，许多开发者（包括我自己）都积极拥抱了它们。

以 Anthropic 为例，工程师对 Claude Code 的采用程度之高，以至于 今天 Claude Code 约 90% 的代码是由 Claude Code 自己编写的。然而，将 LLM 用于编程并不是一键魔法式的体验——它“困难且不直观”，要获得优秀的结果需要学习新的模式。批判性思维依然至关重要。经过一年多的项目实践，我逐渐收敛出一种与许多资深开发者相似的工作流：把 LLM 当作一个强大的结对程序员，而不是具备自主判断力的实体——它需要清晰的指令、充分的上下文以及持续的监督。

在本文中，我将分享我在迈向 2026 时如何规划、编码并与 AI 协作，总结我个人经验以及社区集体学习中沉淀下来的技巧与最佳实践。这是一种更有纪律性的 “AI 辅助工程（AI-assisted engineering）” 方法——在积极利用 AI 的同时，依然自豪地对最终产出的软件负责。

如果你对我更多的工作流细节感兴趣，可以参考《The AI-Native Software Engineer》；若不想深入了解，我们直接进入我学到的一些经验教训。

先制定清晰的计划（先有规格说明，再写代码）

不要只是把愿望丢给 LLM ——先定义问题并规划解决方案。

一个常见的错误是，用一个含糊的提示直接让 AI 生成代码。在我的工作流（以及许多人的实践）中，第一步是与 AI 一起头脑风暴并制定一份详细的规格说明，然后在编写任何实际代码之前，先列出一个逐步的计划。对于一个新项目，我会描述想法，并让 LLM 不断向我提问，直到我们把需求和边界情况都理清。最终，我们会将这些内容整理成一份完整的 spec.md，其中包含需求、架构决策、数据模型，甚至测试策略。这份规格说明构成了开发的基础。

接下来，我会把 spec 输入给一个具备推理能力的模型，并提示它生成一份项目计划：将实现拆解为逻辑清晰、易于消化的任务或里程碑。AI 实质上是在帮助我完成一份迷你的“设计文档”或项目计划。我通常会对这份计划反复迭代——编辑它、让 AI 批评或完善——直到它足够连贯且完整。只有在这之后，我才会进入编码阶段。前期的这种投入看起来可能有些慢，但回报极高。正如 Les Orchard 在这里所说，这就像是在 “15 分钟内做一次瀑布式开发”——一个快速而结构化的规划阶段，让后续编码顺畅得多。

有了清晰的规格和计划，当我们真正释放代码生成能力时，人和 LLM 都非常清楚要构建什么、以及为什么要这么做。简而言之，先规划能迫使你和 AI 达成共识，避免无谓的反复。这一步很多人容易跳过，但经验丰富的 LLM 开发者如今已经把健壮的规格/计划视为整个工作流的基石。

将工作拆分为小而可迭代的任务块

范围管理至关重要——给 LLM 可管理的任务，而不是一次性丢整个代码库。

我学到的一个关键经验是：避免让 AI 一次性产出庞大、整体化的结果。相反，我们应该把项目拆解成迭代的小步骤或工单，并逐个完成。这本来就是良好的软件工程实践，但在 AI 参与时尤为重要。LLM 在面对聚焦的问题时表现最好：一次实现一个函数、修复一个 bug、添加一个功能。举例来说，在完成规划后，我会对代码生成模型说：“好，我们来实现计划中的第 1 步。”我们完成这一步，测试它，然后进入第 2 步，如此往复。每个块都足够小，既在模型的上下文能力范围内，也便于你理解生成的代码。

这种方式能有效防止模型“跑偏”。如果你一次性要求太多，它很容易困惑，或者生成一个 “杂乱无章的混合体”，难以梳理。有开发者反馈，当他们试图让 LLM 生成大块应用代码时，最终得到的是不一致和重复——“就像 10 个开发者各干各的，却从不沟通”。我也深有体会；解决办法就是停下来、后退一步，把问题拆成更小的部分。每一轮迭代，我们都会带着已有的上下文继续构建。这也非常契合 测试驱动开发（TDD）——我们可以在过程中为每个模块编写或生成测试（稍后会详细谈测试）。

现在已有不少编码代理工具明确支持这种分块式工作流。例如，我经常生成一个结构化的 “prompt plan” 文件，里面包含每个任务对应的一系列提示，这样 Cursor 等工具就可以按顺序逐条执行。核心原则是：避免大跨度跳跃。通过小循环迭代，我们可以显著降低灾难性错误的概率，并快速纠偏。LLM 擅长快速、受控的小任务——善用这一点。

提供充分的上下文信息和指导

LLM 的能力取决于你提供的上下文——把相关代码、文档和约束展示给它。

在处理代码库时，我会确保把 AI 所需的全部信息都提供到位，包括它需要修改或参考的代码、项目的技术约束、以及已知的坑或偏好的实现方式。现代工具在这方面有所帮助：例如，Anthropic 的 Claude 在 “Projects” 模式下可以把整个 GitHub 仓库引入上下文；Cursor 或 Copilot 这类 IDE 助手会自动把当前打开的文件加入提示。但我往往会更进一步——如果我怀疑模型并不了解某些内容，我会使用像 Context7 这样的 MCP，或者手动把关键代码或 API 文档粘贴进对话。

资深 LLM 用户非常强调这种“上下文打包（context packing）”。例如，在编码前做一次**“脑内倾倒（brain dump）”**，把模型需要知道的一切都告诉它：高层目标与不变量、优秀方案的示例、以及应当避免的做法。如果我要让 AI 实现一个棘手的方案，我可能会提前说明哪些朴素解法太慢，或者给出一个外部参考实现。如果我使用的是冷门库或全新的 API，我会直接贴上官方文档或 README，避免模型“盲飞”。所有这些前置上下文都会显著提升输出质量，因为模型不再需要猜测——它掌握了事实与约束。

现在也有一些工具可以自动化上下文打包。我尝试过 gitingest 和 repo2txt，它们本质上是把代码库中相关部分“导出”为一个文本文件供 LLM 阅读。在处理大型项目时，这类工具非常救命——你生成一个 output.txt，把关键源文件打包给模型即可。原则很简单：不要让 AI 在信息不完整的情况下工作。如果修一个 bug 需要理解四个模块，就把这四个模块都给它。是的，需要关注 token 限制，但当前前沿模型的上下文窗口已经相当大（数万 token）。要明智地使用它们。我通常只选择性地包含与当前任务相关的代码，并明确告诉 AI 哪些内容不在范围内（以节省 token）。

我认为 Claude Skills 很有潜力，因为它们把原本脆弱、需要反复提示的流程，变成了可持久、可复用的能力模块——将指令、脚本和领域知识打包成 Skill，当请求匹配时由工具自动应用。这比泛泛的提示更可靠、更具上下文感知能力，也让我们从一次性互动，转向把可重复流程和团队知识编码进工作流中。社区里已经有不少整理好的 Skills 集合；我最喜欢的例子之一是 frontend-design skill，它可以“终结”LLM 生成 UI 中常见的紫色审美。在更多工具原生支持 Skills 之前，也有一些变通方案。

最后，在提示中用注释和规则来引导 AI。我可能会在代码片段前写：“这是 X 的当前实现，我们需要扩展它以支持 Y，但要注意不要破坏 Z。”这些小提示非常有用。LLM 是字面主义者——它们会遵循指令，所以请给出详细、有上下文的说明。通过主动提供上下文和指导，我们可以最大限度减少幻觉和跑题建议，得到真正契合项目需求的代码。

选择合适的模型（必要时同时使用多个模型）

并非所有编码型 LLM 都是一样的——有意识地选择工具，并且不要害怕在过程中切换模型。

在 2025 年，我们已经拥有了多种能力强大的、面向代码的 LLM。我的工作流中有一项重要内容是：为不同任务选择最合适的模型或服务。有时，甚至同时让两个或更多 LLM 并行尝试同一个问题、交叉对比它们的思路，也非常有价值。

每个模型都有自己的“性格”。关键在于：如果某个模型卡住了，或者给出的结果平庸，就换一个试试。 我确实经常把同一个提示，从一个聊天窗口原封不动地复制到另一个服务中，看是否能得到更好的处理结果。这种“模型换座位（model musical chairs）”的做法，在你撞上某个模型的盲区时，往往能救场。

同时，务必确保你使用的是当前最好的版本。如果条件允许，就用最新的 “pro” 级模型——质量真的很重要。是的，这通常意味着要付费，但生产力的提升往往值得。归根结底，选择那个与你**“合拍”**的 AI 结对程序员。我认识一些人更偏好某个模型，仅仅是因为他们喜欢那个模型回答问题的“感觉”。这完全合理——当你几乎是在与 AI 持续对话时，交互体验和语气本身就会产生影响。

就我个人而言，最近我在很多编码工作中更偏向使用 Gemini，因为它的交互感觉更自然，而且往往一次就能理解我的需求。但如果需要，我会毫不犹豫地切换到其他模型；有时，第二个意见能让解决方案浮现出来。总结来说：为任务选择最合适的工具，并记住——你手中拥有一整套 AI 武器库。

在整个软件生命周期中充分利用 AI 编码能力

在整个 SDLC 中使用面向编码的 AI，全面强化你的工作流。

在命令行层面，新的 AI 代理已经出现。Claude Code、OpenAI 的 Codex CLI，以及 Google 的 Gemini CLI，都是可以直接在项目目录中对话的 CLI 工具——它们可以读取文件、运行测试，甚至执行多步骤修复。我也用过 Google 的 Jules 和 GitHub 的 Copilot Agent——这些是异步编码代理，它们会在云端 VM 中克隆你的仓库，在后台完成任务（编写测试、修复 bug），然后为你提交一个 PR。看到这一切发生其实有点诡异：你发出一个诸如“重构支付模块以支持 X”的命令，过一会儿就会收到一个包含代码变更且测试通过的拉取请求。我们确实活在未来。你可以在《从指挥到编排：未来的软件工程》中读到更多相关内容。

不过，这些工具并非万无一失，你必须理解它们的边界。它们极大地加速了编码中偏机械性的部分——生成样板代码、应用重复性修改、自动运行测试——但它们仍然非常依赖你的引导。例如，当我使用 Claude 或 Copilot 这类代理来实现功能时，通常会把前面步骤中的计划或待办清单一并提供给它，让它清楚每一步的执行顺序。如果代理支持，我会在下达执行指令前，把 spec.md 或 plan.md 加载进上下文，以确保它不跑偏。

我们还远未到可以完全放手让 AI 代理无人监督地完成整个功能，并指望它给出完美结果的阶段。 相反，我是以受监督的方式来使用这些工具：我会让它们生成并运行代码，但始终关注每一个步骤，一旦发现异常就及时介入。还有一些编排工具，比如 Conductor，允许你并行运行多个代理处理不同任务（本质上是扩展 AI 助手的规模）。一些工程师已经在尝试同时跑 3–4 个代理，分别负责不同功能。我也试过这种“高度并行”的方式——在短时间内完成大量工作时效果惊人，但同时监控多个 AI 线程在心理上也相当消耗精力！在大多数情况下，我仍然坚持一次只用一个主代理，必要时再加一个用于评审的辅助代理（下面会讲）。

记住，这些都是强力工具——扣动扳机和引导结果的，始终是你。

保持人工介入——对所有内容进行验证、测试和审查

**AI 会非常乐意生成“看起来合理”的代码，但你要为质量负责——始终审查并充分测试。**我最重要的一条原则之一是：绝不盲目信任 LLM 的输出。正如 Simon Willison 在这里所说，把 LLM 结对程序员看作是 **“过度自信、而且容易犯错”**的存在。它会用百分之百的笃定语气写代码——即使其中包含 bug 或胡言乱语——并且除非你发现问题，否则它不会主动告诉你哪里错了。因此，我会把每一段 AI 生成的代码，都当成来自一位初级工程师：逐行阅读、运行、并在需要时测试。你必须测试它写的东西——跑单元测试，或手动验证功能是否真的如它所说那样工作。更多内容可参考《“氛围式编码”并不是低质量工作的借口》。

事实上，我把测试直接织入了整个工作流。前期规划阶段通常就会包含每一步对应的测试列表或测试计划。如果我使用像 Claude Code 这样的工具，我会指示它在完成某个任务后运行测试套件，并在出现失败时自行调试。这种紧密的反馈循环（写代码 → 跑测试 → 修复）正是 AI 擅长的事情——前提是测试存在。因此，那些能最大化利用编码代理的人，往往也是测试实践非常扎实的人。对于像 Claude 这样的代理来说，一个完善的测试套件就像安全网；没有测试时，代理可能会轻率地认为“一切正常”，而实际上已经破坏了好几处。所以，投资测试——它会放大 AI 的价值，并增强你对结果的信心。

即便超越自动化测试，也要做代码评审——包括人工评审和 AI 辅助评审。我经常停下来，逐行审查目前生成的代码。有时我会开启第二个 AI 会话（或使用不同模型），让它去评审第一个模型生成的代码。例如，让 Claude 写代码，然后问 Gemini：“你能帮我检查这个函数是否有错误或改进空间吗？”这常常能发现细微问题。关键在于：不要因为代码是 AI 写的，就跳过评审。恰恰相反，AI 写的代码往往需要更多审查，因为它有时在表面上极具说服力，却隐藏着人类不容易第一时间察觉的缺陷。

我还使用了由我上一支团队构建的 Chrome DevTools MCP，作为调试与质量闭环的一部分，用来弥合静态代码分析与真实浏览器执行之间的鸿沟。它相当于“给 AI 装上眼睛”：允许我授权 AI 工具直接查看浏览器所看到的内容，检查 DOM，获取性能追踪、控制台日志或网络请求记录。这种集成消除了手动切换上下文的摩擦，使得通过 LLM 直接进行自动化 UI 测试成为可能，也让基于真实运行数据的高精度 bug 定位和修复成为现实。

忽视人工监督的严重后果已有记录。一位在赶项目时大量依赖 AI 生成代码的开发者描述最终产物是一个混乱不堪的系统——逻辑重复、方法命名不一致、架构支离破碎。他意识到自己只是不断“构建、构建、再构建”，却从未真正退后一步去理解 AI 编织出来的整体。修复它需要一次痛苦的重构，并发誓再也不让事情失控到这种程度。我对此深有感触。无论我使用多少 AI，我始终是那个负最终责任的工程师。

在实践中，这意味着：只有在我真正理解代码之后，才会合并或发布。如果 AI 生成了过于复杂的实现，我会让它加注释解释，或者干脆自己重写成更简单的形式。如果哪里感觉不对劲，我就会深入调查——就像对待一位人类同事提交的可疑代码一样。

一切归根结底是心态问题：LLM 是助手，而不是可以自主信赖的编码者。我是高级工程师；LLM 的职责是加速我，而不是替代我的判断。坚持这种立场不仅能产出更好的代码，也能保护你自身的成长。（有些人担心过度依赖 AI 会让技能退化——我认为只要你始终在回路中，积极审查并理解每一行代码，你实际上是在以更高速度打磨直觉。）总之：保持警惕，频繁测试，始终评审。 到最后，这仍然是你的代码库。

经常提交代码，并将版本控制作为安全保障。切勿提交自己无法解释的代码。

频繁提交就是你的存档点——它们让你能够撤销 AI 的失误，并理解发生了哪些变化。

当你与一个能够快速生成大量代码的 AI 一起工作时，事情很容易偏离正轨。我通过采用极其细粒度的版本控制习惯来缓解这一问题。我会尽早、并且频繁地提交代码，甚至比正常手写代码时还要频繁。每完成一个小任务，或每一次成功的自动化修改之后，我都会创建一次带有清晰提交信息的 git commit。这样一来，如果 AI 的下一条建议引入了 bug 或者造成了混乱的改动，我就能回退到最近的检查点（或者从中 cherry-pick），而不会丢掉数小时的工作。一位实践者把这种做法比作把提交当成**“游戏里的存档点”**——如果一次 LLM 会话走偏了，你总是可以回滚到上一个稳定的提交。我发现这个建议极其有用。当你知道必要时可以用 git reset 撤销改动时，去尝试一次大胆的 AI 重构就不那么有压力了。

恰当的版本控制在与 AI 协作时同样非常有帮助。由于我不能指望 AI 记住它做过的所有事情（上下文窗口的限制等等），git 历史就成了一份宝贵的日志。我经常浏览最近的提交，向 AI（或向我自己）说明发生了哪些变化。事实上，只要你把提交历史提供给 LLM，它们本身也能利用这些信息——我曾把 git diff 或提交日志直接粘贴到提示词里，让 AI 知道哪些代码是新的，或者之前的状态是什么。有趣的是，LLM 在解析 diff 以及使用诸如 git bisect 之类的工具来定位 bug 引入位置方面真的非常擅长。它们有着无限的耐心去遍历提交历史，这可以极大增强你的调试能力。但前提是：你一开始就要有一份整洁的提交历史。

还有一个好处：带有良好提交信息的小提交，本质上记录了开发过程，这在做代码审查（无论是 AI 还是人类）时非常有帮助。如果一个 AI 一次性做了五个改动，然后某处坏了，把这些改动分散在不同提交中，就更容易定位到底是哪个提交导致了问题。反之，如果所有内容都塞进一个名为“AI changes”的巨大提交里，那就自求多福吧。我因此严格要求自己：完成任务，运行测试，提交。 这也与前面关于把工作拆分成小块的建议非常契合——每一个小块最终都会成为一个独立的提交或 PR。

最后，不要害怕使用分支或 worktree来隔离 AI 实验。我采用的一种进阶工作流（灵感来自 Jesse Vincent 等人）是：为一个新特性或子项目创建一个全新的 git worktree。这样我就可以在同一个仓库上并行运行多个 AI 编码会话而互不干扰，之后再把改动合并回来。这有点像让每个 AI 任务都待在自己的沙箱分支里。如果某个实验失败了，我就直接丢弃那个 worktree，主分支不会受到任何影响；如果成功了，再把它合并进来。当我一边让 AI 实现特性 A，一边由我自己（或另一个 AI）实现特性 B 时，这种方式尤为关键。正是版本控制让这种协同成为可能。简而言之：频繁提交，用分支组织工作，并拥抱 git，把它作为控制机制，来让 AI 生成的改动保持可控且可逆。

通过规则和示例来定制 AI 的行为

通过提供风格指南、示例，甚至“规则文件”来引导你的 AI 助手——前期做一点调校，就能显著提升输出质量。

我学到的一点是：你不必接受 AI 的默认风格或做事方式——只要给它一些明确的指引，就可以对其行为产生很强的影响。举例来说，我维护了一个会定期更新的 CLAUDE.md 文件，其中包含希望 Claude（Anthropic 的模型）遵循的流程规则和偏好（使用 Gemini CLI 时也有类似的 GEMINI.md）。这些内容包括诸如“按照我们项目的代码风格编写代码、遵循我们的 lint 规则、不使用某些函数、偏好函数式而非 OOP”等。当我开始一个会话时，会把这个文件提供给 Claude，使其与我们的约定保持一致。正如 Jesse Vincent 在其文章中提到的，这种方式在让模型“保持正轨”方面效果出奇地好——它能显著降低 AI 偏离脚本或引入我们不希望出现的模式的概率。

即便没有花哨的规则文件，你也可以通过自定义指令或 system prompt 来定调。GitHub Copilot 和 Cursor 都引入了相关功能，允许你在项目层面全局配置 AI 的行为。我就充分利用了这一点，写了一小段关于我们编码风格的说明，例如：“使用 4 空格缩进，在 React 中避免使用箭头函数，偏好描述性变量名，代码需通过 ESLint。”在这些指令就位之后，AI 的建议就会更加贴近人类队友的写法。Ben Congdon 在文章中提到，他很惊讶竟然很少有人使用 Copilot 的自定义指令，因为它们的效果非常显著——只要提前提供一些示例和偏好，他就能引导 AI 输出完全符合团队习惯的代码。我对此深有同感：花点时间教会 AI 你的期望。

另一个非常强大的技巧是提供行内示例，明确你想要的输出格式或实现方式。如果我希望 AI 以一种非常特定的方式来编写函数，我可能会先给它看代码库中已有的类似函数：“这是我们实现 X 的方式，请用类似的方法实现 Y。”如果我想要某种特定的注释风格，我甚至会先自己写一条注释，然后让 AI 按这种风格继续。本质上，这是在对模型进行 预热（prime），让它知道要遵循的模式。LLM 非常擅长模仿——给它一两个例子，它就会沿着同样的路子往下写。

社区中也出现了不少富有创意的“规则集”，用来驯服 LLM 的行为。你可能听说过 “Big Daddy” 规则，或者在提示词中加入“禁止幻觉 / 禁止欺骗”的条款。这些本质上都是在提醒 AI 要保持真实，不要过度编造并不存在的代码。例如，我有时会在提示词前加上一句：“如果你对某些事情不确定，或者缺少代码库上下文，请先请求澄清，而不是编造答案。”这能有效减少幻觉。另一条我常用的规则是：“在修复 bug 时，始终在注释中简要说明你的推理过程。”这样一来，当 AI 生成修复方案时，也会留下类似这样的注释：“// Fixed: Changed X to Y to prevent Z (as per spec).”这对后续审查非常有价值。

总而言之，不要把 AI 当成一个黑箱——要对它进行调校。通过配置 system 指令、共享项目文档，或明确写下规则，你可以把 AI 打造成团队中一个更加专业化的开发者。这就像新员工入职一样：你一定会给他风格指南和一些入门建议，对吧？同样地对待你的 AI 结对编程伙伴即可。投入产出比非常高——你会得到需要更少修改、并且能更顺畅地融入现有代码库的输出。

将测试和自动化视为放大效率的关键杠杆

善用 CI/CD、代码规范检查器和代码审查机器人——AI 在能够自动捕获错误的环境中表现最好。

这是“保持人在回路中并持续提供上下文”的一个自然延伸：一条运转良好的开发流水线会显著提升 AI 的生产力。我会确保所有大量使用 AI 编码的代码仓库，都具备一套健全的持续集成（CI）体系。这意味着：每次提交或 PR 都会自动运行测试，强制执行代码风格检查（如 ESLint、Prettier 等），并且理想情况下，每个新分支都能部署到一个可用的 staging 环境。为什么要这样做？因为我可以让 AI 主动触发这些流程，并据此评估结果。

例如，如果 AI 通过 Jules 或 GitHub Copilot Agent 之类的工具发起了一个 pull request，我们的 CI 就会自动运行测试并报告失败信息。我可以把这些失败日志再喂回给 AI：“集成测试在 XYZ 处失败了，我们来一起调试。”这样一来，修 bug 就变成了一个快速反馈的协作循环，而 AI 非常擅长处理这种模式（它提出修复方案，我们再次运行 CI，然后继续迭代）。

自动化的代码质量检查（如 linter、类型检查器）同样可以对 AI 起到引导作用。我有时甚至会把 linter 的输出直接放进提示词里。如果 AI 写的代码没有通过我们的规范检查，我就把错误信息复制到对话中，说一句：“请解决这些问题。”模型立刻就知道该做什么了。这就像有一位严格的老师在盯着 AI 写代码。根据我的经验，一旦 AI 看到了某个工具的输出（比如测试失败或 lint 警告），它就会非常努力地去修正——毕竟它“想要”给出正确的答案。这再次呼应了“提供上下文”的原则：把环境对其行为的反馈（测试失败等）提供给 AI，它就能从中学习和调整。

AI 编码代理本身也在越来越多地集成自动化钩子。有些代理在所有测试通过之前，甚至不会宣称某个代码任务“完成”——这正是你希望看到的那种严谨态度。代码审查机器人（无论是 AI 还是非 AI）则充当了另一道过滤器——我会把它们的反馈当作额外的改进提示。例如，如果 CodeRabbit 或其他审查者评论说：“这个函数在做 X，这并不理想”，我就会直接问 AI：“你能根据这个反馈进行重构吗？”

当你把 AI 与自动化工具结合起来时，就会形成一个良性循环：AI 写代码，自动化工具发现问题，AI 修复问题，如此反复，而你则把控整体方向。这种感觉就像是拥有一位速度极快的初级开发者，而他的每一次提交都会立刻被一位不知疲倦的 QA 工程师检查。但要记住，是你搭建了这个环境。如果你的项目缺乏测试或任何自动化检查，AI 的工作就可能夹带着细微的 bug 或质量问题，一直潜伏到很晚才被发现。

因此，展望 2026，我的一个目标就是进一步强化 AI 代码贡献周围的质量门禁：更多测试、更多监控，甚至可能引入“AI 审 AI”的代码评审。听起来或许有些悖论（让 AI 去审查 AI），但我已经见过这种方式抓住了某个模型遗漏的问题。归根结底：一个对 AI 友好的工作流，必然具备强大的自动化——用这些工具来约束并校验 AI 的行为。

持续学习并不断适应（AI 会放大你的技能）

把每一次 AI 编码会话都当作一次学习机会——你知道得越多，AI 就越能帮到你，从而形成一个良性循环。

使用 LLM 进行开发过程中，最令我兴奋的一点在于：在这个过程中学到的东西实在太多了。AI 并没有取代我“需要懂”的那些知识，反而把我带入了一些我原本可能不会主动尝试的新语言、框架和技术领域。

这种模式具有普遍性：如果你具备扎实的软件工程基础，AI 会以成倍的效果放大你的生产力；如果缺乏这种基础，AI 可能只会放大混乱。许多经验丰富的开发者都观察到，LLM 会“奖励既有的最佳实践”——清晰的需求说明、完善的测试、规范的代码评审等等，在引入 AI 之后都会变得更加有威力。以我的经验来看，AI 让我能够在更高的抽象层级上工作（专注于设计、接口和架构），而把样板代码的生成交给它；但前提是，我必须先具备这些高层次能力。正如 Simon Willison 所指出的，几乎所有定义一名资深工程师的能力（系统设计、复杂度管理、判断哪些该自动化、哪些该手写）正是如今使用 AI 获得最佳效果的关键。因此，使用 AI 反而促使我提升自己的工程水准——我在规划上更加严谨，在架构上更加自觉，因为我实际上是在“管理”一位速度极快但略显天真的程序员（也就是 AI）。

对于那些担心使用 AI 会削弱自身能力的人，我的看法恰恰相反——前提是用对方式。通过审阅 AI 写的代码，我接触到了新的惯用写法和解决思路；通过调试 AI 的错误，我加深了对语言本身以及问题领域的理解。我经常要求 AI 解释它的代码或修复背后的理由——有点像不断让候选人讲解自己的代码——而我也能从它的回答中获得启发。我还把 AI 当作研究助理：当我对某个库或某种方案不确定时，就让它列举选项、比较取舍。这就像随时有一位百科全书式的导师待命。所有这些，都让我成为了一个更有知识深度的程序员。

从宏观来看，AI 工具是在放大你的专业能力。展望 2026 年，我并不担心它们“抢走我的工作”——相反，我很期待它们把我从繁琐重复的劳动中解放出来，让我能把更多时间投入到软件工程中更具创造性、更复杂的部分。但我也清醒地认识到，对于没有扎实基础的人来说，AI 可能会把“邓宁–克鲁格效应”放大到极致（你可能感觉自己做出了很棒的东西，直到它彻底崩塌）。因此，我的建议是：持续打磨你的基本功，并用 AI 来加速这一过程；同时，也要有意识地定期在不使用 AI的情况下编码，以保持原始技能的敏锐度。最终，“开发者 + AI”的组合远比任何一方单独行动更强大，而这个组合中的开发者那一半，必须足够可靠。

结论

随着我们迈入 2026 年，我已经在开发工作流中全面拥抱了 AI——但这是以一种深思熟虑、由专家驱动的方式进行的。我的方法本质上是 “AI 增强的软件工程”，而非 AI 自动化的软件工程。

我学到的一点是：当你在 AI 协作中运用经典的软件工程纪律时，效果最佳。事实证明，我们辛苦积累的所有实践——先设计再编码、编写测试、使用版本控制、维持标准——不仅仍然适用，而且在 AI 编写一半代码时显得更加重要。

我对未来充满期待。工具在不断改进，而我的工作流也必将随之演进。也许完全自主的“AI 开发实习生”将承担更多重复性工作，而我们专注于更高层次的任务；也许会出现新的调试和代码探索范式。不管怎样，我计划始终保持 在回路中——引导 AI、向它们学习，并负责任地放大我的生产力。

对我而言的核心结论是：AI 编码助手是令人难以置信的倍增器，但人类工程师仍是整个流程的导演。

在此，祝大家在 2026 年构建顺利！🚀

我很高兴地分享，我已经与 O’Reilly 一起发布了一本新的 AI 辅助工程书籍。书籍网站上也有一些免费的实用技巧，感兴趣的可以查看。